0
本文作者: 奕欣 | 2016-11-25 16:08 |
編者按:時隔一段時間,雷鋒網(wǎng)獨家奉送的深度學習零基礎進階第四彈又來了!經(jīng)過前面三篇文章的研究和學習,相信大家在深度學習的方式與深度學習在不同領域的運用都有了一定的了解。而本次雷鋒網(wǎng)所推薦的論文,主要集中于自然語言處理層面,相對于此前比較枯燥的理論階段,相信以下的內(nèi)容會更能讓初學者們有的放矢。原文首發(fā)于 GitHub,作者 songrotek,文章名為《Deep-Learning-Papers-Reading-Roadmap》,雷鋒網(wǎng)對每篇論文都增加了補充介紹,未經(jīng)許可不得轉(zhuǎn)載。
開放性文本的語義解析主要是通過推斷相應的含義(meaning representation, MR), 以理解在自然語言中的任意聲明。但可惜的是,目前的大規(guī)模系統(tǒng)由于缺少直接的可監(jiān)督數(shù)據(jù),并不能實現(xiàn)深度學習。而在《Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing》一文中,作者 Antoine Bordes 采用了一本超過 70000 詞,能映射超過 40000 個實體的字典作為文本樣本,通過知識庫的建立從未經(jīng)處理的文本里進行語義的理解學習。在一個多任務訓練模式中,實體及 MR 能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行處理。因此,該系統(tǒng)能夠最終將單詞與所代表的含義在開放性文本中建立聯(lián)系。
《Distributed representations of words and phrases and their compositionality》一文是谷歌研究院在 2013 年的一個語言分析成果,主要介紹的是單詞及短語的分布式以及它們的組成性。團隊引入了一個名為「Skip-gram」的語言處理模型,它能有效地捕獲大量的精確語法和語義關系。而他們在研究中提高了矢量和訓練的速度及質(zhì)量,并提出了一個名為「負采樣」(negative sampling)的研究模式。詞語之間受排列順序及使用習慣的問題,不能輕易地聯(lián)想到它們之間的關系。比如「Canada」和「Air」,可能沒辦法第一時間想到是「加拿大航空」(Canada Air)。在文章的最后,團隊提出了一種能夠在文本中查到短語并予以呈現(xiàn)的簡單方法,這對要學習數(shù)百萬個短語之間的向量關系大有益處。
雖然深度神經(jīng)網(wǎng)絡(DNN)在機器學習領域是一種強大的模式,但如何用神經(jīng)網(wǎng)絡掌握詞序間的聯(lián)系?《Sequence to sequence learning with neural networks》給了我們一個很好的參考。作者采用了多層長短期存儲器(LSTM)將輸入序列映射到固定維數(shù)的向量,并將另一個深度 LSTM 從向量中解碼目標序列。通過英語到法語間的翻譯任務測試,LSTM 的 BLEU 得分達到了 34.8,此外在翻譯長句子上毫無難度。而作為比較,基于短語的得分在相同的數(shù)據(jù)集上達到了 33.3。當研究者采用 LSTM 系統(tǒng)重新進行測試后,BLEU 得分達到了 36.5,已經(jīng)接近最佳得分。而研究者們對所有源的語句進行顛倒順序,以改進 LSTM 的性能,這樣一來,短語的依附性會減少,讓優(yōu)化過程更加容易。
[3] http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
這篇標題有點賣萌的《Ask Me Anything: Dynamic Memory Networks for Natural Language Processing》主要介紹了自然語言處理的動態(tài)內(nèi)存網(wǎng)絡(DMN)。自然語言處理的大多數(shù)任務都可以轉(zhuǎn)換為 QA 問題,DMN 作為一個神經(jīng)網(wǎng)絡架構,能夠處理輸入的問題,形成情景記憶并產(chǎn)生相關的答案。問題會觸發(fā)一個迭代過程,允許模型引用輸入的內(nèi)容及以前迭代的結果。隨后,這些結果會在層次循環(huán)序列模型中進行推理以產(chǎn)生答案。DMN 支持端對端訓練,并且能獲取多種類型的任務及數(shù)據(jù)集里的最優(yōu)結果:問題解答(Facebook 的 bAbl 數(shù)據(jù)集)、情緒分析文本分類(斯坦福情感樹庫)及基于演講標注的序列建模(WSJ-PTB)。這三個基于不同任務的訓練主要依賴訓練的單詞矢量,并按照「輸入-問題-回答」三部曲的流程來進行。
[4] https://arxiv.org/abs/1506.07285
發(fā)布于 2015 年的《Character-Aware Neural Language Models》主要從字符角度出發(fā)進行研究。目前所做的預測依然是基于詞語層面的。模型主要建立了一個卷積神經(jīng)網(wǎng)絡及基于詞性的高速網(wǎng)絡,其輸出基于 LSTM 及遞歸神經(jīng)網(wǎng)絡模型。此研究基于英國的 Penn 數(shù)據(jù)庫而完成,該模型采用的參數(shù)比起現(xiàn)有技術水平少了 60%,不過模型采用了多種語言(阿拉伯語、捷克語、法語、德語、西班牙語、俄語)。在使用較少參數(shù)的情況下,效果優(yōu)于詞級/語素級就 LSTM 基線。結果顯示,目前基于多種語言,字符的輸入已經(jīng)能夠滿足語言建模,通過分析字符,進而判斷單詞所代表的含義,這一過程揭示,這一模型只需要依賴字符就能實現(xiàn)語義編碼及正交信息。
[5]https://arxiv.org/abs/1508.06615
如果你對 bAbI 任務產(chǎn)生了興趣,不妨看下《Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》。機器學習研究的一個長期目標建立適用于推理及自然語言的方法,尤其在智能對話機制領域。為了實現(xiàn)這一點,團隊通過問題評估其閱讀理解的能力,對一組任務的有用性進行測試。主要的考察點在于:一個系統(tǒng)是否能通過事實匹配、簡單歸納、推理等步驟回答問題。任務設計的標準主要集中于它是否能與人類進行交流。因此,團隊將這些任務按技能分類,以便研究人員判斷系統(tǒng)是否真正掌握了這一方面的技巧,并有針對性地進行優(yōu)化。團隊此外還拓展和改進了引入的內(nèi)存網(wǎng)絡模型,結果顯示它能夠解決一些問題(并不是所有的問題)。
[6] https://arxiv.org/abs/1502.05698
《Teaching Machines to Read and Comprehend》實際上要教會機器閱讀自然語言文檔還是有點挑戰(zhàn)的,雷鋒網(wǎng)此前也報道過不少相關的研究成果。機器閱讀系統(tǒng)能夠測試機器在閱讀完一份文檔后,對提出問題進行解答的能力。在這篇論文中,團隊開發(fā)了一個神經(jīng)網(wǎng)絡,教機器學會閱讀日常文檔,并用最簡單的語言結構回答復雜的問題。這個測試實際上有點像 CNN 及 Dailymail 里出現(xiàn)的那種填空式的問題。不過,到目前為止這一系統(tǒng)依然缺少大規(guī)模訓練和測試的數(shù)據(jù)集。這篇論文有時間的話可以稍微了解一下,但并不是非常推薦。
[7]https://arxiv.org/abs/1506.03340
如果你想了解最先進的文本分類方式,那么你一定不能錯過《Very Deep Convolutional Networks for Natural Language Processing》。大部分 NLP 的主要實現(xiàn)方式是基于循環(huán)神經(jīng)網(wǎng)絡,代表為 LSTM 與卷積神經(jīng)網(wǎng)絡。不過這些架構與深卷積神經(jīng)網(wǎng)絡相比就是小巫見大巫了。在這篇文章里,團隊提出了一種新的文本處理架構,能夠直接在字符級上進行操作,并且只需要使用小的卷積及池操作。研究顯示,這個模型的性能在達到 29 個卷積層時能在公共文本分類任務上達到極佳改善。此外,這也是第一次將非常深的卷積網(wǎng)絡應用于 NLP 層面。
[8] https://arxiv.org/abs/1606.01781
上一篇文章提到了一種超前的文本分類方式,但相對而言,《Bag of Tricks for Efficient Text Classification》提到的方法速度則更快。文章中探討了一種簡單有效的文本分類器 fastText,并與深度學習分類器在準確性上進行了比對和評估。結果顯示,fastText 在標準多核 CPU 上,能夠在 10 分鐘內(nèi)實現(xiàn)超過 10 億詞的訓練,并且還能在 1 分鐘內(nèi)將 50 萬個句子進行分類。
[9] https://arxiv.org/abs/1607.01759
以上便是在自然語言處理領域的一些必讀研究論文,感興趣的小伙伴們可以看起來了!
【招聘】雷鋒網(wǎng)堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領域第一時間提供海外科技動態(tài)與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。工作地點深圳。簡歷投遞至 guoyixin@leiphone.com。兼職及實習均可。
相關文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。