丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第四彈?。韶浄窒?

本文作者: 奕欣 2016-11-25 16:08
導(dǎo)語(yǔ):本次雷鋒網(wǎng)所推薦的論文,主要集中于自然語(yǔ)言處理層面,相對(duì)于此前比較枯燥的理論階段,相信以下的內(nèi)容會(huì)更能讓初學(xué)者們有的放矢。

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第四彈?。韶浄窒?       src=

編者按:時(shí)隔一段時(shí)間,雷鋒網(wǎng)獨(dú)家奉送的深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第四彈又來(lái)了!經(jīng)過前面三篇文章的研究和學(xué)習(xí),相信大家在深度學(xué)習(xí)的方式與深度學(xué)習(xí)在不同領(lǐng)域的運(yùn)用都有了一定的了解。而本次雷鋒網(wǎng)所推薦的論文,主要集中于自然語(yǔ)言處理層面,相對(duì)于此前比較枯燥的理論階段,相信以下的內(nèi)容會(huì)更能讓初學(xué)者們有的放矢。原文首發(fā)于 GitHub,作者 songrotek,文章名為《Deep-Learning-Papers-Reading-Roadmap》,雷鋒網(wǎng)對(duì)每篇論文都增加了補(bǔ)充介紹,未經(jīng)許可不得轉(zhuǎn)載。

開放性文本的語(yǔ)義解析主要是通過推斷相應(yīng)的含義(meaning representation, MR), 以理解在自然語(yǔ)言中的任意聲明。但可惜的是,目前的大規(guī)模系統(tǒng)由于缺少直接的可監(jiān)督數(shù)據(jù),并不能實(shí)現(xiàn)深度學(xué)習(xí)。而在《Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing》一文中,作者 Antoine Bordes 采用了一本超過 70000 詞,能映射超過 40000 個(gè)實(shí)體的字典作為文本樣本,通過知識(shí)庫(kù)的建立從未經(jīng)處理的文本里進(jìn)行語(yǔ)義的理解學(xué)習(xí)。在一個(gè)多任務(wù)訓(xùn)練模式中,實(shí)體及 MR 能夠?qū)Σ煌瑏?lái)源的數(shù)據(jù)進(jìn)行處理。因此,該系統(tǒng)能夠最終將單詞與所代表的含義在開放性文本中建立聯(lián)系。

[1] https://www.hds.utc.fr/~bordesan/dokuwiki/lib/exe/fetch.php?id=en%3Apubli&cache=cache&media=en:bordes12aistats.pdf

《Distributed representations of words and phrases and their compositionality》一文是谷歌研究院在 2013 年的一個(gè)語(yǔ)言分析成果,主要介紹的是單詞及短語(yǔ)的分布式以及它們的組成性。團(tuán)隊(duì)引入了一個(gè)名為「Skip-gram」的語(yǔ)言處理模型,它能有效地捕獲大量的精確語(yǔ)法和語(yǔ)義關(guān)系。而他們?cè)谘芯恐刑岣吡耸噶亢陀?xùn)練的速度及質(zhì)量,并提出了一個(gè)名為「負(fù)采樣」(negative sampling)的研究模式。詞語(yǔ)之間受排列順序及使用習(xí)慣的問題,不能輕易地聯(lián)想到它們之間的關(guān)系。比如「Canada」和「Air」,可能沒辦法第一時(shí)間想到是「加拿大航空」(Canada Air)。在文章的最后,團(tuán)隊(duì)提出了一種能夠在文本中查到短語(yǔ)并予以呈現(xiàn)的簡(jiǎn)單方法,這對(duì)要學(xué)習(xí)數(shù)百萬(wàn)個(gè)短語(yǔ)之間的向量關(guān)系大有益處。

[2] http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

雖然深度神經(jīng)網(wǎng)絡(luò)(DNN)在機(jī)器學(xué)習(xí)領(lǐng)域是一種強(qiáng)大的模式,但如何用神經(jīng)網(wǎng)絡(luò)掌握詞序間的聯(lián)系?《Sequence to sequence learning with neural networks》給了我們一個(gè)很好的參考。作者采用了多層長(zhǎng)短期存儲(chǔ)器(LSTM)將輸入序列映射到固定維數(shù)的向量,并將另一個(gè)深度 LSTM 從向量中解碼目標(biāo)序列。通過英語(yǔ)到法語(yǔ)間的翻譯任務(wù)測(cè)試,LSTM 的 BLEU 得分達(dá)到了 34.8,此外在翻譯長(zhǎng)句子上毫無(wú)難度。而作為比較,基于短語(yǔ)的得分在相同的數(shù)據(jù)集上達(dá)到了 33.3。當(dāng)研究者采用 LSTM 系統(tǒng)重新進(jìn)行測(cè)試后,BLEU 得分達(dá)到了 36.5,已經(jīng)接近最佳得分。而研究者們對(duì)所有源的語(yǔ)句進(jìn)行顛倒順序,以改進(jìn) LSTM 的性能,這樣一來(lái),短語(yǔ)的依附性會(huì)減少,讓優(yōu)化過程更加容易。

[3] http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

這篇標(biāo)題有點(diǎn)賣萌的《Ask Me Anything: Dynamic Memory Networks for Natural Language Processing》主要介紹了自然語(yǔ)言處理的動(dòng)態(tài)內(nèi)存網(wǎng)絡(luò)(DMN)。自然語(yǔ)言處理的大多數(shù)任務(wù)都可以轉(zhuǎn)換為 QA 問題,DMN 作為一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠處理輸入的問題,形成情景記憶并產(chǎn)生相關(guān)的答案。問題會(huì)觸發(fā)一個(gè)迭代過程,允許模型引用輸入的內(nèi)容及以前迭代的結(jié)果。隨后,這些結(jié)果會(huì)在層次循環(huán)序列模型中進(jìn)行推理以產(chǎn)生答案。DMN 支持端對(duì)端訓(xùn)練,并且能獲取多種類型的任務(wù)及數(shù)據(jù)集里的最優(yōu)結(jié)果:?jiǎn)栴}解答(Facebook 的 bAbl 數(shù)據(jù)集)、情緒分析文本分類(斯坦福情感樹庫(kù))及基于演講標(biāo)注的序列建模(WSJ-PTB)。這三個(gè)基于不同任務(wù)的訓(xùn)練主要依賴訓(xùn)練的單詞矢量,并按照「輸入-問題-回答」三部曲的流程來(lái)進(jìn)行。

[4] https://arxiv.org/abs/1506.07285

發(fā)布于 2015 年的《Character-Aware Neural Language Models》主要從字符角度出發(fā)進(jìn)行研究。目前所做的預(yù)測(cè)依然是基于詞語(yǔ)層面的。模型主要建立了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)及基于詞性的高速網(wǎng)絡(luò),其輸出基于 LSTM 及遞歸神經(jīng)網(wǎng)絡(luò)模型。此研究基于英國(guó)的 Penn 數(shù)據(jù)庫(kù)而完成,該模型采用的參數(shù)比起現(xiàn)有技術(shù)水平少了 60%,不過模型采用了多種語(yǔ)言(阿拉伯語(yǔ)、捷克語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、俄語(yǔ))。在使用較少參數(shù)的情況下,效果優(yōu)于詞級(jí)/語(yǔ)素級(jí)就 LSTM 基線。結(jié)果顯示,目前基于多種語(yǔ)言,字符的輸入已經(jīng)能夠滿足語(yǔ)言建模,通過分析字符,進(jìn)而判斷單詞所代表的含義,這一過程揭示,這一模型只需要依賴字符就能實(shí)現(xiàn)語(yǔ)義編碼及正交信息。

[5]https://arxiv.org/abs/1508.06615

如果你對(duì) bAbI 任務(wù)產(chǎn)生了興趣,不妨看下《Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》。機(jī)器學(xué)習(xí)研究的一個(gè)長(zhǎng)期目標(biāo)建立適用于推理及自然語(yǔ)言的方法,尤其在智能對(duì)話機(jī)制領(lǐng)域。為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)通過問題評(píng)估其閱讀理解的能力,對(duì)一組任務(wù)的有用性進(jìn)行測(cè)試。主要的考察點(diǎn)在于:一個(gè)系統(tǒng)是否能通過事實(shí)匹配、簡(jiǎn)單歸納、推理等步驟回答問題。任務(wù)設(shè)計(jì)的標(biāo)準(zhǔn)主要集中于它是否能與人類進(jìn)行交流。因此,團(tuán)隊(duì)將這些任務(wù)按技能分類,以便研究人員判斷系統(tǒng)是否真正掌握了這一方面的技巧,并有針對(duì)性地進(jìn)行優(yōu)化。團(tuán)隊(duì)此外還拓展和改進(jìn)了引入的內(nèi)存網(wǎng)絡(luò)模型,結(jié)果顯示它能夠解決一些問題(并不是所有的問題)。

[6] https://arxiv.org/abs/1502.05698

《Teaching Machines to Read and Comprehend》實(shí)際上要教會(huì)機(jī)器閱讀自然語(yǔ)言文檔還是有點(diǎn)挑戰(zhàn)的,雷鋒網(wǎng)此前也報(bào)道過不少相關(guān)的研究成果。機(jī)器閱讀系統(tǒng)能夠測(cè)試機(jī)器在閱讀完一份文檔后,對(duì)提出問題進(jìn)行解答的能力。在這篇論文中,團(tuán)隊(duì)開發(fā)了一個(gè)神經(jīng)網(wǎng)絡(luò),教機(jī)器學(xué)會(huì)閱讀日常文檔,并用最簡(jiǎn)單的語(yǔ)言結(jié)構(gòu)回答復(fù)雜的問題。這個(gè)測(cè)試實(shí)際上有點(diǎn)像 CNN 及 Dailymail 里出現(xiàn)的那種填空式的問題。不過,到目前為止這一系統(tǒng)依然缺少大規(guī)模訓(xùn)練和測(cè)試的數(shù)據(jù)集。這篇論文有時(shí)間的話可以稍微了解一下,但并不是非常推薦。

[7]https://arxiv.org/abs/1506.03340

如果你想了解最先進(jìn)的文本分類方式,那么你一定不能錯(cuò)過《Very Deep Convolutional Networks for Natural Language Processing》。大部分 NLP 的主要實(shí)現(xiàn)方式是基于循環(huán)神經(jīng)網(wǎng)絡(luò),代表為 LSTM 與卷積神經(jīng)網(wǎng)絡(luò)。不過這些架構(gòu)與深卷積神經(jīng)網(wǎng)絡(luò)相比就是小巫見大巫了。在這篇文章里,團(tuán)隊(duì)提出了一種新的文本處理架構(gòu),能夠直接在字符級(jí)上進(jìn)行操作,并且只需要使用小的卷積及池操作。研究顯示,這個(gè)模型的性能在達(dá)到 29 個(gè)卷積層時(shí)能在公共文本分類任務(wù)上達(dá)到極佳改善。此外,這也是第一次將非常深的卷積網(wǎng)絡(luò)應(yīng)用于 NLP 層面。

[8] https://arxiv.org/abs/1606.01781

上一篇文章提到了一種超前的文本分類方式,但相對(duì)而言,《Bag of Tricks for Efficient Text Classification》提到的方法速度則更快。文章中探討了一種簡(jiǎn)單有效的文本分類器 fastText,并與深度學(xué)習(xí)分類器在準(zhǔn)確性上進(jìn)行了比對(duì)和評(píng)估。結(jié)果顯示,fastText 在標(biāo)準(zhǔn)多核 CPU 上,能夠在 10 分鐘內(nèi)實(shí)現(xiàn)超過 10 億詞的訓(xùn)練,并且還能在 1 分鐘內(nèi)將 50 萬(wàn)個(gè)句子進(jìn)行分類。

[9] https://arxiv.org/abs/1607.01759

以上便是在自然語(yǔ)言處理領(lǐng)域的一些必讀研究論文,感興趣的小伙伴們可以看起來(lái)了!

【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。工作地點(diǎn)深圳。簡(jiǎn)歷投遞至 guoyixin@leiphone.com。兼職及實(shí)習(xí)均可。

相關(guān)文章:

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第三彈?|干貨分享

干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第二彈

干貨分享 | 深度學(xué)習(xí)零基礎(chǔ)進(jìn)階大法!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第四彈?。韶浄窒? src=

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說