0
本文作者: AI研習(xí)社-譯站 | 2020-12-10 10:33 |
譯者:AI研習(xí)社(聽風(fēng)1996、姚晗)
雙語(yǔ)原文鏈接:My Recommendations for Getting Started with NLP
自2013年以來,我一直在研究自然語(yǔ)言處理(NLP),當(dāng)時(shí)手動(dòng)特征工程在機(jī)器學(xué)習(xí)領(lǐng)域非常流行。從那時(shí)起,我們已經(jīng)走了很長(zhǎng)一段路。我實(shí)際上是為我的博士專門研究信息檢索和機(jī)器學(xué)習(xí)技術(shù)的,尤其是它們?nèi)绾螒?yīng)用于社交計(jì)算和計(jì)算語(yǔ)言學(xué),同時(shí)還開發(fā)了從大規(guī)?;谖谋镜臄?shù)據(jù)中高效提取信息的方法。我很幸運(yùn)有將經(jīng)典機(jī)器學(xué)習(xí)應(yīng)用于NLP的經(jīng)驗(yàn),并親眼目睹了該領(lǐng)域深度學(xué)習(xí)的爆炸式增長(zhǎng)。
許多學(xué)生一直在要求我為如何開始自然語(yǔ)言處理準(zhǔn)備指南。這篇博客文章旨在根據(jù)研究,對(duì)該領(lǐng)域的了解和個(gè)人經(jīng)驗(yàn)來幫助他人。盡管這不是直接指南,但我在此處共享的資源可以幫助您根據(jù)需要?jiǎng)?chuàng)建自己的NLP學(xué)習(xí)路徑。這將是我多年來遇到的教育資源的結(jié)合。我將分享我在研究這些資源及其適用方面的經(jīng)驗(yàn)。
這份清單無論如何都不是詳盡無遺的,但是它應(yīng)該提供一些選擇,對(duì)于任何有興趣開始使用NLP的人來說都是一個(gè)很好的起點(diǎn)。您實(shí)際上并不需要消耗所有內(nèi)容。只需選擇適合您當(dāng)前需求的資源即可。例如,也許您已經(jīng)有了一些理論基礎(chǔ),而您只需要獲得開發(fā)生產(chǎn)中的NLP系統(tǒng)的最佳實(shí)踐。在這種情況下,您可以直接跳至建議,以獲取有關(guān)NLP技術(shù)的動(dòng)手經(jīng)驗(yàn)。我只是在介紹我個(gè)人學(xué)習(xí)過的內(nèi)容,我敢肯定還有很多其他我想念的資源,如果有任何建議,請(qǐng)隨時(shí)發(fā)表評(píng)論。
by Dan Jurafsky and James H. Martin
學(xué)習(xí)基礎(chǔ)知識(shí)對(duì)于學(xué)習(xí)任何一門學(xué)科都是至關(guān)重要的。我是非常推崇這一點(diǎn)的,因?yàn)檫@對(duì)我來說很有效。我關(guān)注這本書已經(jīng)有一段時(shí)間了,現(xiàn)在已經(jīng)是第三版了。這本書所涉及的材料寫得特別好,為NLP提供了一個(gè)很好的理論基礎(chǔ)。對(duì)于任何想要開始學(xué)習(xí)NLP的人來說,這有可能是一個(gè)很好的起點(diǎn)。即使我已經(jīng)讀過這本書,我也會(huì)定期回顧它,因?yàn)樗ㄆ诟略擃I(lǐng)域的最新發(fā)展。如果你真的很喜歡這本書,你也會(huì)發(fā)現(xiàn)這些講座很有用,因?yàn)樗鼈兇_實(shí)涵蓋了書中所涉及的很多基本主題。
by Emily M. Bender
Emily Bender是我最喜歡的語(yǔ)言學(xué)研究者之一。她的工作對(duì)我所從事的研究產(chǎn)生了巨大的影響,使我能夠采用更加嚴(yán)謹(jǐn)?shù)姆椒▉磉M(jìn)行關(guān)于NLP研究。NLP深受語(yǔ)言學(xué)的影響,事實(shí)上,Emily 主張用語(yǔ)言學(xué)的規(guī)則來指導(dǎo)NLP的發(fā)展。她的書為NLP中使用的語(yǔ)言學(xué)概念進(jìn)行了一個(gè)精彩的介紹。對(duì)于任何從事NLP的學(xué)生來說,這都是一本必讀的書。
Linguistic Structure Prediction
by Noah A. Smith
本書主要介紹自然語(yǔ)言處理與機(jī)器學(xué)習(xí)之間的聯(lián)系,涵蓋了統(tǒng)計(jì),基于計(jì)算方法建模語(yǔ)言結(jié)構(gòu)。本書假定你已經(jīng)對(duì)機(jī)器學(xué)習(xí)有一定的接觸。如果你對(duì)機(jī)器學(xué)習(xí)不太熟悉,可以在這里查看我做的機(jī)器學(xué)習(xí)推薦列表。建議你至少要做一門機(jī)器學(xué)習(xí)的入門課程,才能最大限度地利用這本書。
Introduction to Natural Language Processing
by Jacob Eisenstein
這是我最喜歡的NLP書籍之一,因?yàn)樗鼘W⒂谟懻撜Z(yǔ)言學(xué)概念和應(yīng)用。它涵蓋了波束搜索、最大似然估計(jì)、矩陣因子化等方法。然后,它解釋了如何利用這些方法來解決廣泛的任務(wù),如分類、詞性標(biāo)注、關(guān)系提取、語(yǔ)言建模等。這本書假定讀者具備多元演算和線性代數(shù)等知識(shí)。這本書直接推薦的一本書是《機(jī)器學(xué)習(xí)數(shù)學(xué)》一書。與其他書相比,它是一本更高級(jí)的教科書,它確實(shí)需要對(duì)機(jī)器學(xué)習(xí)和數(shù)學(xué)概念有所了解。
by Yoav Goldberg
如果你剛剛開始學(xué)習(xí)NLP的旅程,你可能已經(jīng)接觸到NLP中更現(xiàn)代的方法,比如RNN和其他基于深度學(xué)習(xí)的模型。如果您正在尋找關(guān)于神經(jīng)網(wǎng)絡(luò)理論上的全面綜述以及它們?nèi)绾卧贜LP中使用,這本書就是為你準(zhǔn)備的。在本書中找到的參考文獻(xiàn)對(duì)我自己的研究起到了重要作用。
Modern Deep Learning Techniques Applied to Natural Language Processing
by Soujanya Poria and Elvis Saravia
關(guān)于NLP的現(xiàn)代方法,我還想推薦我和Soujanya Poria一起整理的這個(gè)開放資源。它會(huì)引導(dǎo)你了解NLP領(lǐng)域的一些最新發(fā)展,從單詞嵌入到注意力機(jī)制再到強(qiáng)化學(xué)習(xí)。
by Christopher Manning and Abigail See
如果你最近剛開始接觸NLP,你可能已經(jīng)接觸過這門流行的NLP課程。所有的講座和幻燈片都是公開的,你可以在課程網(wǎng)站上找到它。這門課程非常注重NLP的深度學(xué)習(xí)方法,所以你會(huì)看到第一講直接從詞向量開始,然后過渡到卷積網(wǎng)絡(luò)和transfomer等更高級(jí)的主題。如果你對(duì)經(jīng)典的NLP方法感興趣,你可能要看看開頭提到的一本書。事實(shí)上,我強(qiáng)烈建議你這樣做,因?yàn)樗菍?duì)構(gòu)建實(shí)際NLP系統(tǒng)在實(shí)踐中有用的寶貴知識(shí)。
這樣的理論知識(shí)很好,但是無論您是NLP研究人員還是工程師,都必須通過動(dòng)手實(shí)踐對(duì)其進(jìn)行補(bǔ)充。我發(fā)現(xiàn)這些書對(duì)于在語(yǔ)言建模和基于文本的分類等主題上進(jìn)行練習(xí)非常有用。
by Delip Rao and Brian McMahan
盡管這本書是基于PyTorch的,但用深度學(xué)習(xí)構(gòu)建語(yǔ)言應(yīng)用的實(shí)踐還是很不錯(cuò)的。此外,還有一些傳統(tǒng)概念和方法的內(nèi)容和代碼,比如TF-IDF和語(yǔ)義,等等。如果你是一名PyTorch開發(fā)人員,你會(huì)發(fā)現(xiàn)本書很容易上手。
by Hobson Lane, Cole Howard, and Hannes Hapke
這是另一本特別的書,也是我最喜歡的一本書,可以讓你對(duì)所有的NLP進(jìn)行實(shí)戰(zhàn)練習(xí)。這本書指導(dǎo)你如何從語(yǔ)料庫(kù)建立第一個(gè)詞匯,一直到建立一個(gè)聊天機(jī)器人。這本書中有很多代碼示例,所以如果你喜歡敲代碼,它可能很適合你。
Practical Natural Language Processing
by Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, and Harshit Surana
在NLP的動(dòng)手實(shí)踐,我非常喜歡今年出版的這本書。它涵蓋了從NLP的各種實(shí)際應(yīng)用到部署NLP系統(tǒng)的最佳實(shí)踐等主題。盡管我對(duì)這本書只讀了一半,但我還是不得不把它收錄進(jìn)來,因?yàn)橛泻芏郚LP工程師都想熟悉如何更有效地構(gòu)建NLP系統(tǒng),了解構(gòu)建NLP系統(tǒng)所需的技術(shù)。
?? 附錄(獎(jiǎng)勵(lì))
這里有一些其他資源和項(xiàng)目,可以幫助你保持對(duì)NLP領(lǐng)域的了解。
關(guān)于如何開始對(duì)NLP學(xué)習(xí),我的建議就到這里了。重要的是,你要選擇最適合自己的內(nèi)容。我已經(jīng)嘗試為每個(gè)條目提供一些解釋,希望能幫助你創(chuàng)建自己的學(xué)習(xí)路徑。這些都是我遇到的最好的資源,我發(fā)現(xiàn)它們對(duì)擴(kuò)展我的知識(shí)甚至教授這些概念非常有用,更不用說將它們應(yīng)用于研究思路和構(gòu)建從語(yǔ)義搜索引擎到情感分類器的NLP系統(tǒng)了。
AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。