0
雷鋒網(wǎng) AI 科技評(píng)論按:自然語(yǔ)言處理是一個(gè)高度跨學(xué)科的領(lǐng)域,包含了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等等許多傳統(tǒng)學(xué)科的內(nèi)容。在課堂中,自然語(yǔ)言處理的教師者們要根據(jù)課程長(zhǎng)度、學(xué)生的水平、領(lǐng)域近期發(fā)展、課程目標(biāo)甚至教師的個(gè)人興趣選在涵蓋哪些內(nèi)容。形成的結(jié)果就是,同樣是針對(duì)自然語(yǔ)言處理的課程,不同老師在不同學(xué)校教授的課程可能會(huì)完全不一樣。
而自然語(yǔ)言處理課程很多時(shí)候是學(xué)生們接觸到現(xiàn)代人工智能技術(shù)的第一門(mén)課程,這對(duì)他們未來(lái)的人生發(fā)展可能會(huì)有深遠(yuǎn)的影響!密歇根大學(xué)信息學(xué)院助理教授 David Jurgens 就對(duì)不同老師教授的課程中的區(qū)別非常感興趣,或者說(shuō)他也很關(guān)心這些老師們是如何看待這個(gè)領(lǐng)域、如何看待自己的教學(xué)的,畢竟這直接關(guān)系著這個(gè)領(lǐng)域未來(lái)幾十年的人才會(huì)如何成長(zhǎng)。他和自己的學(xué)生 Lucy Li 一起打算對(duì)教授自然語(yǔ)言處理的教授們做一系列采訪,解答自己的問(wèn)題,也是從這個(gè)常被忽略的角度向大眾展現(xiàn)這個(gè)領(lǐng)域的現(xiàn)狀。
他們 NLP 教育系列訪談邀請(qǐng)到的第一位嘉賓是斯坦福大學(xué)語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的 Dan Jurafsky 教授,他的研究主要集中在 NLP、語(yǔ)言學(xué)和社會(huì)科學(xué)的交叉學(xué)科。Dan 可以說(shuō)是這個(gè)系列博客最合適的開(kāi)篇之人,是因?yàn)楸疚淖髡咧坏?Lucy 正是從 Dan 的課程 《CS 124/LING 180:從語(yǔ)言到信息》開(kāi)始了她的 NLP 之旅。這個(gè)課程也是以下高級(jí)課程的入門(mén)良選,如 CS 224N(NLP深度學(xué)習(xí)),224W(社交網(wǎng)絡(luò)),224U(自然語(yǔ)言理解),276(信息檢索),224S(語(yǔ)音和對(duì)話(huà)處理)和246(數(shù)據(jù)挖掘)。目前,它是一個(gè)Flipped Classroom(翻轉(zhuǎn)課堂)的模式,即在課外時(shí)間觀看一些講座視頻,課堂時(shí)間專(zhuān)門(mén)用于做項(xiàng)目。根據(jù)斯坦福公報(bào)的存檔,自2004-2005學(xué)年以來(lái),Dan 一直在斯坦福大學(xué)教授 NLP 入門(mén)課程。他還與 James·H·Martin 共同發(fā)行了暢銷(xiāo)教科書(shū)《語(yǔ)音和語(yǔ)言處理》,目前該著作的第三版正在修訂中。
雷鋒網(wǎng) AI 科技評(píng)論把采訪內(nèi)容全文編譯如下。
問(wèn):我們將從您為大二年級(jí)開(kāi)設(shè)的課程《CS 124:從語(yǔ)言到信息》開(kāi)始聊起,您為什么選擇將課堂設(shè)置為翻轉(zhuǎn)課堂的模式呢?
Dan:首先是看 Daphne Koller 和 Andrew Ng (吳恩達(dá))的課讓我有所啟發(fā),然后我開(kāi)始閱讀教育文獻(xiàn),尤其是有心理學(xué)家家得出結(jié)論,翻轉(zhuǎn)課堂是一種更好的教學(xué)方式。這是讓我確信我應(yīng)該這樣做的部分原因,而其他原因則是出于想偷懶和圖方便。Chris Manning 和我完成了 NLP MOOC 課程,一旦我們完成了這些講座,很明顯我們可以將其中一些用于 CS 124 中,而我們也可以使用 CS 124 來(lái)測(cè)試一些MOOC 講座。
問(wèn):開(kāi)放式課程如何改變了您的教學(xué)方法?您是否認(rèn)為提供在線(xiàn)資料會(huì)對(duì)未來(lái)的學(xué)生產(chǎn)生長(zhǎng)期影響?
Dan:目前我 20 個(gè)講座中有 8 個(gè)現(xiàn)場(chǎng)直播,其余的在 EdX 上可在線(xiàn)觀看,然后我用其余的課堂時(shí)間進(jìn)行小組練習(xí)和實(shí)驗(yàn),意在加強(qiáng)概念性理解。
對(duì)于翻轉(zhuǎn)課堂,我看到了兩大好處。一個(gè)是這種模式迫使我以 8 分鐘為時(shí)間塊思考每個(gè)主題,并明確學(xué)習(xí)目標(biāo)。這有助于解構(gòu)我希望學(xué)生真正學(xué)到的東西。另一個(gè)好處是,我本需要對(duì)課堂內(nèi)部分的主動(dòng)學(xué)習(xí)花費(fèi)心思:他們需要了解的概念性?xún)?nèi)容是什么,以及如何讓他們?cè)谡n堂上或團(tuán)隊(duì)里為學(xué)習(xí)到一些東西進(jìn)行概念性思考,而在這方面翻轉(zhuǎn)課堂可以做的更好。
開(kāi)放式課程的缺陷是這樣的,因?yàn)闇?zhǔn)備,錄制和編輯單個(gè)錄制講座需要 20-30 個(gè)小時(shí),所以課程中的資料更新很容易就會(huì)變得不及時(shí),那么就只能告訴學(xué)生「哦,請(qǐng)暫時(shí)忽略該視頻的最后一點(diǎn),」這其實(shí)挺不好的。我現(xiàn)場(chǎng)演講的 8 個(gè)講座資料有許多全新的資料,或者多年來(lái)發(fā)生了很多變化的資料,因?yàn)槭乾F(xiàn)場(chǎng)講,所以這 8 個(gè)講座幾乎每年都有更新。
今年我正在重新設(shè)計(jì)兩個(gè)現(xiàn)場(chǎng)講座,并取代其中一個(gè)錄制的講座,目的是在早期課程中加入深度學(xué)習(xí)和嵌入。
當(dāng)然,在網(wǎng)上講課產(chǎn)生了很大的影響,我總是能收到在線(xiàn)學(xué)習(xí)的學(xué)生的郵件。
問(wèn):您使用您的教材作為課程的基礎(chǔ),但此書(shū)中涵蓋的主題比您在十周課程中涵蓋的主題更多,那么您如何選擇課程主題呢?
Dan:由于斯坦福大學(xué)的奇怪設(shè)置,我們的班級(jí)不僅僅是一個(gè) NLP 班級(jí),它涵蓋了 NLP 的研究生課程的介紹,也包括了社交網(wǎng)絡(luò)課程、IR、推薦系統(tǒng)的介紹。每個(gè)主題都有不同的課本,現(xiàn)在我將我的教材用于 NLP 部分,并用其他教材來(lái)教其他部分。
Chris Manning 創(chuàng)建我的課程的最初想法是吸引人們參與斯坦福大學(xué)的信息/數(shù)據(jù)科學(xué)課程以及 AI / NLP 課程等。我認(rèn)為這是一個(gè)非常成功,有趣的想法,但在斯坦福就有點(diǎn)特殊化。如果我只是開(kāi)設(shè)一個(gè)本科的NLP 課程,我不會(huì)講協(xié)同過(guò)濾,我可能不會(huì)講所有的 IR,當(dāng)然我也不會(huì)講社交網(wǎng)絡(luò)。我可以看到當(dāng)前這種設(shè)置更適用于其他地方(如信息科技學(xué)院),或者可能只為每個(gè)主題開(kāi)設(shè)單獨(dú)的本科課程。
問(wèn):你是否將選擇將自己的研究納入到你的教學(xué)中?
Dan:最近沒(méi)有多少。除此之外,我嘗試在 NLP for Social Good 上做一個(gè)演講,我也經(jīng)常要求我的博士后和學(xué)生在那里展示他們的工作。最大的例外是,我在講課中的特別素材來(lái)自教科書(shū)的寫(xiě)作,所以我當(dāng)然會(huì)使用我的教材章節(jié)演講教學(xué)。我在教科書(shū)中的觀點(diǎn)肯定是在課堂上得到的,但我的研究論文從中得到的觀點(diǎn)很少,因?yàn)樗皇且粋€(gè)本科課程。
問(wèn):斯坦福大學(xué) 224D 的深度學(xué)習(xí) NLP 課程和 224N 的研究生 NLP 課程在過(guò)去兩年合并。這會(huì)影響你的 124 計(jì)劃嗎?
Dan:總的來(lái)說(shuō),這個(gè)領(lǐng)域發(fā)生了變化,因此 NLP 課程必須包含深度學(xué)習(xí)!斯坦福大學(xué)目前沒(méi)有一般的本科人工智能課程,相反,我們有 3 門(mén)獨(dú)立的課程:視覺(jué),語(yǔ)言和機(jī)器人,現(xiàn)在學(xué)生們直到研究生學(xué)校才開(kāi)始深度學(xué)習(xí)是很瘋狂的一件事。
但我也非常希望我的目標(biāo)受眾——二年級(jí)和三年級(jí)學(xué)生可以訪問(wèn)該課程。所以我正在努力重編課程。今年夏天,我正在編寫(xiě)教材中的深度學(xué)習(xí)章節(jié),因此在秋冬季,我可以就此章節(jié)編寫(xiě) cs124 課程的深度學(xué)習(xí)部分。目前的計(jì)劃是在明年冬天做這件事,并增加 3 個(gè)「深度學(xué)習(xí)」講座和一個(gè)「嵌入」講座,然后把拼寫(xiě)檢查作業(yè)換成邏輯回歸作業(yè),把問(wèn)答的作業(yè)換成一個(gè)深度學(xué)習(xí)版本的,對(duì)本科生只教前饋網(wǎng)絡(luò),把循環(huán)網(wǎng)絡(luò)留給研究生。
困難的部分是我們沒(méi)辦法給所有學(xué)生提供 GPU,我不想每年都向商業(yè)公司尋求 GPU。另外,我也不希望學(xué)生花費(fèi)整個(gè)季度的時(shí)間僅用來(lái)調(diào)參——這更適合機(jī)器學(xué)習(xí)方向的研究生課程。我希望他們直觀的理解深度學(xué)習(xí)中的分類(lèi)器,所以就要設(shè)計(jì)一個(gè)可行且有趣的作業(yè),并且希望深度學(xué)習(xí)實(shí)際上比邏輯回歸效果更好。而事實(shí)證明,如果你不能使用 GPU,邏輯回歸優(yōu)于大多數(shù)深度學(xué)習(xí)的東西。作業(yè)的結(jié)果就是得出我們不想要的結(jié)論,「嘿,深度學(xué)習(xí)為何比回歸效果更差?你為什么不給我們更多的 GPU,這樣我們才能得到更好的結(jié)果?」
無(wú)論如何,未來(lái)六個(gè)月,我們可以看到情況如何!
問(wèn):您想要教授的內(nèi)容與學(xué)生想要學(xué)習(xí)的內(nèi)容之間是否存在重大差異?
Dan:目前沒(méi)有這個(gè)問(wèn)題,我認(rèn)為當(dāng)前的主要問(wèn)題是深度學(xué)習(xí)需要放在課程中。也許一個(gè)完美的情況就是,我可以在去年的課程中及時(shí)完成新的章節(jié)和講座!
問(wèn):除了您目前計(jì)劃將深度學(xué)習(xí)引入現(xiàn)有內(nèi)容之外,如果您可以擴(kuò)展 CS 124來(lái)涵蓋額外的 NLP 主題的課程,您想添加什么課程?
Dan:選擇空間沒(méi)有限制的話(huà)我至少會(huì)放入一些核心 NLP 內(nèi)容:詞性標(biāo)注,命名實(shí)體識(shí)別,語(yǔ)法解析和機(jī)器翻譯。雖然我不知道它們的排序如何,但在這四個(gè)話(huà)題中機(jī)器翻譯絕對(duì)是最有趣的,大家都因?yàn)闄C(jī)器翻譯很有趣而喜歡機(jī)器翻譯,而且在機(jī)器翻譯中你可以仔細(xì)地辨析語(yǔ)言。所以如果我只能加一個(gè)課程,我可能會(huì)選擇機(jī)器翻譯。如果我可以加兩個(gè),我會(huì)選詞性標(biāo)注和實(shí)體標(biāo)注,以幫助學(xué)生建立對(duì)單詞和單詞組的一些基本原理的理解。然后,如果我還有空間,我會(huì)添加語(yǔ)法解析。
問(wèn):我們查看了大量 NLP 課程的教學(xué)大綱,發(fā)現(xiàn)包括你的 NLP 課程在內(nèi)的很多 NLP 課程都常以 n-gram (多元組)和正則表達(dá)式作為開(kāi)頭部分。你對(duì)此有什么看法?
Dan:嗯,我認(rèn)為,作為教材中的第一章節(jié),人們先教正則表達(dá)式是很正常的,我們之所以把它放在第一位,是因?yàn)樗梢宰匀坏囊鲇邢逘顟B(tài)自動(dòng)機(jī),而當(dāng)時(shí)有限狀態(tài)自動(dòng)機(jī)是 NLP 的重要組成部分。雖然現(xiàn)在人們不經(jīng)常教他們這部分內(nèi)容了,但我懷疑他們可能還要返回來(lái)學(xué)! Chris Manning 和我都很喜歡 Ken Church UNIX 工具,而我們?cè)谡n堂上教如 grep 和正則表達(dá)式等 UNIX 工具的課程,這可能是學(xué)生可以從語(yǔ)言中汲取到的最實(shí)用的東西,這對(duì)于他們之后的職業(yè)生涯非常有用,所以教正則表達(dá)式非常有必要。事實(shí)上,對(duì)話(huà)系統(tǒng)仍然主要是 ELIZA 加上一堆附加功能和更多的正則表達(dá)式,因此正則是一個(gè)很有價(jià)值的行業(yè)工具。
N-gram 也是我們剛開(kāi)始必用到的工具,因?yàn)樗鼈兪墙淌趯W(xué)生概率論的一種非常簡(jiǎn)單的方法,它們可以非常直觀地計(jì)算,它們是樸素貝葉斯模型。所以我們完全可以用它得到非??煽康母怕?,并從中深刻且直觀地理解它們,然后你可以直接從那里引入神經(jīng)語(yǔ)言建模。
問(wèn):即使現(xiàn)在有很多神經(jīng)網(wǎng)絡(luò)的方法,你是否仍然認(rèn)為語(yǔ)言模型建模是一個(gè)重要的教學(xué)內(nèi)容?
Dan:好問(wèn)題!我一直在思考這個(gè)問(wèn)題,因?yàn)樗械难芯?,包括我們自己的研究,都?zhuān)注于更強(qiáng)大的神經(jīng)語(yǔ)言模型(LMs)。然而,對(duì)于許多任務(wù),n-gram LMs 仍然比神經(jīng) LM 更好。對(duì)于相同數(shù)量的數(shù)據(jù)來(lái)說(shuō),神經(jīng) LM 更好,但訓(xùn)練大神經(jīng) LM 非常慢,學(xué)習(xí)大規(guī)模的老式 n-gram 模型就不一樣了。因此,大規(guī)模老式 n-gram 最終成為人們?cè)诖髷?shù)據(jù)系統(tǒng)中仍在使用的東西。它們是非 NLP 的機(jī)器學(xué)習(xí)課程中沒(méi)有教授的東西,所以它對(duì)語(yǔ)言來(lái)說(shuō)是獨(dú)一無(wú)二的。
最重要的是,我想現(xiàn)在,是的,我仍然會(huì)做語(yǔ)言建模,但我不會(huì)做高級(jí)平滑的東西,只做基礎(chǔ)的東西并跳過(guò)所有的 Kneser-Ney 和 Good-Turing。也許一旦訓(xùn)練神經(jīng)語(yǔ)言模型變得足夠快,幾年內(nèi)人們就會(huì)停止使用 N-gram LMs?也許吧。在那種情況下,N-gram 那一章可能會(huì)被取消,我將不得不弄清楚如何重新編排章節(jié),可能使用樸素貝葉斯概率,然后直接進(jìn)行神經(jīng)語(yǔ)言建模?問(wèn)題是即使對(duì)于樸素貝葉斯進(jìn)行文本分類(lèi),bigrams 仍然是一個(gè)非常有用的特征??催^(guò)語(yǔ)言模型后,學(xué)生們習(xí)慣于思考二元組和三元組,因此語(yǔ)言建模教會(huì)他們使用雙字和三字組塊的想法。我認(rèn)為答案是,N-gram 在我的課程所占比重會(huì)越來(lái)越小,但仍然存在不會(huì)取消。
問(wèn):當(dāng)你設(shè)計(jì)家庭作業(yè)時(shí),你如何決定涉及數(shù)學(xué)和編程的部分?
Dan:測(cè)驗(yàn)是數(shù)學(xué),家庭作業(yè)是編程。在CS 124中,每周測(cè)驗(yàn)是多項(xiàng)選擇。測(cè)驗(yàn)是為了概念性理解,并確保學(xué)生動(dòng)手完成數(shù)學(xué)計(jì)算。編程的家庭作業(yè)讓你知道如何構(gòu)建樸素貝葉斯和語(yǔ)言模型等工具;我們希望你可以通過(guò)知道如何構(gòu)建工具來(lái)牢牢的掌握這些知識(shí)。。
問(wèn):自從你開(kāi)課以來(lái),你對(duì)設(shè)計(jì)這個(gè)課程的看法有何改變?
Dan:課程規(guī)?,F(xiàn)在變大了,起初它是 20 人,現(xiàn)在它有 350 人。一開(kāi)始,它是一個(gè)偏向 NLP 的課程并包括了我們?cè)?Chris Manning 的研究生課程名中沒(méi)有涉及的 NLP 內(nèi)容。那時(shí)候,Chris 教授語(yǔ)法解析,機(jī)器翻譯和信息抽取,而我負(fù)責(zé)其他課的教授,包括詞匯語(yǔ)義、共現(xiàn)、話(huà)語(yǔ)和對(duì)話(huà)行為,我讓他們構(gòu)建了一個(gè)聊天機(jī)器人。因此,所有不在研究生課程中的內(nèi)容在本科課程中都有。我為本科生做了一些易于理解的課程,這與我們的課程結(jié)構(gòu)明顯不同。
然而,后來(lái)我創(chuàng)建了一個(gè)面向研究生的自然語(yǔ)言理解課程,以便處理一些缺失的內(nèi)容,然后創(chuàng)建了一個(gè)面向研究生的對(duì)話(huà)課程。這意味著 CS 124 的角色發(fā)生了變化,現(xiàn)在它可以作為 NLP 之外的多個(gè)主題的簡(jiǎn)介,因此我們?nèi)匀恍枰袃?nèi)容都涉及一點(diǎn),但不希望家庭作業(yè)會(huì)與研究生課程完全重疊。因此每次研究生課程改變時(shí),我們的作業(yè)也會(huì)受到影響。例如,其中 3 門(mén)課程現(xiàn)在有關(guān)于嵌入的作業(yè),并且有太多的重疊。但是,嵌入對(duì)于一切都非常重要,所以只要你沒(méi)有完全相同的作業(yè)就可以了。
問(wèn):您認(rèn)為語(yǔ)言學(xué)在 NLP 課程中發(fā)揮了多少作用?
Dan:我肯定會(huì)嘗試在 NLP 課程中加一些語(yǔ)言學(xué),部分原因是,在課程結(jié)束時(shí)學(xué)生常常會(huì)說(shuō),「我沒(méi)有系統(tǒng)地學(xué)習(xí)語(yǔ)言」或「我不了解性別指代或情感?!刮疫@里就有很多語(yǔ)言學(xué)專(zhuān)業(yè)和符號(hào)系統(tǒng)專(zhuān)業(yè)背景的學(xué)生,他們?cè)趨⒓恿艘幌盗邢到y(tǒng)課程后,最終成為了CS 專(zhuān)業(yè)的學(xué)生。CS 124 就是他們的啟蒙課。對(duì)于 AI 學(xué)生來(lái)說(shuō),它仍然是斯坦福大學(xué)人工智能課程中所有課程中最以人為本的。通過(guò)該課程,我的目的肯定是想讓 CS 的學(xué)生在學(xué)過(guò)我的課之后繼續(xù)學(xué)更多的人文科學(xué)和社會(huì)科學(xué)的課程。出于這個(gè)原因,我盡可能地涵蓋語(yǔ)言學(xué),尤其是最新的社會(huì)語(yǔ)言學(xué)。在我上課的時(shí)候,我也會(huì)講很多類(lèi)型學(xué)和語(yǔ)言變種以及形態(tài)學(xué)上的語(yǔ)言差異的內(nèi)容,因?yàn)檫@對(duì)于機(jī)器翻譯很重要,我想讓他們系統(tǒng)地思考語(yǔ)言。
問(wèn):你認(rèn)為在 NLP 課程和機(jī)器學(xué)習(xí)課程之間的正確聯(lián)系是什么?
Dan:這個(gè)問(wèn)題很好,因?yàn)閮烧咧g有很多重疊;在很多 NLP 任務(wù)中,我們把機(jī)器學(xué)習(xí)作為一種工具。之前我把梯度下降分在機(jī)器學(xué)習(xí)的課程里,但我現(xiàn)在已經(jīng)把它添加到了 NLP 的教材中,所以我可能還會(huì)把它添加到我的課程中。從某種程度上來(lái)說(shuō),這只是我的主觀意見(jiàn),但也可能會(huì)改變。
一般來(lái)說(shuō),在我的課程中,我不會(huì)做任何證明,學(xué)生們也不會(huì)花很多時(shí)間從頭開(kāi)始構(gòu)建機(jī)器學(xué)習(xí)算法,如 SVM、LSTM等,那些應(yīng)該是工具,所以你只需要了解它們,但不需要從底層一點(diǎn)點(diǎn)動(dòng)手構(gòu)建。
還有一部分原因是,我們要看深度學(xué)習(xí)是否會(huì)取代所有 NLP 可能涉及的算法,這樣未來(lái)就只需要一種機(jī)器學(xué)習(xí)方法即可;但這似乎不太可能發(fā)生,而這就是我們認(rèn)為會(huì)在 20 世紀(jì) 90 年代發(fā)生的事情,但當(dāng)時(shí)并沒(méi)有發(fā)生。事實(shí)證明,視覺(jué)、語(yǔ)言和機(jī)器人有他們自己的重重約束和學(xué)科自己帶來(lái)的偏倚。
David:在 90 年代,大家比較看好哪種機(jī)器學(xué)習(xí)算法?SVM?
Dan:哦,從 1988 年來(lái)看大概是無(wú)監(jiān)督聚類(lèi)或無(wú)監(jiān)督學(xué)習(xí)。大家都認(rèn)為你只能使用 EM 來(lái)完全無(wú)監(jiān)督地引出語(yǔ)言結(jié)構(gòu),所以在這個(gè)領(lǐng)域,大家都普遍看好 EM。并且有些早期的論文提出 EM 用于學(xué)習(xí)詞性標(biāo)注,然后結(jié)果證明只需要一點(diǎn)點(diǎn)訓(xùn)練數(shù)據(jù)就可以了。現(xiàn)在,我們知道如果你有可以在一兩個(gè)小時(shí)內(nèi)就完成標(biāo)注的一千個(gè)標(biāo)記的觀察結(jié)果或類(lèi)似的東西,那么你可以做得比使用擁有大量數(shù)據(jù)的無(wú)監(jiān)督 EM 效果更好。一切都很快轉(zhuǎn)向監(jiān)督機(jī)器學(xué)習(xí),然后所有研究都集中在架構(gòu)和特征上,但實(shí)際的機(jī)器學(xué)習(xí)算法就像標(biāo)準(zhǔn)回歸或 SVM 一樣,所以沒(méi)有什么研究可以教你如何構(gòu)建 SVM 或 CRF,只需要知道它們的一些應(yīng)用以及如何構(gòu)建這些特征。
問(wèn):許多常見(jiàn)的 NLP 技術(shù)現(xiàn)在已經(jīng)在包中預(yù)先實(shí)現(xiàn)了,如果所有內(nèi)容都已經(jīng)為他們構(gòu)建好了,那么學(xué)生最終能夠理解他們?cè)谡n堂上學(xué)到的技術(shù)細(xì)節(jié)嗎?
Dan:這事挺復(fù)雜的。在這堂課中,直到現(xiàn)在我都要求學(xué)生自己搭建框架所以他們不能用庫(kù)。例如他們要從底層實(shí)現(xiàn)樸素貝葉斯模型并玩轉(zhuǎn)它,這讓他們對(duì)貝葉斯思想、先驗(yàn)、可能性等概念有了非常直觀的理解。但我認(rèn)為,當(dāng)加入深度學(xué)習(xí)時(shí),我可以調(diào)用更多的庫(kù)來(lái)使用,因?yàn)樵?10 周內(nèi)你沒(méi)有時(shí)間去完成機(jī)器學(xué)習(xí)所有基礎(chǔ)知識(shí)的作業(yè)。
問(wèn):你現(xiàn)在正在編寫(xiě)教科書(shū)的第三版,您如何確定每個(gè)版本中包含哪些主題?
Dan:嗯,一般來(lái)說(shuō)我們的做法是,我們?nèi)フ沂褂眠@本教材上課的教授的教學(xué)大綱,看看他們需要哪些章節(jié)。你可以很快知道哪些東西該被舍棄,比如沒(méi)有一個(gè)人在自己的課上教喬姆斯基層次結(jié)構(gòu),即便它在我們的書(shū)里 —— 說(shuō)實(shí)在的,可能全世界只有他自己會(huì)需要把需要喬姆斯基層次這一章作為 NLP 課程的一部分。所以我們刪除了它。你可以立刻說(shuō)出人們正在做什么,比如每個(gè)人都在做語(yǔ)法解析,以前每個(gè)人都在做 n-gram。現(xiàn)在,很明顯,每個(gè)人都在教深度學(xué)習(xí),所以他們也用 Yoav Goldberg 的書(shū),這本書(shū)寫(xiě)的真的不錯(cuò),或者人們會(huì)將我們的書(shū)和 Yoav 的書(shū)結(jié)合使用。這就是告訴我們我們需要編寫(xiě)神經(jīng)網(wǎng)絡(luò)章節(jié)的內(nèi)容。
但是,對(duì)于到底要?jiǎng)h掉什么,我們還是要謹(jǐn)慎一點(diǎn)的,你早些時(shí)候曾問(wèn)過(guò)是否要繼續(xù)教 n-gram。是時(shí)候舍棄 n-gram 模型了嗎?我不確定。在我看來(lái),不應(yīng)該舍棄,但也許我會(huì)再次精簡(jiǎn)它?;蛘吡硪粋€(gè)例子,如果所有 NLP 人員都轉(zhuǎn)向依存句法解析,我們是否還需要成分句法分析?我還是會(huì)把它放進(jìn)去,因?yàn)槿藗兛赡軙?huì)二選一。一些實(shí)驗(yàn)室會(huì)選擇一種方法,但我們真正應(yīng)該做的是調(diào)查,看看第三版的哪些章節(jié)正在使用。如果事實(shí)證明沒(méi)有人在教消歧或別的某種東西,那么也許這就該被刪減掉了。
問(wèn):展望未來(lái),第四版教科書(shū)中會(huì)出現(xiàn)哪些第三版中沒(méi)有的內(nèi)容?
Dan:我不知道,這是一個(gè)很好的問(wèn)題。第三版要到明年才能完成,所以我仍然無(wú)法確定當(dāng)前的主題。例如,Jim 現(xiàn)在正在編著的序列建模章節(jié)使用的是 LSTM,但當(dāng)然人們構(gòu)建序列模型的方式會(huì)發(fā)生變化,也許你需要的是注意力機(jī)制,或者可能會(huì)發(fā)現(xiàn)我們應(yīng)該使用擴(kuò)張卷積或其他東西。因此,我并不認(rèn)為明年不會(huì)出現(xiàn)最簡(jiǎn)單,最通用的算法,sequence-to-sequence 模型隨著時(shí)間的推移會(huì)發(fā)生很大的變化,從 HMM 到 MEMM,到 CRF 再到 RNN ......?;蛘呷藗兛赡軙?huì)發(fā)現(xiàn),在輸入或其他部分加非常簡(jiǎn)單的前饋網(wǎng)絡(luò)會(huì)有很好的表現(xiàn),因?yàn)橛腥丝赡軙?huì)提出相關(guān)的一些簡(jiǎn)化方法。
問(wèn):NLP 正在快速變化。你如何確保你在不久的將來(lái)以及十年或二十年后為學(xué)生做好準(zhǔn)備?
Dan:不能做到20年,但你可以盡力。您可以嘗試向?qū)W生傳授重要的思想,如訓(xùn)練集和測(cè)試集、監(jiān)督機(jī)器學(xué)習(xí)、數(shù)據(jù)查看以及語(yǔ)言思考。你希望那些東西是通用的,并且會(huì)在十年內(nèi)都會(huì)存在,但你不知道是否如此。
問(wèn):你對(duì)在設(shè)計(jì)面向研究生的新 NLP 課程的人有什么建議?
Dan:顯然,當(dāng)下研究生的課程將以深度學(xué)習(xí)為基礎(chǔ)。但是你還需要確定你真正想要涉足 NLP 的哪些方向,這是一個(gè)艱難的決定。你是否要涵蓋對(duì)話(huà)的內(nèi)容,或?qū)⑵浞旁诹硪粋€(gè)課程中?在過(guò)去對(duì)話(huà)有不同的數(shù)學(xué)方法,舊方法是 POMDP,現(xiàn)在是強(qiáng)化學(xué)習(xí)。你做了多少語(yǔ)義分析?你是否要涵蓋使用嵌入的詞語(yǔ)語(yǔ)義分析和語(yǔ)義分析中常見(jiàn)的邏輯語(yǔ)義分析。即使最好的算法是神經(jīng)網(wǎng)絡(luò),你也要確保覆蓋重要的內(nèi)容,現(xiàn)在確保學(xué)生學(xué)習(xí)非神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí)如 n-gram 和 TF-IDF 仍然很重要。
via medium.com/@jurgens_24580,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。