丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給WBLUE
發(fā)送

0

NLP應(yīng)該如何學、如何教?斯坦福大學大牛Dan Jurafsky教授專訪

本文作者: WBLUE 編輯:楊曉凡 2018-10-18 20:13
導(dǎo)語:領(lǐng)路人眼中真正重要的知識和技能是什么

雷鋒網(wǎng) AI 科技評論按:自然語言處理是一個高度跨學科的領(lǐng)域,包含了語言學、計算機科學、統(tǒng)計學等等許多傳統(tǒng)學科的內(nèi)容。在課堂中,自然語言處理的教師者們要根據(jù)課程長度、學生的水平、領(lǐng)域近期發(fā)展、課程目標甚至教師的個人興趣選在涵蓋哪些內(nèi)容。形成的結(jié)果就是,同樣是針對自然語言處理的課程,不同老師在不同學校教授的課程可能會完全不一樣。

而自然語言處理課程很多時候是學生們接觸到現(xiàn)代人工智能技術(shù)的第一門課程,這對他們未來的人生發(fā)展可能會有深遠的影響!密歇根大學信息學院助理教授 David Jurgens 就對不同老師教授的課程中的區(qū)別非常感興趣,或者說他也很關(guān)心這些老師們是如何看待這個領(lǐng)域、如何看待自己的教學的,畢竟這直接關(guān)系著這個領(lǐng)域未來幾十年的人才會如何成長。他和自己的學生 Lucy Li 一起打算對教授自然語言處理的教授們做一系列采訪,解答自己的問題,也是從這個常被忽略的角度向大眾展現(xiàn)這個領(lǐng)域的現(xiàn)狀。

NLP應(yīng)該如何學、如何教?斯坦福大學大牛Dan Jurafsky教授專訪

他們 NLP 教育系列訪談邀請到的第一位嘉賓是斯坦福大學語言學和計算機科學的 Dan Jurafsky 教授,他的研究主要集中在 NLP、語言學和社會科學的交叉學科。Dan 可以說是這個系列博客最合適的開篇之人,是因為本文作者之一的 Lucy 正是從 Dan 的課程 《CS 124/LING 180:從語言到信息》開始了她的 NLP 之旅。這個課程也是以下高級課程的入門良選,如 CS 224N(NLP深度學習),224W(社交網(wǎng)絡(luò)),224U(自然語言理解),276(信息檢索),224S(語音和對話處理)和246(數(shù)據(jù)挖掘)。目前,它是一個Flipped Classroom(翻轉(zhuǎn)課堂)的模式,即在課外時間觀看一些講座視頻,課堂時間專門用于做項目。根據(jù)斯坦福公報的存檔,自2004-2005學年以來,Dan 一直在斯坦福大學教授 NLP 入門課程。他還與 James·H·Martin 共同發(fā)行了暢銷教科書《語音和語言處理》,目前該著作的第三版正在修訂中。

雷鋒網(wǎng) AI 科技評論把采訪內(nèi)容全文編譯如下。

:我們將從您為大二年級開設(shè)的課程《CS 124:從語言到信息》開始聊起,您為什么選擇將課堂設(shè)置為翻轉(zhuǎn)課堂的模式呢?

Dan:首先是看 Daphne Koller 和 Andrew Ng (吳恩達)的課讓我有所啟發(fā),然后我開始閱讀教育文獻,尤其是有心理學家家得出結(jié)論,翻轉(zhuǎn)課堂是一種更好的教學方式。這是讓我確信我應(yīng)該這樣做的部分原因,而其他原因則是出于想偷懶和圖方便。Chris Manning 和我完成了 NLP MOOC 課程,一旦我們完成了這些講座,很明顯我們可以將其中一些用于 CS 124 中,而我們也可以使用 CS 124 來測試一些MOOC 講座。

:開放式課程如何改變了您的教學方法?您是否認為提供在線資料會對未來的學生產(chǎn)生長期影響?

Dan:目前我 20 個講座中有 8 個現(xiàn)場直播,其余的在 EdX 上可在線觀看,然后我用其余的課堂時間進行小組練習和實驗,意在加強概念性理解。

對于翻轉(zhuǎn)課堂,我看到了兩大好處。一個是這種模式迫使我以 8 分鐘為時間塊思考每個主題,并明確學習目標。這有助于解構(gòu)我希望學生真正學到的東西。另一個好處是,我本需要對課堂內(nèi)部分的主動學習花費心思:他們需要了解的概念性內(nèi)容是什么,以及如何讓他們在課堂上或團隊里為學習到一些東西進行概念性思考,而在這方面翻轉(zhuǎn)課堂可以做的更好。

開放式課程的缺陷是這樣的,因為準備,錄制和編輯單個錄制講座需要 20-30 個小時,所以課程中的資料更新很容易就會變得不及時,那么就只能告訴學生「哦,請暫時忽略該視頻的最后一點,」這其實挺不好的。我現(xiàn)場演講的 8 個講座資料有許多全新的資料,或者多年來發(fā)生了很多變化的資料,因為是現(xiàn)場講,所以這 8 個講座幾乎每年都有更新

今年我正在重新設(shè)計兩個現(xiàn)場講座,并取代其中一個錄制的講座,目的是在早期課程中加入深度學習和嵌入。

當然,在網(wǎng)上講課產(chǎn)生了很大的影響,我總是能收到在線學習的學生的郵件。

:您使用您的教材作為課程的基礎(chǔ),但此書中涵蓋的主題比您在十周課程中涵蓋的主題更多,那么您如何選擇課程主題呢?

Dan:由于斯坦福大學的奇怪設(shè)置,我們的班級不僅僅是一個 NLP 班級,它涵蓋了 NLP 的研究生課程的介紹,也包括了社交網(wǎng)絡(luò)課程、IR、推薦系統(tǒng)的介紹。每個主題都有不同的課本,現(xiàn)在我將我的教材用于 NLP 部分,并用其他教材來教其他部分。

Chris Manning 創(chuàng)建我的課程的最初想法是吸引人們參與斯坦福大學的信息/數(shù)據(jù)科學課程以及 AI / NLP 課程等。我認為這是一個非常成功,有趣的想法,但在斯坦福就有點特殊化。如果我只是開設(shè)一個本科的NLP 課程,我不會講協(xié)同過濾,我可能不會講所有的 IR,當然我也不會講社交網(wǎng)絡(luò)。我可以看到當前這種設(shè)置更適用于其他地方(如信息科技學院),或者可能只為每個主題開設(shè)單獨的本科課程。

:你是否將選擇將自己的研究納入到你的教學中?

Dan:最近沒有多少。除此之外,我嘗試在 NLP for Social Good 上做一個演講,我也經(jīng)常要求我的博士后和學生在那里展示他們的工作。最大的例外是,我在講課中的特別素材來自教科書的寫作,所以我當然會使用我的教材章節(jié)演講教學。我在教科書中的觀點肯定是在課堂上得到的,但我的研究論文從中得到的觀點很少,因為它只是一個本科課程。

:斯坦福大學 224D 的深度學習 NLP 課程和 224N 的研究生 NLP 課程在過去兩年合并。這會影響你的 124 計劃嗎?

Dan:總的來說,這個領(lǐng)域發(fā)生了變化,因此 NLP 課程必須包含深度學習!斯坦福大學目前沒有一般的本科人工智能課程,相反,我們有 3 門獨立的課程:視覺,語言和機器人,現(xiàn)在學生們直到研究生學校才開始深度學習是很瘋狂的一件事。

但我也非常希望我的目標受眾——二年級和三年級學生可以訪問該課程。所以我正在努力重編課程。今年夏天,我正在編寫教材中的深度學習章節(jié),因此在秋冬季,我可以就此章節(jié)編寫 cs124 課程的深度學習部分。目前的計劃是在明年冬天做這件事,并增加 3 個「深度學習」講座和一個「嵌入」講座,然后把拼寫檢查作業(yè)換成邏輯回歸作業(yè),把問答的作業(yè)換成一個深度學習版本的,對本科生只教前饋網(wǎng)絡(luò),把循環(huán)網(wǎng)絡(luò)留給研究生。

困難的部分是我們沒辦法給所有學生提供 GPU,我不想每年都向商業(yè)公司尋求 GPU。另外,我也不希望學生花費整個季度的時間僅用來調(diào)參——這更適合機器學習方向的研究生課程。我希望他們直觀的理解深度學習中的分類器,所以就要設(shè)計一個可行且有趣的作業(yè),并且希望深度學習實際上比邏輯回歸效果更好。而事實證明,如果你不能使用 GPU,邏輯回歸優(yōu)于大多數(shù)深度學習的東西。作業(yè)的結(jié)果就是得出我們不想要的結(jié)論,「嘿,深度學習為何比回歸效果更差?你為什么不給我們更多的 GPU,這樣我們才能得到更好的結(jié)果?」

無論如何,未來六個月,我們可以看到情況如何!

:您想要教授的內(nèi)容與學生想要學習的內(nèi)容之間是否存在重大差異?

Dan:目前沒有這個問題,我認為當前的主要問題是深度學習需要放在課程中。也許一個完美的情況就是,我可以在去年的課程中及時完成新的章節(jié)和講座!

:除了您目前計劃將深度學習引入現(xiàn)有內(nèi)容之外,如果您可以擴展 CS 124來涵蓋額外的 NLP 主題的課程,您想添加什么課程?

Dan:選擇空間沒有限制的話我至少會放入一些核心 NLP 內(nèi)容:詞性標注,命名實體識別,語法解析和機器翻譯。雖然我不知道它們的排序如何,但在這四個話題中機器翻譯絕對是最有趣的,大家都因為機器翻譯很有趣而喜歡機器翻譯,而且在機器翻譯中你可以仔細地辨析語言。所以如果我只能加一個課程,我可能會選擇機器翻譯。如果我可以加兩個,我會選詞性標注和實體標注,以幫助學生建立對單詞和單詞組的一些基本原理的理解。然后,如果我還有空間,我會添加語法解析。

:我們查看了大量 NLP 課程的教學大綱,發(fā)現(xiàn)包括你的 NLP 課程在內(nèi)的很多 NLP 課程都常以 n-gram (多元組)和正則表達式作為開頭部分。你對此有什么看法?

Dan:嗯,我認為,作為教材中的第一章節(jié),人們先教正則表達式是很正常的,我們之所以把它放在第一位,是因為它可以自然的引出有限狀態(tài)自動機,而當時有限狀態(tài)自動機是 NLP 的重要組成部分。雖然現(xiàn)在人們不經(jīng)常教他們這部分內(nèi)容了,但我懷疑他們可能還要返回來學! Chris Manning 和我都很喜歡 Ken Church UNIX 工具,而我們在課堂上教如 grep 和正則表達式等 UNIX 工具的課程,這可能是學生可以從語言中汲取到的最實用的東西,這對于他們之后的職業(yè)生涯非常有用,所以教正則表達式非常有必要。事實上,對話系統(tǒng)仍然主要是 ELIZA 加上一堆附加功能和更多的正則表達式,因此正則是一個很有價值的行業(yè)工具。

N-gram 也是我們剛開始必用到的工具,因為它們是教授學生概率論的一種非常簡單的方法,它們可以非常直觀地計算,它們是樸素貝葉斯模型。所以我們完全可以用它得到非??煽康母怕?,并從中深刻且直觀地理解它們,然后你可以直接從那里引入神經(jīng)語言建模。

:即使現(xiàn)在有很多神經(jīng)網(wǎng)絡(luò)的方法,你是否仍然認為語言模型建模是一個重要的教學內(nèi)容?

Dan:好問題!我一直在思考這個問題,因為所有的研究,包括我們自己的研究,都專注于更強大的神經(jīng)語言模型(LMs)。然而,對于許多任務(wù),n-gram LMs 仍然比神經(jīng) LM 更好。對于相同數(shù)量的數(shù)據(jù)來說,神經(jīng) LM 更好,但訓(xùn)練大神經(jīng) LM 非常慢,學習大規(guī)模的老式 n-gram 模型就不一樣了。因此,大規(guī)模老式 n-gram 最終成為人們在大數(shù)據(jù)系統(tǒng)中仍在使用的東西。它們是非 NLP 的機器學習課程中沒有教授的東西,所以它對語言來說是獨一無二的。

最重要的是,我想現(xiàn)在,是的,我仍然會做語言建模,但我不會做高級平滑的東西,只做基礎(chǔ)的東西并跳過所有的 Kneser-Ney 和 Good-Turing。也許一旦訓(xùn)練神經(jīng)語言模型變得足夠快,幾年內(nèi)人們就會停止使用 N-gram LMs?也許吧。在那種情況下,N-gram 那一章可能會被取消,我將不得不弄清楚如何重新編排章節(jié),可能使用樸素貝葉斯概率,然后直接進行神經(jīng)語言建模?問題是即使對于樸素貝葉斯進行文本分類,bigrams 仍然是一個非常有用的特征??催^語言模型后,學生們習慣于思考二元組和三元組,因此語言建模教會他們使用雙字和三字組塊的想法。我認為答案是,N-gram 在我的課程所占比重會越來越小,但仍然存在不會取消。

:當你設(shè)計家庭作業(yè)時,你如何決定涉及數(shù)學和編程的部分?

Dan:測驗是數(shù)學,家庭作業(yè)是編程。在CS 124中,每周測驗是多項選擇。測驗是為了概念性理解,并確保學生動手完成數(shù)學計算。編程的家庭作業(yè)讓你知道如何構(gòu)建樸素貝葉斯和語言模型等工具;我們希望你可以通過知道如何構(gòu)建工具來牢牢的掌握這些知識。。

:自從你開課以來,你對設(shè)計這個課程的看法有何改變?

Dan:課程規(guī)?,F(xiàn)在變大了,起初它是 20 人,現(xiàn)在它有 350 人。一開始,它是一個偏向 NLP 的課程并包括了我們在 Chris Manning 的研究生課程名中沒有涉及的 NLP 內(nèi)容。那時候,Chris 教授語法解析,機器翻譯和信息抽取,而我負責其他課的教授,包括詞匯語義、共現(xiàn)、話語和對話行為,我讓他們構(gòu)建了一個聊天機器人。因此,所有不在研究生課程中的內(nèi)容在本科課程中都有。我為本科生做了一些易于理解的課程,這與我們的課程結(jié)構(gòu)明顯不同。

然而,后來我創(chuàng)建了一個面向研究生的自然語言理解課程,以便處理一些缺失的內(nèi)容,然后創(chuàng)建了一個面向研究生的對話課程。這意味著 CS 124 的角色發(fā)生了變化,現(xiàn)在它可以作為 NLP 之外的多個主題的簡介,因此我們?nèi)匀恍枰袃?nèi)容都涉及一點,但不希望家庭作業(yè)會與研究生課程完全重疊。因此每次研究生課程改變時,我們的作業(yè)也會受到影響。例如,其中 3 門課程現(xiàn)在有關(guān)于嵌入的作業(yè),并且有太多的重疊。但是,嵌入對于一切都非常重要,所以只要你沒有完全相同的作業(yè)就可以了。

:您認為語言學在 NLP 課程中發(fā)揮了多少作用?

Dan:我肯定會嘗試在 NLP 課程中加一些語言學,部分原因是,在課程結(jié)束時學生常常會說,「我沒有系統(tǒng)地學習語言」或「我不了解性別指代或情感?!刮疫@里就有很多語言學專業(yè)和符號系統(tǒng)專業(yè)背景的學生,他們在參加了一系列系統(tǒng)課程后,最終成為了CS 專業(yè)的學生。CS 124 就是他們的啟蒙課。對于 AI 學生來說,它仍然是斯坦福大學人工智能課程中所有課程中最以人為本的。通過該課程,我的目的肯定是想讓 CS 的學生在學過我的課之后繼續(xù)學更多的人文科學和社會科學的課程。出于這個原因,我盡可能地涵蓋語言學,尤其是最新的社會語言學。在我上課的時候,我也會講很多類型學和語言變種以及形態(tài)學上的語言差異的內(nèi)容,因為這對于機器翻譯很重要,我想讓他們系統(tǒng)地思考語言。

:你認為在 NLP 課程和機器學習課程之間的正確聯(lián)系是什么?

Dan:這個問題很好,因為兩者之間有很多重疊;在很多 NLP 任務(wù)中,我們把機器學習作為一種工具。之前我把梯度下降分在機器學習的課程里,但我現(xiàn)在已經(jīng)把它添加到了 NLP 的教材中,所以我可能還會把它添加到我的課程中。從某種程度上來說,這只是我的主觀意見,但也可能會改變。

一般來說,在我的課程中,我不會做任何證明,學生們也不會花很多時間從頭開始構(gòu)建機器學習算法,如 SVM、LSTM等,那些應(yīng)該是工具,所以你只需要了解它們,但不需要從底層一點點動手構(gòu)建。

還有一部分原因是,我們要看深度學習是否會取代所有 NLP 可能涉及的算法,這樣未來就只需要一種機器學習方法即可;但這似乎不太可能發(fā)生,而這就是我們認為會在 20 世紀 90 年代發(fā)生的事情,但當時并沒有發(fā)生。事實證明,視覺、語言和機器人有他們自己的重重約束和學科自己帶來的偏倚。

David:在 90 年代,大家比較看好哪種機器學習算法?SVM?

Dan:哦,從 1988 年來看大概是無監(jiān)督聚類或無監(jiān)督學習。大家都認為你只能使用 EM 來完全無監(jiān)督地引出語言結(jié)構(gòu),所以在這個領(lǐng)域,大家都普遍看好 EM。并且有些早期的論文提出 EM 用于學習詞性標注,然后結(jié)果證明只需要一點點訓(xùn)練數(shù)據(jù)就可以了?,F(xiàn)在,我們知道如果你有可以在一兩個小時內(nèi)就完成標注的一千個標記的觀察結(jié)果或類似的東西,那么你可以做得比使用擁有大量數(shù)據(jù)的無監(jiān)督 EM 效果更好。一切都很快轉(zhuǎn)向監(jiān)督機器學習,然后所有研究都集中在架構(gòu)和特征上,但實際的機器學習算法就像標準回歸或 SVM 一樣,所以沒有什么研究可以教你如何構(gòu)建 SVM 或 CRF,只需要知道它們的一些應(yīng)用以及如何構(gòu)建這些特征。

:許多常見的 NLP 技術(shù)現(xiàn)在已經(jīng)在包中預(yù)先實現(xiàn)了,如果所有內(nèi)容都已經(jīng)為他們構(gòu)建好了,那么學生最終能夠理解他們在課堂上學到的技術(shù)細節(jié)嗎?

Dan:這事挺復(fù)雜的。在這堂課中,直到現(xiàn)在我都要求學生自己搭建框架所以他們不能用庫。例如他們要從底層實現(xiàn)樸素貝葉斯模型并玩轉(zhuǎn)它,這讓他們對貝葉斯思想、先驗、可能性等概念有了非常直觀的理解。但我認為,當加入深度學習時,我可以調(diào)用更多的庫來使用,因為在 10 周內(nèi)你沒有時間去完成機器學習所有基礎(chǔ)知識的作業(yè)。

:你現(xiàn)在正在編寫教科書的第三版,您如何確定每個版本中包含哪些主題?

Dan:嗯,一般來說我們的做法是,我們?nèi)フ沂褂眠@本教材上課的教授的教學大綱,看看他們需要哪些章節(jié)。你可以很快知道哪些東西該被舍棄,比如沒有一個人在自己的課上教喬姆斯基層次結(jié)構(gòu),即便它在我們的書里 —— 說實在的,可能全世界只有他自己會需要把需要喬姆斯基層次這一章作為 NLP 課程的一部分。所以我們刪除了它。你可以立刻說出人們正在做什么,比如每個人都在做語法解析,以前每個人都在做 n-gram。現(xiàn)在,很明顯,每個人都在教深度學習,所以他們也用 Yoav Goldberg 的書,這本書寫的真的不錯,或者人們會將我們的書和 Yoav 的書結(jié)合使用。這就是告訴我們我們需要編寫神經(jīng)網(wǎng)絡(luò)章節(jié)的內(nèi)容。

但是,對于到底要刪掉什么,我們還是要謹慎一點的,你早些時候曾問過是否要繼續(xù)教 n-gram。是時候舍棄 n-gram 模型了嗎?我不確定。在我看來,不應(yīng)該舍棄,但也許我會再次精簡它?;蛘吡硪粋€例子,如果所有 NLP 人員都轉(zhuǎn)向依存句法解析,我們是否還需要成分句法分析?我還是會把它放進去,因為人們可能會二選一。一些實驗室會選擇一種方法,但我們真正應(yīng)該做的是調(diào)查,看看第三版的哪些章節(jié)正在使用。如果事實證明沒有人在教消歧或別的某種東西,那么也許這就該被刪減掉了。

:展望未來,第四版教科書中會出現(xiàn)哪些第三版中沒有的內(nèi)容?

Dan:我不知道,這是一個很好的問題。第三版要到明年才能完成,所以我仍然無法確定當前的主題。例如,Jim 現(xiàn)在正在編著的序列建模章節(jié)使用的是 LSTM,但當然人們構(gòu)建序列模型的方式會發(fā)生變化,也許你需要的是注意力機制,或者可能會發(fā)現(xiàn)我們應(yīng)該使用擴張卷積或其他東西。因此,我并不認為明年不會出現(xiàn)最簡單,最通用的算法,sequence-to-sequence 模型隨著時間的推移會發(fā)生很大的變化,從 HMM 到 MEMM,到 CRF 再到 RNN ......?;蛘呷藗兛赡軙l(fā)現(xiàn),在輸入或其他部分加非常簡單的前饋網(wǎng)絡(luò)會有很好的表現(xiàn),因為有人可能會提出相關(guān)的一些簡化方法。

:NLP 正在快速變化。你如何確保你在不久的將來以及十年或二十年后為學生做好準備?

Dan:不能做到20年,但你可以盡力。您可以嘗試向?qū)W生傳授重要的思想,如訓(xùn)練集和測試集、監(jiān)督機器學習、數(shù)據(jù)查看以及語言思考。你希望那些東西是通用的,并且會在十年內(nèi)都會存在,但你不知道是否如此。

:你對在設(shè)計面向研究生的新 NLP 課程的人有什么建議?

Dan:顯然,當下研究生的課程將以深度學習為基礎(chǔ)。但是你還需要確定你真正想要涉足 NLP 的哪些方向,這是一個艱難的決定。你是否要涵蓋對話的內(nèi)容,或?qū)⑵浞旁诹硪粋€課程中?在過去對話有不同的數(shù)學方法,舊方法是 POMDP,現(xiàn)在是強化學習。你做了多少語義分析?你是否要涵蓋使用嵌入的詞語語義分析和語義分析中常見的邏輯語義分析。即使最好的算法是神經(jīng)網(wǎng)絡(luò),你也要確保覆蓋重要的內(nèi)容,現(xiàn)在確保學生學習非神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識如 n-gram 和 TF-IDF 仍然很重要。

via medium.com/@jurgens_24580,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NLP應(yīng)該如何學、如何教?斯坦福大學大牛Dan Jurafsky教授專訪

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說