0
本文作者: camel | 2017-11-12 09:23 |
雷鋒網(wǎng)AI科技評論按:一般認(rèn)為計算語言學(xué)(CL)是語言學(xué)的一個分支,自然語言處理(NLP)是計算機(jī)科學(xué)的一個子學(xué)科。但是現(xiàn)在由于CL和NLP之間的界限越來越模糊,甚至兩個領(lǐng)域的人常常去參加同樣的會議,交流起工作來也完全沒有障礙,于是一個問題出現(xiàn)了:NLP是跨語言學(xué)和計算機(jī)科學(xué)的交叉學(xué)科嗎?
雷鋒網(wǎng)注意到,近日在NLP學(xué)術(shù)圈里,因為Twitter上的一個推文引發(fā)了對這個問題的一場小爭論。
一、The Beginning
事情的過程大概是這樣的:
華盛頓大學(xué)著名的語言學(xué)教授Emily M. Bender在審核一篇跨語言應(yīng)用的論文時,為作者數(shù)據(jù)集的混亂不堪發(fā)愁,于是就發(fā)了個twitter:
直接的評論到?jīng)]有,轉(zhuǎn)推也就兩個。但兩個轉(zhuǎn)推卻引來兩場爭論。一場主要關(guān)于怎么用數(shù)據(jù)集的,因為和本文無關(guān),這里我們就按下不表了。
另一場爭論起點是這樣的:
推文轉(zhuǎn)了四天,到了紐約大學(xué)計算科學(xué)與數(shù)據(jù)科學(xué)的助理教授Kyunghyun Cho這里,他抱怨說:“為什么我不用更多的語言?因為投稿ACL反饋回來的評審意見是:‘奇怪,作者竟然選擇用土耳其語-英語數(shù)據(jù)集’?!?/p>
這條推文本身也是對數(shù)據(jù)集問題的響應(yīng)。Emily Bender教授是這么回復(fù)的:會不會是因為(由于ACL是跨學(xué)科的)人手不夠,不能相互審查?
我們知道,推文就像聊天,不一定看到的人聯(lián)想到什么呢,所以推著推著話題就變了。接著“interdisciplinarity”這個詞,約翰霍普金斯大學(xué)Jason Eisner教授( nlp幾個神牛之一)的博士生Ryan Cotterell加入了討論:
Ryan Cotterell:整體上來看,我不認(rèn)為ACL是跨學(xué)科的。它將機(jī)器學(xué)習(xí)應(yīng)用到語言數(shù)據(jù)上,很大程度上和語言學(xué)理論是不相干的。
Emily Bender:再次聲明,NLP絕不只是機(jī)器學(xué)習(xí)的一個應(yīng)用領(lǐng)域——即使機(jī)器學(xué)習(xí)在NLP上越來越有效。
……
一個是著名的語言學(xué)教授,一個只是一個博士生,在國內(nèi)可能Ryan早早繳械投降,說“我one-million-percent endorse Emily教授的觀點”了。但Ryan畢竟也是大牛的學(xué)生,并不怯于和教授辯論。
二、ACL是跨學(xué)科的嗎?
隨后的內(nèi)容就變得越來越復(fù)雜,也有越來越多的人加入爭論。
加上twitter 140個字符的限制,道理更是說不清。于是Ryan Cotterell決定做兩件事情:
1)在medium.com上寫篇博文(Is ACL Interdisciplinary,需要翻墻才能打開,沒有VNP的可以在百度網(wǎng)盤上下載保存的電子版網(wǎng)頁:ACL是跨學(xué)科的嗎?)來澄清他的觀點;
2)通過定量的方法來考察語言學(xué)和NLP之間的關(guān)系。
博文內(nèi)容大致如下:
我最近推了一些東西,沒想到引起了一些爭論。由于Twitter上140個字符長度的限制,可能會引起誤解。我的觀點是:在NLP上發(fā)表的工作并沒有吸取語言學(xué)方面最新的進(jìn)展,因此也沒有被公認(rèn)為是跨學(xué)科的。
也許更坦率的觀點例如這樣:我們能做什么?在過去30年時間里語言學(xué)沒有提出任何有意思的東西,這不是我們的錯。
當(dāng)然我不認(rèn)為語言學(xué)最近三十年沒什么有意思的成果,但很明顯,語言學(xué)和NLP已經(jīng)分離開了。舉一個例子,在NLP閱讀群,例如Stanford、CLSP、Stony Brook和Arizona等,從他們的日程安排中我找不到一篇最近的語言學(xué)論文。如果兩個學(xué)科有交叉的話,這是不應(yīng)該的。所以我的觀點的弱化版本是:NLP在過去10到20年的發(fā)展與近期語言學(xué)的研究無關(guān)。
在深入這個觀點之前,我想先說清楚兩個概念:什么是計算語言學(xué)(CL)以及什么是自然語言處理(NLP)。內(nèi)容來自我導(dǎo)師Jason Eisner在Quora上的回答。
1、什么是計算語言學(xué)
計算語言學(xué)(CL)類似于計算生物學(xué)或者任何計算XXX。它主要致力于用計算的方法來回答語言學(xué)的科學(xué)問題。
在語言學(xué)中的核心問題包括語言表征和語言知識的性質(zhì),如何在語言的產(chǎn)生、理解中獲得和運(yùn)用語言學(xué)知識。對這類問題的回答,有助于描述人類的語言能力,也有助于解釋我們實際記錄的語言數(shù)據(jù)和行為的分布。
在計算語言學(xué)中,我們用更形式化的答案來回答這些問題。語言學(xué)家關(guān)心人類計算了什么以及如何計算的。所以我們將語言表征和語法通過數(shù)學(xué)的形式來定義,我們研究它們的數(shù)學(xué)屬性,并設(shè)計有效的算法來學(xué)習(xí)、生成和理解。只要這些算法可以實際運(yùn)行,我們就可以測試我們的模型,看它們是否能作出合理的預(yù)測。
語言學(xué)也考慮一些非核心的問題,例如社會語言學(xué)、歷史語言學(xué)、生理語言學(xué)或者神經(jīng)語言學(xué)等等。這些學(xué)科問題本質(zhì)上和計算語言學(xué)是平等的,都是在用一套模型和算法來讓數(shù)據(jù)看起來合理。
從這個角度來說,計算語言學(xué)并不試圖去對日常用語進(jìn)行建模,而是將語言學(xué)家所作的推論自動化。這潛在地就使我們能夠處理更大的數(shù)據(jù)集(甚至新的數(shù)據(jù))并得出更準(zhǔn)確的結(jié)論。同樣的,計算語言學(xué)家可能會設(shè)計軟件工具來幫助記錄瀕危語言。
2、什么是自然語言處理(NLP)
自然語言處理(NLP)是解決分析(或生成)自然語言文本的工程問題的藝術(shù)。 在這里,成功的標(biāo)準(zhǔn)不在于你設(shè)計了一個更好的科學(xué)理論,或者是證明了語言X和Y在歷史上是相關(guān)的;它的標(biāo)準(zhǔn)是你是否在工程問題上得到了好的解決方案。
例如,你不會去考慮谷歌翻譯有沒有解釋翻譯的“本質(zhì)”是什么或者翻譯人員如何工作的;你在意的是它能否給你產(chǎn)生出一個合理、精確、流暢的翻譯結(jié)果。機(jī)器翻譯社群有他們自己的衡量方法,他們致力于提高這些分?jǐn)?shù),而不是理解翻譯的本質(zhì)。
NLP主要是用來幫助人們?nèi)ダ斫夂拖切┮晕谋拘问酱嬖诘拇罅啃畔?,?dāng)然也會被用來生成更好的用戶接口以便于人類更好的與機(jī)器或人進(jìn)行交流。
我說NLP是工程性質(zhì)的,并不意味著它只用來開發(fā)商業(yè)價值。NLP也會被拿來研究學(xué)術(shù)問題,例如政治科學(xué)(博客文章)、經(jīng)濟(jì)學(xué)(金融新聞和報道)、醫(yī)學(xué)(醫(yī)生的筆記)、數(shù)字人文(文學(xué)作品、歷史資料)等。這些都是被作為“計算XX學(xué)”的工具來回答XX學(xué)家的科學(xué)問題,而不屬于語言學(xué)家的科學(xué)問題。
3、跟交叉學(xué)科有什么關(guān)系呢?
計算語言學(xué)已經(jīng)被定義為一個交叉學(xué)科。但NLP還沒有,可能是,也可能不是。正如航空工程不需要從鳥類獲得靈感一樣,NLP也不必從人類如何處理語言中獲得靈感。所以我認(rèn)為應(yīng)當(dāng)認(rèn)真考慮的一個問題是:目前還沒有關(guān)于NLP是否是交叉學(xué)科的判斷標(biāo)準(zhǔn)。相關(guān)的人員只是從他們的工具箱里選擇一些工具解決他們的工程問題,在ACL會議中很多(絕大多數(shù))工作認(rèn)真來看都不能算是交叉學(xué)科的。
4、交叉學(xué)科應(yīng)該是什么樣子?
Wilson and Hayes(2008)曾經(jīng)做的一份工作可以很好的回答這個問題:首先他們借鑒NLP和ML的技術(shù),提出了一些提高語言理解的方法;由此他們得出一些關(guān)于語言的科學(xué)結(jié)論,并通過實驗驗證了這些結(jié)論。
學(xué)科的定義一直是在變化的,我認(rèn)為所謂跨學(xué)科的工作其實就是兩個(多個)群體興趣的交集。
一些人認(rèn)為因為NLP里有“word”和“punctuation”這些語言學(xué)的概念就是跨學(xué)科了,這是很荒謬的。我們也使用對數(shù)的概念,能說NLP與數(shù)學(xué)也有交叉嗎?我們所做的工作與數(shù)學(xué)期刊上的完全不同。
爭論中出現(xiàn)有兩個容易混淆的論斷
Claim 1:沒有語言學(xué)的理論,NLP就做不下去。
這是Emily Bender教授的說法,我傾向于認(rèn)同。但我沒有做過面向人類的NLP任務(wù),所以我實在不好下判斷。
Claim2:計算語言學(xué)的工作沒有真正地呈現(xiàn)在*ACL會議上。
我認(rèn)為這基本上是對的,但也有一些例外,只不過很少見。原因有兩面:當(dāng)我對NLPer談?wù)搯栴}時,他們會問“這有什么用”;而當(dāng)我和語言學(xué)家討論時,他們又完全聽不懂,因為他們最后一節(jié)數(shù)學(xué)課還是在高中上的?;谶@樣經(jīng)驗,我覺得ACL并不是一個真正的跨學(xué)科的地方,而且是越來越如此。舉三個例子:
(1)許多以計算為導(dǎo)向的語言學(xué)家和面向語言的ACLers希望在2018年初成立一個新的會議。如果*ACL真的能夠體現(xiàn)計算機(jī)科學(xué)和語言學(xué)之間的跨學(xué)科合作,為什么會有很多人需要另一個會議呢?我認(rèn)為這主要是因為這兩個學(xué)科之間基本上沒有交叉。
(2)我在EMNLP 2017上有一個海報展示,是關(guān)于多語言形態(tài)標(biāo)記的(Cotterell and Heigold 2017)。我得到的第一個問題是來自工業(yè)界的一個NLP研究人員,他很真誠地問:現(xiàn)在已經(jīng)可以通過端對端訓(xùn)練一切東西了,為什么還要進(jìn)行詞性標(biāo)注呢?在一定程度上這也是許多有建樹的研究人員的觀點,例如Kyunghyun Cho。當(dāng)然在模型中選不選用詞性標(biāo)注應(yīng)該根據(jù)你的問題而定。我想強(qiáng)調(diào)的是,我們正處于這樣一個時期,之前NLP的一些舊的輔助應(yīng)該用新一代重新判斷了。如果認(rèn)真去考察的話,就會發(fā)現(xiàn)詞性標(biāo)注是句法理論中相對膚淺的部分。Fred Jelinek著名的諷刺是:每次他炒掉一個語言學(xué)家,性能就會提升一些而且這個咒語現(xiàn)在還在很多NLP領(lǐng)域有效。
(3)另外一點就是很多NLPer并沒有學(xué)過語言學(xué)。如Emily所說,交叉學(xué)科研究的本質(zhì)上需要兩個領(lǐng)域的專業(yè)知識。我認(rèn)為,這些專業(yè)知識應(yīng)該以某種形式來源于領(lǐng)域內(nèi)的專家。而據(jù)我所知,這似乎并沒有發(fā)生。
(Emily Bender教授發(fā)起的一個投票調(diào)查,286個NLPer當(dāng)中有74%的人并沒有語言學(xué)學(xué)位,甚至有16%的人沒有任何語言學(xué)的背景。)
5、定量化研究
我現(xiàn)在正在嘗試研究發(fā)表在語言學(xué)會議/期刊的論文與發(fā)表在NLP會議/期刊上的論文之間的引用情況,來定量化研究語言學(xué)與NLP之間關(guān)系。初步的結(jié)果表明,兩者的重合率非常小。
我非常歡迎任何能促進(jìn)這份研究的建議。
三、語言學(xué)、NLP和跨學(xué)科
看到Ryan Cotterell的博文(還有些別的原因),Emily Bender教授也就此在medium上寫了一篇博文(Linguistics, NLP, and Interdisciplinarity Or: Look at Your Data,百度網(wǎng)盤下載:語言學(xué)、自然語言處理和交叉學(xué)科,或者:注意你的數(shù)據(jù))來反駁Ryan(博文有一部分是針對另一場爭論的反駁)
博文分三部分。首先,Emily教授回顧了一下事件的起因(前面已經(jīng)說過了),然后針對第一波爭論給出了一針見血的評論。隨后話鋒一轉(zhuǎn),說第一波爭論周日晚上已經(jīng)圓滿結(jié)束,但又來了波新的——
相關(guān)博文內(nèi)容:
Ryan Cotterell花了很大力氣試圖說服每一個人相信NLP不是一個交叉學(xué)科,理由是他認(rèn)為交叉學(xué)科必須建立在兩個學(xué)科共同的工作基礎(chǔ)上,而目前NLP的工作大部分不符合不符合這個定義。
對此,我想做出以下回答:如果問題要求多個領(lǐng)域的專業(yè)知識有效地接近,一個研究領(lǐng)域原則上就是跨學(xué)科的。
根據(jù)我的定義,NLP原則上就是跨學(xué)科的。我同意Ryan的觀點,說NLP在實踐中大多不是學(xué)科交叉的,但我覺得沒有必要非要達(dá)到這么高的標(biāo)準(zhǔn)。同樣的,我也不認(rèn)為語言學(xué)的所有子領(lǐng)域都和NLP相關(guān)。
我的觀點是:學(xué)習(xí)語言如何工作以及(或者)與有相關(guān)經(jīng)驗的人合作,會讓NLP發(fā)展地更好。
對“交叉學(xué)科”如此高標(biāo)準(zhǔn)的定義我覺得是無益的:我不希望人們認(rèn)為“如果我不能拿一個語言學(xué)學(xué)位,我就沒法做交叉學(xué)科的工作”;同樣我也不希望人們留下“語言學(xué)無關(guān)緊要”的印象。
也許這個爭論中最令人沮喪的部分是,它抹除了我在語言學(xué)領(lǐng)域和CL/NLP領(lǐng)域的工作。他們似乎還將“語言學(xué)”等同于“現(xiàn)代喬姆斯基語法”。另一方面,那些“通常NLP不使用語言學(xué)的工作”的論斷等同于把包括我在內(nèi)的一些人的工作都給排除在外了。
所以,Hey world,語言學(xué)已經(jīng)不是喬姆斯基時代的了。
四、結(jié)語
事情大致就是如此,說大不大,說小也確實小。雷鋒網(wǎng)覺得,它反映出幾個問題:
1、要不要認(rèn)真地考察一下NLP是否是交叉學(xué)科呢?筆者個人覺得是非常有必要的,理清學(xué)科的邊界,有助于理解學(xué)科未來的發(fā)展方向。Ryan Cotterell在嘗試用論文之間引用量的數(shù)據(jù)來定量化分析這個問題,也許會很有意思。
2、另一方面,不管討論的結(jié)果是什么,它都是有益的,因為討論促使人們?nèi)シ磸?fù)地思考自己的觀點。國外學(xué)術(shù)圈子的討論風(fēng)氣很旺盛。
下面補(bǔ)充一些網(wǎng)友的評論:
Xiang Z:機(jī)器學(xué)習(xí)的目標(biāo)之一就是要盡量去除人的知識在建模中的作用,而盡量通過數(shù)據(jù)學(xué)到相關(guān)的規(guī)律。這種思路下的語言處理和傳統(tǒng)語言學(xué)的矛盾好像不太好調(diào)和啊。
青龍:Ryan:NLP不是交叉學(xué)科,理由1,2…,分析1,2…,從概念到定量分析,有理有據(jù)有節(jié) 教授:根據(jù)我的定義,NLP原則上是跨學(xué)科的,對交叉學(xué)科這么高的定義是無意義的… 很顯然,Ryan的理由更讓人信服,因為按照教授的觀點降低交叉學(xué)科的定義度很難把握,實施不好可能會降為負(fù)值,即萬物皆交叉,一切終將逝去,唯有交叉永恒。
AI慕課學(xué)院近期推出了《NLP工程師入門實踐班:基于深度學(xué)習(xí)的自然語言處理》課程!
三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項目經(jīng)驗相授;算法+實踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長
相關(guān)文章:
清華大學(xué)團(tuán)隊開源OpenKE與OpenNE工具包,助力NLP系統(tǒng)梳理
微軟副院長周明:NLP目前存在的問題、以及未來的發(fā)展方向
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。