0
本文作者: 栗峰 | 2019-10-08 10:41 |
雷鋒網(wǎng)AI科技評(píng)論編者按:自然語(yǔ)言并不等于英語(yǔ)。然而,目前NLP的研究中,大家潛意識(shí)里卻認(rèn)為英語(yǔ)是一種具有足夠代表性的語(yǔ)言。而除英語(yǔ)以外的其他語(yǔ)言研究則通常被認(rèn)為是“特殊語(yǔ)言”,在審稿人的眼中同等情況下對(duì)它們的研究則不如英語(yǔ)研究重要。這本質(zhì)上是對(duì)語(yǔ)言的“以偏概全”。近日華盛頓大學(xué)語(yǔ)言學(xué)家Emily M. Bender為此撰寫了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出其中存在的問題,以及提出對(duì)學(xué)習(xí)語(yǔ)言進(jìn)行命名和標(biāo)記的方案。AI科技評(píng)論對(duì)其文章做如下不改變?cè)獾木幾g。
自然語(yǔ)言處理(NLP)領(lǐng)域的進(jìn)展取決于語(yǔ)言資源的存在。通常這些資源需要有帶黃金標(biāo)準(zhǔn)(gold standard)的標(biāo)簽或注解來反映NLP系統(tǒng)對(duì)當(dāng)前任務(wù)的預(yù)期輸出。無(wú)監(jiān)督、弱監(jiān)督、半監(jiān)督或遠(yuǎn)程監(jiān)督等機(jī)器學(xué)習(xí)技術(shù)降低了對(duì)標(biāo)記數(shù)據(jù)的依賴性,但即使是使用這些方法,也同樣需要足夠多的標(biāo)記數(shù)據(jù)來評(píng)估系統(tǒng)的性能,此外對(duì)于數(shù)據(jù)需求量極大的機(jī)器學(xué)習(xí)技術(shù),通常也需要大量未標(biāo)記數(shù)據(jù)的支撐。
這樣的需求導(dǎo)致了在NLP領(lǐng)域中出現(xiàn)了高資源語(yǔ)言和低資源語(yǔ)言的數(shù)字鴻溝。
高資源的語(yǔ)言種類只有幾種,包括英語(yǔ)、漢語(yǔ)、阿拉伯語(yǔ)和法語(yǔ),或許還可以將德語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、芬蘭語(yǔ)包括進(jìn)去。這些語(yǔ)言具有大量可訪問的文本和語(yǔ)音資源,以及一些注釋資源如樹圖資料庫(kù)(treebank)和評(píng)估集。
截止到2019年8月,LRE Map列出了961項(xiàng)英語(yǔ)資源,此外還有美式英語(yǔ)資源121項(xiàng)、德語(yǔ)資源216項(xiàng)、法語(yǔ)資源180項(xiàng)、西班牙語(yǔ)資源130項(xiàng)、漢語(yǔ)資源103項(xiàng)、日語(yǔ)資源103項(xiàng)。其他超過50項(xiàng)資源的語(yǔ)言只有葡萄牙語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)、標(biāo)準(zhǔn)阿拉伯語(yǔ)和捷克語(yǔ)。世界上另外大約7000種其他的語(yǔ)言則只有極少的資源或沒有。
同樣值得強(qiáng)調(diào)的是,世界各地的研究人員在主要的NLP會(huì)議上發(fā)表的大部分研究工作都集中在高資源語(yǔ)言上,且不成比例地集中在英語(yǔ)上。Robert Munro,SebastianMielke和我對(duì)NLP領(lǐng)域的幾個(gè)主要會(huì)議中的語(yǔ)言進(jìn)行了一個(gè)調(diào)查,其結(jié)果如下:
盡管英語(yǔ)和漢語(yǔ)廣泛被作為第一語(yǔ)言或第二語(yǔ)言使用,但顯然NLP的研究不應(yīng)當(dāng)只是去做這兩種語(yǔ)言的研究。
但很不幸,NLP陷入了一種惡性循環(huán):除英語(yǔ)以外的其他語(yǔ)言研究通常被認(rèn)為是“特殊語(yǔ)言”,因此被認(rèn)為同等情況下不如英語(yǔ)研究重要。
NLP會(huì)議的審稿人經(jīng)常會(huì)有這樣一種錯(cuò)誤的理解:將某一任務(wù)上的最先進(jìn)水平等同于該任務(wù)在英語(yǔ)上取得的最先進(jìn)水平;如果一篇論文不能與之進(jìn)行比較,那他們就無(wú)法判斷這個(gè)研究是否是“有價(jià)值的”。
這里一個(gè)重要的因素是人們潛意識(shí)里認(rèn)為英語(yǔ)是一種具有足夠代表性的語(yǔ)言。當(dāng)學(xué)習(xí)的資源是英語(yǔ)時(shí),人們往往不會(huì)在名字中顯示“英語(yǔ)”,這更助長(zhǎng)了這種誤解。
但英語(yǔ)既不是自然語(yǔ)言的代名詞,也不是自然語(yǔ)言的代表。
我最近在Widening NLP 2019大會(huì)的演講中做了一個(gè)比喻,將NLP比作是一扇濺滿了雨水的窗戶。
我們知道NLP是一個(gè)跨學(xué)科的領(lǐng)域,不同領(lǐng)域的人所關(guān)注的視角也不相同。從事信息提取工作的人對(duì)用數(shù)字化語(yǔ)言編碼的信息感興趣,這就像是人在屋內(nèi)凝視窗外的場(chǎng)景。而從事語(yǔ)言學(xué)工作的人則對(duì)語(yǔ)言的結(jié)構(gòu)和模式以及它們與交際意圖的關(guān)系很感興趣,這就類似于想要探究雨滴下來的模式以及它們是如何影響我們看窗外的景色。
把這個(gè)比喻再延伸一點(diǎn),每一種語(yǔ)言(包括英語(yǔ))都只是一扇有特定雨滴模式的窗戶,各自都有它自己特有的風(fēng)格。
以下我羅列了一些英語(yǔ)不能代表所有語(yǔ)言的原因,這些原因即使是在四姐上使用最廣泛的語(yǔ)言中也沒有得到廣泛的共享:
1、它是一種口頭語(yǔ)言,而不是符號(hào)語(yǔ)言。如果我們只做英語(yǔ)的研究,我們就錯(cuò)失了一類重要的語(yǔ)言。
2、它有一個(gè)完善的、長(zhǎng)期使用的、大致是基于發(fā)音拼寫系統(tǒng)(phone-based orthographic system)。
“Phone-based”的意思是字母對(duì)應(yīng)于單獨(dú)的發(fā)音。英語(yǔ)拼寫法僅近似于這個(gè)原理。西班牙語(yǔ)等其他語(yǔ)言,具有基于發(fā)音的拼寫法系統(tǒng)更加透明化,還有一些語(yǔ)言僅代表輔音(例如傳統(tǒng)的希伯來語(yǔ)和阿拉伯語(yǔ))或具有代表音節(jié)而不是單一聲音的符號(hào)(例如馬拉雅拉姆語(yǔ),韓語(yǔ)或日語(yǔ)假名),或者使用邏輯系統(tǒng)(例如中文,或者借鑒漢字形成的日文;參見Handel 2019)。 當(dāng)然,世界上還有許多語(yǔ)言沒有書面語(yǔ),或者書面語(yǔ)的歷史較短還沒有發(fā)展出標(biāo)準(zhǔn)的拼寫法。英語(yǔ)拼寫的標(biāo)準(zhǔn)化事實(shí)上在很大程度上簡(jiǎn)化了NLP的任務(wù),而我們常常沒有意識(shí)到這個(gè)問題。
3、英語(yǔ)的標(biāo)準(zhǔn)化拼寫法提供了一個(gè)成為“word”的概念,不同“word”之間會(huì)有一個(gè)空格留白。
然而并不是所有語(yǔ)言都有這個(gè)特點(diǎn),例如漢語(yǔ)、日語(yǔ)、泰語(yǔ)等,對(duì)于這些語(yǔ)言,它們的NLP任務(wù)都必須從分詞開始。
4、大部分的英語(yǔ)寫作通常只使用在每臺(tái)計(jì)算機(jī)上都能找到的低位ASCII字符。
在大多數(shù)情況下,當(dāng)使用英語(yǔ)時(shí)我們都不用擔(dān)心不常見的字符編碼、不支持的Unicode符號(hào)等等。
5、英語(yǔ)的屈折形態(tài)(inflectionalmorphology)相對(duì)較少,因此每個(gè)單詞的形式比較少。
許多NLP領(lǐng)域的技術(shù)都存在數(shù)據(jù)稀疏的問題,只有當(dāng)同一個(gè)詞以多種不同的形式出現(xiàn)在高度變化的語(yǔ)言中時(shí),這種問題才會(huì)顯得更加嚴(yán)重。(基于字符n-gram的深度學(xué)習(xí)模型在一定程度上解決了這個(gè)問題,但它仍然是英語(yǔ)和世界上許多語(yǔ)言之間的一個(gè)重要區(qū)別。)
6、英語(yǔ)有相對(duì)固定的語(yǔ)序。
與世界上許多語(yǔ)言相比,英語(yǔ)在詞序上比較死板,在大多數(shù)情況下都保持主謂賓、形容詞在名詞前面、關(guān)系從句在后等等。如果不對(duì)更靈活的詞序語(yǔ)言進(jìn)行測(cè)試,我們?cè)趺磿?huì)知道哪些系統(tǒng)在多大程度上依賴英語(yǔ)的這種特性?
7、英文表單可能會(huì)“意外”匹配數(shù)據(jù)庫(kù)字段名、本體條目等。
許多語(yǔ)言技術(shù)通過將輸入語(yǔ)言中的字符串映射到外部知識(shí)庫(kù)或者將這些字符串轉(zhuǎn)換為語(yǔ)法或語(yǔ)義表示從而實(shí)現(xiàn)特定任務(wù)的目標(biāo)。當(dāng)輸入的字符串和知識(shí)庫(kù)中的字段名或條目使用同一種語(yǔ)言時(shí),處理快捷方式就可用了。但是這又能適用于多少種語(yǔ)言呢?
8、英語(yǔ)有大量可用的訓(xùn)練數(shù)據(jù)(比如用來訓(xùn)練BERT的3.3B語(yǔ)言符號(hào))(Devlin et.al,2019)。
如果我們將全部的精力都集中在依賴大量的訓(xùn)練數(shù)據(jù)這種方法上,而這些數(shù)據(jù)卻無(wú)法適用于世界上大多數(shù)的語(yǔ)言,我們將如何構(gòu)建適用于其他語(yǔ)言的系統(tǒng)?同樣,如果我們只重視使用這些技術(shù)的工作(例如在會(huì)議論文評(píng)審中),那么我們?cè)趺纯赡芷诖诳缯Z(yǔ)言NLP上取得進(jìn)展呢?
2009年,Tim Baldwin和ValiaKordoni在EACL上組織了一個(gè)研討會(huì),主題為“語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)之間的互動(dòng):良性的、惡性的還是空洞的?”(The Interaction between Linguistics andComputational Linguistics: Virtuous, Vicious or Vacuous?)當(dāng)時(shí),機(jī)器學(xué)習(xí)(深度學(xué)習(xí)之前)對(duì)NLP來說非常重要。很多人都在討論圍繞NLP的機(jī)器學(xué)習(xí)方法如何能夠更經(jīng)濟(jì),因?yàn)樗鼈儽纫郧盎谝?guī)則的范式需要投入的語(yǔ)言專家更少。這在當(dāng)時(shí)很流行。
在這次會(huì)議上有人指出(出現(xiàn)在當(dāng)時(shí)部分論文中),不對(duì)任何特定語(yǔ)言知識(shí)進(jìn)行編碼的NLP系統(tǒng)都是與“語(yǔ)言無(wú)關(guān)的”。
我反對(duì)這種觀點(diǎn)。我在其中的一個(gè)研討會(huì)上也發(fā)表了一篇論文,題為《語(yǔ)言幼稚!=語(yǔ)言獨(dú)立:為什么NLP需要語(yǔ)言類型學(xué)》(Linguistically Na?ve != Language Independent: Why NLP NeedsLinguistic Typology)。我認(rèn)為如果我們只使用英語(yǔ)(或英語(yǔ)加上一小部分其他語(yǔ)言),我們無(wú)法判斷所構(gòu)建的系統(tǒng)是否真正適合于所有語(yǔ)言。僅僅因?yàn)闆]有直接編碼有關(guān)英語(yǔ)的特定語(yǔ)言知識(shí)并不意味著該模型適用于所有的語(yǔ)言。
此外,如果目標(biāo)是語(yǔ)言獨(dú)立或跨語(yǔ)言應(yīng)用系統(tǒng),那我們最好充分利用語(yǔ)言知識(shí)。特別是,我們應(yīng)該利用語(yǔ)言類型學(xué)領(lǐng)域的研究成果,該領(lǐng)域研究世界上各種語(yǔ)言的變化范圍以及這種變化還存在的局限性。
在Bender 2011(《關(guān)于實(shí)現(xiàn)和評(píng)估在NLP領(lǐng)域中的語(yǔ)言獨(dú)立性》,“On Achieving and Evaluating Language-Independence in NLP”)中,我列出了語(yǔ)言無(wú)關(guān)NLP的“dos and don' ts”。它包括了后來被稱為Bender Rule的早期聲明(雷鋒網(wǎng)):
Do – 指明正在學(xué)習(xí)的語(yǔ)言類型,即使它是英語(yǔ)。要明確一點(diǎn),我們正在研究的是一種特定的語(yǔ)言,這意味著由此開發(fā)的技術(shù)可能只適用于特定的語(yǔ)言。相反,如果不去聲明正在使用的數(shù)據(jù)的語(yǔ)言類型,就會(huì)給工作帶來是語(yǔ)言獨(dú)立的假象。(Bender 2011:18)
然而,直到2019年,這段話才真正流行起來。2018年11月,當(dāng)我在編撰計(jì)算語(yǔ)義學(xué)和語(yǔ)用學(xué)的語(yǔ)言資源時(shí),再次遇到這樣頭疼的事情:那些使用英語(yǔ)語(yǔ)料的論文往往沒有說明所討論的語(yǔ)言是英語(yǔ)。于是我發(fā)了如下的推文:
2019年3月到5月,Nathan Schneider、Yuval Pinter、Robert Munro、Andrew Caines等人分別提出了“Bender Rule”或“Bender Clauses”。他們的不同之處在于命名所研究語(yǔ)言的方式,作為論文評(píng)審人員應(yīng)該詢問研究者研究的是哪種/些語(yǔ)言,或者當(dāng)僅使用一種語(yǔ)言時(shí)應(yīng)當(dāng)對(duì)所研究系統(tǒng)的語(yǔ)言獨(dú)立性持懷疑態(tài)度。最終,BenderRule的聲明合并為簡(jiǎn)單的一句話:始終注明你正在使用的語(yǔ)言。
在NAACL 2019和ACL 2019及其研討會(huì)上,有幾張poster在命名其語(yǔ)言時(shí)直接提到了Bender Rule。
這樣的原則似乎是顯而易見的,且很瑣碎。但我很榮幸能以我的名字來命名這個(gè)原則。因?yàn)槲覐?qiáng)烈地感覺到NLP領(lǐng)域必須擴(kuò)大范圍,超越英語(yǔ)和少數(shù)幾種精心研究的語(yǔ)言。我相信,除非我們不再把英語(yǔ)當(dāng)作默認(rèn)語(yǔ)言,不再假裝學(xué)習(xí)英語(yǔ)(且只學(xué)習(xí)英語(yǔ))不是“l(fā)anguage-specific”,否則我們永遠(yuǎn)無(wú)法做到這一點(diǎn)。
NLP領(lǐng)域開始考慮“為語(yǔ)言命名”使我深受振奮,即便大部分工作使用的顯然還是英語(yǔ)。
但是,隨著NLP領(lǐng)域的人們開始解決NLP技術(shù)所帶來的道德影響以及語(yǔ)言技術(shù)對(duì)用戶和旁觀者產(chǎn)生的負(fù)面影響(參見Hovy&Spruit 2016,Speer2017,Grissom II 2019),我們應(yīng)當(dāng)清晰地認(rèn)識(shí)到:關(guān)于訓(xùn)練和測(cè)試模型所使用的數(shù)據(jù),我們應(yīng)該提供更多信息。
首先是語(yǔ)言之間的差異性:所有語(yǔ)言都在不斷地變化;除了那些使用人數(shù)極少的語(yǔ)言外,一種語(yǔ)言的不同變體之間總是存在著很大的差異。(參見Labov 1966,Eckert和Rickford2001)。這包括不同地域之間的差異,以及不同社會(huì)群體和社會(huì)身份相關(guān)的差異。針對(duì)某一特定人群的語(yǔ)音/文本/標(biāo)志進(jìn)行訓(xùn)練的模型不一定適用于其他人群,即使是在使用相同語(yǔ)言的人群中也是如此。
第二,模型會(huì)汲取訓(xùn)練文本中所包含的偏見,而這些偏見則來源于生產(chǎn)文本的人如何認(rèn)識(shí)和談?wù)撨@個(gè)世界。(參見Bolukbasi et.al 2016,Speer2017)。
為了避免以上兩個(gè)問題所帶來的潛在問題,Batya Friedman和我在 ( Bender & Friedman2018) 中提出了“數(shù)據(jù)聲明”的概念,這是一種清晰記錄NLP系統(tǒng)中使用數(shù)據(jù)集的做法。我們建議所有NLP系統(tǒng)都應(yīng)該附帶關(guān)于訓(xùn)練數(shù)據(jù)的詳細(xì)信息,包括所涉及的特定語(yǔ)言種類,選擇數(shù)據(jù)的原理(如何選擇數(shù)據(jù)以及為什么選擇該數(shù)據(jù)),有關(guān)說話者和注釋者的人口統(tǒng)計(jì)信息等等。當(dāng)然,僅憑這些信息并不能解決偏見的問題,但它為解決這些問題提供了可能性。
頭圖來源(雷鋒網(wǎng)):http://images.wired.it/wp-content/uploads/2014/01/1390576102_language.jpg
原文鏈接:https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。