丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

本文作者: 栗峰 2019-10-08 10:41
導(dǎo)語:自然語言并不等于英語~

雷鋒網(wǎng)AI科技評論編者按:自然語言并不等于英語。然而,目前NLP的研究中,大家潛意識里卻認(rèn)為英語是一種具有足夠代表性的語言。而除英語以外的其他語言研究則通常被認(rèn)為是“特殊語言”,在審稿人的眼中同等情況下對它們的研究則不如英語研究重要。這本質(zhì)上是對語言的“以偏概全”。近日華盛頓大學(xué)語言學(xué)家Emily M. Bender為此撰寫了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出其中存在的問題,以及提出對學(xué)習(xí)語言進(jìn)行命名和標(biāo)記的方案。AI科技評論對其文章做如下不改變原意的編譯。

一、高資源語言與低資源語言

自然語言處理(NLP)領(lǐng)域的進(jìn)展取決于語言資源的存在。通常這些資源需要有帶黃金標(biāo)準(zhǔn)(gold standard)的標(biāo)簽或注解來反映NLP系統(tǒng)對當(dāng)前任務(wù)的預(yù)期輸出。無監(jiān)督、弱監(jiān)督、半監(jiān)督或遠(yuǎn)程監(jiān)督等機(jī)器學(xué)習(xí)技術(shù)降低了對標(biāo)記數(shù)據(jù)的依賴性,但即使是使用這些方法,也同樣需要足夠多的標(biāo)記數(shù)據(jù)來評估系統(tǒng)的性能,此外對于數(shù)據(jù)需求量極大的機(jī)器學(xué)習(xí)技術(shù),通常也需要大量未標(biāo)記數(shù)據(jù)的支撐。

這樣的需求導(dǎo)致了在NLP領(lǐng)域中出現(xiàn)了高資源語言和低資源語言的數(shù)字鴻溝。

高資源的語言種類只有幾種,包括英語、漢語、阿拉伯語和法語,或許還可以將德語、葡萄牙語、西班牙語、芬蘭語包括進(jìn)去。這些語言具有大量可訪問的文本和語音資源,以及一些注釋資源如樹圖資料庫(treebank)和評估集。

截止到2019年8月,LRE Map列出了961項英語資源,此外還有美式英語資源121項、德語資源216項、法語資源180項、西班牙語資源130項、漢語資源103項、日語資源103項。其他超過50項資源的語言只有葡萄牙語、意大利語、荷蘭語、標(biāo)準(zhǔn)阿拉伯語和捷克語。世界上另外大約7000種其他的語言則只有極少的資源或沒有。

同樣值得強(qiáng)調(diào)的是,世界各地的研究人員在主要的NLP會議上發(fā)表的大部分研究工作都集中在高資源語言上,且不成比例地集中在英語上。Robert Munro,SebastianMielke和我對NLP領(lǐng)域的幾個主要會議中的語言進(jìn)行了一個調(diào)查,其結(jié)果如下:

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

盡管英語和漢語廣泛被作為第一語言或第二語言使用,但顯然NLP的研究不應(yīng)當(dāng)只是去做這兩種語言的研究。

但很不幸,NLP陷入了一種惡性循環(huán):除英語以外的其他語言研究通常被認(rèn)為是“特殊語言”,因此被認(rèn)為同等情況下不如英語研究重要。 

NLP會議的審稿人經(jīng)常會有這樣一種錯誤的理解:將某一任務(wù)上的最先進(jìn)水平等同于該任務(wù)在英語上取得的最先進(jìn)水平;如果一篇論文不能與之進(jìn)行比較,那他們就無法判斷這個研究是否是“有價值的”。 

這里一個重要的因素是人們潛意識里認(rèn)為英語是一種具有足夠代表性的語言。當(dāng)學(xué)習(xí)的資源是英語時,人們往往不會在名字中顯示“英語”,這更助長了這種誤解。

但英語既不是自然語言的代名詞,也不是自然語言的代表。

二、英語不能代表全部

我最近在Widening NLP 2019大會的演講中做了一個比喻,將NLP比作是一扇濺滿了雨水的窗戶。

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

我們知道NLP是一個跨學(xué)科的領(lǐng)域,不同領(lǐng)域的人所關(guān)注的視角也不相同。從事信息提取工作的人對用數(shù)字化語言編碼的信息感興趣,這就像是人在屋內(nèi)凝視窗外的場景。而從事語言學(xué)工作的人則對語言的結(jié)構(gòu)和模式以及它們與交際意圖的關(guān)系很感興趣,這就類似于想要探究雨滴下來的模式以及它們是如何影響我們看窗外的景色。 

把這個比喻再延伸一點,每一種語言(包括英語)都只是一扇有特定雨滴模式的窗戶,各自都有它自己特有的風(fēng)格。

以下我羅列了一些英語不能代表所有語言的原因,這些原因即使是在四姐上使用最廣泛的語言中也沒有得到廣泛的共享:

1、它是一種口頭語言,而不是符號語言。如果我們只做英語的研究,我們就錯失了一類重要的語言。

2、它有一個完善的、長期使用的、大致是基于發(fā)音拼寫系統(tǒng)(phone-based orthographic system)。

“Phone-based”的意思是字母對應(yīng)于單獨的發(fā)音。英語拼寫法僅近似于這個原理。西班牙語等其他語言,具有基于發(fā)音的拼寫法系統(tǒng)更加透明化,還有一些語言僅代表輔音(例如傳統(tǒng)的希伯來語和阿拉伯語)或具有代表音節(jié)而不是單一聲音的符號(例如馬拉雅拉姆語,韓語或日語假名),或者使用邏輯系統(tǒng)(例如中文,或者借鑒漢字形成的日文;參見Handel 2019)。 當(dāng)然,世界上還有許多語言沒有書面語,或者書面語的歷史較短還沒有發(fā)展出標(biāo)準(zhǔn)的拼寫法。英語拼寫的標(biāo)準(zhǔn)化事實上在很大程度上簡化了NLP的任務(wù),而我們常常沒有意識到這個問題。

3、英語的標(biāo)準(zhǔn)化拼寫法提供了一個成為“word”的概念,不同“word”之間會有一個空格留白。

然而并不是所有語言都有這個特點,例如漢語、日語、泰語等,對于這些語言,它們的NLP任務(wù)都必須從分詞開始。

4、大部分的英語寫作通常只使用在每臺計算機(jī)上都能找到的低位ASCII字符。

在大多數(shù)情況下,當(dāng)使用英語時我們都不用擔(dān)心不常見的字符編碼、不支持的Unicode符號等等。

5、英語的屈折形態(tài)(inflectionalmorphology)相對較少,因此每個單詞的形式比較少。

許多NLP領(lǐng)域的技術(shù)都存在數(shù)據(jù)稀疏的問題,只有當(dāng)同一個詞以多種不同的形式出現(xiàn)在高度變化的語言中時,這種問題才會顯得更加嚴(yán)重。(基于字符n-gram的深度學(xué)習(xí)模型在一定程度上解決了這個問題,但它仍然是英語和世界上許多語言之間的一個重要區(qū)別。) 

6、英語有相對固定的語序。

與世界上許多語言相比,英語在詞序上比較死板,在大多數(shù)情況下都保持主謂賓、形容詞在名詞前面、關(guān)系從句在后等等。如果不對更靈活的詞序語言進(jìn)行測試,我們怎么會知道哪些系統(tǒng)在多大程度上依賴英語的這種特性?

7、英文表單可能會“意外”匹配數(shù)據(jù)庫字段名、本體條目等。

許多語言技術(shù)通過將輸入語言中的字符串映射到外部知識庫或者將這些字符串轉(zhuǎn)換為語法或語義表示從而實現(xiàn)特定任務(wù)的目標(biāo)。當(dāng)輸入的字符串和知識庫中的字段名或條目使用同一種語言時,處理快捷方式就可用了。但是這又能適用于多少種語言呢?

8、英語有大量可用的訓(xùn)練數(shù)據(jù)(比如用來訓(xùn)練BERT的3.3B語言符號)(Devlin et.al,2019)。

如果我們將全部的精力都集中在依賴大量的訓(xùn)練數(shù)據(jù)這種方法上,而這些數(shù)據(jù)卻無法適用于世界上大多數(shù)的語言,我們將如何構(gòu)建適用于其他語言的系統(tǒng)?同樣,如果我們只重視使用這些技術(shù)的工作(例如在會議論文評審中),那么我們怎么可能期待在跨語言NLP上取得進(jìn)展呢? 

三、Bender Rule

2009年,Tim Baldwin和ValiaKordoni在EACL上組織了一個研討會,主題為“語言學(xué)與計算語言學(xué)之間的互動:良性的、惡性的還是空洞的?”(The Interaction between Linguistics andComputational Linguistics: Virtuous, Vicious or Vacuous?)當(dāng)時,機(jī)器學(xué)習(xí)(深度學(xué)習(xí)之前)對NLP來說非常重要。很多人都在討論圍繞NLP的機(jī)器學(xué)習(xí)方法如何能夠更經(jīng)濟(jì),因為它們比以前基于規(guī)則的范式需要投入的語言專家更少。這在當(dāng)時很流行。

在這次會議上有人指出(出現(xiàn)在當(dāng)時部分論文中),不對任何特定語言知識進(jìn)行編碼的NLP系統(tǒng)都是與“語言無關(guān)的”。

我反對這種觀點。我在其中的一個研討會上也發(fā)表了一篇論文,題為《語言幼稚!=語言獨立:為什么NLP需要語言類型學(xué)》(Linguistically Na?ve != Language Independent: Why NLP NeedsLinguistic Typology)。我認(rèn)為如果我們只使用英語(或英語加上一小部分其他語言),我們無法判斷所構(gòu)建的系統(tǒng)是否真正適合于所有語言。僅僅因為沒有直接編碼有關(guān)英語的特定語言知識并不意味著該模型適用于所有的語言。

此外,如果目標(biāo)是語言獨立或跨語言應(yīng)用系統(tǒng),那我們最好充分利用語言知識。特別是,我們應(yīng)該利用語言類型學(xué)領(lǐng)域的研究成果,該領(lǐng)域研究世界上各種語言的變化范圍以及這種變化還存在的局限性。

在Bender 2011(《關(guān)于實現(xiàn)和評估在NLP領(lǐng)域中的語言獨立性》,“On Achieving and Evaluating Language-Independence in NLP”)中,我列出了語言無關(guān)NLP的“dos and don' ts”。它包括了后來被稱為Bender Rule的早期聲明(雷鋒網(wǎng)):

Do – 指明正在學(xué)習(xí)的語言類型,即使它是英語。要明確一點,我們正在研究的是一種特定的語言,這意味著由此開發(fā)的技術(shù)可能只適用于特定的語言。相反,如果不去聲明正在使用的數(shù)據(jù)的語言類型,就會給工作帶來是語言獨立的假象。(Bender 2011:18)

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

然而,直到2019年,這段話才真正流行起來。2018年11月,當(dāng)我在編撰計算語義學(xué)和語用學(xué)的語言資源時,再次遇到這樣頭疼的事情:那些使用英語語料的論文往往沒有說明所討論的語言是英語。于是我發(fā)了如下的推文:

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

2019年3月到5月,Nathan Schneider、Yuval Pinter、Robert Munro、Andrew Caines等人分別提出了“Bender Rule”或“Bender Clauses”。他們的不同之處在于命名所研究語言的方式,作為論文評審人員應(yīng)該詢問研究者研究的是哪種/些語言,或者當(dāng)僅使用一種語言時應(yīng)當(dāng)對所研究系統(tǒng)的語言獨立性持懷疑態(tài)度。最終,BenderRule的聲明合并為簡單的一句話:始終注明你正在使用的語言。

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

在NAACL 2019和ACL 2019及其研討會上,有幾張poster在命名其語言時直接提到了Bender Rule。

這樣的原則似乎是顯而易見的,且很瑣碎。但我很榮幸能以我的名字來命名這個原則。因為我強(qiáng)烈地感覺到NLP領(lǐng)域必須擴(kuò)大范圍,超越英語和少數(shù)幾種精心研究的語言。我相信,除非我們不再把英語當(dāng)作默認(rèn)語言,不再假裝學(xué)習(xí)英語(且只學(xué)習(xí)英語)不是“l(fā)anguage-specific”,否則我們永遠(yuǎn)無法做到這一點。 

四、命名語言只是第一步

 NLP領(lǐng)域開始考慮“為語言命名”使我深受振奮,即便大部分工作使用的顯然還是英語。

但是,隨著NLP領(lǐng)域的人們開始解決NLP技術(shù)所帶來的道德影響以及語言技術(shù)對用戶和旁觀者產(chǎn)生的負(fù)面影響(參見Hovy&Spruit 2016,Speer2017,Grissom II 2019),我們應(yīng)當(dāng)清晰地認(rèn)識到:關(guān)于訓(xùn)練和測試模型所使用的數(shù)據(jù),我們應(yīng)該提供更多信息。

首先是語言之間的差異性:所有語言都在不斷地變化;除了那些使用人數(shù)極少的語言外,一種語言的不同變體之間總是存在著很大的差異。(參見Labov 1966,Eckert和Rickford2001)。這包括不同地域之間的差異,以及不同社會群體和社會身份相關(guān)的差異。針對某一特定人群的語音/文本/標(biāo)志進(jìn)行訓(xùn)練的模型不一定適用于其他人群,即使是在使用相同語言的人群中也是如此。

第二,模型會汲取訓(xùn)練文本中所包含的偏見,而這些偏見則來源于生產(chǎn)文本的人如何認(rèn)識和談?wù)撨@個世界。(參見Bolukbasi et.al 2016,Speer2017)。

為了避免以上兩個問題所帶來的潛在問題,Batya Friedman和我在 ( Bender & Friedman2018) 中提出了“數(shù)據(jù)聲明”的概念,這是一種清晰記錄NLP系統(tǒng)中使用數(shù)據(jù)集的做法。我們建議所有NLP系統(tǒng)都應(yīng)該附帶關(guān)于訓(xùn)練數(shù)據(jù)的詳細(xì)信息,包括所涉及的特定語言種類,選擇數(shù)據(jù)的原理(如何選擇數(shù)據(jù)以及為什么選擇該數(shù)據(jù)),有關(guān)說話者和注釋者的人口統(tǒng)計信息等等。當(dāng)然,僅憑這些信息并不能解決偏見的問題,但它為解決這些問題提供了可能性。

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

頭圖來源(雷鋒網(wǎng)):http://images.wired.it/wp-content/uploads/2014/01/1390576102_language.jpg

原文鏈接:https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

自然語言不等于英語,為什么NLPer應(yīng)當(dāng)認(rèn)識到這個問題,以及該怎么做?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說