0
全世界有7000多門語言,但自然語言處理(NLP)卻主要研究英語這門語言。來自Deep Mind的科研人員Sebastian Ruder認(rèn)為,當(dāng)下NLP領(lǐng)域集中于開發(fā)能夠有效處理英語的方法,卻忽略了鉆研其他語言的重要性。事實上,研究英語以外的語言不僅具有重大的社會意義,還有助于構(gòu)建多語言特征模型,以避免過度擬合和應(yīng)對機(jī)器學(xué)習(xí)的潛在挑戰(zhàn)。雷鋒網(wǎng)
(在上面的地圖中,一個綠色圓圈便代表一種本土語言。世界上大多數(shù)語言的使用集中分布在亞洲、非洲、太平洋地區(qū)和美洲地區(qū)。)
在過去的幾年里,NLP的許多任務(wù)取得了振奮人心的進(jìn)步,但大多數(shù)成果只是局限于英語和其他少數(shù)幾門使用較廣泛、數(shù)據(jù)資源豐富的語言,如中文、日語、法語等。作者Sebastian Ruder回顧2019年ACL網(wǎng)站上關(guān)于無監(jiān)督跨語言表示學(xué)習(xí)(Unsupervised Cross-lingual Representation Learning)的發(fā)文,然后基于線上所能獲取的無標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù),總結(jié)出一個語言數(shù)據(jù)資源等級體系。這個體系與2020年由來自微軟研究院的Pratik Joshi等人共同發(fā)表在ACL上的一篇論文“The State and Fate of Linguistic Diversity and Inclusion in the NLP World”里所提到的分類法相似,如下圖所示:雷鋒網(wǎng)
(這是Joshi等人歸納的語言資源分布圖。圓圈的大小和顏色分別表示一個語系下的語言數(shù)量和使用者數(shù)量。根據(jù)VIBGYOR光譜的排列順序:紫色(Violet)–靛藍(lán)(Indigo)–藍(lán)色(Blue)–綠色(Green)–黃色(Yellow)–橙色(Orange)–紅色(Red),顏色從左到右(從紫色到紅色)表示語言使用者數(shù)量遞增。)
從上圖中,我們可以看到,當(dāng)下NLP文獻(xiàn)對分布在最右邊的、擁有大量標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)的第5類語言(紅色)和第4類語言(橙色)有充分研究。相比之下,NLP對其他組別的語言研究十分有限。在本文中,作者將從社會、語言、機(jī)器學(xué)習(xí)、文化規(guī)范以及認(rèn)知等視角論證NLP為何需要鉆研英語以外的其他語言。雷鋒網(wǎng)
1、社會方面
如果NLP僅適用于單一標(biāo)準(zhǔn)口音的英語使用者,那么這門技術(shù)便難以普及。
一個人所使用的語言決定了其獲取信息、接受教育和建立人際關(guān)系的途徑。雖然我們會想當(dāng)然地以為互聯(lián)網(wǎng)面向所有人,但在現(xiàn)實生活中,我們不難發(fā)現(xiàn):互聯(lián)網(wǎng)資訊顯示的語言僅幾百種(連全世界語言種類的15%都不到),主要面向主流語言使用者,這些網(wǎng)民也主要來自西方國家;相比之下,其他小眾語言使用者能接觸到的數(shù)字信息非常有限。
隨著越來越多門語言出現(xiàn)在聊天app與社交媒體中,主流語言與小眾語言的差距體現(xiàn)在技術(shù)的方方面面:從基礎(chǔ)層面看,數(shù)據(jù)資源匱乏的語言連一個輔助輸入的鍵盤都沒有,更別提檢查錯誤;從更高層面看,NLP的算法偏向于口音標(biāo)準(zhǔn)的英語使用者,對其他語言使用者和口音不“正宗”的英語使用者則表示出一種“歧視”。
算法“偏心”是一個不可忽視的問題。現(xiàn)有許多NLP研究將數(shù)據(jù)資源豐富的語言(如英語)作為自然語言的同義詞,導(dǎo)致NLP模型處理許多相關(guān)語言子分支(linguistic subcommunities)、方言和口音時效果較差。Jauhiain在2018年發(fā)表的論文“Automatic Language Identification in Texts: A Survey”里提到,事實上,語言與語言之間的分界線比我們現(xiàn)在劃分的要模糊,對相似的語言和方言的識別仍然是一個極具挑戰(zhàn)的難題。比方說,雖然意大利語是意大利的官方語言,但整個意大利所使用的語言和方言大約有34種。
技術(shù)包容性的持續(xù)缺失不僅會加劇主流語言與小眾語言之間的鴻溝,還可能迫使小眾語言的使用者放棄原有語言的學(xué)習(xí),轉(zhuǎn)而學(xué)習(xí)使用較廣泛的、技術(shù)支持條件更好的語言(如英語),進(jìn)一步危及了語言的多樣性。我們應(yīng)將NLP模型應(yīng)用于英語以外的其他語言,以確保非英語使用者能跟上時代,消除當(dāng)下NLP領(lǐng)域的語言不平衡現(xiàn)象,以及減少語言和讀寫障礙。
2、語言方面
雖然我們聲稱要開發(fā)通用語言理解方法,但目前我們的方法總體上僅適用于一門語言,即英語。
世界上少數(shù)幾種數(shù)據(jù)資源豐富的語言(包括英語)在很多方面都不能代表其他語言。許多資源豐富的語言都屬于印歐語系,主要在西方國家使用,詞法匱乏。比方說,信息表達(dá)大體上遵循嚴(yán)格的句法結(jié)構(gòu),句子結(jié)構(gòu)有固定的單詞順序、使用多個詞義獨(dú)立的單詞,而不是從單詞本身的變化來實現(xiàn)信息傳遞。
這個問題可以通過觀察不同語言的類型特征來獲得更全面的了解?!妒澜缯Z言結(jié)構(gòu)圖集》(Wolrd Atlas of Language Structure)歸納了192種類型特征,包括語言的結(jié)構(gòu)和語義特征等。比方說,有一種類型特征描述了一門語言中主語、賓語和動詞的典型順序。每個特征平均有5.93個類別。48%的特征分類僅存在于上文圖表中0–2組的小眾語言中,不適用于3-5組的主流語言。忽略數(shù)量如此大的類別特征,意味著現(xiàn)有NLP模型可能會錯失那些有助于提升模型泛化能力的寶貴信息。
鉆研英語以外的其他語言也許會幫助我們建立對不同語言之間的關(guān)系的全新了解。此外,在這個過程中,我們還能了解在建立NLP模型時需要捕獲的語言特征。具體而言,就是你可以運(yùn)用你對一門特定語言的了解,探究這門語言與英語在變音符號的使用、復(fù)合詞、詞尾的屈折變化、派生詞、重疊詞、沾著語、溶合法等等方面的不同之處。
3、機(jī)器學(xué)習(xí)方面
我們所編碼的模型架構(gòu)反映了我們的假設(shè),而這些模型架構(gòu)往往是基于我們所打算應(yīng)用的數(shù)據(jù)而來。雖然我們希望設(shè)計出能通用于其他語言的模型,但當(dāng)下NLP模型的許多歸納偏差(inductive biases)僅適用于英語及與之類似的語言。
某些模型中缺乏明確編碼信息,但這并不代表這些信息是與語言無關(guān)的。一個典型例子是N-Gram語言模型,對于詞法復(fù)雜、詞序相對靈活的語言來說,它的表現(xiàn)會差得多。
同樣地,神經(jīng)網(wǎng)絡(luò)模型常常會忽略形態(tài)豐富的語言的復(fù)雜性:基于子詞的分詞方法(Subword tokenization)在具有重疊詞的語言上表現(xiàn)不佳,字節(jié)對編碼(Byte Pair Encoding, BPE)與形態(tài)學(xué)的配合也較差,語言模型也不擅長處理詞匯量較大的語言。語法、單詞順序和句法構(gòu)造的差異也會給神經(jīng)模型造成問題。除此之外,我們通常假設(shè)預(yù)訓(xùn)練的嵌入很容易對所有相關(guān)信息進(jìn)行編碼,但這并不適用于所有語言。
上述問題在單詞與句子方面給建模結(jié)構(gòu)帶來了獨(dú)特挑戰(zhàn),包括多方向處理稀疏性(sparsity)、少樣本學(xué)習(xí)(few-shot learning)、以預(yù)訓(xùn)練的形式對相關(guān)信息進(jìn)行編碼,以及在相關(guān)語言間進(jìn)行轉(zhuǎn)換等?,F(xiàn)有模型尚無法解決以上難題,因此我們需要一套新的語言感知方法。
新近NLP模型在英語方面應(yīng)用了具有成千上百萬示例的標(biāo)注和未標(biāo)注數(shù)據(jù)集,在越來越難的基準(zhǔn)任務(wù)上與人類的表現(xiàn)幾乎不相上下。同時,NLP研究已過度適應(yīng)了英語語言數(shù)據(jù)的特征和條件。尤其是因為過度關(guān)注數(shù)據(jù)資源豐富的語言,我們趨于優(yōu)先選擇在大量標(biāo)注和未標(biāo)注數(shù)據(jù)可用的條件下運(yùn)行良好的研究方法。
這些方法在處理大多數(shù)小眾語言時,由于數(shù)據(jù)資源的匱乏,往往會出現(xiàn)“癱瘓”狀態(tài)。即便是最近預(yù)訓(xùn)練語言模型有望大幅降低下游任務(wù)的樣本復(fù)雜性,但這也需要大量干凈的、無標(biāo)注數(shù)據(jù),但世界上大部分語言都沒有大量無標(biāo)注數(shù)據(jù)。因此,能否良好處理少量數(shù)據(jù)成為測試當(dāng)前NLP模型局限性的一個理想條件,評估數(shù)據(jù)資源匱乏的語言無疑能產(chǎn)生影響深遠(yuǎn)的、真實的應(yīng)用。
4、文化與規(guī)范方面
模型訓(xùn)練所使用的數(shù)據(jù)不僅展示了特定語言的特征,還詮釋了一定的文化規(guī)范和常識。
然而,在不同文化里,一些常識也可能有所不同。例如,“免費(fèi)”商品指的是任何人都可以在未經(jīng)許可的情況下使用的商品(如餐館里的鹽),但“免費(fèi)”和“非免費(fèi)”的概念在不同的文化中也會有不同的表現(xiàn)。不同文化里對禁忌話題的定義略有不同,甚至對相對權(quán)力和社交距離的評估也有一些差異。另外,許多現(xiàn)實情景(如COPA數(shù)據(jù)集所包含的情景)與許多直接經(jīng)驗并不匹配,也沒能將許多眾所周知的背景知識平等地反映出來。
因此,僅接觸主要源自西方國家的英語數(shù)據(jù)的智能體也許能與來自西方國家的談話者進(jìn)行合理交談,但與來自不同文化背景的人交談時則可能出現(xiàn)溝通障礙。
除了文化規(guī)范和常識知識以外,我們訓(xùn)練模型所依據(jù)的數(shù)據(jù)還反映了潛在社會的價值。作為NLP研究人員或從業(yè)人員,我們必須詢問自己:我們是否希望我們的NLP系統(tǒng)排他地傳遞特定某個國家或語言社區(qū)的價值觀。
雖然這個問題對于當(dāng)前主要處理諸如文本分類之類的簡單任務(wù)的NLP系統(tǒng)而言并不那么重要,但隨著系統(tǒng)變得越來越智能、并需要處理復(fù)雜的決策任務(wù),該問題的決定將變得越來越重要。
5、認(rèn)知方面
人類幼童能夠?qū)W習(xí)任何自然語言,而且他們的語言理解能力還能應(yīng)用于各種語言。為了獲取人類級別的語言理解能力,NLP模型應(yīng)該有理解不同語言派系和類型的能力。
NLP模型最終應(yīng)能學(xué)習(xí)不局限于任何一種語言結(jié)構(gòu)、還能泛化到特征不同的語言的抽象概念。
6、解決之道
1)建立數(shù)據(jù)集
如果要創(chuàng)建一個新的數(shù)據(jù)集,應(yīng)該預(yù)留出一半注解用于創(chuàng)建另一門語言的大小相同的數(shù)據(jù)集。
2)評估
如果您對某項特定任務(wù)感興趣,可以考慮用不同語言在同一個任務(wù)上進(jìn)行模型評估。
3)Bender Rule
標(biāo)明你所研究的語言。
4)假設(shè)
明確說明你的模型所使用的信號及其作出的假設(shè)。想好哪門語言是你特地學(xué)的,哪門語言是籠統(tǒng)學(xué)習(xí)的。
5)語言多樣性
估算你正在研究的語言樣本的多樣性。
6)研究
鉆研那些能解決數(shù)據(jù)資源匱乏的語言難題的方法。
相關(guān)參考論文:
Cross-Cultural Pragmatic Failure (1983), https://academic.oup.com/applij/article-abstract/4/2/91/167524?redirectedFrom=fulltext
On Achieving and Evaluating Language-Independence in NLP (2011), https://journals.linguisticsociety.org/elanguage/lilt/article/view/2624.html
Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning (2011), https://ict.usc.edu/pubs/Choice%20of%20Plausible%20Alternatives-%20An%20Evaluation%20of%20Commonsense%20Causal%20Reasoning.pdf
Keyboard layouts: Lessons from the me'phaa and sochiapam Chinantec designs (2014), https://www.researchgate.net/publication/290279777_Keyboard_layouts_Lessons_from_the_me'phaa_and_sochiapam_Chinantec_designs
Demographic Dialectal Variation in Social Media: A Case Study of African-American English (2016), https://www.aclweb.org/anthology/D16-1120/
From Characters to Words to in Between: Do We Capture Morphology? (2017), https://arxiv.org/abs/1704.08352
The DLDP Survey on Digital Use and Usability of EU Regional and Minority Languages (2018), https://www.aclweb.org/anthology/L18-1656/
Automatic Language Identification in Texts: A Survey (2018), https://arxiv.org/abs/1804.08186
Can LSTM Learn to Capture Agreement? The Case of Basque (2018), https://www.aclweb.org/anthology/W18-5412/
Deep Contextualized Word Representations (2018), https://www.aclweb.org/anthology/N18-1202/
Universal Language Model Fine-tuning for Text Classification (2018), https://www.aclweb.org/anthology/P18-1031.pdf
What Kind of Language Is Hard to Language-Model? (2019), https://www.aclweb.org/anthology/P19-1491/
On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing (2019), https://www.aclweb.org/anthology/N19-1253.pdf
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019), https://www.aclweb.org/anthology/N19-1423/
The State and Fate of Linguistic Diversity and Inclusion in the NLP World (2020), https://arxiv.org/abs/2004.09095
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)? (2020), https://www.aclweb.org/anthology/2020.acl-main.660.pdf
Byte Pair Encoding is Suboptimal for Language Model Pretraining (2020), https://arxiv.org/abs/2004.03720
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization (2020), https://arxiv.org/abs/2003.11080
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020), https://openreview.net/forum?id=r1xMH1BtvB
A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning (2020), https://arxiv.org/abs/2005.00333
via: https://ruder.io/nlp-beyond-english/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。