丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給陳彩嫻
發(fā)送

0

NLP如此鐘情英語(yǔ)研究真的好嗎?

本文作者: 陳彩嫻 2020-08-06 18:35
導(dǎo)語(yǔ):放棄一棵小樹,選擇一片森林。

NLP如此鐘情英語(yǔ)研究真的好嗎?

全世界有7000多門語(yǔ)言,但自然語(yǔ)言處理(NLP)卻主要研究英語(yǔ)這門語(yǔ)言。來自Deep Mind的科研人員Sebastian Ruder認(rèn)為,當(dāng)下NLP領(lǐng)域集中于開發(fā)能夠有效處理英語(yǔ)的方法,卻忽略了鉆研其他語(yǔ)言的重要性。事實(shí)上,研究英語(yǔ)以外的語(yǔ)言不僅具有重大的社會(huì)意義,還有助于構(gòu)建多語(yǔ)言特征模型,以避免過度擬合和應(yīng)對(duì)機(jī)器學(xué)習(xí)的潛在挑戰(zhàn)。雷鋒網(wǎng)

NLP如此鐘情英語(yǔ)研究真的好嗎?

(在上面的地圖中,一個(gè)綠色圓圈便代表一種本土語(yǔ)言。世界上大多數(shù)語(yǔ)言的使用集中分布在亞洲、非洲、太平洋地區(qū)和美洲地區(qū)。)

在過去的幾年里,NLP的許多任務(wù)取得了振奮人心的進(jìn)步,但大多數(shù)成果只是局限于英語(yǔ)和其他少數(shù)幾門使用較廣泛、數(shù)據(jù)資源豐富的語(yǔ)言,如中文、日語(yǔ)、法語(yǔ)等。作者Sebastian Ruder回顧2019年ACL網(wǎng)站上關(guān)于無監(jiān)督跨語(yǔ)言表示學(xué)習(xí)(Unsupervised Cross-lingual Representation Learning)的發(fā)文,然后基于線上所能獲取的無標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù),總結(jié)出一個(gè)語(yǔ)言數(shù)據(jù)資源等級(jí)體系。這個(gè)體系與2020年由來自微軟研究院的Pratik Joshi等人共同發(fā)表在ACL上的一篇論文“The State and Fate of Linguistic Diversity and Inclusion in the NLP World”里所提到的分類法相似,如下圖所示:雷鋒網(wǎng)

NLP如此鐘情英語(yǔ)研究真的好嗎?

(這是Joshi等人歸納的語(yǔ)言資源分布圖。圓圈的大小和顏色分別表示一個(gè)語(yǔ)系下的語(yǔ)言數(shù)量和使用者數(shù)量。根據(jù)VIBGYOR光譜的排列順序:紫色(Violet)–靛藍(lán)(Indigo)–藍(lán)色(Blue)–綠色(Green)–黃色(Yellow)–橙色(Orange)–紅色(Red),顏色從左到右(從紫色到紅色)表示語(yǔ)言使用者數(shù)量遞增。)

從上圖中,我們可以看到,當(dāng)下NLP文獻(xiàn)對(duì)分布在最右邊的、擁有大量標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)的第5類語(yǔ)言(紅色)和第4類語(yǔ)言(橙色)有充分研究。相比之下,NLP對(duì)其他組別的語(yǔ)言研究十分有限。在本文中,作者將從社會(huì)、語(yǔ)言、機(jī)器學(xué)習(xí)、文化規(guī)范以及認(rèn)知等視角論證NLP為何需要鉆研英語(yǔ)以外的其他語(yǔ)言。雷鋒網(wǎng)


1、社會(huì)方面

如果NLP僅適用于單一標(biāo)準(zhǔn)口音的英語(yǔ)使用者,那么這門技術(shù)便難以普及。

 一個(gè)人所使用的語(yǔ)言決定了其獲取信息、接受教育和建立人際關(guān)系的途徑。雖然我們會(huì)想當(dāng)然地以為互聯(lián)網(wǎng)面向所有人,但在現(xiàn)實(shí)生活中,我們不難發(fā)現(xiàn):互聯(lián)網(wǎng)資訊顯示的語(yǔ)言僅幾百種(連全世界語(yǔ)言種類的15%都不到),主要面向主流語(yǔ)言使用者,這些網(wǎng)民也主要來自西方國(guó)家;相比之下,其他小眾語(yǔ)言使用者能接觸到的數(shù)字信息非常有限。

隨著越來越多門語(yǔ)言出現(xiàn)在聊天app與社交媒體中,主流語(yǔ)言與小眾語(yǔ)言的差距體現(xiàn)在技術(shù)的方方面面:從基礎(chǔ)層面看,數(shù)據(jù)資源匱乏的語(yǔ)言連一個(gè)輔助輸入的鍵盤都沒有,更別提檢查錯(cuò)誤;從更高層面看,NLP的算法偏向于口音標(biāo)準(zhǔn)的英語(yǔ)使用者,對(duì)其他語(yǔ)言使用者和口音不“正宗”的英語(yǔ)使用者則表示出一種“歧視”。

算法“偏心”是一個(gè)不可忽視的問題。現(xiàn)有許多NLP研究將數(shù)據(jù)資源豐富的語(yǔ)言(如英語(yǔ))作為自然語(yǔ)言的同義詞,導(dǎo)致NLP模型處理許多相關(guān)語(yǔ)言子分支(linguistic subcommunities)、方言和口音時(shí)效果較差。Jauhiain在2018年發(fā)表的論文“Automatic Language Identification in Texts: A Survey”里提到,事實(shí)上,語(yǔ)言與語(yǔ)言之間的分界線比我們現(xiàn)在劃分的要模糊,對(duì)相似的語(yǔ)言和方言的識(shí)別仍然是一個(gè)極具挑戰(zhàn)的難題。比方說,雖然意大利語(yǔ)是意大利的官方語(yǔ)言,但整個(gè)意大利所使用的語(yǔ)言和方言大約有34種。

技術(shù)包容性的持續(xù)缺失不僅會(huì)加劇主流語(yǔ)言與小眾語(yǔ)言之間的鴻溝,還可能迫使小眾語(yǔ)言的使用者放棄原有語(yǔ)言的學(xué)習(xí),轉(zhuǎn)而學(xué)習(xí)使用較廣泛的、技術(shù)支持條件更好的語(yǔ)言(如英語(yǔ)),進(jìn)一步危及了語(yǔ)言的多樣性。我們應(yīng)將NLP模型應(yīng)用于英語(yǔ)以外的其他語(yǔ)言,以確保非英語(yǔ)使用者能跟上時(shí)代,消除當(dāng)下NLP領(lǐng)域的語(yǔ)言不平衡現(xiàn)象,以及減少語(yǔ)言和讀寫障礙。


2、語(yǔ)言方面


雖然我們聲稱要開發(fā)通用語(yǔ)言理解方法,但目前我們的方法總體上僅適用于一門語(yǔ)言,即英語(yǔ)。

世界上少數(shù)幾種數(shù)據(jù)資源豐富的語(yǔ)言(包括英語(yǔ))在很多方面都不能代表其他語(yǔ)言。許多資源豐富的語(yǔ)言都屬于印歐語(yǔ)系,主要在西方國(guó)家使用,詞法匱乏。比方說,信息表達(dá)大體上遵循嚴(yán)格的句法結(jié)構(gòu),句子結(jié)構(gòu)有固定的單詞順序、使用多個(gè)詞義獨(dú)立的單詞,而不是從單詞本身的變化來實(shí)現(xiàn)信息傳遞。

這個(gè)問題可以通過觀察不同語(yǔ)言的類型特征來獲得更全面的了解?!妒澜缯Z(yǔ)言結(jié)構(gòu)圖集》(Wolrd Atlas of Language Structure)歸納了192種類型特征,包括語(yǔ)言的結(jié)構(gòu)和語(yǔ)義特征等。比方說,有一種類型特征描述了一門語(yǔ)言中主語(yǔ)、賓語(yǔ)和動(dòng)詞的典型順序。每個(gè)特征平均有5.93個(gè)類別。48%的特征分類僅存在于上文圖表中0–2組的小眾語(yǔ)言中,不適用于3-5組的主流語(yǔ)言。忽略數(shù)量如此大的類別特征,意味著現(xiàn)有NLP模型可能會(huì)錯(cuò)失那些有助于提升模型泛化能力的寶貴信息。

鉆研英語(yǔ)以外的其他語(yǔ)言也許會(huì)幫助我們建立對(duì)不同語(yǔ)言之間的關(guān)系的全新了解。此外,在這個(gè)過程中,我們還能了解在建立NLP模型時(shí)需要捕獲的語(yǔ)言特征。具體而言,就是你可以運(yùn)用你對(duì)一門特定語(yǔ)言的了解,探究這門語(yǔ)言與英語(yǔ)在變音符號(hào)的使用、復(fù)合詞、詞尾的屈折變化、派生詞、重疊詞、沾著語(yǔ)、溶合法等等方面的不同之處。


3、機(jī)器學(xué)習(xí)方面

我們所編碼的模型架構(gòu)反映了我們的假設(shè),而這些模型架構(gòu)往往是基于我們所打算應(yīng)用的數(shù)據(jù)而來。雖然我們希望設(shè)計(jì)出能通用于其他語(yǔ)言的模型,但當(dāng)下NLP模型的許多歸納偏差(inductive biases)僅適用于英語(yǔ)及與之類似的語(yǔ)言。

某些模型中缺乏明確編碼信息,但這并不代表這些信息是與語(yǔ)言無關(guān)的。一個(gè)典型例子是N-Gram語(yǔ)言模型,對(duì)于詞法復(fù)雜、詞序相對(duì)靈活的語(yǔ)言來說,它的表現(xiàn)會(huì)差得多。

同樣地,神經(jīng)網(wǎng)絡(luò)模型常常會(huì)忽略形態(tài)豐富的語(yǔ)言的復(fù)雜性:基于子詞的分詞方法(Subword tokenization)在具有重疊詞的語(yǔ)言上表現(xiàn)不佳,字節(jié)對(duì)編碼(Byte Pair Encoding, BPE)與形態(tài)學(xué)的配合也較差,語(yǔ)言模型也不擅長(zhǎng)處理詞匯量較大的語(yǔ)言。語(yǔ)法、單詞順序和句法構(gòu)造的差異也會(huì)給神經(jīng)模型造成問題。除此之外,我們通常假設(shè)預(yù)訓(xùn)練的嵌入很容易對(duì)所有相關(guān)信息進(jìn)行編碼,但這并不適用于所有語(yǔ)言。

上述問題在單詞與句子方面給建模結(jié)構(gòu)帶來了獨(dú)特挑戰(zhàn),包括多方向處理稀疏性(sparsity)、少樣本學(xué)習(xí)(few-shot learning)、以預(yù)訓(xùn)練的形式對(duì)相關(guān)信息進(jìn)行編碼,以及在相關(guān)語(yǔ)言間進(jìn)行轉(zhuǎn)換等?,F(xiàn)有模型尚無法解決以上難題,因此我們需要一套新的語(yǔ)言感知方法。

新近NLP模型在英語(yǔ)方面應(yīng)用了具有成千上百萬(wàn)示例的標(biāo)注和未標(biāo)注數(shù)據(jù)集,在越來越難的基準(zhǔn)任務(wù)上與人類的表現(xiàn)幾乎不相上下。同時(shí),NLP研究已過度適應(yīng)了英語(yǔ)語(yǔ)言數(shù)據(jù)的特征和條件。尤其是因?yàn)檫^度關(guān)注數(shù)據(jù)資源豐富的語(yǔ)言,我們趨于優(yōu)先選擇在大量標(biāo)注和未標(biāo)注數(shù)據(jù)可用的條件下運(yùn)行良好的研究方法。

這些方法在處理大多數(shù)小眾語(yǔ)言時(shí),由于數(shù)據(jù)資源的匱乏,往往會(huì)出現(xiàn)“癱瘓”狀態(tài)。即便是最近預(yù)訓(xùn)練語(yǔ)言模型有望大幅降低下游任務(wù)的樣本復(fù)雜性,但這也需要大量干凈的、無標(biāo)注數(shù)據(jù),但世界上大部分語(yǔ)言都沒有大量無標(biāo)注數(shù)據(jù)。因此,能否良好處理少量數(shù)據(jù)成為測(cè)試當(dāng)前NLP模型局限性的一個(gè)理想條件,評(píng)估數(shù)據(jù)資源匱乏的語(yǔ)言無疑能產(chǎn)生影響深遠(yuǎn)的、真實(shí)的應(yīng)用。 


4、文化與規(guī)范方面


模型訓(xùn)練所使用的數(shù)據(jù)不僅展示了特定語(yǔ)言的特征,還詮釋了一定的文化規(guī)范和常識(shí)。

然而,在不同文化里,一些常識(shí)也可能有所不同。例如,“免費(fèi)”商品指的是任何人都可以在未經(jīng)許可的情況下使用的商品(如餐館里的鹽),但“免費(fèi)”和“非免費(fèi)”的概念在不同的文化中也會(huì)有不同的表現(xiàn)。不同文化里對(duì)禁忌話題的定義略有不同,甚至對(duì)相對(duì)權(quán)力和社交距離的評(píng)估也有一些差異。另外,許多現(xiàn)實(shí)情景(如COPA數(shù)據(jù)集所包含的情景)與許多直接經(jīng)驗(yàn)并不匹配,也沒能將許多眾所周知的背景知識(shí)平等地反映出來。

因此,僅接觸主要源自西方國(guó)家的英語(yǔ)數(shù)據(jù)的智能體也許能與來自西方國(guó)家的談話者進(jìn)行合理交談,但與來自不同文化背景的人交談時(shí)則可能出現(xiàn)溝通障礙。

除了文化規(guī)范和常識(shí)知識(shí)以外,我們訓(xùn)練模型所依據(jù)的數(shù)據(jù)還反映了潛在社會(huì)的價(jià)值。作為NLP研究人員或從業(yè)人員,我們必須詢問自己:我們是否希望我們的NLP系統(tǒng)排他地傳遞特定某個(gè)國(guó)家或語(yǔ)言社區(qū)的價(jià)值觀。

雖然這個(gè)問題對(duì)于當(dāng)前主要處理諸如文本分類之類的簡(jiǎn)單任務(wù)的NLP系統(tǒng)而言并不那么重要,但隨著系統(tǒng)變得越來越智能、并需要處理復(fù)雜的決策任務(wù),該問題的決定將變得越來越重要。


5、認(rèn)知方面


人類幼童能夠?qū)W習(xí)任何自然語(yǔ)言,而且他們的語(yǔ)言理解能力還能應(yīng)用于各種語(yǔ)言。為了獲取人類級(jí)別的語(yǔ)言理解能力,NLP模型應(yīng)該有理解不同語(yǔ)言派系和類型的能力。

NLP模型最終應(yīng)能學(xué)習(xí)不局限于任何一種語(yǔ)言結(jié)構(gòu)、還能泛化到特征不同的語(yǔ)言的抽象概念。


 6、解決之道

1)建立數(shù)據(jù)集

如果要?jiǎng)?chuàng)建一個(gè)新的數(shù)據(jù)集,應(yīng)該預(yù)留出一半注解用于創(chuàng)建另一門語(yǔ)言的大小相同的數(shù)據(jù)集。

2)評(píng)估

如果您對(duì)某項(xiàng)特定任務(wù)感興趣,可以考慮用不同語(yǔ)言在同一個(gè)任務(wù)上進(jìn)行模型評(píng)估。

3)Bender Rule

標(biāo)明你所研究的語(yǔ)言。

4)假設(shè)

明確說明你的模型所使用的信號(hào)及其作出的假設(shè)。想好哪門語(yǔ)言是你特地學(xué)的,哪門語(yǔ)言是籠統(tǒng)學(xué)習(xí)的。

5)語(yǔ)言多樣性

估算你正在研究的語(yǔ)言樣本的多樣性。

6)研究

鉆研那些能解決數(shù)據(jù)資源匱乏的語(yǔ)言難題的方法。 


相關(guān)參考論文:

Cross-Cultural Pragmatic Failure (1983), https://academic.oup.com/applij/article-abstract/4/2/91/167524?redirectedFrom=fulltext

On Achieving and Evaluating Language-Independence in NLP (2011), https://journals.linguisticsociety.org/elanguage/lilt/article/view/2624.html

Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning (2011), https://ict.usc.edu/pubs/Choice%20of%20Plausible%20Alternatives-%20An%20Evaluation%20of%20Commonsense%20Causal%20Reasoning.pdf

Keyboard layouts: Lessons from the me'phaa and sochiapam Chinantec designs (2014), https://www.researchgate.net/publication/290279777_Keyboard_layouts_Lessons_from_the_me'phaa_and_sochiapam_Chinantec_designs

Demographic Dialectal Variation in Social Media: A Case Study of African-American English (2016), https://www.aclweb.org/anthology/D16-1120/

From Characters to Words to in Between: Do We Capture Morphology? (2017), https://arxiv.org/abs/1704.08352

The DLDP Survey on Digital Use and Usability of EU Regional and Minority Languages (2018), https://www.aclweb.org/anthology/L18-1656/

Automatic Language Identification in Texts: A Survey (2018), https://arxiv.org/abs/1804.08186

Can LSTM Learn to Capture Agreement? The Case of Basque (2018), https://www.aclweb.org/anthology/W18-5412/

Deep Contextualized Word Representations (2018), https://www.aclweb.org/anthology/N18-1202/

Universal Language Model Fine-tuning for Text Classification (2018), https://www.aclweb.org/anthology/P18-1031.pdf

What Kind of Language Is Hard to Language-Model? (2019), https://www.aclweb.org/anthology/P19-1491/

On Difficulties of Cross-Lingual Transfer with Order Differences: A Case Study on Dependency Parsing (2019), https://www.aclweb.org/anthology/N19-1253.pdf

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019), https://www.aclweb.org/anthology/N19-1423/

The State and Fate of Linguistic Diversity and Inclusion in the NLP World (2020), https://arxiv.org/abs/2004.09095

A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/

From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)? (2020), https://www.aclweb.org/anthology/2020.acl-main.660.pdf

Byte Pair Encoding is Suboptimal for Language Model Pretraining (2020), https://arxiv.org/abs/2004.03720

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization (2020), https://arxiv.org/abs/2003.11080

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020), https://openreview.net/forum?id=r1xMH1BtvB

A Call for More Rigor in Unsupervised Cross-lingual Learning (2020), https://www.aclweb.org/anthology/2020.acl-main.658/

XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning (2020), https://arxiv.org/abs/2005.00333

via: https://ruder.io/nlp-beyond-english/



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NLP如此鐘情英語(yǔ)研究真的好嗎?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說