0
本文作者: MrBear | 編輯:楊曉凡 | 2018-08-21 00:35 | 專(zhuān)題:ACL 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:本篇屬于「頂會(huì)見(jiàn)聞系列」。每年這么多精彩的人工智能/機(jī)器學(xué)習(xí)會(huì)議,沒(méi)去現(xiàn)場(chǎng)的自然可惜,在現(xiàn)場(chǎng)的也容易看花眼。那么事后看看別的研究員的見(jiàn)聞總結(jié),也許會(huì)有新的收獲呢。
Sebastian Ruder 是 Data Analytics 的 Insight 研究中心的在讀博士生,也是 AYLIEN 的研究科學(xué)家。在此之前他曾在微軟、IBM 深藍(lán)以及谷歌代碼夏令營(yíng)工作。他的主要研究興趣是用于領(lǐng)域適配的深度學(xué)習(xí)。這篇文章由 Sebastian Ruder 發(fā)表在 AYLIEN 博客,是一篇深入、全面的 ACL 2018 會(huì)議論文研究亮點(diǎn)回顧。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。
今年 7 月15 日至 20日,我有幸參加了于澳大利亞·墨爾本舉辦的第 56 屆計(jì)算機(jī)語(yǔ)言學(xué)年會(huì),即 ACL 2018,并且發(fā)表了三篇論文(http://arxiv.org/abs/1804.09530,http://arxiv.org/abs/1801.06146,http://arxiv.org/abs/1805.03620 )。想要將整個(gè) ACL 2018 的內(nèi)容歸納在一個(gè)主題下無(wú)異于異想天開(kāi)。然而,細(xì)細(xì)品味一下,還是能明顯地看出一些重要的議題。在 2015 和 2016 年的自然語(yǔ)言領(lǐng)域的學(xué)術(shù)會(huì)議中,詞嵌入技術(shù)可謂一統(tǒng)天下。那時(shí)許多人甚至認(rèn)為,與其將 EMNLP(自然語(yǔ)言處理領(lǐng)域的頂會(huì)之一)解釋為「自然語(yǔ)言處理實(shí)證方法(Empirical Methods in Natural Language Processing)」還不如將其解釋為「自然語(yǔ)言處理嵌入方法(Embedding Methods in Natural Language Processing)」。
斯坦福大學(xué) NLP 掌門(mén)人 Christopher Manning 曾在一次演講中提到,2017 年是 BiLSTM+attention 之年(帶有注意力機(jī)制的雙向 LSTM)。盡管帶有注意力機(jī)制的 BiLSTM 仍然無(wú)處不在,但在我看來(lái),這項(xiàng)大會(huì)的主要內(nèi)容還是在于更好地了解這些模型捕獲的表征并在更具挑戰(zhàn)的環(huán)境中采用這些表征。我關(guān)注的主要是涉及到以上主題的工作,也會(huì)討論一些其他我感興趣的主題。
探測(cè)模型
令人耳目一新的是,許多論文對(duì)現(xiàn)有的模型以及它們所捕獲到的信息進(jìn)行了翔實(shí)的分析,而不是繼續(xù)引入看上去更炫酷的新模型。目前,要做到這一點(diǎn)最常見(jiàn)的做法是自動(dòng)創(chuàng)建一個(gè)數(shù)據(jù)集,它側(cè)重于泛化能力的某一個(gè)方面,然后在這個(gè)數(shù)據(jù)集中評(píng)估不同的訓(xùn)練過(guò)的模型:
例如,Conneau 等人(http://arxiv.org/abs/1805.01070)在 10 個(gè)數(shù)據(jù)集上評(píng)估不同的句子嵌入方法,這些數(shù)據(jù)集的設(shè)計(jì)旨在捕捉某些特定的語(yǔ)言學(xué)特征,比如預(yù)測(cè)一個(gè)句子的長(zhǎng)度、恢復(fù)單詞的內(nèi)容、對(duì)二元轉(zhuǎn)換的敏感性等。他們發(fā)現(xiàn),不同的編碼器結(jié)構(gòu)可能導(dǎo)致嵌入具有不同的特性,而且相比于其他任務(wù)中的結(jié)果,嵌入袋(bag-of-embeddings)捕獲句子級(jí)別信息的能力的出乎意料地好。
Zhu 等人(http://aclweb.org/anthology/P18-2100)通過(guò)觀察從某些語(yǔ)義或者語(yǔ)法不同的句子中生成的三元組的相似性的變化來(lái)評(píng)估句子嵌入。他們發(fā)現(xiàn),在眾多發(fā)現(xiàn)中, SkipThought 和 InferSent 能將否定詞和同義詞進(jìn)行區(qū)分的特性尤為突出,同時(shí) InferSent 更擅長(zhǎng)識(shí)別等價(jià)語(yǔ)義以及識(shí)別量詞。
Pezzelle 等人(http://arxiv.org/abs/1806.00354)專(zhuān)門(mén)研究了量詞,他們對(duì)不同的 CNN 和LSTM 模型預(yù)測(cè)單句和多句語(yǔ)境中的量詞的能力進(jìn)行了測(cè)試。他們發(fā)現(xiàn),在單句語(yǔ)境中,模型比人類(lèi)更勝一籌,而人類(lèi)在多句語(yǔ)境中的表現(xiàn)略好一些。
Kuncoro 等人(http://aclweb.org/anthology/P18-1132)評(píng)估了 LSTM 基于主謂一致規(guī)則建模的能力。他們發(fā)現(xiàn),只要容量足夠,LSTM 能夠?qū)χ髦^一致性建模,但是像語(yǔ)法 RNN (recurrent neural network grammars,https://arxiv.org/abs/1602.07776)這樣的對(duì)于句法更敏感的模型的表現(xiàn)更好。
Blevins 等人(http://arxiv.org/abs/1805.04218)評(píng)估了為不同的任務(wù)進(jìn)行過(guò)預(yù)訓(xùn)練的模型,查看它們是否能夠捕獲語(yǔ)法的層次結(jié)構(gòu)。具體而言,他們訓(xùn)練了用于預(yù)測(cè)詞性標(biāo)注以及解析樹(shù)不同深度所組成的標(biāo)簽。它們發(fā)現(xiàn)所有的模型實(shí)際上都能夠編碼大量的語(yǔ)法信息,尤其是語(yǔ)言模型還能夠?qū)W到了一些語(yǔ)法。
在Lau 等人(http://arxiv.org/abs/1807.03491)的努力下,他們得到了一個(gè)與語(yǔ)言模型的泛化能力相關(guān)的有趣的結(jié)果:用十四行詩(shī)的語(yǔ)料庫(kù)訓(xùn)練出來(lái)的語(yǔ)言模型可以學(xué)到與人類(lèi)水平相當(dāng)?shù)母衤伞?/p>
然而,語(yǔ)言模型也存在著其局限性。Spithourakis 和 Riedel (https://arxiv.org/abs/1805.08154 )發(fā)現(xiàn)語(yǔ)言模型對(duì)數(shù)字建模的能力很差,他們針對(duì)這個(gè)問(wèn)題提出了一些對(duì)語(yǔ)言模型進(jìn)行改進(jìn)的策略。
Liu 等人(http://arxiv.org/abs/1805.11653)在 Relp4NLP workshop上演示了,用自然語(yǔ)言數(shù)據(jù)訓(xùn)練的 LSTM 網(wǎng)絡(luò)可以比用非自然語(yǔ)言數(shù)據(jù)訓(xùn)練的模型從更長(zhǎng)的序列中召回單詞。
值得特別注意的是,我認(rèn)為更好地了解 LSTM 網(wǎng)絡(luò)以及語(yǔ)言模型建模了哪些信息越來(lái)越重要,因?yàn)檫@似乎是 NLP 領(lǐng)域的研究不斷前進(jìn)的一項(xiàng)重要推動(dòng)力,正如我們關(guān)于語(yǔ)言模型微調(diào)的 ACL 2018 論文(http://arxiv.org/abs/1801.06146)以及這篇講 NLP 領(lǐng)域的 ImageNet 時(shí)代已經(jīng)到來(lái)的文章討論的那樣。
理解目前最先進(jìn)的模型
盡管上面提到的研究工作都是試圖了解某個(gè)特定的模型類(lèi)別的泛化能力的某個(gè)層面,本屆 ACL 還有一些論文著眼于更好地理解目前用于特定任務(wù)的最好的模型:
Glockner 等人(http://arxiv.org/abs/1805.02266)著眼于自然語(yǔ)言推理的任務(wù)。他們創(chuàng)建了一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集中的句子與訓(xùn)練數(shù)據(jù)中的句子最多只有一個(gè)單詞不同,這樣做是為了測(cè)試模型是否可以進(jìn)行簡(jiǎn)單的詞匯推斷。他們發(fā)現(xiàn)當(dāng)前最佳的模型無(wú)法完成許多簡(jiǎn)單的推斷工作。
Mudrkarta 等人(https://arxiv.org/abs/1805.05492)對(duì)當(dāng)前最頂級(jí)的 QA 模型進(jìn)行了跨模態(tài)分析,發(fā)現(xiàn)這些模型常常會(huì)忽略關(guān)鍵發(fā)問(wèn)詞。接著,他們對(duì)問(wèn)題進(jìn)行了擾動(dòng)處理,以制造可以大大降低模型準(zhǔn)確率的對(duì)抗樣本。
我發(fā)現(xiàn)許多論文對(duì)模型的不同層面進(jìn)行了探索。我希望這些新出現(xiàn)的數(shù)據(jù)集可以成為每位自然語(yǔ)言處理研究人員工具包中的標(biāo)準(zhǔn)工具。這樣一來(lái),我們不僅可以在未來(lái)看到更多這樣的論文,而且這樣的分析也可能成為除誤差分析和模型簡(jiǎn)化測(cè)試以外標(biāo)準(zhǔn)模型評(píng)估的一部分。
分析歸納偏倚
另一種更好地了解一個(gè)模型的方式是分析模型的歸納偏倚。自然語(yǔ)言處理神經(jīng)架構(gòu)的語(yǔ)言結(jié)構(gòu)相關(guān)性 workshop(RELSNNLP workshop)試著探究將語(yǔ)言結(jié)構(gòu)融入模型有多大的作用。Chris Dyer 在 workshop 上的發(fā)言的重點(diǎn)之一是:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)自然語(yǔ)言處理(NLP)是否具備有用的歸納偏倚。特別是,他認(rèn)為有幾條明顯的證據(jù)可以證明 RNN 更偏向于順序近因效應(yīng),即:
隨著時(shí)間的推移,梯度會(huì)逐漸衰減。LSTM 或 GRU 可能會(huì)幫助我們減緩這種趨勢(shì),但它們也會(huì)遺忘掉梯度的信息。
人們?cè)谟?xùn)練機(jī)器翻譯模型時(shí)會(huì)使用反轉(zhuǎn)輸入序列這樣的訓(xùn)練機(jī)制。
人們使用類(lèi)似注意力機(jī)制的增強(qiáng)功能與時(shí)間上更早期的內(nèi)容建立直接的聯(lián)系。
針對(duì)主謂一致建模,誤差率會(huì)隨著吸引子的增加而增加(http://arxiv.org/abs/1611.01368)。
據(jù) Chomsky 所言,順序近因效應(yīng)并不是學(xué)習(xí)人類(lèi)語(yǔ)言的正確偏倚,因此就語(yǔ)言建模任務(wù)而言,RNN 網(wǎng)絡(luò)帶有的偏倚似乎并不是很合適。這樣的做法在實(shí)踐中就可能會(huì)導(dǎo)致統(tǒng)計(jì)意義上的效率低和以及泛化能力差的問(wèn)題。語(yǔ)法 RNN (http://arxiv.org/abs/1602.07776)是一類(lèi)通過(guò)將句子壓縮成其成分來(lái)順序生成一個(gè)樹(shù)結(jié)構(gòu)以及一個(gè)序列的模型,而不是對(duì)句法(而非順序)近因有偏倚。
然而,要確定模型是否具有有用的歸納偏倚通常是很難的。為了識(shí)別出主謂一致關(guān)系,Chris 假設(shè) LSTM 語(yǔ)言模型學(xué)習(xí)到了一種非結(jié)構(gòu)性的「第一名詞」啟發(fā)式,它依賴(lài)于將動(dòng)詞與句子中的第一個(gè)名詞相匹配。通常來(lái)說(shuō),困惑度(以及其他評(píng)價(jià)指標(biāo))與句法能力或結(jié)構(gòu)能力相關(guān)。然而,在從使用更簡(jiǎn)單的啟發(fā)式的模型中區(qū)分出結(jié)構(gòu)敏感的模型時(shí),困惑度則并不是特別敏感。
使用深度學(xué)習(xí)技術(shù)理解語(yǔ)言
Mark Johnson 在 workshop 的演講中提到,盡管深度學(xué)習(xí)為自然語(yǔ)言處理帶來(lái)了很大程度的革命,但它的主要的好處還在于其經(jīng)濟(jì)性:用端到端模型代替了對(duì)成分復(fù)雜的處理流程,往往可以更快、更容易地實(shí)現(xiàn)目標(biāo)準(zhǔn)確性。深度學(xué)習(xí)并未改變我們對(duì)語(yǔ)言的理解,從這個(gè)意義上說(shuō),深度學(xué)習(xí)主要的貢獻(xiàn)在于證明神經(jīng)網(wǎng)絡(luò)(或者說(shuō)這種計(jì)算模型)可以執(zhí)行某些自然語(yǔ)言處理任務(wù),這也表明這些任務(wù)并不是智能的指標(biāo)。雖然深度學(xué)習(xí)方法可以很好地對(duì)匹配和執(zhí)行感知任務(wù)進(jìn)行建模,但對(duì)于依賴(lài)于有意識(shí)的反應(yīng)和思考的任務(wù),它們的表現(xiàn)仍然差強(qiáng)人意。
引入語(yǔ)言結(jié)構(gòu)
Jason Eisner 在演講中對(duì)「語(yǔ)言結(jié)構(gòu)和類(lèi)別是否真的存在」這一問(wèn)題提出質(zhì)疑:是真的存在結(jié)構(gòu)和類(lèi)別,還是只不過(guò)「科學(xué)家們就是喜歡把數(shù)據(jù)分成堆」,因?yàn)椴豢紤]語(yǔ)言結(jié)構(gòu)的方法在機(jī)器學(xué)習(xí)任務(wù)中也可以表現(xiàn)得驚人的好。他發(fā)現(xiàn)即使是像音素「/b/」和音素「/p/」之間的差異這樣「任意定義」的類(lèi)別劃分也會(huì)被進(jìn)一步加強(qiáng),然后具有一些意義。相比之下,神經(jīng)網(wǎng)絡(luò)模型就好比是性能良好的海綿,它可以吸收任何沒(méi)有被顯式建模的東西。
他提到了四種常用的方法,用以在模型中引入語(yǔ)言結(jié)構(gòu)信息:a)通過(guò)基于流水線(xiàn)的方法,將語(yǔ)言類(lèi)別作為特征引入;b)通過(guò)數(shù)據(jù)增強(qiáng),用語(yǔ)言類(lèi)別對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充;c)通過(guò)多任務(wù)學(xué)習(xí)引入語(yǔ)言結(jié)構(gòu);d)通過(guò)結(jié)構(gòu)化建模,例如使用基于轉(zhuǎn)換的解析器、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)法,甚至是像 BIO 標(biāo)記法這樣相互依賴(lài)的類(lèi)引入語(yǔ)言信息。
Emily Bender 在也在 workshop 上有個(gè)演講,其中她對(duì)「與語(yǔ)言無(wú)關(guān)的學(xué)習(xí)」整個(gè)想法提出了質(zhì)疑:即便你已經(jīng)有一個(gè)某種語(yǔ)言的巨大的語(yǔ)料庫(kù),且你對(duì)這種語(yǔ)言其一無(wú)所知,那么在沒(méi)有任何先驗(yàn)信息的情況下(例如,什么是功能詞),那么你就無(wú)法學(xué)到句子的結(jié)構(gòu)或含義。她還指出許多機(jī)器學(xué)習(xí)論文將它們的方法描述得類(lèi)似于嬰兒學(xué)習(xí)的過(guò)程,但卻沒(méi)引用任何實(shí)際的發(fā)展心理學(xué)或語(yǔ)言獲得方面的文獻(xiàn)。實(shí)際上嬰兒學(xué)習(xí)環(huán)境是有特殊情境、多種因素共同作用、帶有主觀感情的,它們包含了很多信號(hào)和意義。
理解 LSTM 的故障模式
更好地理解表征也是自然語(yǔ)言處理表征學(xué)習(xí) workshop(Representation Learning for NLP workshop)的一個(gè)主題。Yoav Goldberg 在 workshop 上的演講中詳細(xì)介紹了他的小組為了更好地理解 RNN 的表征所做出的努力。特別是,他討論了最近從 RNN 中提取有限狀態(tài)自動(dòng)機(jī)從而更好地了解模型學(xué)習(xí)到了什么的工作(http://arxiv.org/abs/1711.09576)。他還提醒聽(tīng)眾,就算是在某一個(gè)任務(wù)上訓(xùn)練過(guò)的,LSTM 表征并不是只針對(duì)特定的任務(wù)有效的。它們通常預(yù)測(cè)的是像數(shù)據(jù)分布統(tǒng)計(jì)這樣的超出人類(lèi)預(yù)期之外的層面。即便當(dāng)模型用領(lǐng)域?qū)箵p失來(lái)產(chǎn)生具有某種不變性的表征,表征的預(yù)測(cè)能力仍然會(huì)帶有一些剛才說(shuō)的那樣的性質(zhì)。因此,從編碼語(yǔ)言數(shù)據(jù)中完全刪除不需要的信息也是一個(gè)挑戰(zhàn),就算是看上去很完美的LSTM 模型也可能具有潛在的故障模式。
對(duì)于關(guān)于 LSTM 的故障模式的話(huà)題,今年獲得 ACL 終身成就獎(jiǎng)的 Mark Steedman也表達(dá)了與此主題非常契合的觀點(diǎn):「LSTM 在實(shí)踐中是有效的,但是它們?cè)诶碚撋弦彩钦_的嗎?」
對(duì)抗性樣本
一個(gè)與更好地了解現(xiàn)有最佳模型的限制密切相關(guān)的主題是提出該如何改進(jìn)這些模型的方法。與上面提到的文章提及的對(duì)抗性樣本論文(https://arxiv.org/pdf/1805.05492.pdf)相似,有幾篇文章試著使模型在面對(duì)對(duì)抗性樣本時(shí)的魯棒性更強(qiáng):
Cheng 等人(https://arxiv.org/abs/1805.06130)提出使自然語(yǔ)言機(jī)器翻譯模型中的編碼器和解碼器在對(duì)抗輸入擾動(dòng)時(shí)更加魯棒。
Ebrahimi 等人(http://arxiv.org/abs/1712.06751)提出白盒對(duì)抗性樣本,通過(guò)替換少量的單詞來(lái)欺騙字符級(jí)別的神經(jīng)網(wǎng)絡(luò)分類(lèi)器。
Ribeiro 等人(http://aclweb.org/anthology/P18-1079)在之前的方法基礎(chǔ)上加以改進(jìn)。他們引入了保留語(yǔ)義、但會(huì)讓模型的預(yù)測(cè)發(fā)生改變的擾動(dòng),然后把它泛化到會(huì)在許多實(shí)例下產(chǎn)生對(duì)抗性狀況的規(guī)則上。
Bose 等人(https://arxiv.org/abs/1805.03642)用對(duì)抗學(xué)習(xí)采樣器將對(duì)抗性樣本和噪聲對(duì)比評(píng)估結(jié)合在一起,該采樣器會(huì)發(fā)現(xiàn)更難的負(fù)例,這樣模型就可以更好地學(xué)習(xí)表征。
學(xué)習(xí)魯棒和公平的表征
Tim Baldwin 在 RepL4NLP workshop 上討論了在領(lǐng)域轉(zhuǎn)換時(shí)使模型更魯棒的不同方法?;脽羝瑓⒁?jiàn)谷歌盤(pán)。就單源域而言,他討論了一種基于不同類(lèi)句法和語(yǔ)義噪聲在語(yǔ)言上擾亂訓(xùn)練實(shí)例的方法(http://www.aclweb.org/anthology/E/E17/E17-2004.pdf)。在多源域環(huán)境中,他提出可以在源域上訓(xùn)練對(duì)抗模型(https://arxiv.org/abs/1805.06088)。最后,他討論了一種可以學(xué)習(xí)魯棒的、有隱私保護(hù)能力的文本表示的方法(https://arxiv.org/abs/1805.06093)。
Margaret Mitchell 專(zhuān)注于公平且可以保護(hù)隱私的表征。她特別強(qiáng)調(diào)了有關(guān)世界的描述性視角和規(guī)范性視角之間的區(qū)別。機(jī)器學(xué)習(xí)模型學(xué)習(xí)的表征反應(yīng)了對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)的描述性視角。訓(xùn)練數(shù)據(jù)代表了「人們口中的世界」。然而,有關(guān)公平性的研究也在試圖創(chuàng)建可以反應(yīng)世界的規(guī)范性視圖的表征,這就要獲得我們的價(jià)值觀并將其注入到表征中去。
改進(jìn)評(píng)估方法
除了增強(qiáng)模型的魯棒性,還有幾篇文章試圖改進(jìn)評(píng)估模型的方法:
Finegan-Dollak 等人(http://arxiv.org/abs/1806.09029)明確了現(xiàn)有 text-to-SQL 系統(tǒng)的評(píng)估方法并提出了改進(jìn)方法。他們認(rèn)為現(xiàn)有的訓(xùn)練集-測(cè)試集分割和變量匿名化過(guò)程存在缺陷,于是他們提出了七個(gè)數(shù)據(jù)集的標(biāo)準(zhǔn)改進(jìn)版本以修復(fù)這些缺陷。
Dror 等人的工作(https://ie.technion.ac.il/~roiri/papers/ACL-2018-sig-cr.pdf)則關(guān)注于一種老生常談、但很少被真正實(shí)踐或做的不好的做法:統(tǒng)計(jì)顯著性檢驗(yàn)。特別地,他們調(diào)查了近些年的ACL 和 TACL 2017 中的實(shí)證論文后發(fā)現(xiàn),統(tǒng)計(jì)顯著性檢驗(yàn)常被忽略或誤用,于是他們提出了一種用于自然語(yǔ)言處理任務(wù)的簡(jiǎn)單的統(tǒng)計(jì)顯著性檢驗(yàn)選擇協(xié)議。
Chaganty 等人(http://arxiv.org/abs/1807.02202)調(diào)查了如 BLEU 和 ROUGE 這樣的自動(dòng)指標(biāo)的偏差,然后發(fā)現(xiàn)即使是無(wú)偏估計(jì)也只能相對(duì)地減少誤差。該工作強(qiáng)調(diào)了改進(jìn)自動(dòng)指標(biāo)的相關(guān)性和減少人類(lèi)標(biāo)記的方差的必要性。
強(qiáng)大的對(duì)比基線(xiàn)
另一種改善模型評(píng)估的方式是將新模型和更強(qiáng)的基線(xiàn)進(jìn)行比較,這是為了確保改進(jìn)的方法效果顯著。以下是一些著眼于這個(gè)研究方向的論文:
Shen 等人(https://arxiv.org/abs/1805.09843)系統(tǒng)地比較了帶池化技術(shù)的基于詞嵌入的方法和像 LSTM 和 CNN 這樣更復(fù)雜的模型。他們發(fā)現(xiàn)對(duì)大多數(shù)數(shù)據(jù)集而言,基于詞嵌入的方法都表現(xiàn)出了與后者相當(dāng)、甚至更好的性能。
Ethayarajh (http://www.aclweb.org/anthology/W18-3012)在 RepL4NLP workshop 上針對(duì)句子嵌入模型提出了一種強(qiáng)大的對(duì)比基線(xiàn)。
與此同時(shí),Ruder 和 Plank (https://arxiv.org/abs/1804.09530)發(fā)現(xiàn)像「Tri-training」這樣的經(jīng)典的自展算法為半監(jiān)督學(xué)習(xí)提供了強(qiáng)大的基線(xiàn),其結(jié)果甚至要比當(dāng)前最佳的方法還要好。
在上文中,我們強(qiáng)調(diào)了在像超出分布的數(shù)據(jù)上和針對(duì)不同任務(wù)這樣更具挑戰(zhàn)的環(huán)境中進(jìn)行評(píng)估的重要性。如果我們僅僅只關(guān)注單個(gè)任務(wù)或領(lǐng)域內(nèi)數(shù)據(jù),研究結(jié)果則會(huì)有所不同。我們需要在對(duì)抗條件下測(cè)試模型以更好地了解模型的魯棒性以及它們?cè)趯?shí)際問(wèn)題中的泛化能力。
創(chuàng)建更具有挑戰(zhàn)性的數(shù)據(jù)集
想要在這樣的環(huán)境下進(jìn)行評(píng)估,就需要?jiǎng)?chuàng)建更具挑戰(zhàn)的數(shù)據(jù)集。Yejin Choi 在 RepL4NLP 的圓桌討論(總結(jié)請(qǐng)參閱:https://twitter.com/seb_ruder/status/1020196710050455554)中指出,大家對(duì)于 SQuAD 或 bAbI 這樣過(guò)于簡(jiǎn)單并且基本已經(jīng)解決了的任務(wù)投入了過(guò)多的注意力。Yoav Goldberg 甚至認(rèn)為「SQuAD 就好比自然語(yǔ)言處理領(lǐng)域的 MNIST數(shù)據(jù)集(圖像識(shí)別最基礎(chǔ)的數(shù)據(jù)集之一)一樣」。相反,我們應(yīng)該將注意力集中在更具有挑戰(zhàn)性的任務(wù)以及開(kāi)發(fā)更多難度更高的數(shù)據(jù)集上。但是如果數(shù)據(jù)集過(guò)于復(fù)雜,人們也無(wú)法對(duì)其進(jìn)行處理。實(shí)際上,人們不應(yīng)該花費(fèi)過(guò)多時(shí)間處理數(shù)據(jù)集,因?yàn)槿藗冏罱呀?jīng)可以高效地對(duì)數(shù)據(jù)集進(jìn)行處理,而創(chuàng)建新的、更具挑戰(zhàn)的數(shù)據(jù)集更為重要。本屆 ACL 會(huì)議上,研究人員提出了兩個(gè)用于閱讀理解、試圖超越 SQuAD 的數(shù)據(jù)集:
QAngaroo(http://qangaroo.cs.ucl.ac.uk/ ,http://arxiv.org/abs/1710.06481 )專(zhuān)注于需要通過(guò)多個(gè)推理步驟收集多條信息的閱讀理解。
NarrativeQA(https://github.com/deepmind/narrativeqa ,http://arxiv.org/abs/1712.07040)要求閱讀器通過(guò)閱讀整本書(shū)或者電影劇本回答故事的相關(guān)問(wèn)題,從而理解其潛在含義。
Richard Socher 在機(jī)器閱讀問(wèn)答 workshop(Machine Reading for Question Answering workshop)的演講(總結(jié)見(jiàn) https://twitter.com/RichardSocher/status/1021917140801052672)中強(qiáng)調(diào)了在多任務(wù)中訓(xùn)練和評(píng)估模型的重要性。特別地,他指出自然語(yǔ)言處理需要不同類(lèi)型的推斷,例如邏輯推斷、語(yǔ)言推斷、情感推斷等,而顯然單任務(wù)無(wú)法滿(mǎn)足這樣的要求。
在多種資源質(zhì)量較差的語(yǔ)言中進(jìn)行評(píng)估
另一個(gè)重要的議題是要在多種語(yǔ)言上評(píng)估模型。Emily Bender 調(diào)查了 50 篇 NAACL 2018 的論文,她發(fā)現(xiàn)有 42 篇都評(píng)估了一種沒(méi)有指出名字的神秘語(yǔ)言(當(dāng)然是英語(yǔ)了)。她強(qiáng)調(diào),為每項(xiàng)工作處理的語(yǔ)言命名很重要,因?yàn)椴煌Z(yǔ)言有不同的語(yǔ)言結(jié)構(gòu);不提及處理的語(yǔ)言會(huì)讓研究結(jié)論變得模糊。
如果我們將自然語(yǔ)言處理的方法設(shè)計(jì)為跨語(yǔ)言方法,那么就應(yīng)該在資源質(zhì)量較差的語(yǔ)言這樣更具挑戰(zhàn)的設(shè)置上對(duì)其進(jìn)行額外的評(píng)估。舉例而言,下面的兩篇論文都指出,如果目標(biāo)語(yǔ)言與愛(ài)沙尼亞語(yǔ)或芬蘭語(yǔ)都不同的話(huà),現(xiàn)有的無(wú)監(jiān)督雙語(yǔ)字典方法都會(huì)失效:
S?gaard 等人(https://arxiv.org/abs/1805.03620)進(jìn)一步探討了現(xiàn)有方法的局限性并指出:當(dāng)嵌入是在不同領(lǐng)域上訓(xùn)練或使用不同算法時(shí),這些方法都會(huì)失敗。他們最終提出一個(gè)度量標(biāo)準(zhǔn)來(lái)量化這些方法的潛力。
Artetxe 等人(https://arxiv.org/abs/1805.06297)提出一種新的無(wú)監(jiān)督自訓(xùn)練方法,該方法采用了更好的初始化來(lái)引導(dǎo)優(yōu)化過(guò)程,這種方法對(duì)于不同的語(yǔ)言對(duì)而言十分強(qiáng)大。
此外,還有其他幾篇文章也在資源質(zhì)量較差的語(yǔ)言上評(píng)估了他們的方法:
Dror 等人(https://www.cs.rochester.edu/u/gildea/pubs/riley-gildea-acl18.pdf)建議用正交特征歸納雙語(yǔ)詞典。盡管這主要對(duì)相關(guān)的語(yǔ)言有幫助,但它們也可以對(duì)如英語(yǔ)-芬蘭語(yǔ)這樣的不相似的語(yǔ)言對(duì)進(jìn)行評(píng)估。
Ren 等人(http://arxiv.org/abs/1805.04813)最后建議利用另一種資源豐富的語(yǔ)言輔助資源匱乏的語(yǔ)言的翻譯。他們發(fā)現(xiàn)他們的模型顯著提升了罕見(jiàn)語(yǔ)種的翻譯質(zhì)量。
Currey 和 Heafield (https://kheafield.com/papers/edinburgh/unsupervised_tree_paper.pdf)提出一種采用 Gumbel tree-LSTM 的用于自然語(yǔ)言機(jī)器翻譯的無(wú)監(jiān)督的 tree-to-sequence 模型。結(jié)果證明他們的模型對(duì)資源質(zhì)量較差的語(yǔ)言而言尤其有用。
會(huì)議期間的另一個(gè)議題是自然語(yǔ)言處理領(lǐng)域取得的顯著進(jìn)展。ACL 主席 Marti Hearst 在她的主旨演講中涉及到了這個(gè)部分。她過(guò)去常以 Stanley Kubrick 的HAL 9000(見(jiàn)下圖)為例來(lái)展示我們的模型能做和不能做的事。近些年,由于我們的模型已經(jīng)學(xué)會(huì)執(zhí)行像識(shí)別和生成人類(lèi)演講和唇形識(shí)別這樣十幾年前無(wú)法完成的任務(wù),因此她這樣的做法現(xiàn)在就顯得有點(diǎn)無(wú)聊了。誠(chéng)然,我們離像辯論這樣需要深度理解語(yǔ)言和推理的任務(wù)還是很遠(yuǎn),但是自然語(yǔ)言處理取得的進(jìn)展還是十分顯著的。
Hal 9000. (Source: CC BY 3.0, Wikimedia)
Marti 還引用了自然語(yǔ)言處理(NLP)和信息檢索(IR)的先驅(qū)者 Karen Sp?rck Jones 的話(huà):「研究不是在繞圈,而是在攀爬螺旋式的樓梯。打個(gè)未必恰當(dāng)?shù)谋确剑?strong>這些樓梯未必是相連的,但是它們都朝著同一個(gè)方向前進(jìn)」。她還表達(dá)了一種能引起許多人的共鳴的觀點(diǎn):在 20 世紀(jì) 80 和 90 年代,只有少數(shù)的論文可供閱讀,緊跟最新的科研成果就容易得多。為了使緊跟最新成果變得更容易,我最近建立了一個(gè)新文檔(http://nlpprogress.com)以收集針對(duì)不同自然語(yǔ)言處理任務(wù)的最新的成果。
自然語(yǔ)言處理領(lǐng)域正處于蓬勃的發(fā)展中,她鼓勵(lì)人們參與到 ACL 中,貢獻(xiàn)自己的一份力量。她還為最努力工作的 ACL會(huì)員頒發(fā)了 ACL 杰出服務(wù)獎(jiǎng)。此外,ACL 2018 還(在 1982 年的 EACL 和 2000 年的NAACL 之后)啟動(dòng)了其第三個(gè)子會(huì)議 AACL(計(jì)算語(yǔ)言學(xué)協(xié)會(huì)亞太分會(huì):http://aaclweb.org/)
本屆 ACL 的會(huì)務(wù)會(huì)談重點(diǎn)討論了該如何應(yīng)對(duì)隨著研究的發(fā)展所產(chǎn)生的挑戰(zhàn):提交的論文數(shù)量不斷增加,因此需要更多的審稿人員。我們期望在明年的會(huì)議上看到新的可以處理大量提交論文所做的努力。
讓我們把視線(xiàn)拉回到 2016 年,那時(shí)人們就在尋找強(qiáng)化學(xué)習(xí)(RL)在自然語(yǔ)言處理中的用武之地,并將其應(yīng)用在越來(lái)越多的任務(wù)中。近一段時(shí)間,盡管監(jiān)督學(xué)習(xí)看起來(lái)更加適用于大多數(shù)任務(wù),但對(duì)某些具有時(shí)序依賴(lài)的任務(wù)(例如在訓(xùn)練和建模對(duì)話(huà)時(shí)選擇數(shù)據(jù))來(lái)說(shuō),強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)特性使其成為最有用的方式。強(qiáng)化學(xué)習(xí)的另一個(gè)重要應(yīng)用是直接優(yōu)化像 ROUGE 或 BLEU 這樣的度量指標(biāo),而不是優(yōu)化像交叉熵這樣的替代損失。文本總結(jié)和機(jī)器翻譯是這一領(lǐng)域的成功應(yīng)用案例。
逆向強(qiáng)化學(xué)習(xí)在過(guò)于復(fù)雜而無(wú)法指定獎(jiǎng)勵(lì)的環(huán)境中有很大的價(jià)值。視覺(jué)化敘事是這方面的一個(gè)成功的應(yīng)用案例。深度學(xué)習(xí)特別適用于在自然語(yǔ)言處理領(lǐng)域中如玩一些基于文本的游戲、瀏覽網(wǎng)頁(yè)并完成相應(yīng)的任務(wù)這樣的序貫決策問(wèn)題。「用于自然語(yǔ)言處理的深度強(qiáng)化學(xué)習(xí)教程」(https://www.cs.ucsb.edu/~william/papers/ACL2018DRL4NLP.pdf)提供了對(duì)這一領(lǐng)域全面的概述。
實(shí)際上,還有其它很棒的教程。我尤其喜歡的是變分推斷和深度生成模型教程(https://github.com/philschulz/VITutorial)。關(guān)于語(yǔ)義解析(https://github.com/allenai/acl2018-semantic-parsing-tutorial )的教程和「你一定想知道的關(guān)于語(yǔ)義和實(shí)踐的100 件事」(http://faculty.washington.edu/ebender/100things-sem_prag.html)都很值得一看。請(qǐng)參閱以下鏈接獲得完整的教程列表:https://acl2018.org/tutorials/。
via blog.aylien.com,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章