0
本文作者: AI研習(xí)社-譯站 | 2020-09-28 10:39 | 專題:ACL 2019 |
字幕組雙語原文:ACL 2020 亮點(diǎn)摘要
翻譯:雷鋒字幕組(唐里、張超726、情報理論與實踐、Danielan)
今年國際計算語言學(xué)協(xié)會(ACL)變?yōu)榫€上舉辦了,很遺憾我沒多少機(jī)會去和其他學(xué)者交流,和同事們敘敘舊,但是遺憾之余值得慶幸的是我也相比平時聽了更多講座。因此我決定將我做的筆記分享出來并討論一些行業(yè)總體趨勢。本文不會對 ACL 進(jìn)行詳盡的介紹,內(nèi)容的選擇也是完全基于本人的興趣。同時我也非常推薦讀者看一看最佳論文。
在根據(jù)我自身參與的講座來討論研究趨勢之前(當(dāng)然參與講座數(shù)量有限,會存在誤差),讓我們來看一看ACL網(wǎng)頁上的一些整體數(shù)據(jù)吧。今年收到交稿量最多的方向分別是通過機(jī)器學(xué)習(xí)處理自然語言,對話和交互系統(tǒng),機(jī)器翻譯,信息提取和自然語言處理的應(yīng)用及生成。
上圖是每個研究方向提交稿件的數(shù)量 來源
這些數(shù)據(jù)相比往年怎么樣呢?下圖顯示了從2010年后每個方向論文數(shù)量的變化。圖源Wanxiang Che
總的來說,論文有從基礎(chǔ)任務(wù)到高級任務(wù)發(fā)展的趨勢,例如從通過單詞級,句子級語義和語篇的句法,過渡到對話。機(jī)器學(xué)習(xí)方向研究也正穩(wěn)步增加,越來越多的文章提出具有普遍性目標(biāo)的模型,而這些模型都基于多個任務(wù)來衡量。
在自然語言處理研究有個反復(fù)出現(xiàn)的模式,1. 介紹一個新模型;2. 通過改進(jìn)模型,或者將其應(yīng)用于多任務(wù)實現(xiàn)一些容易的目標(biāo)然后發(fā)表;3. 發(fā)表文章分析其不足之處或缺陷;4. 發(fā)表新的數(shù)據(jù)集。盡管某些步驟可能同時進(jìn)行,我得說我們現(xiàn)在就處于2和3之間。小標(biāo)題的結(jié)論是基于我選擇的論文得出的,而我很大程度上過濾掉了這類文章。所以或許換一種說法,那就是今年ACL 2020 還是有挺多文章不是這一類型的。
在過去兩年中我們可以發(fā)現(xiàn)研究向這些步驟靠近,先基于無標(biāo)記文本的自監(jiān)督方法進(jìn)行預(yù)訓(xùn)練然后在更小的具體任務(wù)數(shù)據(jù)上微調(diào)。在今年會議上,很多論文聚焦于更少監(jiān)督的訓(xùn)練模型。這有一些替代方案,及其示例論文:
無監(jiān)督方法:Yadav等人提出了一個基于檢索的問答方法,這種方法可以迭代地將詢問提煉到1KB來檢索回答問題的一些線索。在常識類多選任務(wù)上通過計算每個選項的合理性得分(利用Masked LM),Tamborrino等人取得了令人欣喜的成果。
數(shù)據(jù)增強(qiáng)(Data augmentation):Fabbri等人提出了一種方法可以自動生成上下文,問題和回答三合一的形式來訓(xùn)練問答模型。他們首先檢索和原始數(shù)據(jù)相似的上下文,生成回答:是或否,并且以問句形式向上下文提問(what, when, who之類開頭的問句)然后基于這三件套訓(xùn)練模型。Jacob Andreas提出將不常見的短語替換為在相似語境下更常用的短語從而改進(jìn)神經(jīng)網(wǎng)絡(luò)中的組合泛化能力。Asai和Hajishirzi用人工例子增加問答訓(xùn)練數(shù)據(jù),這些例子都是從原始訓(xùn)練數(shù)據(jù)中按邏輯衍生出來用以加強(qiáng)系統(tǒng)性和傳遞一致性。
元學(xué)習(xí)(Meta learning):Yu等人利用元學(xué)習(xí)去遷移知識用以從高源語言(high-resource language)到低源語言(low-resource language)的上義關(guān)系檢測。
主動學(xué)習(xí)(Active learning):Li等人搭建了一個高效的標(biāo)注框架,通過主動學(xué)習(xí)選取最有價值的樣本進(jìn)行批注進(jìn)行共指關(guān)系解析。
我們已經(jīng)知道,語言模型的知識是缺乏和不準(zhǔn)確的。在這次會議上,來自 Kassner and Schütze 和 Allyson Ettinger 的論文表明某些語言模型對否定不敏感,并且容易被錯誤的探針或相關(guān)但不正確的答案混淆。目前采用了多種解決方案:
檢索:在Repl4NLP研討會上的兩次受邀演講中,有兩次提到了檢索增強(qiáng)的LMs。 Kristina Toutanova談到了谷歌的智能領(lǐng)域,以及如何用實體知識來增強(qiáng)LMs(例如,這里和這里)。 Mike Lewis談到了改進(jìn)事實知識預(yù)測的最近鄰LM模型,以及Facebook的將生成器與檢索組件相結(jié)合的RAG模型。
使用外部知識庫:這已經(jīng)普遍使用好幾年了。Guan等人利用常識知識庫中的知識來增強(qiáng)用于常識任務(wù)的GPT-2模型。Wu等人使用這樣的知識庫生成對話。
用新的能力增強(qiáng) LMs:Zhou 等人訓(xùn)練了一個 LM,通過使用帶有模式和 SRL 的訓(xùn)練實例來獲取時間知識(例如事件的頻率和事件的持續(xù)時間) ,這些訓(xùn)練實例是通過使用帶有模式和 SRL 的信息抽取來獲得的。Geva 和 Gupta通過對使用模板和需要對數(shù)字進(jìn)行推理的文本數(shù)據(jù)生成的數(shù)值數(shù)據(jù)進(jìn)行微調(diào),將數(shù)值技能注入 BERT 中。
檢查注意力權(quán)重今年看起來已經(jīng)不流行了,取而代之的關(guān)注重點(diǎn)是生成文本依據(jù),尤其是那些能夠反映判別模型決策的依據(jù)。Kumar 和 Talukdar 提出了一種為自然語言推斷(NLI)預(yù)測忠實解釋的方法,其方法是為每個標(biāo)簽預(yù)測候選解釋,然后使用它們來預(yù)測標(biāo)簽。Jain 等人 開發(fā)了一種忠實的解釋模型,其依賴于事后歸因(post-hoc)的解釋方法(這并不一定忠實)和啟發(fā)式方法來生成訓(xùn)練數(shù)據(jù)。為了評估解釋模型,Hase 和 Bansa 提出通過測量用戶的能力,在有或沒有給定解釋的前提下來預(yù)測模型的行為。
ACL今年有一個主題類別,主題是“通觀現(xiàn)狀與展望未來”。
我們求解的是數(shù)據(jù)集,而不是任務(wù)。在過去的幾年中,這種說法反復(fù)出現(xiàn),但是如今,我們的主要范式是訓(xùn)練龐大的模型,并在與我們的訓(xùn)練集非常相似的眾包測試集上對其進(jìn)行評估。榮譽(yù)主題獎?wù)撐淖髡咚枴ち轴?a target="_blank" rel=nofollow>Tal Linzen)認(rèn)為,我們在大量數(shù)據(jù)上訓(xùn)練模型,這些數(shù)據(jù)可能無法從人們可用的數(shù)據(jù)量中學(xué)到任何東西,而且這些模型在人類可能認(rèn)為不相關(guān)的數(shù)據(jù)中找到統(tǒng)計模式。 他建議,今后,我們應(yīng)該標(biāo)準(zhǔn)化中等規(guī)模的預(yù)訓(xùn)練語料庫,使用專家創(chuàng)建的評估集,并獎勵成功的一次性學(xué)習(xí)。
凱西·麥基翁(Kathy McKeown)的精彩主題演講也談到了這一點(diǎn),并補(bǔ)充說排行榜并不總是對推動這一領(lǐng)域有所幫助。 基準(zhǔn)通常會占據(jù)分布的頂端,而我們需要關(guān)注分布的尾部。 此外,很難使用通用模型(例如LM)來分析特定任務(wù)的進(jìn)步。 在她的終身成就獎訪談中,邦妮·韋伯強(qiáng)調(diào)需要查看數(shù)據(jù)并分析模型錯誤。 即使是一些瑣碎的事情,比如同時查看精確度和回憶,而不是只查看F1的總分,也可以幫助理解model s的弱點(diǎn)和長處。
當(dāng)前模型和數(shù)據(jù)存在固有的局限性。 邦妮還說,神經(jīng)網(wǎng)絡(luò)能夠解決不需要深入理解的任務(wù),但是更具挑戰(zhàn)性的目標(biāo)是識別隱含的含義和世界知識。 除上述論文外,幾篇論文還揭示了當(dāng)前模型的局限性:例如,Yanaka等人。 和Goodwin等 指出神經(jīng)NLU模型缺乏系統(tǒng)性,幾乎不能概括學(xué)習(xí)到的語義現(xiàn)象。 艾米莉·班德(Emily Bender)和亞歷山大·科勒(Alexander Koller)的最佳主題論文認(rèn)為,僅從形式上學(xué)習(xí)意義是不可能的。 Bisk等人在預(yù)印本中也提出了類似的要求。 提倡使用多種方式學(xué)習(xí)意義。
我們需要遠(yuǎn)離分類任務(wù)。 近年來,我們已經(jīng)看到了許多證據(jù),證明分類和多項選擇任務(wù)很容易進(jìn)行,并且模型可以通過學(xué)習(xí)淺層的數(shù)據(jù)特定模式來達(dá)到較高的準(zhǔn)確性。 另一方面,生成任務(wù)很難評估,人類評估目前是唯一的信息量度,但是卻很昂貴。 作為分類的替代方法,Chen等。 將NLI任務(wù)從三向分類轉(zhuǎn)換為較軟的概率任務(wù),旨在回答以下問題:“在假設(shè)前提下,假設(shè)成立的可能性有多大?”。 Pavlick和Kwiatkowski進(jìn)一步表明,即使是人類也不同意某些句子對的并列標(biāo)簽,并且在某些情況下,不同的解釋可以證明不同的標(biāo)簽合理(并且平均注釋可能會導(dǎo)致錯誤)。
我們需要學(xué)習(xí)處理歧義和不確定性。 Ellie Pavlick在Repl4NLP上的演講討論了在明確定義語義研究目標(biāo)方面的挑戰(zhàn)。 將語言理論天真地轉(zhuǎn)換為NLI樣式的任務(wù)注定會失敗,因為語言是在更廣泛的上下文中定位和扎根的。 蓋·艾默生(Guy Emerson)定義了分布語義的期望屬性,其中之一是捕獲不確定性。 馮等。 設(shè)計的對話框響應(yīng)任務(wù)和模型,其中包括“以上皆非”響應(yīng)。 最后,Trott等 指出,盡管語義任務(wù)關(guān)注的是識別兩種話語具有相同的含義,但識別措辭上的差異如何影響含義也很重要。
ACL 在道德倫理方面的進(jìn)步是非常顯著的。前幾年,NLP 中道德倫理還少有人研究,但如今卻已然是 ACL 的一大類別,而且我們所有人在提交其它類別的論文時也都會考慮倫理道德。事實上,我們這個社區(qū)現(xiàn)在開始轉(zhuǎn)向批評那些探討重要的公平性問題而同時又未能解決其它道德倫理考慮的論文。
我強(qiáng)烈推薦觀看 Rachael Tatman 在 WiNLP 研討會上洞見深入的主題演講「What I Won’t Build(我不會構(gòu)建的東西)」。Rachael 說明了她個人不會參與構(gòu)建的那幾類系統(tǒng),包括監(jiān)控系統(tǒng)、欺騙與其交互的用戶的系統(tǒng)、社會類別監(jiān)測系統(tǒng)。她提供了一個問題列表,研究者可用來決定是否應(yīng)該構(gòu)建某個系統(tǒng):
該系統(tǒng)將讓哪些人獲益?
該系統(tǒng)對哪些人有害?
用戶可以選擇退出嗎?
該系統(tǒng)會強(qiáng)化還是弱化系統(tǒng)的不公平性?
該系統(tǒng)總體上會讓世界變得更好嗎?
Leins et al. 提出了許多有趣但仍待解答的道德倫理問題,比如符合道德倫理的 NLP 研究是怎樣的,這應(yīng)該由誰、通過什么方式?jīng)Q定?模型的預(yù)測結(jié)果應(yīng)該由誰負(fù)責(zé)?ACL 應(yīng)該嘗試將自己定位為道德衛(wèi)士嗎?這篇論文討論的問題之一是模型的雙重使用問題:一個模型既可以用于好的目的,也可以用于壞的目的。事實上,會議期間,針對 Li et al. 的最佳演示論文發(fā)生了一場 Twitter 爭論(很不幸該爭論由一個匿名賬號主導(dǎo))。該論文提出了一個出色的多媒體知識提取系統(tǒng)。
本文作者還列舉其它一些不屬于以上類別的論文。
Cocos and Callison-Burch 創(chuàng)建了一個大規(guī)模的標(biāo)注了含義的句子資源,其中的含義是通過同等含義的詞進(jìn)行標(biāo)注的,比如 bug-microphone 中 bug 是個多義詞,這里使用 microphone 進(jìn)行標(biāo)注,就固定了其小型麥克風(fēng) / 竊聽器的含義,而非蟲子的含義。
Zhang et al. 提出了一種用于跟蹤文本出處的方法,包括其作者和其它來源的影響。Chakrabarty et al. 解決了將帶諷刺的句子轉(zhuǎn)譯為不帶諷刺句子的問題,他還基于對諷刺的極富洞見的觀察而構(gòu)建了一個模型。
Wolfson et al. 將問題理解引入為一個單獨(dú)的任務(wù),其按照人類的方式通過將復(fù)雜問題分解為更簡單的問題來進(jìn)行解答。
Gonen et al. 提出了一種用于測量詞義變化的非常直觀和可解釋的方法,其具體做法為檢查詞分布的最近鄰。
Anastasopoulos and Neubig 表明盡管使用英語作為中心語言來進(jìn)行跨語言嵌入學(xué)習(xí)是最佳實踐,但卻往往是次優(yōu)的;該論文提議了一些用于選擇更優(yōu)中心語言的一般原則。
最后,Zhang et al. 眾包了 Winograd 模式挑戰(zhàn)賽的解釋,并分析了解決該任務(wù)所需的知識類型以及現(xiàn)有模型在每種類別上的成功程度。
這些論文和主題演講給我?guī)硪环N感覺,盡管過去幾年取得了巨大的進(jìn)步,但我們還沒有走上正確的方向,也沒有一條非??尚械那斑M(jìn)道路。 我認(rèn)為主題類別的變化具有正面意義,這能鼓勵研究者不執(zhí)著于容易取得的小進(jìn)步,而是著眼大局。
我喜歡能夠在自己的時間里(以喜歡的速度)觀看這么多演講,但這樣也確實錯過了與其他學(xué)者的互動,我不認(rèn)為與不同時區(qū)的參與者呆在一個虛擬聊天室里是一個很好的替代方案。我真的希望疫情之后,會議將再次線下舉行,但希望同時也允許人們以更低的注冊費(fèi)用遠(yuǎn)程參會。
希望明年能看到你們排著隊買難喝的咖啡?。ㄗg者:笑)
雷鋒字幕組是一個由AI愛好者組成的翻譯團(tuán)隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。
團(tuán)隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運(yùn)營,IT咨詢?nèi)?,在校師生;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。