0
本文作者: AI研習社-譯站 | 2020-09-28 10:39 | 專題:ACL 2019 |
字幕組雙語原文:ACL 2020 亮點摘要
翻譯:雷鋒字幕組(唐里、張超726、情報理論與實踐、Danielan)
今年國際計算語言學協(xié)會(ACL)變?yōu)榫€上舉辦了,很遺憾我沒多少機會去和其他學者交流,和同事們敘敘舊,但是遺憾之余值得慶幸的是我也相比平時聽了更多講座。因此我決定將我做的筆記分享出來并討論一些行業(yè)總體趨勢。本文不會對 ACL 進行詳盡的介紹,內容的選擇也是完全基于本人的興趣。同時我也非常推薦讀者看一看最佳論文。
在根據(jù)我自身參與的講座來討論研究趨勢之前(當然參與講座數(shù)量有限,會存在誤差),讓我們來看一看ACL網(wǎng)頁上的一些整體數(shù)據(jù)吧。今年收到交稿量最多的方向分別是通過機器學習處理自然語言,對話和交互系統(tǒng),機器翻譯,信息提取和自然語言處理的應用及生成。
上圖是每個研究方向提交稿件的數(shù)量 來源
這些數(shù)據(jù)相比往年怎么樣呢?下圖顯示了從2010年后每個方向論文數(shù)量的變化。圖源Wanxiang Che
總的來說,論文有從基礎任務到高級任務發(fā)展的趨勢,例如從通過單詞級,句子級語義和語篇的句法,過渡到對話。機器學習方向研究也正穩(wěn)步增加,越來越多的文章提出具有普遍性目標的模型,而這些模型都基于多個任務來衡量。
在自然語言處理研究有個反復出現(xiàn)的模式,1. 介紹一個新模型;2. 通過改進模型,或者將其應用于多任務實現(xiàn)一些容易的目標然后發(fā)表;3. 發(fā)表文章分析其不足之處或缺陷;4. 發(fā)表新的數(shù)據(jù)集。盡管某些步驟可能同時進行,我得說我們現(xiàn)在就處于2和3之間。小標題的結論是基于我選擇的論文得出的,而我很大程度上過濾掉了這類文章。所以或許換一種說法,那就是今年ACL 2020 還是有挺多文章不是這一類型的。
在過去兩年中我們可以發(fā)現(xiàn)研究向這些步驟靠近,先基于無標記文本的自監(jiān)督方法進行預訓練然后在更小的具體任務數(shù)據(jù)上微調。在今年會議上,很多論文聚焦于更少監(jiān)督的訓練模型。這有一些替代方案,及其示例論文:
無監(jiān)督方法:Yadav等人提出了一個基于檢索的問答方法,這種方法可以迭代地將詢問提煉到1KB來檢索回答問題的一些線索。在常識類多選任務上通過計算每個選項的合理性得分(利用Masked LM),Tamborrino等人取得了令人欣喜的成果。
數(shù)據(jù)增強(Data augmentation):Fabbri等人提出了一種方法可以自動生成上下文,問題和回答三合一的形式來訓練問答模型。他們首先檢索和原始數(shù)據(jù)相似的上下文,生成回答:是或否,并且以問句形式向上下文提問(what, when, who之類開頭的問句)然后基于這三件套訓練模型。Jacob Andreas提出將不常見的短語替換為在相似語境下更常用的短語從而改進神經(jīng)網(wǎng)絡中的組合泛化能力。Asai和Hajishirzi用人工例子增加問答訓練數(shù)據(jù),這些例子都是從原始訓練數(shù)據(jù)中按邏輯衍生出來用以加強系統(tǒng)性和傳遞一致性。
元學習(Meta learning):Yu等人利用元學習去遷移知識用以從高源語言(high-resource language)到低源語言(low-resource language)的上義關系檢測。
主動學習(Active learning):Li等人搭建了一個高效的標注框架,通過主動學習選取最有價值的樣本進行批注進行共指關系解析。
我們已經(jīng)知道,語言模型的知識是缺乏和不準確的。在這次會議上,來自 Kassner and Schütze 和 Allyson Ettinger 的論文表明某些語言模型對否定不敏感,并且容易被錯誤的探針或相關但不正確的答案混淆。目前采用了多種解決方案:
檢索:在Repl4NLP研討會上的兩次受邀演講中,有兩次提到了檢索增強的LMs。 Kristina Toutanova談到了谷歌的智能領域,以及如何用實體知識來增強LMs(例如,這里和這里)。 Mike Lewis談到了改進事實知識預測的最近鄰LM模型,以及Facebook的將生成器與檢索組件相結合的RAG模型。
使用外部知識庫:這已經(jīng)普遍使用好幾年了。Guan等人利用常識知識庫中的知識來增強用于常識任務的GPT-2模型。Wu等人使用這樣的知識庫生成對話。
用新的能力增強 LMs:Zhou 等人訓練了一個 LM,通過使用帶有模式和 SRL 的訓練實例來獲取時間知識(例如事件的頻率和事件的持續(xù)時間) ,這些訓練實例是通過使用帶有模式和 SRL 的信息抽取來獲得的。Geva 和 Gupta通過對使用模板和需要對數(shù)字進行推理的文本數(shù)據(jù)生成的數(shù)值數(shù)據(jù)進行微調,將數(shù)值技能注入 BERT 中。
檢查注意力權重今年看起來已經(jīng)不流行了,取而代之的關注重點是生成文本依據(jù),尤其是那些能夠反映判別模型決策的依據(jù)。Kumar 和 Talukdar 提出了一種為自然語言推斷(NLI)預測忠實解釋的方法,其方法是為每個標簽預測候選解釋,然后使用它們來預測標簽。Jain 等人 開發(fā)了一種忠實的解釋模型,其依賴于事后歸因(post-hoc)的解釋方法(這并不一定忠實)和啟發(fā)式方法來生成訓練數(shù)據(jù)。為了評估解釋模型,Hase 和 Bansa 提出通過測量用戶的能力,在有或沒有給定解釋的前提下來預測模型的行為。
ACL今年有一個主題類別,主題是“通觀現(xiàn)狀與展望未來”。
我們求解的是數(shù)據(jù)集,而不是任務。在過去的幾年中,這種說法反復出現(xiàn),但是如今,我們的主要范式是訓練龐大的模型,并在與我們的訓練集非常相似的眾包測試集上對其進行評估。榮譽主題獎論文作者塔爾·林岑(Tal Linzen)認為,我們在大量數(shù)據(jù)上訓練模型,這些數(shù)據(jù)可能無法從人們可用的數(shù)據(jù)量中學到任何東西,而且這些模型在人類可能認為不相關的數(shù)據(jù)中找到統(tǒng)計模式。 他建議,今后,我們應該標準化中等規(guī)模的預訓練語料庫,使用專家創(chuàng)建的評估集,并獎勵成功的一次性學習。
凱西·麥基翁(Kathy McKeown)的精彩主題演講也談到了這一點,并補充說排行榜并不總是對推動這一領域有所幫助。 基準通常會占據(jù)分布的頂端,而我們需要關注分布的尾部。 此外,很難使用通用模型(例如LM)來分析特定任務的進步。 在她的終身成就獎訪談中,邦妮·韋伯強調需要查看數(shù)據(jù)并分析模型錯誤。 即使是一些瑣碎的事情,比如同時查看精確度和回憶,而不是只查看F1的總分,也可以幫助理解model s的弱點和長處。
當前模型和數(shù)據(jù)存在固有的局限性。 邦妮還說,神經(jīng)網(wǎng)絡能夠解決不需要深入理解的任務,但是更具挑戰(zhàn)性的目標是識別隱含的含義和世界知識。 除上述論文外,幾篇論文還揭示了當前模型的局限性:例如,Yanaka等人。 和Goodwin等 指出神經(jīng)NLU模型缺乏系統(tǒng)性,幾乎不能概括學習到的語義現(xiàn)象。 艾米莉·班德(Emily Bender)和亞歷山大·科勒(Alexander Koller)的最佳主題論文認為,僅從形式上學習意義是不可能的。 Bisk等人在預印本中也提出了類似的要求。 提倡使用多種方式學習意義。
我們需要遠離分類任務。 近年來,我們已經(jīng)看到了許多證據(jù),證明分類和多項選擇任務很容易進行,并且模型可以通過學習淺層的數(shù)據(jù)特定模式來達到較高的準確性。 另一方面,生成任務很難評估,人類評估目前是唯一的信息量度,但是卻很昂貴。 作為分類的替代方法,Chen等。 將NLI任務從三向分類轉換為較軟的概率任務,旨在回答以下問題:“在假設前提下,假設成立的可能性有多大?”。 Pavlick和Kwiatkowski進一步表明,即使是人類也不同意某些句子對的并列標簽,并且在某些情況下,不同的解釋可以證明不同的標簽合理(并且平均注釋可能會導致錯誤)。
我們需要學習處理歧義和不確定性。 Ellie Pavlick在Repl4NLP上的演講討論了在明確定義語義研究目標方面的挑戰(zhàn)。 將語言理論天真地轉換為NLI樣式的任務注定會失敗,因為語言是在更廣泛的上下文中定位和扎根的。 蓋·艾默生(Guy Emerson)定義了分布語義的期望屬性,其中之一是捕獲不確定性。 馮等。 設計的對話框響應任務和模型,其中包括“以上皆非”響應。 最后,Trott等 指出,盡管語義任務關注的是識別兩種話語具有相同的含義,但識別措辭上的差異如何影響含義也很重要。
ACL 在道德倫理方面的進步是非常顯著的。前幾年,NLP 中道德倫理還少有人研究,但如今卻已然是 ACL 的一大類別,而且我們所有人在提交其它類別的論文時也都會考慮倫理道德。事實上,我們這個社區(qū)現(xiàn)在開始轉向批評那些探討重要的公平性問題而同時又未能解決其它道德倫理考慮的論文。
我強烈推薦觀看 Rachael Tatman 在 WiNLP 研討會上洞見深入的主題演講「What I Won’t Build(我不會構建的東西)」。Rachael 說明了她個人不會參與構建的那幾類系統(tǒng),包括監(jiān)控系統(tǒng)、欺騙與其交互的用戶的系統(tǒng)、社會類別監(jiān)測系統(tǒng)。她提供了一個問題列表,研究者可用來決定是否應該構建某個系統(tǒng):
該系統(tǒng)將讓哪些人獲益?
該系統(tǒng)對哪些人有害?
用戶可以選擇退出嗎?
該系統(tǒng)會強化還是弱化系統(tǒng)的不公平性?
該系統(tǒng)總體上會讓世界變得更好嗎?
Leins et al. 提出了許多有趣但仍待解答的道德倫理問題,比如符合道德倫理的 NLP 研究是怎樣的,這應該由誰、通過什么方式?jīng)Q定?模型的預測結果應該由誰負責?ACL 應該嘗試將自己定位為道德衛(wèi)士嗎?這篇論文討論的問題之一是模型的雙重使用問題:一個模型既可以用于好的目的,也可以用于壞的目的。事實上,會議期間,針對 Li et al. 的最佳演示論文發(fā)生了一場 Twitter 爭論(很不幸該爭論由一個匿名賬號主導)。該論文提出了一個出色的多媒體知識提取系統(tǒng)。
本文作者還列舉其它一些不屬于以上類別的論文。
Cocos and Callison-Burch 創(chuàng)建了一個大規(guī)模的標注了含義的句子資源,其中的含義是通過同等含義的詞進行標注的,比如 bug-microphone 中 bug 是個多義詞,這里使用 microphone 進行標注,就固定了其小型麥克風 / 竊聽器的含義,而非蟲子的含義。
Zhang et al. 提出了一種用于跟蹤文本出處的方法,包括其作者和其它來源的影響。Chakrabarty et al. 解決了將帶諷刺的句子轉譯為不帶諷刺句子的問題,他還基于對諷刺的極富洞見的觀察而構建了一個模型。
Wolfson et al. 將問題理解引入為一個單獨的任務,其按照人類的方式通過將復雜問題分解為更簡單的問題來進行解答。
Gonen et al. 提出了一種用于測量詞義變化的非常直觀和可解釋的方法,其具體做法為檢查詞分布的最近鄰。
Anastasopoulos and Neubig 表明盡管使用英語作為中心語言來進行跨語言嵌入學習是最佳實踐,但卻往往是次優(yōu)的;該論文提議了一些用于選擇更優(yōu)中心語言的一般原則。
最后,Zhang et al. 眾包了 Winograd 模式挑戰(zhàn)賽的解釋,并分析了解決該任務所需的知識類型以及現(xiàn)有模型在每種類別上的成功程度。
這些論文和主題演講給我?guī)硪环N感覺,盡管過去幾年取得了巨大的進步,但我們還沒有走上正確的方向,也沒有一條非??尚械那斑M道路。 我認為主題類別的變化具有正面意義,這能鼓勵研究者不執(zhí)著于容易取得的小進步,而是著眼大局。
我喜歡能夠在自己的時間里(以喜歡的速度)觀看這么多演講,但這樣也確實錯過了與其他學者的互動,我不認為與不同時區(qū)的參與者呆在一個虛擬聊天室里是一個很好的替代方案。我真的希望疫情之后,會議將再次線下舉行,但希望同時也允許人們以更低的注冊費用遠程參會。
希望明年能看到你們排著隊買難喝的咖啡?。ㄗg者:笑)
雷鋒字幕組是一個由AI愛好者組成的翻譯團隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關于人工智能技術領域的行業(yè)轉變與技術創(chuàng)新的見解。
團隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運營,IT咨詢人,在校師生;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學,早稻田大學等海內外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。