0
雷鋒網(wǎng) AI 科技評論按:本篇屬于「頂會見聞系列」。每年這么多精彩的人工智能/機器學習會議,沒去現(xiàn)場的自然可惜,在現(xiàn)場的也容易看花眼。那么事后看看別的研究員的見聞總結,也許會有新的收獲呢。
Patrick Lewis 是 UCL 的自然語言處理博士生,同時他也參與 Facebook 人工智能研究院的研究。Patrick Lewis 對人類應當如何設計自然語言處理系統(tǒng)、如何更高效地編碼并利用語言背后的有用的知識非常感興趣。Patrick Lewis 現(xiàn)場參加了 EMNLP 2018,并在個人博客寫下了他的參會見聞。雷鋒網(wǎng) AI 科技評論編譯如下。(有刪節(jié))
我剛剛從布魯塞爾參加 EMNLP 回來。我們在 EMNLP 上展示了我們的 ShARC 數(shù)據(jù)集的論文。這次會議的規(guī)模和廣泛程度真是令人驚嘆,有如此之多的聰明人,在做各種令人驚喜的事情。能遇到自然語言處理界的這么多學者,和他們聊天、建立聯(lián)系也很開心。
下面我嘗試把自己的一些體會總結成一篇文章。有趣的東西太多了,我都已經(jīng)開始有點忘了。我聽了超過 60 場論文演講,看了好多好多論文海報,但是相比整個論文的 549 篇接受論文來說也僅僅只是很小的一部分而已。我先說一說我看到的一些高層次的趨勢,然后一塊一塊地詳細說說每一天遇到的值得關注的東西。
我覺得今年的 EMNLP 有好幾個有廣泛外延的趨勢值得注意。嘗試更難的任務,廣泛地對模型、數(shù)據(jù)集以及任務進行批判性分析,整個領域內有很多注意力都花在了這些事情上。這其中有件好事,就是聳人聽聞的報道少了,沒有什么突出的新想法、僅僅一味拼湊新架構的論文也少了。
有一個方面有喜人的增長,我把它稱作「負有社會責任的自然語言處理」,它包括的內容從調查學術研究社區(qū)內的偏倚一直到流傳的說法的驗證和假新聞辟謠。我覺得 FEVER Workshop 尤其地成功,而且我會鼓勵更多的人參與進來。
我們也看到對抗性方法在 NLP 領域得到越來越多人的關注,從老式的 GAN、到辨別網(wǎng)絡、自然語言的對抗樣本生成的各方面都有持續(xù)的增長。這些研究的體量相對來說還是比較小的,不過我覺得明年的時候我們就會看到遍地都是對抗性方法了。
我們也看到了上下文相關的文本嵌入得到了廣泛的應用,尤其是 ELMo。AI2 做了很好的宣傳活動,給參會者們送 ELMo 的貼紙和毛茸茸的 elmo 小怪獸玩具。有不少的研究都把 ELMo 作為輸入的對比組,而且也確實在很多不同的應用中取得了可以說是全方位的提升。
會議中還出現(xiàn)了好多好多新數(shù)據(jù)集?;径际轻槍υ絹碓郊毩6鹊娜蝿眨òㄎ覀冏约旱?ShARC),也有很多專門在強調難度?!鸽y度篩選器」的概念一下子就變得特別火(對抗性篩選以及其它相關的技巧),就是為了保證數(shù)據(jù)集沒法用現(xiàn)有的方法輕松解決。理論上來說這是一件好事,不過我有點擔心,如果我們的處理的過程不小心的話可能會讓數(shù)據(jù)集帶有微妙的、基于模型的偏倚。和上面這些相關的是,有好幾項研究都以現(xiàn)有的數(shù)據(jù)集為研究對象,進行近距離的、批判性的分析,試圖弄清如果要在這些任務中取得好成績的話到底需要什么類型的模型;問答任務上的這樣的研究尤其多。
我們也看到了常識和單詞知識方面的研究熱情一直在持續(xù),有一些新的進展,但是我們仍然有很長的路要走。
其它值得一提的還有:重新在語言建模中引入句法和語言學結構,這個方向的研究還在不斷成長;大家都更看重模型的可解釋性;以及,結構化地限制模型的輸出(配合結構化的預測,ILP 等等)。
如果你也到會議現(xiàn)場看了,你也能在這里寫下更多東西,而且你看到的趨勢可能也會和我的不一樣。畢竟這個會議已經(jīng)很大了,同一時刻有 5 個會場都在進行。
下面我一個一個 session 地說下一我自己覺得尤其有趣或者值得討論的研究。
這次的 FEVER Workshop 很棒,如果它聚集的熱度能保持下去并繼續(xù)增長就更好了,組織者的工作也做得很好。FEVER 是指論述提取與驗證(Fact Extraction and VERification),典型的應用比如熱點新聞鑒別真假并辟謠,在近年來全社會都有熱烈的 AI 熱潮的環(huán)境下更有很高的價值。
Tim Rocktaschel:特邀講者
Tim 講述了他在 NTP(網(wǎng)絡時間協(xié)議)、ShARC(超級哈佛架構)以及其他項目中的工作。我熟悉 Tim 的相關工作,所以沒有詳細做筆記。聽眾提出了一個非常有洞察力的問題,問 NTP 捕捉的到底是關聯(lián)性還是語義的相似性,這個問題提到規(guī)則歸納無法與關聯(lián)性相互配合。
《Towards Automated Factchecking: Developing an Annotation Schema and Benchmark for Consistent Automated Claim Detection》
《面向自動事實核查:為一致的自動陳述檢測開發(fā)一個標注方式和 Benchmark》
作者:Lev Konstantinovskiy, Oliver Price, Mevan Babakar,Arkaitz Zubiaga
Lev 在一家打擊虛假信息的慈善機構 FullFact 工作。FullFact 對事實核查的工作流程規(guī)如下:
更自動化的監(jiān)控
更自動化地發(fā)現(xiàn)需要核查的陳述
核查陳述
公布
干預
這個項目涉及面向自動陳述檢測方面的工作,首先會為 7 種類別建立一個數(shù)據(jù)集:
非陳述
數(shù)量
預測
個人體驗
相關/因果關系
操作法律/規(guī)則
他們使用來自 ExplosionAI 公司的出色的 「prodigy」軟件來實現(xiàn)自動化。不幸的是,它的不同標注員之間的一致程度不是很好,不過在定義二進制分類任務時要好得多。數(shù)據(jù)集由 5571 個句子組成,其中 1570 個句子表示陳述的意思。該模型讓系統(tǒng)得到分別為 0.88 、0.80、0.83 的準確率、召回率以及 F 值。
《Shared Task Flash Talks - The Fact Extraction and VERification (FEVER) Shared Task》
《共享任務 Flash Talks—事實提取和驗證(FEVER)共享任務》
這個 FEVER 任務有 87 次提交,23 個團隊,并讓 f1 值從 0.18 提高到 0.53。
大多數(shù)團隊通常使用三步流水線來完成任務:
文件選擇:網(wǎng)元、網(wǎng)絡處理器、大小寫轉換、頁面查看、搜索 API
句子選擇:幾種不同的方法
采用監(jiān)督訓練來分類
《Combining Fact Extraction and Claim Verification in an NLI Model》
《自然語言推斷模型中的事實提取與陳述驗證相結合》
作者:Yixin Nie, Haonan Chen,Mohit Bansal
作者對這三個步驟的每一步驟都使用了 NSMN 方法,并首次將其運用到任務中。
《UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)》
《UCL 機器閱讀組:事實發(fā)現(xiàn)的四因素框架(HexaF)》
作者:Takuma Yoneda, Jeff Mitchell, Johannes Welbl, Pontus Stenetorp,Sebastian Riedel
該論文使用了一種流程化的方法:先是文獻檢索,隨后是句子檢索,接著是自然語言推斷,最后是標簽聚合。他們提到大寫以及證據(jù)是否接近文章的開頭是非常重要的特征,并且通過將文章標題添加到句子的自然語言推斷模型中,來使用實體共同參照物。
《Multi-Sentence Textual Entailment for Claim Verification》
《用于陳述驗證的多語句文本蘊涵》
作者:Andreas Hanselowski, Hao Zhang, Zile Li, Daniil Sorokin, Benjamin Schiller, Claudia Schulz,Iryna Gurevych
這篇論文同樣發(fā)現(xiàn),對文檔中的實體進行實體鏈接,從而為附加的證據(jù)找到維基百科文章是有用的。
《Team Papelo: Transformer Networks at FEVER 》
《Papelo 團隊:FEVER 的變換網(wǎng)絡》
作者: Christopher Malon
這個團隊在自然語言推斷這一步驟中使用了 GPT 變換,并且相比其他的團隊,他們提交的成果在準確率/召回率兩者間的權衡有明顯的不同。
《The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity》
《錯誤信息檢測中的數(shù)據(jù)挑戰(zhàn):源信譽與內容真實性》
作者:Fatemeh Torabi Asr,Maite Taboada.
Fatimeh 通過視頻通話進行展示。他們通過驗證是否可能使用發(fā)布者的信譽來訓練系統(tǒng),從而檢測內容的真假,進而構建系統(tǒng)??傮w而言,這一基于信譽的數(shù)據(jù)是有用的,不過相關分析表明其中存在一些問題,這是因為來自大的新聞源的文章很多都被標記為諷刺,而小的新聞源的數(shù)很多則有很多被標記為騙局。這個論述處理實驗室有一個有意思的網(wǎng)站:https://fakenews.ngrok.io/
特邀報告:《Call for Help: Putting Computation in Computational Fact Checking 》
《求助:在計算機的事實檢查中引入算法》
講者:Delip Rao
Delip 熱情洋溢地講述了現(xiàn)在對于處理假新聞的需求以及我們作為幫助解決這些問題的實踐者該怎樣承擔責任。他針對部分不同的假新聞,詳細展示了解決方案:
政治新聞
調查報道新聞
教育新聞
科技(人工智能,用戶體驗以及其他)新聞
研究新聞
他還指出了假新聞的不同「策劃者」和「傳播者」:
策劃者:名人,犯罪分子/恐怖分子,活動家,政府
傳播者:機器程序,「有用的白癡」、陰謀論者、記者
來自謝菲爾德大學 James Thorne 的宣告
James 介紹了 FEVER 2 的規(guī)劃,它將遵循 Ettinger 等人的方法論——「構建它、打破它、修復它」:
1.構建它:
用現(xiàn)有的模型和現(xiàn)有的 FEVER 數(shù)據(jù)構建基線模型;
為模型開發(fā) API。
2.打破它:
將邀請對抗的一方,他們要生成新的數(shù)據(jù)攻破基準線系統(tǒng)。基準線系統(tǒng)要通過 API 進行在線測試。攻擊者要提交 1000 個最佳的樣本用于比賽。根據(jù)攻擊者能夠攻破的系統(tǒng)的數(shù)量為他們評分。
3.修復它:
將公開發(fā)布一半的攻擊者數(shù)據(jù)用來訓練新的模型,另一半保留用來測試。
這個規(guī)劃真的很好,我非常開心能在這里看到 FEVER 2 的進程正在向前推進。
《Context-Free Transductions with Neural Stacks》
《用神經(jīng)堆棧實現(xiàn)上下文無關變換》
作者:Yiding Hao, William Merrill, Dana Angluin, Robert Frank, Noah Amsel, Andrew Benz,Simon Mendelsohn
作者們調查了神經(jīng)堆棧增強的神經(jīng)網(wǎng)絡( NN)是否真的使用堆棧數(shù)據(jù)架構。他們定義了下面幾個不同的任務:
反向字符串——作者們發(fā)現(xiàn),LSTM 控制器沒有充分利用堆棧,而是將它用作非結構化存儲器。
平衡括號語言建模,這是一個簡單的任務,簡簡單單的網(wǎng)絡就能做得很好,但 LSTM 控制器網(wǎng)絡可以做得更好。堆棧會被用作非結構化存儲器,而非用作堆棧。
奇偶性評估——在每個時間步長計算一個二進制字符串的位奇偶,相當于用新的位來取前奇偶的異或。緩沖架構可以很好地解決這個問題,但是沒有緩沖的架構無法實現(xiàn)(隨機猜測)。
他們認為,堆棧遞歸神經(jīng)網(wǎng)絡(RNN)學到了直觀和可解釋的解決方案來簡化算法任務,但通常使用堆棧的方式并不合理。讓控制器網(wǎng)絡正確地使用堆棧,可能需要給模型增加更多的歸納偏倚。
《Comparing Models of Associative Meaning: An Empirical Investigation of Reference in Simple Language Games 》
《比較不同的關聯(lián)意義模型:對簡單語言游戲中的指代的實證探究》
作者:Judy Hanwen Shen, Matthias Hofer, Bjarke Felbo,Roger Levy
作者們研究了桌游「行動代號」(CodeNames)的簡化版本。一個玩家需要從三個單詞中選擇一個,讓另一個玩家再從三個其他單詞組成的列表中「也選出一個不是同類的單詞」。他們很想發(fā)現(xiàn)人類用什么語義資源來構建詞匯聯(lián)想,并調查了 5 種資源:
名詞,形容詞二元語法聯(lián)想
Conceptnet5 相似性
詞向量余弦距離
LDA 主題建?!@里使用的是詞的主題分布之間的歐式距離
他們發(fā)現(xiàn),二元語法系統(tǒng)能最好地預測人類玩家(尤其是 2 號玩家)怎樣玩游戲,這表明了「直接的共現(xiàn)分析在聯(lián)想設置中特別重要」。他們還提到,1 號玩家和 2 號玩家的策略存在差異,這就意味著每個玩家所利用的信息是不同的。
《Sequence Classification with Human Attention》(special paper award)
《利用人類注意力的序列分類》(特別論文獎)
作者:Maria Barrett, Joachim Bingel, Nora Hollenstein, Marek Rei,Anders S?gaard
這篇論文獲得了心理語言學特別獎,真的很棒!作者們試圖通過利用眼動追蹤測量的結果,來推動序列分類中的神經(jīng)注意力更像人類一樣工作。他們不直接監(jiān)控注意力信號,而是通過利用眼動追蹤軟件所測量得到的注視時間,來將人類閱讀新聞文章的注意力作為模型學習的監(jiān)督信號。這項工作真的很酷,是少數(shù)直接使用了人類在做本能工作時所發(fā)出信號的工作之一。
他們測試了其情感分類、語法檢測和仇恨語言檢測的系統(tǒng),發(fā)現(xiàn)使用來自 ZUCO 和 Dundee 語料庫的「平均持續(xù)固定時間」注視法,能將 F1 的分數(shù)提高 0.5%~2%。
講者:Julia Hirschberg(哥倫比亞大學)
作為會議的第一位主題報告演講者,Julia 詳述了欺騙檢測的優(yōu)化方法,并描述了建立一個包含人類所講的真話和謊言的干凈數(shù)據(jù)集的過程。然后把人類說真話或者說謊話的錄音給別的人類或者給機器學習算法聽,討論的內容也經(jīng)常是關于敏感話題的。
機器學習系統(tǒng)比人類更善于發(fā)現(xiàn)謊言,不過機器和人類傾向于犯不同的錯誤。他們發(fā)現(xiàn),男性能更好地發(fā)現(xiàn)別人說謊,而最善于發(fā)現(xiàn)謊言的人,則是那些在開放和一致的人格測試中得分很高的人。
有趣的是,在機器學習模型檢測謊言的時候,說謊者的人格類型是一個重要的特征。他們還發(fā)現(xiàn),重復敘述 以及音高和「停頓間隔」,同樣都是重要的因素。
在下一步工作中,他們計劃通過將謊言游戲眾包,來獲取更多的人類評價,從而更好地理解人類欺騙檢測。我想說的是:在這里,壓力和語境是超級重要的。當一個人感到緊張、疲倦或煩惱時,他們說謊的方式可能會有很大的不同嗎?我們這里同時也存在領域遷移的問題。
《Reasoning about Actions and State Changes by Injecting Commonsense Knowledge》
《通過增加常識知識來推理動作和狀態(tài)變化》
作者:Niket Tandon, Bhavana Dalvi, Joel Grus, Wen-tau Yih, Antoine Bosselut,Peter Clark
作者們在論文中提出了 ProPara 數(shù)據(jù)集。這個數(shù)據(jù)集的目標是預測一段程序性的自然語言進行過程中的動作和狀態(tài)變化。這個任務和 BABI 中的某個任務感覺很相似,只不過這次是真的體現(xiàn)成了自然語言的形式;近期發(fā)布的 RecipeQA 也是自然語言形式的,不過有更豐富的單詞量和更多樣化的主題。
這個任務本身是這樣的:給模型提供一組句子和一組句子中的實體,模型必須閱讀每個句子,然后預測每一個實體的狀態(tài)是否發(fā)生了變化。他們考慮了這些動作:消耗、生產(chǎn)、發(fā)生了哪些轉換以及發(fā)生了哪些運動。有意思的是,他們發(fā)現(xiàn)貪婪解碼方法可能會帶來毫無意義的預測。
比如,如果一個實體已經(jīng)被摧毀了,那么它就不能繼續(xù)發(fā)生任何后續(xù)的變化。作者們的做法是使用了結構化預測。而且這個系統(tǒng)還需要一定的人類常識才能得到比較好的效果。他們發(fā)現(xiàn)現(xiàn)有的實體追蹤系統(tǒng),比如循環(huán)實體網(wǎng)絡(recurrent entity network)在這里的表現(xiàn)并不怎么好;作者們的系統(tǒng)要比循環(huán)實體網(wǎng)絡提高了 13 分的 F1 分數(shù),在有隱式指代、聯(lián)合指代和知識檢索時最容易出現(xiàn)錯誤。
《Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation》
《為句子表征評價收集多樣化的自然語言推理問題》
作者: Adam Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White,Benjamin Van Durme
這篇論文收集了 13 個現(xiàn)有的不同類型的 NLI(自然語言推理)數(shù)據(jù)集中多種多樣的語義現(xiàn)象,組成了 DNC(Diverse Natural Language Inference collection,多樣化自然語言推理集合)數(shù)據(jù)集,地址見 https://www.decomp.io/。DNC 很大、多樣化,涵蓋了原型-角色轉化、真實性、生成性、常識推理、詞義推理等等許多方面的內容,總計有超過 50 萬個樣本。在建模的過程中,論文作者們發(fā)現(xiàn)如果想要在雙關語和情感方面取得好的成績的話,需要先在 MNLI 數(shù)據(jù)集上做預訓練(其后的精細調節(jié)是必要的),以及即便他們沒法證明這個假說,也仍然取得了很好的 NER 成績。
《Textual Analogy Parsing: What's Shared and What's Compared among Analogous Facts》
《文本模擬解析:在模擬陳述中都有什么是一樣的、做了哪些對比》
作者: Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky,Percy Liang
受到總結性語言的自動化視覺效果的設定啟發(fā),這項研究中作者們提出了一個新的任務,叫做文本模擬解析(Textual Analogy Parsing)。這項任務需要對陳述進行分解,然后計算不同陳述之間的高階聯(lián)系。論文中為這項任務引入了一個新的數(shù)據(jù)集,并提出了一個新的模型,它通過 ILP 的使用來確保分解出的模擬段落符合這個任務設置帶來的限制。又是一篇需要對神經(jīng)網(wǎng)絡的輸出進行限制,讓它符合邏輯要求的論文。這個模型首先會識別不同的實體、它們的語義類型以及數(shù)量,然后模型會建立模擬段落,并用這個模擬段落填充一個模擬框架。模型的評估在有標注的頂點-邊-頂點三元組上得到準確率、召回率、F1 分數(shù)。
《SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. Rowan Zellers》
《SWAG:一個用于給定信息的常識推理的大規(guī)模對抗性數(shù)據(jù)集》
作者: Yonatan Bisk, Roy Schwartz,Yejin Choi
SWAG 是一個有預謀地設計得非常難的新數(shù)據(jù)集,它的創(chuàng)建過程使用了對抗性篩選(adversarial filtering)方法。這個任務是,給出一個初始設定問題后,要求模型從 4 個后續(xù)的句子中正確地挑出一個句子來,挑出的這個句子要能夠看作是對一段自然語言的看上去最自然的、最符合常識的續(xù)寫。數(shù)據(jù)集中故意設置了很難分辨的錯誤選項。這篇論文的創(chuàng)作動機來自于,作者們觀察到大多數(shù)自然語言推理任務只要求模型有語言學知識,但其實自然語言推理任務本身就應當是一種(有條件的)常識推理任務。這個任務也就和完形填空有很強的關聯(lián)。對抗性篩選作為一個數(shù)據(jù)集創(chuàng)建的特點,我們現(xiàn)在也已經(jīng)見到了好幾次了。這個數(shù)據(jù)集很大,有 11 萬個樣本,已經(jīng)超過了我們認為可以算作「大 NLP 數(shù)據(jù)集」的 10 萬樣本及格線了。
這個數(shù)據(jù)集的構造方式很有趣:
連續(xù)的兩個句子采樣自 ActivityNet 比賽數(shù)據(jù)集里的視頻的基于音頻的字幕
把其中的第二個句子看作是黃金答案
他們給一個語言模型輸入第一個句子,以及第二個句子的開頭幾個詞(第一個名詞短語)。然后用語言模型生成很多不同的句子,這些句子也就是候選的錯誤答案
把這些句子都投入到一個對抗性篩選過程中去(詳細介紹請見原論文)
隨機分成訓練集和測試集,找一個模型來訓練
對于測試集中的樣本,找到里面的「很容易就能答對的樣本」,然后把它們換成比較難答對的
反復重復這個過程,直到收斂
最后,候選的錯誤答案由人類進行標注,確保它們確實是錯誤答案
(上篇完)
這是「頂會見聞系列」之 EMNLP 2018 的上篇,大家可移步《「頂會見聞系列」之 EMNLP 2018 詳細參會見聞(下篇)》閱讀后續(xù)精彩內容。
via:https://www.patricklewis.io/post/emnlp2018/,雷鋒網(wǎng) AI 科技評論編譯 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。