0
雷鋒網(wǎng) AI 科技評(píng)論按:本篇屬于「頂會(huì)見(jiàn)聞系列」。每年這么多精彩的人工智能/機(jī)器學(xué)習(xí)會(huì)議,沒(méi)去現(xiàn)場(chǎng)的自然可惜,在現(xiàn)場(chǎng)的也容易看花眼。那么事后看看別的研究員的見(jiàn)聞總結(jié),也許會(huì)有新的收獲呢。
Patrick Lewis 是 UCL 的自然語(yǔ)言處理博士生,同時(shí)他也參與 Facebook 人工智能研究院的研究。Patrick Lewis 對(duì)人類應(yīng)當(dāng)如何設(shè)計(jì)自然語(yǔ)言處理系統(tǒng)、如何更高效地編碼并利用語(yǔ)言背后的有用的知識(shí)非常感興趣。Patrick Lewis 現(xiàn)場(chǎng)參加了 EMNLP 2018,并在個(gè)人博客寫(xiě)下了他的參會(huì)見(jiàn)聞。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。(有刪節(jié))
我剛剛從布魯塞爾參加 EMNLP 回來(lái)。我們?cè)?EMNLP 上展示了我們的 ShARC 數(shù)據(jù)集的論文。這次會(huì)議的規(guī)模和廣泛程度真是令人驚嘆,有如此之多的聰明人,在做各種令人驚喜的事情。能遇到自然語(yǔ)言處理界的這么多學(xué)者,和他們聊天、建立聯(lián)系也很開(kāi)心。
下面我嘗試把自己的一些體會(huì)總結(jié)成一篇文章。有趣的東西太多了,我都已經(jīng)開(kāi)始有點(diǎn)忘了。我聽(tīng)了超過(guò) 60 場(chǎng)論文演講,看了好多好多論文海報(bào),但是相比整個(gè)論文的 549 篇接受論文來(lái)說(shuō)也僅僅只是很小的一部分而已。我先說(shuō)一說(shuō)我看到的一些高層次的趨勢(shì),然后一塊一塊地詳細(xì)說(shuō)說(shuō)每一天遇到的值得關(guān)注的東西。
我覺(jué)得今年的 EMNLP 有好幾個(gè)有廣泛外延的趨勢(shì)值得注意。嘗試更難的任務(wù),廣泛地對(duì)模型、數(shù)據(jù)集以及任務(wù)進(jìn)行批判性分析,整個(gè)領(lǐng)域內(nèi)有很多注意力都花在了這些事情上。這其中有件好事,就是聳人聽(tīng)聞的報(bào)道少了,沒(méi)有什么突出的新想法、僅僅一味拼湊新架構(gòu)的論文也少了。
有一個(gè)方面有喜人的增長(zhǎng),我把它稱作「負(fù)有社會(huì)責(zé)任的自然語(yǔ)言處理」,它包括的內(nèi)容從調(diào)查學(xué)術(shù)研究社區(qū)內(nèi)的偏倚一直到流傳的說(shuō)法的驗(yàn)證和假新聞辟謠。我覺(jué)得 FEVER Workshop 尤其地成功,而且我會(huì)鼓勵(lì)更多的人參與進(jìn)來(lái)。
我們也看到對(duì)抗性方法在 NLP 領(lǐng)域得到越來(lái)越多人的關(guān)注,從老式的 GAN、到辨別網(wǎng)絡(luò)、自然語(yǔ)言的對(duì)抗樣本生成的各方面都有持續(xù)的增長(zhǎng)。這些研究的體量相對(duì)來(lái)說(shuō)還是比較小的,不過(guò)我覺(jué)得明年的時(shí)候我們就會(huì)看到遍地都是對(duì)抗性方法了。
我們也看到了上下文相關(guān)的文本嵌入得到了廣泛的應(yīng)用,尤其是 ELMo。AI2 做了很好的宣傳活動(dòng),給參會(huì)者們送 ELMo 的貼紙和毛茸茸的 elmo 小怪獸玩具。有不少的研究都把 ELMo 作為輸入的對(duì)比組,而且也確實(shí)在很多不同的應(yīng)用中取得了可以說(shuō)是全方位的提升。
會(huì)議中還出現(xiàn)了好多好多新數(shù)據(jù)集?;径际轻槍?duì)越來(lái)越細(xì)粒度的任務(wù)(包括我們自己的 ShARC),也有很多專門(mén)在強(qiáng)調(diào)難度?!鸽y度篩選器」的概念一下子就變得特別火(對(duì)抗性篩選以及其它相關(guān)的技巧),就是為了保證數(shù)據(jù)集沒(méi)法用現(xiàn)有的方法輕松解決。理論上來(lái)說(shuō)這是一件好事,不過(guò)我有點(diǎn)擔(dān)心,如果我們的處理的過(guò)程不小心的話可能會(huì)讓數(shù)據(jù)集帶有微妙的、基于模型的偏倚。和上面這些相關(guān)的是,有好幾項(xiàng)研究都以現(xiàn)有的數(shù)據(jù)集為研究對(duì)象,進(jìn)行近距離的、批判性的分析,試圖弄清如果要在這些任務(wù)中取得好成績(jī)的話到底需要什么類型的模型;問(wèn)答任務(wù)上的這樣的研究尤其多。
我們也看到了常識(shí)和單詞知識(shí)方面的研究熱情一直在持續(xù),有一些新的進(jìn)展,但是我們?nèi)匀挥泻荛L(zhǎng)的路要走。
其它值得一提的還有:重新在語(yǔ)言建模中引入句法和語(yǔ)言學(xué)結(jié)構(gòu),這個(gè)方向的研究還在不斷成長(zhǎng);大家都更看重模型的可解釋性;以及,結(jié)構(gòu)化地限制模型的輸出(配合結(jié)構(gòu)化的預(yù)測(cè),ILP 等等)。
如果你也到會(huì)議現(xiàn)場(chǎng)看了,你也能在這里寫(xiě)下更多東西,而且你看到的趨勢(shì)可能也會(huì)和我的不一樣。畢竟這個(gè)會(huì)議已經(jīng)很大了,同一時(shí)刻有 5 個(gè)會(huì)場(chǎng)都在進(jìn)行。
下面我一個(gè)一個(gè) session 地說(shuō)下一我自己覺(jué)得尤其有趣或者值得討論的研究。
這次的 FEVER Workshop 很棒,如果它聚集的熱度能保持下去并繼續(xù)增長(zhǎng)就更好了,組織者的工作也做得很好。FEVER 是指論述提取與驗(yàn)證(Fact Extraction and VERification),典型的應(yīng)用比如熱點(diǎn)新聞鑒別真假并辟謠,在近年來(lái)全社會(huì)都有熱烈的 AI 熱潮的環(huán)境下更有很高的價(jià)值。
Tim Rocktaschel:特邀講者
Tim 講述了他在 NTP(網(wǎng)絡(luò)時(shí)間協(xié)議)、ShARC(超級(jí)哈佛架構(gòu))以及其他項(xiàng)目中的工作。我熟悉 Tim 的相關(guān)工作,所以沒(méi)有詳細(xì)做筆記。聽(tīng)眾提出了一個(gè)非常有洞察力的問(wèn)題,問(wèn) NTP 捕捉的到底是關(guān)聯(lián)性還是語(yǔ)義的相似性,這個(gè)問(wèn)題提到規(guī)則歸納無(wú)法與關(guān)聯(lián)性相互配合。
《Towards Automated Factchecking: Developing an Annotation Schema and Benchmark for Consistent Automated Claim Detection》
《面向自動(dòng)事實(shí)核查:為一致的自動(dòng)陳述檢測(cè)開(kāi)發(fā)一個(gè)標(biāo)注方式和 Benchmark》
作者:Lev Konstantinovskiy, Oliver Price, Mevan Babakar,Arkaitz Zubiaga
Lev 在一家打擊虛假信息的慈善機(jī)構(gòu) FullFact 工作。FullFact 對(duì)事實(shí)核查的工作流程規(guī)如下:
更自動(dòng)化的監(jiān)控
更自動(dòng)化地發(fā)現(xiàn)需要核查的陳述
核查陳述
公布
干預(yù)
這個(gè)項(xiàng)目涉及面向自動(dòng)陳述檢測(cè)方面的工作,首先會(huì)為 7 種類別建立一個(gè)數(shù)據(jù)集:
非陳述
數(shù)量
預(yù)測(cè)
個(gè)人體驗(yàn)
相關(guān)/因果關(guān)系
操作法律/規(guī)則
他們使用來(lái)自 ExplosionAI 公司的出色的 「prodigy」軟件來(lái)實(shí)現(xiàn)自動(dòng)化。不幸的是,它的不同標(biāo)注員之間的一致程度不是很好,不過(guò)在定義二進(jìn)制分類任務(wù)時(shí)要好得多。數(shù)據(jù)集由 5571 個(gè)句子組成,其中 1570 個(gè)句子表示陳述的意思。該模型讓系統(tǒng)得到分別為 0.88 、0.80、0.83 的準(zhǔn)確率、召回率以及 F 值。
《Shared Task Flash Talks - The Fact Extraction and VERification (FEVER) Shared Task》
《共享任務(wù) Flash Talks—事實(shí)提取和驗(yàn)證(FEVER)共享任務(wù)》
這個(gè) FEVER 任務(wù)有 87 次提交,23 個(gè)團(tuán)隊(duì),并讓 f1 值從 0.18 提高到 0.53。
大多數(shù)團(tuán)隊(duì)通常使用三步流水線來(lái)完成任務(wù):
文件選擇:網(wǎng)元、網(wǎng)絡(luò)處理器、大小寫(xiě)轉(zhuǎn)換、頁(yè)面查看、搜索 API
句子選擇:幾種不同的方法
采用監(jiān)督訓(xùn)練來(lái)分類
《Combining Fact Extraction and Claim Verification in an NLI Model》
《自然語(yǔ)言推斷模型中的事實(shí)提取與陳述驗(yàn)證相結(jié)合》
作者:Yixin Nie, Haonan Chen,Mohit Bansal
作者對(duì)這三個(gè)步驟的每一步驟都使用了 NSMN 方法,并首次將其運(yùn)用到任務(wù)中。
《UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)》
《UCL 機(jī)器閱讀組:事實(shí)發(fā)現(xiàn)的四因素框架(HexaF)》
作者:Takuma Yoneda, Jeff Mitchell, Johannes Welbl, Pontus Stenetorp,Sebastian Riedel
該論文使用了一種流程化的方法:先是文獻(xiàn)檢索,隨后是句子檢索,接著是自然語(yǔ)言推斷,最后是標(biāo)簽聚合。他們提到大寫(xiě)以及證據(jù)是否接近文章的開(kāi)頭是非常重要的特征,并且通過(guò)將文章標(biāo)題添加到句子的自然語(yǔ)言推斷模型中,來(lái)使用實(shí)體共同參照物。
《Multi-Sentence Textual Entailment for Claim Verification》
《用于陳述驗(yàn)證的多語(yǔ)句文本蘊(yùn)涵》
作者:Andreas Hanselowski, Hao Zhang, Zile Li, Daniil Sorokin, Benjamin Schiller, Claudia Schulz,Iryna Gurevych
這篇論文同樣發(fā)現(xiàn),對(duì)文檔中的實(shí)體進(jìn)行實(shí)體鏈接,從而為附加的證據(jù)找到維基百科文章是有用的。
《Team Papelo: Transformer Networks at FEVER 》
《Papelo 團(tuán)隊(duì):FEVER 的變換網(wǎng)絡(luò)》
作者: Christopher Malon
這個(gè)團(tuán)隊(duì)在自然語(yǔ)言推斷這一步驟中使用了 GPT 變換,并且相比其他的團(tuán)隊(duì),他們提交的成果在準(zhǔn)確率/召回率兩者間的權(quán)衡有明顯的不同。
《The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity》
《錯(cuò)誤信息檢測(cè)中的數(shù)據(jù)挑戰(zhàn):源信譽(yù)與內(nèi)容真實(shí)性》
作者:Fatemeh Torabi Asr,Maite Taboada.
Fatimeh 通過(guò)視頻通話進(jìn)行展示。他們通過(guò)驗(yàn)證是否可能使用發(fā)布者的信譽(yù)來(lái)訓(xùn)練系統(tǒng),從而檢測(cè)內(nèi)容的真假,進(jìn)而構(gòu)建系統(tǒng)??傮w而言,這一基于信譽(yù)的數(shù)據(jù)是有用的,不過(guò)相關(guān)分析表明其中存在一些問(wèn)題,這是因?yàn)閬?lái)自大的新聞源的文章很多都被標(biāo)記為諷刺,而小的新聞源的數(shù)很多則有很多被標(biāo)記為騙局。這個(gè)論述處理實(shí)驗(yàn)室有一個(gè)有意思的網(wǎng)站:https://fakenews.ngrok.io/
特邀報(bào)告:《Call for Help: Putting Computation in Computational Fact Checking 》
《求助:在計(jì)算機(jī)的事實(shí)檢查中引入算法》
講者:Delip Rao
Delip 熱情洋溢地講述了現(xiàn)在對(duì)于處理假新聞的需求以及我們作為幫助解決這些問(wèn)題的實(shí)踐者該怎樣承擔(dān)責(zé)任。他針對(duì)部分不同的假新聞,詳細(xì)展示了解決方案:
政治新聞
調(diào)查報(bào)道新聞
教育新聞
科技(人工智能,用戶體驗(yàn)以及其他)新聞
研究新聞
他還指出了假新聞的不同「策劃者」和「?jìng)鞑フ摺梗?/p>
策劃者:名人,犯罪分子/恐怖分子,活動(dòng)家,政府
傳播者:機(jī)器程序,「有用的白癡」、陰謀論者、記者
來(lái)自謝菲爾德大學(xué) James Thorne 的宣告
James 介紹了 FEVER 2 的規(guī)劃,它將遵循 Ettinger 等人的方法論——「構(gòu)建它、打破它、修復(fù)它」:
1.構(gòu)建它:
用現(xiàn)有的模型和現(xiàn)有的 FEVER 數(shù)據(jù)構(gòu)建基線模型;
為模型開(kāi)發(fā) API。
2.打破它:
將邀請(qǐng)對(duì)抗的一方,他們要生成新的數(shù)據(jù)攻破基準(zhǔn)線系統(tǒng)?;鶞?zhǔn)線系統(tǒng)要通過(guò) API 進(jìn)行在線測(cè)試。攻擊者要提交 1000 個(gè)最佳的樣本用于比賽。根據(jù)攻擊者能夠攻破的系統(tǒng)的數(shù)量為他們?cè)u(píng)分。
3.修復(fù)它:
將公開(kāi)發(fā)布一半的攻擊者數(shù)據(jù)用來(lái)訓(xùn)練新的模型,另一半保留用來(lái)測(cè)試。
這個(gè)規(guī)劃真的很好,我非常開(kāi)心能在這里看到 FEVER 2 的進(jìn)程正在向前推進(jìn)。
《Context-Free Transductions with Neural Stacks》
《用神經(jīng)堆棧實(shí)現(xiàn)上下文無(wú)關(guān)變換》
作者:Yiding Hao, William Merrill, Dana Angluin, Robert Frank, Noah Amsel, Andrew Benz,Simon Mendelsohn
作者們調(diào)查了神經(jīng)堆棧增強(qiáng)的神經(jīng)網(wǎng)絡(luò)( NN)是否真的使用堆棧數(shù)據(jù)架構(gòu)。他們定義了下面幾個(gè)不同的任務(wù):
反向字符串——作者們發(fā)現(xiàn),LSTM 控制器沒(méi)有充分利用堆棧,而是將它用作非結(jié)構(gòu)化存儲(chǔ)器。
平衡括號(hào)語(yǔ)言建模,這是一個(gè)簡(jiǎn)單的任務(wù),簡(jiǎn)簡(jiǎn)單單的網(wǎng)絡(luò)就能做得很好,但 LSTM 控制器網(wǎng)絡(luò)可以做得更好。堆棧會(huì)被用作非結(jié)構(gòu)化存儲(chǔ)器,而非用作堆棧。
奇偶性評(píng)估——在每個(gè)時(shí)間步長(zhǎng)計(jì)算一個(gè)二進(jìn)制字符串的位奇偶,相當(dāng)于用新的位來(lái)取前奇偶的異或。緩沖架構(gòu)可以很好地解決這個(gè)問(wèn)題,但是沒(méi)有緩沖的架構(gòu)無(wú)法實(shí)現(xiàn)(隨機(jī)猜測(cè))。
他們認(rèn)為,堆棧遞歸神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)到了直觀和可解釋的解決方案來(lái)簡(jiǎn)化算法任務(wù),但通常使用堆棧的方式并不合理。讓控制器網(wǎng)絡(luò)正確地使用堆棧,可能需要給模型增加更多的歸納偏倚。
《Comparing Models of Associative Meaning: An Empirical Investigation of Reference in Simple Language Games 》
《比較不同的關(guān)聯(lián)意義模型:對(duì)簡(jiǎn)單語(yǔ)言游戲中的指代的實(shí)證探究》
作者:Judy Hanwen Shen, Matthias Hofer, Bjarke Felbo,Roger Levy
作者們研究了桌游「行動(dòng)代號(hào)」(CodeNames)的簡(jiǎn)化版本。一個(gè)玩家需要從三個(gè)單詞中選擇一個(gè),讓另一個(gè)玩家再?gòu)娜齻€(gè)其他單詞組成的列表中「也選出一個(gè)不是同類的單詞」。他們很想發(fā)現(xiàn)人類用什么語(yǔ)義資源來(lái)構(gòu)建詞匯聯(lián)想,并調(diào)查了 5 種資源:
名詞,形容詞二元語(yǔ)法聯(lián)想
Conceptnet5 相似性
詞向量余弦距離
LDA 主題建模——這里使用的是詞的主題分布之間的歐式距離
他們發(fā)現(xiàn),二元語(yǔ)法系統(tǒng)能最好地預(yù)測(cè)人類玩家(尤其是 2 號(hào)玩家)怎樣玩游戲,這表明了「直接的共現(xiàn)分析在聯(lián)想設(shè)置中特別重要」。他們還提到,1 號(hào)玩家和 2 號(hào)玩家的策略存在差異,這就意味著每個(gè)玩家所利用的信息是不同的。
《Sequence Classification with Human Attention》(special paper award)
《利用人類注意力的序列分類》(特別論文獎(jiǎng))
作者:Maria Barrett, Joachim Bingel, Nora Hollenstein, Marek Rei,Anders S?gaard
這篇論文獲得了心理語(yǔ)言學(xué)特別獎(jiǎng),真的很棒!作者們?cè)噲D通過(guò)利用眼動(dòng)追蹤測(cè)量的結(jié)果,來(lái)推動(dòng)序列分類中的神經(jīng)注意力更像人類一樣工作。他們不直接監(jiān)控注意力信號(hào),而是通過(guò)利用眼動(dòng)追蹤軟件所測(cè)量得到的注視時(shí)間,來(lái)將人類閱讀新聞文章的注意力作為模型學(xué)習(xí)的監(jiān)督信號(hào)。這項(xiàng)工作真的很酷,是少數(shù)直接使用了人類在做本能工作時(shí)所發(fā)出信號(hào)的工作之一。
他們測(cè)試了其情感分類、語(yǔ)法檢測(cè)和仇恨語(yǔ)言檢測(cè)的系統(tǒng),發(fā)現(xiàn)使用來(lái)自 ZUCO 和 Dundee 語(yǔ)料庫(kù)的「平均持續(xù)固定時(shí)間」注視法,能將 F1 的分?jǐn)?shù)提高 0.5%~2%。
講者:Julia Hirschberg(哥倫比亞大學(xué))
作為會(huì)議的第一位主題報(bào)告演講者,Julia 詳述了欺騙檢測(cè)的優(yōu)化方法,并描述了建立一個(gè)包含人類所講的真話和謊言的干凈數(shù)據(jù)集的過(guò)程。然后把人類說(shuō)真話或者說(shuō)謊話的錄音給別的人類或者給機(jī)器學(xué)習(xí)算法聽(tīng),討論的內(nèi)容也經(jīng)常是關(guān)于敏感話題的。
機(jī)器學(xué)習(xí)系統(tǒng)比人類更善于發(fā)現(xiàn)謊言,不過(guò)機(jī)器和人類傾向于犯不同的錯(cuò)誤。他們發(fā)現(xiàn),男性能更好地發(fā)現(xiàn)別人說(shuō)謊,而最善于發(fā)現(xiàn)謊言的人,則是那些在開(kāi)放和一致的人格測(cè)試中得分很高的人。
有趣的是,在機(jī)器學(xué)習(xí)模型檢測(cè)謊言的時(shí)候,說(shuō)謊者的人格類型是一個(gè)重要的特征。他們還發(fā)現(xiàn),重復(fù)敘述 以及音高和「停頓間隔」,同樣都是重要的因素。
在下一步工作中,他們計(jì)劃通過(guò)將謊言游戲眾包,來(lái)獲取更多的人類評(píng)價(jià),從而更好地理解人類欺騙檢測(cè)。我想說(shuō)的是:在這里,壓力和語(yǔ)境是超級(jí)重要的。當(dāng)一個(gè)人感到緊張、疲倦或煩惱時(shí),他們說(shuō)謊的方式可能會(huì)有很大的不同嗎?我們這里同時(shí)也存在領(lǐng)域遷移的問(wèn)題。
《Reasoning about Actions and State Changes by Injecting Commonsense Knowledge》
《通過(guò)增加常識(shí)知識(shí)來(lái)推理動(dòng)作和狀態(tài)變化》
作者:Niket Tandon, Bhavana Dalvi, Joel Grus, Wen-tau Yih, Antoine Bosselut,Peter Clark
作者們?cè)谡撐闹刑岢隽?ProPara 數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的目標(biāo)是預(yù)測(cè)一段程序性的自然語(yǔ)言進(jìn)行過(guò)程中的動(dòng)作和狀態(tài)變化。這個(gè)任務(wù)和 BABI 中的某個(gè)任務(wù)感覺(jué)很相似,只不過(guò)這次是真的體現(xiàn)成了自然語(yǔ)言的形式;近期發(fā)布的 RecipeQA 也是自然語(yǔ)言形式的,不過(guò)有更豐富的單詞量和更多樣化的主題。
這個(gè)任務(wù)本身是這樣的:給模型提供一組句子和一組句子中的實(shí)體,模型必須閱讀每個(gè)句子,然后預(yù)測(cè)每一個(gè)實(shí)體的狀態(tài)是否發(fā)生了變化。他們考慮了這些動(dòng)作:消耗、生產(chǎn)、發(fā)生了哪些轉(zhuǎn)換以及發(fā)生了哪些運(yùn)動(dòng)。有意思的是,他們發(fā)現(xiàn)貪婪解碼方法可能會(huì)帶來(lái)毫無(wú)意義的預(yù)測(cè)。
比如,如果一個(gè)實(shí)體已經(jīng)被摧毀了,那么它就不能繼續(xù)發(fā)生任何后續(xù)的變化。作者們的做法是使用了結(jié)構(gòu)化預(yù)測(cè)。而且這個(gè)系統(tǒng)還需要一定的人類常識(shí)才能得到比較好的效果。他們發(fā)現(xiàn)現(xiàn)有的實(shí)體追蹤系統(tǒng),比如循環(huán)實(shí)體網(wǎng)絡(luò)(recurrent entity network)在這里的表現(xiàn)并不怎么好;作者們的系統(tǒng)要比循環(huán)實(shí)體網(wǎng)絡(luò)提高了 13 分的 F1 分?jǐn)?shù),在有隱式指代、聯(lián)合指代和知識(shí)檢索時(shí)最容易出現(xiàn)錯(cuò)誤。
《Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation》
《為句子表征評(píng)價(jià)收集多樣化的自然語(yǔ)言推理問(wèn)題》
作者: Adam Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White,Benjamin Van Durme
這篇論文收集了 13 個(gè)現(xiàn)有的不同類型的 NLI(自然語(yǔ)言推理)數(shù)據(jù)集中多種多樣的語(yǔ)義現(xiàn)象,組成了 DNC(Diverse Natural Language Inference collection,多樣化自然語(yǔ)言推理集合)數(shù)據(jù)集,地址見(jiàn) https://www.decomp.io/。DNC 很大、多樣化,涵蓋了原型-角色轉(zhuǎn)化、真實(shí)性、生成性、常識(shí)推理、詞義推理等等許多方面的內(nèi)容,總計(jì)有超過(guò) 50 萬(wàn)個(gè)樣本。在建模的過(guò)程中,論文作者們發(fā)現(xiàn)如果想要在雙關(guān)語(yǔ)和情感方面取得好的成績(jī)的話,需要先在 MNLI 數(shù)據(jù)集上做預(yù)訓(xùn)練(其后的精細(xì)調(diào)節(jié)是必要的),以及即便他們沒(méi)法證明這個(gè)假說(shuō),也仍然取得了很好的 NER 成績(jī)。
《Textual Analogy Parsing: What's Shared and What's Compared among Analogous Facts》
《文本模擬解析:在模擬陳述中都有什么是一樣的、做了哪些對(duì)比》
作者: Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky,Percy Liang
受到總結(jié)性語(yǔ)言的自動(dòng)化視覺(jué)效果的設(shè)定啟發(fā),這項(xiàng)研究中作者們提出了一個(gè)新的任務(wù),叫做文本模擬解析(Textual Analogy Parsing)。這項(xiàng)任務(wù)需要對(duì)陳述進(jìn)行分解,然后計(jì)算不同陳述之間的高階聯(lián)系。論文中為這項(xiàng)任務(wù)引入了一個(gè)新的數(shù)據(jù)集,并提出了一個(gè)新的模型,它通過(guò) ILP 的使用來(lái)確保分解出的模擬段落符合這個(gè)任務(wù)設(shè)置帶來(lái)的限制。又是一篇需要對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行限制,讓它符合邏輯要求的論文。這個(gè)模型首先會(huì)識(shí)別不同的實(shí)體、它們的語(yǔ)義類型以及數(shù)量,然后模型會(huì)建立模擬段落,并用這個(gè)模擬段落填充一個(gè)模擬框架。模型的評(píng)估在有標(biāo)注的頂點(diǎn)-邊-頂點(diǎn)三元組上得到準(zhǔn)確率、召回率、F1 分?jǐn)?shù)。
《SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. Rowan Zellers》
《SWAG:一個(gè)用于給定信息的常識(shí)推理的大規(guī)模對(duì)抗性數(shù)據(jù)集》
作者: Yonatan Bisk, Roy Schwartz,Yejin Choi
SWAG 是一個(gè)有預(yù)謀地設(shè)計(jì)得非常難的新數(shù)據(jù)集,它的創(chuàng)建過(guò)程使用了對(duì)抗性篩選(adversarial filtering)方法。這個(gè)任務(wù)是,給出一個(gè)初始設(shè)定問(wèn)題后,要求模型從 4 個(gè)后續(xù)的句子中正確地挑出一個(gè)句子來(lái),挑出的這個(gè)句子要能夠看作是對(duì)一段自然語(yǔ)言的看上去最自然的、最符合常識(shí)的續(xù)寫(xiě)。數(shù)據(jù)集中故意設(shè)置了很難分辨的錯(cuò)誤選項(xiàng)。這篇論文的創(chuàng)作動(dòng)機(jī)來(lái)自于,作者們觀察到大多數(shù)自然語(yǔ)言推理任務(wù)只要求模型有語(yǔ)言學(xué)知識(shí),但其實(shí)自然語(yǔ)言推理任務(wù)本身就應(yīng)當(dāng)是一種(有條件的)常識(shí)推理任務(wù)。這個(gè)任務(wù)也就和完形填空有很強(qiáng)的關(guān)聯(lián)。對(duì)抗性篩選作為一個(gè)數(shù)據(jù)集創(chuàng)建的特點(diǎn),我們現(xiàn)在也已經(jīng)見(jiàn)到了好幾次了。這個(gè)數(shù)據(jù)集很大,有 11 萬(wàn)個(gè)樣本,已經(jīng)超過(guò)了我們認(rèn)為可以算作「大 NLP 數(shù)據(jù)集」的 10 萬(wàn)樣本及格線了。
這個(gè)數(shù)據(jù)集的構(gòu)造方式很有趣:
連續(xù)的兩個(gè)句子采樣自 ActivityNet 比賽數(shù)據(jù)集里的視頻的基于音頻的字幕
把其中的第二個(gè)句子看作是黃金答案
他們給一個(gè)語(yǔ)言模型輸入第一個(gè)句子,以及第二個(gè)句子的開(kāi)頭幾個(gè)詞(第一個(gè)名詞短語(yǔ))。然后用語(yǔ)言模型生成很多不同的句子,這些句子也就是候選的錯(cuò)誤答案
把這些句子都投入到一個(gè)對(duì)抗性篩選過(guò)程中去(詳細(xì)介紹請(qǐng)見(jiàn)原論文)
隨機(jī)分成訓(xùn)練集和測(cè)試集,找一個(gè)模型來(lái)訓(xùn)練
對(duì)于測(cè)試集中的樣本,找到里面的「很容易就能答對(duì)的樣本」,然后把它們換成比較難答對(duì)的
反復(fù)重復(fù)這個(gè)過(guò)程,直到收斂
最后,候選的錯(cuò)誤答案由人類進(jìn)行標(biāo)注,確保它們確實(shí)是錯(cuò)誤答案
(上篇完)
這是「頂會(huì)見(jiàn)聞系列」之 EMNLP 2018 的上篇,大家可移步《「頂會(huì)見(jiàn)聞系列」之 EMNLP 2018 詳細(xì)參會(huì)見(jiàn)聞(下篇)》閱讀后續(xù)精彩內(nèi)容。
via:https://www.patricklewis.io/post/emnlp2018/,雷鋒網(wǎng) AI 科技評(píng)論編譯 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。