0
雷鋒網(wǎng) AI 科技評論按:隨著定于 7 月 15 日的開會日期逐漸臨近,自然語言處理頂會 ACL 2018 繼公開了接收論文名單之后,今天也公布了包含 3 篇長論文 與 2 篇短論文的最佳論文獲獎名單。
其實 ACL 2018 的流程設(shè)計與去年有所不同。ACL 2017 會前首先公布了 22 篇 outstanding 論文(可以看作最佳論文的預(yù)選論文),其中長論文 15 篇、短論文 7 篇;接著正會開始后這 22 篇論文分在四個不同的論文報告 session 中演講,然后在最后一天的頒獎典禮上公布了最終的最佳論文獎得主。當時在 ACL 2017 做現(xiàn)場報道的我們雷鋒網(wǎng)記者岑大師聽了論文報告之后就對最佳論文得主做了自己的預(yù)測,果然猜中。(可惜今年就沒有必要猜啦)
說回 ACL 2018,ACL 2018 組委會于 6 月 10 日直接在官網(wǎng)發(fā)出公告,公布了今年 5 篇最佳論文的評選結(jié)果。不過截止 6 月 10 日只有其中 2 篇論文的內(nèi)容是公開的,另外 3 篇論文的介紹請等待雷鋒網(wǎng) AI 科技評論后續(xù)報道。
- 6 月 13 日更新了兩篇內(nèi)容,目前仍有一篇未公開
Finding syntax in human encephalography with beam search
用束搜索在人腦成像中尋找句法
論文摘要:循環(huán)神經(jīng)網(wǎng)絡(luò)文法(RNNGs)是對于「樹-字符串」對的生成式模型,它們依靠神經(jīng)網(wǎng)絡(luò)來評價派生的選擇。用束搜索對它們進行解析可以得到各種不同復(fù)雜度的評價指標,比如單詞驚異數(shù)(word surprisal count)和解析器動作數(shù)(parser action count)。當把它們用作回歸因子,解析人類大腦成像圖像中對于自然語言文本的電生理學(xué)響應(yīng)時,它們可以帶來兩個增幅效果:一個早期的峰值以及一個類似 P600 的稍遲的峰值。相比之下,一個不具有句法結(jié)構(gòu)的神經(jīng)語言模型無法達到任何可靠的增幅效果。通過對不同模型的對比,早期峰值的出現(xiàn)可以歸功于 RNNG 中的句法組合。結(jié)果中體現(xiàn)出的這種模式表明 RNNG+束搜索的組合可以作為正常人類語言處理中的語法處理的一個不錯的機理解釋模型。
論文四位作者中的三位來自 DeepMind,另一位來自密歇根大學(xué)文學(xué)、科學(xué)與藝術(shù)學(xué)院計算神經(jīng)語言學(xué)實驗室
Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information
學(xué)習(xí)如何問好的問題:通過完全信息下的期待值為追問問題排序
論文摘要:在溝通中,提問是一大基本要素:如果機器不知道如何問問題,那它們也就無法高效地與人類合作。在這項研究中,作者們構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)用于給追問的問題做排名。作者們模型設(shè)計的啟發(fā)來源于完全信息情況下的期待值:一個可以期待獲得有用的答案的問題就是一個好問題。作者們根據(jù) StackExchange 上抓取的數(shù)據(jù)研究了這個問題;StackExchange 是一個內(nèi)容豐富的在線咨詢平臺,其中有人發(fā)帖咨詢以后,別的用戶會在下面追問起到解釋澄清作用的問題,以便更好地了解狀況、幫助到發(fā)帖人。論文作者們創(chuàng)建了一個由這樣的追問問題組成的數(shù)據(jù)集,其中包含了 StackExchange 上 askubuntu、unix、superuser 這三個領(lǐng)域的約 77k 組發(fā)帖+追問問題+問題的回答。作者們在其中的 500 組樣本上評估了自己的模型,相比其他基準模型有顯著的提高;同時他們也與人類專家的判斷進行了對比。
論文作者來自馬里蘭大學(xué)與微軟研究院
Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers
讓我們「再」做一次:首個檢測假定狀態(tài)觸發(fā)副詞的計算性方法
論文摘要:這篇論文中,作者們介紹了一種新的研究課題——預(yù)測副詞詞性的假定狀態(tài)觸發(fā)語(adverbial presupposition triggers),比如「also」和「again」。完成這樣的任務(wù)需要在對話上下文里尋找重復(fù)出現(xiàn)的或者相似的內(nèi)容;這項任務(wù)的研究成果則可以在文本總結(jié)或者對話系統(tǒng)這樣的自然語言生成任務(wù)中起到幫助。作者們?yōu)檫@項任務(wù)創(chuàng)造了兩個新的數(shù)據(jù)集,分別由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成,而且也專為這項任務(wù)設(shè)計了一種新的注意力機制。作者們設(shè)計的注意力機制無需額外的可訓(xùn)練網(wǎng)絡(luò)參數(shù)就可以增強基準 RNN 模型的表現(xiàn),這最小化了這一注意力機制帶來的額外計算開銷。作者們在文中表明,他們的模型相比多個基準模型都有統(tǒng)計顯著的更高表現(xiàn),其中包括基于 LSTM 的語言模型。
這篇論文來自加拿大麥克吉爾大學(xué)(McGill University)與蒙特利爾算法學(xué)習(xí)人工智能實驗室(MILA)
Know What You Don't Know: Unanswerable Questions for SQuAD
知道你不知道的:SQuAD 中無法回答的問題
論文摘要:提取式的閱讀理解系統(tǒng)一般都能夠在給定的文檔內(nèi)容中找到正確的內(nèi)容來回答問題。不過對于正確答案沒有明示在閱讀文本中的問題,它們就經(jīng)常會做出不可靠的猜測。目前現(xiàn)有的閱讀理解問答數(shù)據(jù)集,要么只關(guān)注了可回答的問題,要么使用自動生成的無法回答的問題,很容易識別出來。為了改善這些問題,作者們提出了 SQuAD 2.0 數(shù)據(jù)集,這是斯坦福問答數(shù)據(jù)集 SQuAD 的最新版本。SQuAD 2.0 在現(xiàn)有的十萬個問題-答案對的基礎(chǔ)上增加了超過五萬個無法回答的問題,它們由人類眾包者對抗性地生成,看起來很像可以回答的問題。一個問答系統(tǒng)如果想要在 SQuAD 2.0 上獲得好的表現(xiàn),它不僅需要在問題能夠回答時給出正確的答案,還要在給定的閱讀材料中不包含答案時做出決定、拒絕回答這個問題。SQuAD 2.0 也設(shè)立了新的人類表現(xiàn)基準線,EM 86.831,F(xiàn)1 89.452。對于現(xiàn)有模型來說 SQuAD 2.0 是一個具有挑戰(zhàn)性的自然語言理解任務(wù),一個強有力的基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)可以在 SQuAD 1.1 上得到 86% 的 F1 分數(shù),但在 SQuAD 2.0 上只能得到 66%。
這篇論文來自斯坦福自然語言小組(Stanford NLP Group),作者之一的副教授 Percy Liang 是 NLP 領(lǐng)域著名的研究員,我們也曾報道過他的論文《先打草稿可以生成更高質(zhì)量的文本,Percy Liang新論文廣受贊譽》
'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions
“打火機”也可能是黑暗的:建模比較性的顏色描述
(論文內(nèi)容尚未公開)
這篇論文來自哥倫比亞大學(xué)
最佳論文公告參見 https://acl2018.org/2018/06/10/best-papers/
更多 ACL 2018 及其他重要學(xué)術(shù)會議報道,請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章