0
本文作者: 奕欣 | 2018-05-19 17:40 | 專題:ACL 2018 |
雷鋒網(wǎng) AI 科技評論按:國際自然語言處理頂會 ACL 還有數(shù)月即將召開。本屆會議共計有 1551 篇論文進入審查階段(1021 長篇,530 篇短篇),錄用率約為 20%。
雷鋒網(wǎng) AI 科技評論也一直密切關注國內(nèi)外企業(yè)研究院的論文錄用動態(tài)。其中,百度自然語言處理部共有四篇論文被 ACL 主會錄用,此外 DuReader 數(shù)據(jù)集及相應改進評測方法兩篇論文被 ACL 2018 閱讀理解研討會 workshop 錄用。
百度自然語言處理部此前因為在微軟 MARCO 閱讀理解數(shù)據(jù)集上獲得第一,在雷鋒網(wǎng)學術頻道「AI 科技評論」旗下數(shù)據(jù)庫項目「AI 影響因子」中有不俗表現(xiàn);而憑借 ACL 2018 的論文錄用情況,在本月眾多國內(nèi)企業(yè)研究院中有巨大進步。
被 ACL 2018 收錄的兩篇閱讀理解相關論文從某種程度上代表了百度最新的閱讀理解技術進展:多文檔校驗模型 V-NET 及多文檔校驗的強化學習訓練機制。兩項工作均為圍繞實際應用需求,在搜索引擎多文檔場景下的閱讀理解技術創(chuàng)新工作。
據(jù)了解,在搜索引擎返回多文檔的場景下,由于引入了更多的和問題相關的文檔,存在更多的歧義,最終可能導致閱讀理解模型定位錯誤的答案。而人在這種情況下通常會采取「找到多個候選->校驗相關答案->選出最終答案」的策略來找出置信度最高的答案。基于這種觀察,百度自然語言處理團隊提出了兩種不同角度探索多文檔校驗的方案以提升閱讀理解技術的最終效果。其中第一個工作將多文檔校驗的模塊聯(lián)合建模在統(tǒng)一的神經(jīng)網(wǎng)絡框架下(V-NET)也是第一個端到端建模的多文檔閱讀理解模型,而第二個工作則利用強化學習的方法對串行的多文檔閱讀理解模塊進行聯(lián)合訓練。
在論文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一種新的多文檔校驗的深度神經(jīng)網(wǎng)絡建模方法 V-NET,通過注意力機制使不同文檔產(chǎn)生的答案之間能夠產(chǎn)生交換信息互相印證,從而預測出更好的答案。V-NET 是一個端到端的神經(jīng)網(wǎng)絡模型,如下圖所示,該模型同時使用三個不同的模塊分別從三個方面來預測答案:答案的邊界預測模塊、答案內(nèi)容預測模塊和多文檔的答案驗證模塊。在 MARCO 和 DuReader 數(shù)據(jù)集上,V-NET 模型效果顯著優(yōu)于其他系統(tǒng)。
V-NET 模型的整體架構(gòu)
在論文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用強化學習的方法對串行的多文檔閱讀理解模塊進行聯(lián)合訓練。在傳統(tǒng)的問答系統(tǒng)中,「抽取候選答案->綜合選出答案」串行的模式非常常見,但通常將這兩個步驟看成獨立的模塊分開處理。其實,這兩個模塊之間的聯(lián)系非常密切,同時也由于數(shù)據(jù)集沒有提供各文檔的可能的候選答案,因此百度將各文檔中的候選答案視為隱變量,用神經(jīng)網(wǎng)絡分別建模對應的兩種行為(action),并在多文檔校驗模塊中引入相關性矩陣建模候選答案之間的關聯(lián)關系。在此基礎上采用強化學習的方法聯(lián)合訓練,以提升最終答案與真實答案的匹配程度,也就是直接根據(jù)評價指標同步訓練兩階段的模型。
此外,百度自然語言處理部還有兩篇關于對話的論文,標題及作者如下:
? Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network. Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu and Hua Wu.
? Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game. Haichao Zhang, Haonan Yu and Wei Xu.
而針對多文檔閱讀理解任務,百度自然語言處理團隊在 ACL 2018 閱讀理解研討會 (Workshop on Machine Reading for Question Answering) 上進一步發(fā)表了 DuReader 數(shù)據(jù)集以及相應改進的評測方法的論文:
DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications
本文介紹了一個面向真實應用的、開放域的、大規(guī)模中文閱讀理解數(shù)據(jù)集 DuReader。相比于以前的閱讀理解數(shù)據(jù)集,DuReader 有以下三方面的要點:
(1)數(shù)據(jù)來源:DuReader 的問題和文檔都來自于百度搜索和百度知道;答案都是人工構(gòu)建的。
(2)問題類型:DuReader 提供了更加豐富的問題類型標注,特別是是非類問題和觀點類問題,這為研究人員提供了更多的研究機會。
(3)規(guī)模:DuReader 包含了 20 萬問題,42 萬答案和 100 萬文檔;它是迄今為止最大的中文閱讀理解數(shù)據(jù)集。實驗表明,人類在該數(shù)據(jù)集的表現(xiàn)遠高于目前最好的基線系統(tǒng)。這為研究人員留下了很大的研究和改進空間。為了幫助整個研究社區(qū)做出這些改進,團隊已經(jīng)將 DuReader 和相關的基線系統(tǒng)開源。同時,百度也組織了在線比賽以鼓勵研究人員探索更多的模型。自比賽發(fā)布以來,最好系統(tǒng)的性能已經(jīng)大幅提高。
Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task
當前的閱讀理解自動評價指標(如 ROUGE 和 BLEU)的計算通常都基于候選答案和參考答案的詞匯覆蓋率。但是這種計算方法對于特定類型的問題不一定非常適用,如是非和實體需求類型的問題。因此,百度提出了一種改進的評價指標,通過對相關的 N 元覆蓋進行一定加權使得改進后指標與人工判斷結(jié)果更加接近。實驗結(jié)果顯示改進后的指標顯著有效,團隊認為該指標更加適合評價真實場景下的閱讀理解系統(tǒng)。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章