Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ，讓機器挑戰(zhàn)更復雜閱讀理解問題

本文作者： AI科技評論

2017-12-21 14:28

導語：Deepmind：不是我針對誰，在座的閱讀理解數(shù)據(jù)集都不如 NarrativeQA

雷鋒網(wǎng)按：自然語言處理始終是實現(xiàn)智能、自然人機交互愿景里一塊重要的技術基石。而機器閱讀理解則可以被視為是自然語言處理領域皇冠上的明珠，也是目前該領域的研究焦點之一。在這一領域，最有名的數(shù)據(jù)集是由斯坦福大學自然語言計算組發(fā)起的 SQuAD（Stanford Question Answering Dataset）和相關的文本理解挑戰(zhàn)賽，它也被譽為“機器閱讀理解界的 ImageNet ”。而最近， Deepmind 發(fā)布了一個新的閱讀理解數(shù)據(jù)集 NarrativeQA，那么這個數(shù)據(jù)集有什么特點呢？一起來和雷鋒網(wǎng)了解一下。

在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中，Deepmind 解釋了這個推出這個數(shù)據(jù)集的初衷：

自然語言理解試圖創(chuàng)建閱讀和理解文本的模型。評估理解模型語言理解能力的一個常用策略是證明他們能回答他們所閱讀的文檔的問題，類似于兒童在學習閱讀時如何理解閱讀內(nèi)容的能力。閱讀文檔后，讀者通常不能從記憶中重現(xiàn)整個文本，但經(jīng)?？梢曰卮痍P于文檔的潛在敘述元素的問題，如突出的實體，事件，地點以及其相互關系等。因此，測試理解需要創(chuàng)建檢查高層次的抽象的問題，而不是只在一個句子中出現(xiàn)一次的事實。

不幸的是，關于文檔的表面問題通常可以使用淺層模式匹配或基于全局顯著性的策略或猜測成功（由人和機器）回答。我們調(diào)查了現(xiàn)有的QA數(shù)據(jù)集，結果顯示它們要么太小、要么可以通過淺的啟發(fā)式算法進行解答（第2節(jié)）；另一方面，在表面文字無法直接解答、必須通過內(nèi)在敘述進行推導的問題，需要形成更多在文件過程中表達的事件和關系的抽象表征。回答這些問題要求讀者將信息分散在整個文件中的幾個陳述中，并根據(jù)這一綜合信息產(chǎn)生一個有說服力的答案。也就是說，他們測試得失讀者理解語言的能力，而不僅僅是模式匹配?；诖耍覀兲岢隽艘粋€新的任務和數(shù)據(jù)集，我們稱之為NarrativeQA，它將測試并獎勵接近這種能力水平的智能體。

Deepmind 還對目前主要的機器閱讀理解數(shù)據(jù)集進行了比較：

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ，讓機器挑戰(zhàn)更復雜閱讀理解問題

(圖為目前主流機器閱讀理解數(shù)據(jù)集的比較)

MCTest(2013年，Richardson等)：660篇短文章，基于文章的2640個問題，回答在多個答案中進行選擇，Deepmind認為，MCTest的局限性在于數(shù)量太小，因而更像一個評估測試，而不適合與一個端到端的模型訓練；
而另一方面，如CNN/Daily Mail（93K+220K新聞文章，387K+997K問題）、CBT(從108本兒童讀物中摘取的678K個20句左右的段落)、BookTest（14.2M個段落，類似CBT）等數(shù)據(jù)集均能夠提供大量的答案-問題對，這些數(shù)據(jù)集的問題通常為完形填空（預測缺的詞語），問題從摘要中進行抽象總結（CNN/Daily Mail）或者從前后一句話的上下文語境中提煉，并從一組選項中進行選擇正確的答案。這類數(shù)據(jù)集的局限性在于偏差較大，部分通過指向特定類型操作的模型（如AS Reader）可能在這些數(shù)據(jù)集中表現(xiàn)突出，但這些模型卻并不適合回答需要綜合新的答案的回答。尤其在CNN/Daily Mail中，由于其上下文檔均為新聞故事，通常會包含集中在單個事件的突出實體，這也進一步加大了這種偏差。
斯坦福大學Percy Liang等人推出的SQuAD（關于 SQuAD 測試參見雷鋒網(wǎng)之前文章《專訪科大訊飛：成為世界第一，只是閱讀理解系統(tǒng)萬里長征的第一步》）包含從536個維基百科詞條中抽取的23K個段落。雖然SQuAD提供了大量的問題和答案，答案也并非只是某個單詞或者對于某個實體的回答，但由于這些段落缺乏完整的文章包含的跨度，很多更合理的閱讀理解的問題無法被提問和解答。此外，由于這些段落來自于較少的條目，這也限制了對這些數(shù)據(jù)訓練中對于局部多樣性和詞法的效果，也限制了在SQuAD或者NewsQA等數(shù)據(jù)集中表現(xiàn)良好的模型回答更復雜問題的能力。

總體來說，DeepMind認為目前的閱讀理解數(shù)據(jù)集均存在著一定的局限性，包括：數(shù)據(jù)集小、不自然、只需要一句話定位回答的必須信息，等等。因而 Deepmind 認為，在這些數(shù)據(jù)集上的測試可能都是一個不能真實反映機器閱讀理解能力的偽命題。

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ，讓機器挑戰(zhàn)更復雜閱讀理解問題