0
本文作者: AI科技評(píng)論 | 2017-12-21 14:28 |
雷鋒網(wǎng)按:自然語(yǔ)言處理始終是實(shí)現(xiàn)智能、自然人機(jī)交互愿景里一塊重要的技術(shù)基石。而機(jī)器閱讀理解則可以被視為是自然語(yǔ)言處理領(lǐng)域皇冠上的明珠,也是目前該領(lǐng)域的研究焦點(diǎn)之一。在這一領(lǐng)域,最有名的數(shù)據(jù)集是由斯坦福大學(xué)自然語(yǔ)言計(jì)算組發(fā)起的 SQuAD(Stanford Question Answering Dataset)和相關(guān)的文本理解挑戰(zhàn)賽,它也被譽(yù)為“機(jī)器閱讀理解界的 ImageNet ”。而最近, Deepmind 發(fā)布了一個(gè)新的閱讀理解數(shù)據(jù)集 NarrativeQA,那么這個(gè)數(shù)據(jù)集有什么特點(diǎn)呢?一起來(lái)和雷鋒網(wǎng)了解一下。
在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解釋了這個(gè)推出這個(gè)數(shù)據(jù)集的初衷:
自然語(yǔ)言理解試圖創(chuàng)建閱讀和理解文本的模型。評(píng)估理解模型語(yǔ)言理解能力的一個(gè)常用策略是證明他們能回答他們所閱讀的文檔的問(wèn)題,類(lèi)似于兒童在學(xué)習(xí)閱讀時(shí)如何理解閱讀內(nèi)容的能力。閱讀文檔后,讀者通常不能從記憶中重現(xiàn)整個(gè)文本,但經(jīng)常可以回答關(guān)于文檔的潛在敘述元素的問(wèn)題,如突出的實(shí)體,事件,地點(diǎn)以及其相互關(guān)系等。因此,測(cè)試?yán)斫庑枰獎(jiǎng)?chuàng)建檢查高層次的抽象的問(wèn)題,而不是只在一個(gè)句子中出現(xiàn)一次的事實(shí)。
不幸的是,關(guān)于文檔的表面問(wèn)題通??梢允褂脺\層模式匹配或基于全局顯著性的策略或猜測(cè)成功(由人和機(jī)器)回答。我們調(diào)查了現(xiàn)有的QA數(shù)據(jù)集,結(jié)果顯示它們要么太小、要么可以通過(guò)淺的啟發(fā)式算法進(jìn)行解答(第2節(jié));另一方面,在表面文字無(wú)法直接解答、必須通過(guò)內(nèi)在敘述進(jìn)行推導(dǎo)的問(wèn)題,需要形成更多在文件過(guò)程中表達(dá)的事件和關(guān)系的抽象表征?;卮疬@些問(wèn)題要求讀者將信息分散在整個(gè)文件中的幾個(gè)陳述中,并根據(jù)這一綜合信息產(chǎn)生一個(gè)有說(shuō)服力的答案。也就是說(shuō),他們測(cè)試得失讀者理解語(yǔ)言的能力,而不僅僅是模式匹配?;诖?,我們提出了一個(gè)新的任務(wù)和數(shù)據(jù)集,我們稱(chēng)之為NarrativeQA,它將測(cè)試并獎(jiǎng)勵(lì)接近這種能力水平的智能體。
Deepmind 還對(duì)目前主要的機(jī)器閱讀理解數(shù)據(jù)集進(jìn)行了比較:
(圖為目前主流機(jī)器閱讀理解數(shù)據(jù)集的比較)
MCTest(2013年,Richardson等):660篇短文章,基于文章的2640個(gè)問(wèn)題,回答在多個(gè)答案中進(jìn)行選擇,Deepmind認(rèn)為,MCTest的局限性在于數(shù)量太小,因而更像一個(gè)評(píng)估測(cè)試,而不適合與一個(gè)端到端的模型訓(xùn)練;
而另一方面,如CNN/Daily Mail(93K+220K新聞文章,387K+997K問(wèn)題)、CBT(從108本兒童讀物中摘取的678K個(gè)20句左右的段落)、BookTest(14.2M個(gè)段落,類(lèi)似CBT)等數(shù)據(jù)集均能夠提供大量的答案-問(wèn)題對(duì),這些數(shù)據(jù)集的問(wèn)題通常為完形填空(預(yù)測(cè)缺的詞語(yǔ)),問(wèn)題從摘要中進(jìn)行抽象總結(jié)(CNN/Daily Mail)或者從前后一句話(huà)的上下文語(yǔ)境中提煉,并從一組選項(xiàng)中進(jìn)行選擇正確的答案。這類(lèi)數(shù)據(jù)集的局限性在于偏差較大,部分通過(guò)指向特定類(lèi)型操作的模型(如AS Reader)可能在這些數(shù)據(jù)集中表現(xiàn)突出,但這些模型卻并不適合回答需要綜合新的答案的回答。尤其在CNN/Daily Mail中,由于其上下文檔均為新聞故事,通常會(huì)包含集中在單個(gè)事件的突出實(shí)體,這也進(jìn)一步加大了這種偏差。
斯坦福大學(xué)Percy Liang等人推出的SQuAD(關(guān)于 SQuAD 測(cè)試參見(jiàn)雷鋒網(wǎng)之前文章《專(zhuān)訪(fǎng)科大訊飛:成為世界第一,只是閱讀理解系統(tǒng)萬(wàn)里長(zhǎng)征的第一步》)包含從536個(gè)維基百科詞條中抽取的23K個(gè)段落。雖然SQuAD提供了大量的問(wèn)題和答案,答案也并非只是某個(gè)單詞或者對(duì)于某個(gè)實(shí)體的回答,但由于這些段落缺乏完整的文章包含的跨度,很多更合理的閱讀理解的問(wèn)題無(wú)法被提問(wèn)和解答。此外,由于這些段落來(lái)自于較少的條目,這也限制了對(duì)這些數(shù)據(jù)訓(xùn)練中對(duì)于局部多樣性和詞法的效果,也限制了在SQuAD或者NewsQA等數(shù)據(jù)集中表現(xiàn)良好的模型回答更復(fù)雜問(wèn)題的能力。
總體來(lái)說(shuō),DeepMind認(rèn)為目前的閱讀理解數(shù)據(jù)集均存在著一定的局限性,包括:數(shù)據(jù)集小、不自然、只需要一句話(huà)定位回答的必須信息,等等。因而 Deepmind 認(rèn)為,在這些數(shù)據(jù)集上的測(cè)試可能都是一個(gè)不能真實(shí)反映機(jī)器閱讀理解能力的偽命題。
(NarrativeQA主要數(shù)據(jù))
相比之下,NarrativeQA 包含來(lái)自于書(shū)本和電影劇本的1567個(gè)完整故事,數(shù)據(jù)集劃分為不重疊的訓(xùn)練、驗(yàn)證和測(cè)試三個(gè)部分,共有 46,765個(gè)問(wèn)題答案對(duì),問(wèn)題由人類(lèi)編寫(xiě),并且多為“何時(shí)/何地/何人/為何”之類(lèi)的較復(fù)雜問(wèn)題。
雖然在論文和網(wǎng)站中并未公布數(shù)據(jù)集的下載地址,但雷鋒網(wǎng)發(fā)現(xiàn),在 Deepmind 的 Twitter 的留言中公布了在 Github 上的項(xiàng)目地址,點(diǎn)擊此處即可前往。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。