丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

0

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ,讓機(jī)器挑戰(zhàn)更復(fù)雜閱讀理解問(wèn)題

本文作者: AI科技評(píng)論 2017-12-21 14:28
導(dǎo)語(yǔ):Deepmind:不是我針對(duì)誰(shuí),在座的閱讀理解數(shù)據(jù)集都不如 NarrativeQA

雷鋒網(wǎng)按:自然語(yǔ)言處理始終是實(shí)現(xiàn)智能、自然人機(jī)交互愿景里一塊重要的技術(shù)基石。而機(jī)器閱讀理解則可以被視為是自然語(yǔ)言處理領(lǐng)域皇冠上的明珠,也是目前該領(lǐng)域的研究焦點(diǎn)之一。在這一領(lǐng)域,最有名的數(shù)據(jù)集是由斯坦福大學(xué)自然語(yǔ)言計(jì)算組發(fā)起的 SQuAD(Stanford Question Answering Dataset)和相關(guān)的文本理解挑戰(zhàn)賽,它也被譽(yù)為“機(jī)器閱讀理解界的 ImageNet ”。而最近, Deepmind 發(fā)布了一個(gè)新的閱讀理解數(shù)據(jù)集 NarrativeQA,那么這個(gè)數(shù)據(jù)集有什么特點(diǎn)呢?一起來(lái)和雷鋒網(wǎng)了解一下。

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ,讓機(jī)器挑戰(zhàn)更復(fù)雜閱讀理解問(wèn)題

在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解釋了這個(gè)推出這個(gè)數(shù)據(jù)集的初衷:

自然語(yǔ)言理解試圖創(chuàng)建閱讀和理解文本的模型。評(píng)估理解模型語(yǔ)言理解能力的一個(gè)常用策略是證明他們能回答他們所閱讀的文檔的問(wèn)題,類(lèi)似于兒童在學(xué)習(xí)閱讀時(shí)如何理解閱讀內(nèi)容的能力。閱讀文檔后,讀者通常不能從記憶中重現(xiàn)整個(gè)文本,但經(jīng)常可以回答關(guān)于文檔的潛在敘述元素的問(wèn)題,如突出的實(shí)體,事件,地點(diǎn)以及其相互關(guān)系等。因此,測(cè)試?yán)斫庑枰獎(jiǎng)?chuàng)建檢查高層次的抽象的問(wèn)題,而不是只在一個(gè)句子中出現(xiàn)一次的事實(shí)。


不幸的是,關(guān)于文檔的表面問(wèn)題通??梢允褂脺\層模式匹配或基于全局顯著性的策略或猜測(cè)成功(由人和機(jī)器)回答。我們調(diào)查了現(xiàn)有的QA數(shù)據(jù)集,結(jié)果顯示它們要么太小、要么可以通過(guò)淺的啟發(fā)式算法進(jìn)行解答(第2節(jié));另一方面,在表面文字無(wú)法直接解答、必須通過(guò)內(nèi)在敘述進(jìn)行推導(dǎo)的問(wèn)題,需要形成更多在文件過(guò)程中表達(dá)的事件和關(guān)系的抽象表征?;卮疬@些問(wèn)題要求讀者將信息分散在整個(gè)文件中的幾個(gè)陳述中,并根據(jù)這一綜合信息產(chǎn)生一個(gè)有說(shuō)服力的答案。也就是說(shuō),他們測(cè)試得失讀者理解語(yǔ)言的能力,而不僅僅是模式匹配?;诖?,我們提出了一個(gè)新的任務(wù)和數(shù)據(jù)集,我們稱(chēng)之為NarrativeQA,它將測(cè)試并獎(jiǎng)勵(lì)接近這種能力水平的智能體。

Deepmind 還對(duì)目前主要的機(jī)器閱讀理解數(shù)據(jù)集進(jìn)行了比較:

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ,讓機(jī)器挑戰(zhàn)更復(fù)雜閱讀理解問(wèn)題

(圖為目前主流機(jī)器閱讀理解數(shù)據(jù)集的比較)

  • MCTest(2013年,Richardson等):660篇短文章,基于文章的2640個(gè)問(wèn)題,回答在多個(gè)答案中進(jìn)行選擇,Deepmind認(rèn)為,MCTest的局限性在于數(shù)量太小,因而更像一個(gè)評(píng)估測(cè)試,而不適合與一個(gè)端到端的模型訓(xùn)練;

  • 而另一方面,如CNN/Daily Mail(93K+220K新聞文章,387K+997K問(wèn)題)、CBT(從108本兒童讀物中摘取的678K個(gè)20句左右的段落)、BookTest(14.2M個(gè)段落,類(lèi)似CBT)等數(shù)據(jù)集均能夠提供大量的答案-問(wèn)題對(duì),這些數(shù)據(jù)集的問(wèn)題通常為完形填空(預(yù)測(cè)缺的詞語(yǔ)),問(wèn)題從摘要中進(jìn)行抽象總結(jié)(CNN/Daily Mail)或者從前后一句話(huà)的上下文語(yǔ)境中提煉,并從一組選項(xiàng)中進(jìn)行選擇正確的答案。這類(lèi)數(shù)據(jù)集的局限性在于偏差較大,部分通過(guò)指向特定類(lèi)型操作的模型(如AS Reader)可能在這些數(shù)據(jù)集中表現(xiàn)突出,但這些模型卻并不適合回答需要綜合新的答案的回答。尤其在CNN/Daily Mail中,由于其上下文檔均為新聞故事,通常會(huì)包含集中在單個(gè)事件的突出實(shí)體,這也進(jìn)一步加大了這種偏差。

  • 斯坦福大學(xué)Percy Liang等人推出的SQuAD(關(guān)于 SQuAD 測(cè)試參見(jiàn)雷鋒網(wǎng)之前文章《專(zhuān)訪(fǎng)科大訊飛:成為世界第一,只是閱讀理解系統(tǒng)萬(wàn)里長(zhǎng)征的第一步》)包含從536個(gè)維基百科詞條中抽取的23K個(gè)段落。雖然SQuAD提供了大量的問(wèn)題和答案,答案也并非只是某個(gè)單詞或者對(duì)于某個(gè)實(shí)體的回答,但由于這些段落缺乏完整的文章包含的跨度,很多更合理的閱讀理解的問(wèn)題無(wú)法被提問(wèn)和解答。此外,由于這些段落來(lái)自于較少的條目,這也限制了對(duì)這些數(shù)據(jù)訓(xùn)練中對(duì)于局部多樣性和詞法的效果,也限制了在SQuAD或者NewsQA等數(shù)據(jù)集中表現(xiàn)良好的模型回答更復(fù)雜問(wèn)題的能力。

總體來(lái)說(shuō),DeepMind認(rèn)為目前的閱讀理解數(shù)據(jù)集均存在著一定的局限性,包括:數(shù)據(jù)集小、不自然、只需要一句話(huà)定位回答的必須信息,等等。因而 Deepmind 認(rèn)為,在這些數(shù)據(jù)集上的測(cè)試可能都是一個(gè)不能真實(shí)反映機(jī)器閱讀理解能力的偽命題。

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ,讓機(jī)器挑戰(zhàn)更復(fù)雜閱讀理解問(wèn)題

(NarrativeQA主要數(shù)據(jù))

相比之下,NarrativeQA 包含來(lái)自于書(shū)本和電影劇本的1567個(gè)完整故事,數(shù)據(jù)集劃分為不重疊的訓(xùn)練、驗(yàn)證和測(cè)試三個(gè)部分,共有 46,765個(gè)問(wèn)題答案對(duì),問(wèn)題由人類(lèi)編寫(xiě),并且多為“何時(shí)/何地/何人/為何”之類(lèi)的較復(fù)雜問(wèn)題。

雖然在論文和網(wǎng)站中并未公布數(shù)據(jù)集的下載地址,但雷鋒網(wǎng)發(fā)現(xiàn),在 Deepmind 的 Twitter 的留言中公布了在 Github 上的項(xiàng)目地址,點(diǎn)擊此處即可前往。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Deepmind 最新閱讀理解數(shù)據(jù)集 NarrativeQA ,讓機(jī)器挑戰(zhàn)更復(fù)雜閱讀理解問(wèn)題

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)