丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

本文作者: 叢末 2019-03-10 15:18
導(dǎo)語(yǔ):為問(wèn)答任務(wù)加入更多「閱讀」和「推理」。

雷鋒網(wǎng) AI 科技評(píng)論:不久前,斯坦福大學(xué)的計(jì)算機(jī)科學(xué)博士陳丹琦的一篇長(zhǎng)達(dá) 156 頁(yè)的畢業(yè)論文《Neural Reading Comprehension and Beyond》成為「爆款文章」,一時(shí)引起了不小轟動(dòng)。而本文是她與同樣師從 Christopher Manning 的同學(xué) Peng Qi 一起發(fā)表的文章,兩位來(lái)自斯坦福大學(xué)的 NLP 大牛在文中一起探索了機(jī)器閱讀的最新進(jìn)展。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

不知道大家是否曾用谷歌瀏覽器搜索過(guò)任何問(wèn)題(例如「世界上有多少個(gè)國(guó)家」)?而瀏覽器返回了精準(zhǔn)答案而不僅僅是一系列的鏈接是否又曾讓你印象深刻?顯而易見(jiàn),它的這個(gè)特點(diǎn)很漂亮也很實(shí)用,但也仍舊存在局限性:當(dāng)你搜索稍微復(fù)雜些的問(wèn)題(例如「我還需要騎多久單車(chē)才能消耗掉剛剛吃掉的巨無(wú)霸的卡路里」),谷歌瀏覽器就無(wú)法反饋一個(gè)很好答案——即便大家可以通過(guò)查看前面兩條鏈接并找到需要的答案。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

上文中所列舉案例從谷歌瀏覽器上搜索到的結(jié)果

在當(dāng)今這個(gè)信息大爆炸時(shí)代,當(dāng)我們?nèi)祟?lèi)需要消化每天都以文本(或其他形式)產(chǎn)生的過(guò)量的新知識(shí)時(shí),讓機(jī)器來(lái)幫助我們閱讀大量的文本和回答問(wèn)題是自然語(yǔ)言理解領(lǐng)域的最重要且最實(shí)用的任務(wù)之一。解決這些機(jī)器閱讀或者問(wèn)答任務(wù),將會(huì)為創(chuàng)建像電影《時(shí)光機(jī)器》中的圖書(shū)管理員那樣強(qiáng)大而知識(shí)淵博的 AI 系統(tǒng)打下重要的基石。

最近,像斯坦福問(wèn)答數(shù)據(jù)集(SQuAD,數(shù)據(jù)集查看地址:https://rajpurkar.github.io/SQuAD-explorer/)和 TriviaQA (數(shù)據(jù)集查看地址:http://nlp.cs.washington.edu/triviaqa/)等大規(guī)模問(wèn)答數(shù)據(jù)大大加速了朝著這個(gè)目標(biāo)的發(fā)展。這些數(shù)據(jù)集允許研究人員訓(xùn)練強(qiáng)大而缺乏數(shù)據(jù)的深度學(xué)習(xí)模型,現(xiàn)在已經(jīng)獲得了非常好的結(jié)果,例如能夠通過(guò)從維基百科頁(yè)面上找到合適答案來(lái)回答大量隨機(jī)問(wèn)題的算法(相關(guān)論文:「Reading Wikipedia to Answer Open-Domain Questions」,ACL 2017,論文閱讀地址:https://cs.stanford.edu/~danqi/papers/acl2017.pdf),這就使得人類(lèi)不再需要親力親為地去處理所有麻煩的工作。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

SQuAD 由從超過(guò) 500 篇維基百科文章中收集而來(lái)的 10 萬(wàn)多個(gè)示例組成。該數(shù)據(jù)集中,針對(duì)文章中的每個(gè)段落都單獨(dú)列出了一個(gè)問(wèn)題列表,并要求這些問(wèn)題使用段落中連續(xù)的幾個(gè)詞語(yǔ)來(lái)回答(參見(jiàn)上面基于維基百科文章 Super Bowl 50 的示例),這種方式也稱(chēng)作「提取型問(wèn)答」。

然而,盡管這些結(jié)果看起來(lái)非常不錯(cuò),但這些數(shù)據(jù)集也有明顯的缺點(diǎn),而這些缺點(diǎn)也會(huì)限制了該領(lǐng)域的進(jìn)一步發(fā)展。事實(shí)上,研究人員已經(jīng)證明,使用這些數(shù)據(jù)集訓(xùn)練的模型實(shí)際上并沒(méi)有學(xué)習(xí)非常復(fù)雜的語(yǔ)言理解,而是主要依靠簡(jiǎn)單的模式匹配啟發(fā)式算法( pattern-matching heuristics)。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

該實(shí)例源自 Robin Jia 和 Percy Liang 的論文。增加的短句子顯示了,模型學(xué)習(xí)以模型匹配的方式來(lái)找到城市的名字,并沒(méi)有真正理解問(wèn)題和答案。

在這篇博文中,我們會(huì)介紹由斯坦福自然語(yǔ)言處理團(tuán)隊(duì)(Stanford NLP Group)收集的兩個(gè)最新的數(shù)據(jù)集,希望能進(jìn)一步推動(dòng)機(jī)器閱讀領(lǐng)域的發(fā)展。特別地,這些數(shù)據(jù)集的用意在于——在問(wèn)答任務(wù)中加入更多的「閱讀」和「推理」來(lái)回答無(wú)法通過(guò)簡(jiǎn)單的模式匹配回答的問(wèn)題。其中的一個(gè)是 CoQA,它通過(guò)引入關(guān)于一段文本的自然對(duì)話(huà)的語(yǔ)境豐富的接口,從對(duì)話(huà)的角度來(lái)解決問(wèn)題。另一個(gè)數(shù)據(jù)集是 HotpotQA,它沒(méi)有將答案限定于某個(gè)段落的范圍,而是通過(guò)在多個(gè)文檔上進(jìn)行推理來(lái)獲得答案這一方法來(lái)應(yīng)對(duì)這一挑戰(zhàn),下面我們將詳細(xì)介紹這種方法。

CoQA:對(duì)話(huà)式問(wèn)答數(shù)據(jù)集

CoQA 是什么?

當(dāng)前的大多數(shù)問(wèn)答系統(tǒng)僅限于單獨(dú)回答某個(gè)問(wèn)題(如上面所示的 SQuAD 示例)。雖然這類(lèi)問(wèn)答交互有時(shí)會(huì)發(fā)生在人與人之間,但通過(guò)參與涉及一系列相關(guān)聯(lián)問(wèn)題和答案的對(duì)話(huà)來(lái)尋找信息則是更為常見(jiàn)的方式。CoQA 是一個(gè)對(duì)話(huà)式問(wèn)答數(shù)據(jù)集,它就是專(zhuān)門(mén)針對(duì)解決這一局限性而開(kāi)發(fā)的,其目標(biāo)是推動(dòng)對(duì)話(huà)式 AI 系統(tǒng)的開(kāi)發(fā)。該數(shù)據(jù)集包含 12.7 萬(wàn)個(gè)有答案的問(wèn)題,這些問(wèn)題和答案獲取自 7 個(gè)不同領(lǐng)域的關(guān)于文本段落的 8 千組對(duì)話(huà)。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

如上所示,一個(gè) CoQA 示例由文本段落(在該示例中的文本段落從 CNN 的新聞文章中收集而來(lái))和關(guān)于段落內(nèi)容的對(duì)話(huà)構(gòu)成。在這個(gè)對(duì)話(huà)中,每一輪對(duì)話(huà)都包含一個(gè)問(wèn)題和一個(gè)答案,而第一個(gè)問(wèn)題之后的每個(gè)問(wèn)題都依賴(lài)于(每個(gè)問(wèn)題)之前所進(jìn)行的對(duì)話(huà)。不同于 SQuAD 和許多其他現(xiàn)有的數(shù)據(jù)集,CoQA 中的對(duì)話(huà)歷史記錄對(duì)于回答許多問(wèn)題是不可或缺的。例如,在不知道前面已經(jīng)說(shuō)過(guò)了什么的情況下,第二個(gè)問(wèn)題 Q2(where?)不可能回答出來(lái)的。同樣值得注意的是,中心實(shí)體實(shí)際上在整個(gè)對(duì)話(huà)中都一直在改變,例如,Q4 中的「his」、Q5 中的「he」,以及 Q6 中的「them」都指的是不同的實(shí)體,這也使得理解這些問(wèn)題變得更具挑戰(zhàn)性。

除了需要到對(duì)話(huà)上下文中去理解 CoQA 的問(wèn)題這一關(guān)鍵點(diǎn),它還有其他許多令人感興趣的特點(diǎn):

  • 其中一個(gè)重要的特點(diǎn)是,CoQA 沒(méi)有像 SQUAD 那樣將答案限制為段落中的連續(xù)的單詞。我們認(rèn)為許多問(wèn)題無(wú)法通過(guò)段落中的某組連續(xù)的單詞來(lái)回答,這將限制對(duì)話(huà)的自然性。例如,對(duì)于像「How many?」這樣的問(wèn)題,答案可能只能是「three」,盡管文章中的文本并沒(méi)有直接將其拼寫(xiě)出來(lái)。同時(shí),我們希望我們的數(shù)據(jù)集支持可靠的自動(dòng)評(píng)估,并且能達(dá)到與人類(lèi)的高度一致性。為了解決這個(gè)問(wèn)題,我們要求注釋者首先要強(qiáng)調(diào)文本范圍(作為支持答案的基本原理,參見(jiàn)示例中的 R1、R2 等),然后將文本范圍編輯為自然答案。這些基本原理在訓(xùn)練中都可以用到(但無(wú)法在測(cè)試中使用)。

  • 現(xiàn)有的大多數(shù) QA 數(shù)據(jù)集都主要關(guān)注單個(gè)領(lǐng)域,這就使得「測(cè)試現(xiàn)有模型的泛化能力」成為一件很難的事情。CoQA 的另一個(gè)重要特征便是,該數(shù)據(jù)集從 7 個(gè)不同的領(lǐng)域收集而來(lái),包括兒童故事、文學(xué)、中學(xué)和高中英語(yǔ)考試、新聞、維基百科、Reddit 以及科學(xué),同時(shí),最后的兩個(gè)領(lǐng)域被用于做域外評(píng)估。

我們對(duì)該數(shù)據(jù)集進(jìn)行了深入分析。如下表所示,我們發(fā)現(xiàn)這一數(shù)據(jù)集顯示了豐富的語(yǔ)言現(xiàn)象。其中,有近 27.2% 的問(wèn)題需要進(jìn)行如常識(shí)和預(yù)設(shè)的語(yǔ)用推理(pragmatic reasoning)。舉例來(lái)說(shuō),「他像貓一樣輕柔地落腳」這個(gè)闡述并不能直接回答「他的性格很吵鬧嗎?」這個(gè)問(wèn)題,不過(guò)結(jié)合世界觀的闡述是能夠回答這個(gè)問(wèn)題的。然而卻只有 29.8%的問(wèn)題可以通過(guò)簡(jiǎn)單的詞匯匹配(即直接將問(wèn)題中的單詞映射到段落中)來(lái)回答。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

此外,我們還發(fā)現(xiàn),僅有 30.5% 的問(wèn)題不依賴(lài)于與會(huì)話(huà)歷史記錄的共指關(guān)系而可以自主回答問(wèn)題。剩余的問(wèn)題中有 49.7%的問(wèn)題包含明確的共指標(biāo)記,例如「he」、「she」和「it」;而其余的 19.8%的問(wèn)題(例如「Where?」)則暗中指代某個(gè)實(shí)體或事件。

與 SQuAD 2.0 的問(wèn)題分布相比,我們發(fā)現(xiàn) CoQA 中的問(wèn)題要比 SQuAD 中的問(wèn)題短得多(平均字?jǐn)?shù)之比為 5.5 /10.1),這就體現(xiàn)了 CoQA 這個(gè)數(shù)據(jù)集的會(huì)話(huà)性質(zhì)。同時(shí),我們這個(gè)數(shù)據(jù)集還提供了更豐富得多的問(wèn)題: 與近一半的 SQuAD 問(wèn)題主要是「what」這類(lèi)問(wèn)題不同,CoQA 問(wèn)題分布遍及多種問(wèn)題類(lèi)型?!竏id」、「was」、「is」、「does」等前綴指示的幾個(gè)扇區(qū)頻繁出現(xiàn)在 CoQA 中,但從未出現(xiàn)在 SQUAD 中。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

最新進(jìn)展

自 2018 年 8 月被推出以來(lái),CoQA 挑戰(zhàn)已經(jīng)受到了極大的關(guān)注,成為該領(lǐng)域最具競(jìng)爭(zhēng)力的基準(zhǔn)之一。同時(shí),讓我們感到驚訝的還有它自發(fā)布以來(lái)所取得的諸多進(jìn)展,尤其是在去年 11 月谷歌發(fā)布 BERT 模型之后——該模型大大提升了當(dāng)前所有系統(tǒng)的性能。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

來(lái)自微軟亞洲研究院的最先進(jìn)的組合系統(tǒng)「BERT + MMFT + ADA」實(shí)現(xiàn)了 87.5%的域內(nèi) F1 精度和 85.3%的域外 F1 精確度。這些精度數(shù)值不僅接近于人類(lèi)表現(xiàn),而且比我們 6 個(gè)月前開(kāi)發(fā)的基線(xiàn)模型高出 20 多分。我們期待在不久的將來(lái)能夠看到這些論文和開(kāi)源系統(tǒng)的發(fā)布。

HotpotQA:多文件的機(jī)器閱讀

除了通過(guò)一段長(zhǎng)時(shí)間的對(duì)話(huà)來(lái)深入探討一段特定的上下文段落之外,我們還經(jīng)常發(fā)現(xiàn)自己需要閱讀多份文件以找出關(guān)于這個(gè)世界的事實(shí)。

例如,有人可能想知道,「Yahoo!是在哪個(gè)州創(chuàng)立的?」或者「斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)哪個(gè)學(xué)校的計(jì)算機(jī)科學(xué)研究人員更多?」或者簡(jiǎn)單的問(wèn)題如「燃燒掉巨無(wú)霸的卡路里需要花我多少時(shí)間?」

網(wǎng)絡(luò)涵蓋了大量此類(lèi)問(wèn)題的答案,但并不總是以易于獲得的形式存在,甚至答案也不在一個(gè)地方。例如,如果我們將維基百科作為回答第一個(gè)問(wèn)題(Yahoo!是在哪個(gè)州創(chuàng)立的?)的知識(shí)來(lái)源,我們一開(kāi)始會(huì)對(duì)無(wú)法搜到 Yahoo!的頁(yè)面或者它的聯(lián)合創(chuàng)始人 Jerry Yang 和 David Filo 的個(gè)人信息中都沒(méi)有提到關(guān)于它的信息(至少在寫(xiě)這篇文章時(shí),二者的個(gè)人信息中沒(méi)有提到它)感到困惑。

為了回答這個(gè)問(wèn)題,人們需要費(fèi)勁地瀏覽多篇維基百科文章,一直到他們看到以下這篇文章標(biāo)題為「Yahoo!歷史」的文章:

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

可以見(jiàn)得,我們可以通過(guò)以下推理步驟回答這個(gè)問(wèn)題:

  • 我們注意到本文的第一個(gè)句子陳述的是「Yahoo!創(chuàng)立于斯坦福大學(xué)」。

  • 然后,我們可以在維基百科上查找「斯坦福大學(xué)」(在這種情況下,我們只需點(diǎn)擊鏈接),然后找出斯坦福大學(xué)所在的地址。

  • 斯坦福大學(xué)的頁(yè)面顯示它位于「加利福尼亞州」。

  • 最后,我們可以結(jié)合這兩個(gè)事實(shí)來(lái)得出最初問(wèn)題的答案:「Yahoo!創(chuàng)立于加利福尼亞州」。

需要注意的是,要回答這個(gè)問(wèn)題,有兩個(gè)技能是必不可少的:(1)能夠做一些偵測(cè)性工作,從而搞清楚要使用哪些可以回答我們的問(wèn)題的文件或支持性事實(shí),以及(2)使用多個(gè)支持性數(shù)據(jù)推理得到最終答案的能力。

對(duì)于機(jī)器閱讀系統(tǒng)來(lái)說(shuō),這些都是它們需要獲得的從而有效協(xié)助我們消化不斷增長(zhǎng)的文本形式的信息和知識(shí)海洋的重要能力。遺憾的是,由于現(xiàn)存的數(shù)據(jù)集一直以來(lái)都聚焦于在單個(gè)文檔內(nèi)尋找答案而無(wú)法應(yīng)對(duì)這一挑戰(zhàn),因此我們通過(guò)編譯 HotpotQA 數(shù)據(jù)集來(lái)進(jìn)行這方面的努力(讓機(jī)器閱讀系統(tǒng)獲得上面所提到的兩個(gè)技能)。

什么是 HotpotQA?

HotpotQA 是一個(gè)大規(guī)模的問(wèn)答數(shù)據(jù)集,包含約 113,000 組具備我們上面所提到的那些特征的問(wèn)答對(duì)。也就是說(shuō),這些問(wèn)題要求問(wèn)答系統(tǒng)能夠篩選大量的文本文檔,從而找到與生成答案有關(guān)的信息,并使用其找到的多個(gè)支持性事實(shí)來(lái)推理出最終答案(見(jiàn)下面的例子)。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

來(lái)自 HotpotQA 的問(wèn)題示例

這些問(wèn)題和答案是從整個(gè)英語(yǔ)版的維基百科收集而來(lái)的,涵蓋了從科學(xué)、天文學(xué)、地理學(xué)到娛樂(lè)、體育和法律案例等各類(lèi)主題。

要回答這些問(wèn)題,需要用到多種具有挑戰(zhàn)性的推理方式。例如,在 Yahoo!的案例中,研究者需要首先推斷出 Yahoo! 與對(duì)于回答問(wèn)題必不可少的「承上啟下」的實(shí)體——「斯坦福大學(xué)」二者之間的關(guān)系,然后利用「斯坦福大學(xué)位于加利福尼亞州」這一事實(shí)來(lái)得出最終答案。示意性地,整個(gè)推理鏈如下所示:

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在這里,我們將「斯坦福大學(xué)」稱(chēng)作上下文中的橋接實(shí)體(bridge entity),因?yàn)樗谝阎獙?shí)體 Yahoo! 和目標(biāo)答案「加利福尼亞州」之間架起了橋接。我們觀察到,事實(shí)上大家感興趣的許多問(wèn)題在某種程度上都涉及到這種橋接實(shí)體。

例如,給定以下問(wèn)題:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員加入了哪支球隊(duì)?

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在這個(gè)問(wèn)題中,我們可以首先問(wèn)自己:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員是誰(shuí)?然后再找到該球員目前加入的是哪支球隊(duì)。在該問(wèn)題中,MVP 球員(Buddy Hield)則充當(dāng)了引導(dǎo)我們找到正確答案的橋接實(shí)體。與 Yahoo!案例的推理方式稍有不同,這里的 Buddy Hield 是初始問(wèn)題的答案的一部分,然而「斯坦福大學(xué)」卻不屬于答案的一部分。

大家也可輕易想到一些「橋接實(shí)體即是答案」的有趣問(wèn)題,例如:Ed Harris 主演的哪部電影是基于一部法國(guó)小說(shuō)拍攝的?(答案就是《雪國(guó)列車(chē)》。)

顯而易見(jiàn),對(duì)于大家通過(guò)推理多個(gè)從維基百科上收集而來(lái)的事實(shí)便能?chē)L試回答的所有有趣問(wèn)題,這些橋接問(wèn)題可能無(wú)法完全覆蓋。而在 HotpotQA 中,我們提出了一種新的問(wèn)題類(lèi)型來(lái)表示更加多樣化的推理技巧和語(yǔ)言理解能力,它就是:比較型問(wèn)題(comparison question)。

在前面我們就提到過(guò)一個(gè)比較型問(wèn)題:斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)哪個(gè)學(xué)校的計(jì)算機(jī)科學(xué)研究人員更多?

為了成功回答這些問(wèn)題,問(wèn)答系統(tǒng)不僅需要能夠找到相關(guān)的支持性事實(shí)(在這個(gè)案例中的支持性事實(shí)就是,斯坦福和 CMU 分別有多少計(jì)算機(jī)科學(xué)研究人員),還要采用有意義的方式對(duì)二者進(jìn)行比較,從而得出最終答案。然而根據(jù)我們對(duì)這一數(shù)據(jù)集的分析,對(duì)于當(dāng)前的問(wèn)答系統(tǒng)來(lái)說(shuō),采用有意義的方式去比較相關(guān)的支持性事實(shí)是非常具有挑戰(zhàn)性的,由于其可能涉及數(shù)值比較、時(shí)間比較、計(jì)數(shù)甚至簡(jiǎn)單的算法比較。

然而找到相關(guān)的支持性事實(shí)也并不容易,或者說(shuō)甚至可能更具挑戰(zhàn)性。雖然一般來(lái)說(shuō)找到比較型問(wèn)題的相關(guān)事實(shí)相對(duì)容易些,但對(duì)于橋接實(shí)體問(wèn)題來(lái)說(shuō),這是非常重要的。

我們采用傳統(tǒng)的信息檢索(IR)方法來(lái)進(jìn)行實(shí)驗(yàn),將給定的問(wèn)題作為查詢(xún)關(guān)鍵詞進(jìn)行查詢(xún),該方法對(duì)所有維基百科文章進(jìn)行了排序(從最相關(guān)的文章到最不相關(guān)的文章)。結(jié)果我們發(fā)現(xiàn),平均而言,在對(duì)于正確回答問(wèn)題必不可少的兩個(gè)階段(我們稱(chēng)之為「黃金階段」)以外的階段,前 10 個(gè)結(jié)果種僅有約 1.1 個(gè)正確答案。在下圖 IR 對(duì)黃金階段的排序中,排名較高的階段和排名較低的階段呈現(xiàn)的是長(zhǎng)尾分布。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

更明確地說(shuō),在排名前 10 位的 IR 結(jié)果中可以找到 80%以上的排名較高的段落,然而找到的排名較低的段落卻不到 30%。我們計(jì)算了一下,如果一個(gè)人在找到兩個(gè)「黃金支持性段落」之前天真地讀完所有排名靠前的文章,那么他每回答一個(gè)問(wèn)題就平均需要閱讀大約 600 篇文章——甚至在讀完這些文章之后,算法仍然不能可靠告訴我們是否已經(jīng)真的找到了那兩個(gè)「黃金支持性段落」!

當(dāng)實(shí)踐中的機(jī)器閱讀問(wèn)題要用到多個(gè)推理步驟時(shí),就需要新方法來(lái)解決這些問(wèn)題,因?yàn)檫@個(gè)方向的進(jìn)展將極大地促進(jìn)更有效的信息訪(fǎng)問(wèn)系統(tǒng)的開(kāi)發(fā)。

朝可解釋性問(wèn)答系統(tǒng)發(fā)展

一個(gè)良好的問(wèn)答系統(tǒng),它的另一個(gè)重要且理想的特征就是可解釋性。實(shí)際上,只能夠簡(jiǎn)單地發(fā)出答案而不具有能幫助驗(yàn)證其答案的解釋或演示的問(wèn)答系統(tǒng),基本上是沒(méi)用的,因?yàn)榧幢氵@些答案大多數(shù)時(shí)候看上去是正確的,用戶(hù)也無(wú)法信任這些系統(tǒng)所給出的答案。遺憾地是,這也是許多最先進(jìn)的問(wèn)答系統(tǒng)所存在的問(wèn)題。

為此,在收集 HotpotQA 的數(shù)據(jù)時(shí),我們還要求我們的注釋者詳細(xì)說(shuō)明他們用于得出最終答案的支持性句子,并將這些句子作為數(shù)據(jù)集的一部分進(jìn)行發(fā)布。

在下面這個(gè)源自數(shù)據(jù)集的實(shí)際示例中,綠色句子作為支撐答案的支持性事實(shí)(盡管這個(gè)案例中需要通過(guò)很多個(gè)推理步驟)。關(guān)于更多(密集度更?。┑闹С中允聦?shí)的示例,大家可通過(guò) HotpotQA 數(shù)據(jù)資源管理器(地址:https://hotpotqa.github.io/explorer.html)查看。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在我們的實(shí)驗(yàn)中,我們已經(jīng)看到這些支持性事實(shí)不僅能夠讓人們更容易地檢測(cè)問(wèn)答系統(tǒng)所給出的答案,而且還通過(guò)為模型提供更強(qiáng)有力的監(jiān)督(此前這個(gè)方向上的問(wèn)答數(shù)據(jù)集是缺乏監(jiān)督的),來(lái)改善系統(tǒng)本身更準(zhǔn)確地找到理想答案的表現(xiàn)。

最后的思考

隨著人類(lèi)以文字記錄的知識(shí)日益豐富,以及越來(lái)越多的人類(lèi)知識(shí)時(shí)時(shí)刻刻被數(shù)字化,我們相信這件事情存在巨大的價(jià)值:將這些知識(shí)與能夠?qū)崿F(xiàn)閱讀和推理自動(dòng)化并回答我們的問(wèn)題的系統(tǒng)相結(jié)合,同時(shí)保持這些回答系統(tǒng)的可解釋性。現(xiàn)在的問(wèn)答系統(tǒng)往往都僅僅通過(guò)查看大量的段落和句子,然后利用「黑盒子」(大部分都為詞匹配模式)回答一輪問(wèn)題,而現(xiàn)在正是開(kāi)發(fā)出超越它們的問(wèn)答系統(tǒng)的時(shí)候了。

為此,CoQA 考慮了一系列在給定共享語(yǔ)境下的自然對(duì)話(huà)中出現(xiàn)的問(wèn)題,以及要求推理出不止一輪對(duì)話(huà)的具有挑戰(zhàn)性的問(wèn)題;另一方面,HotpotQA 則側(cè)重于多文檔推理,并激勵(lì)研究界開(kāi)發(fā)新方法來(lái)獲取大型語(yǔ)料庫(kù)中的支持性信息。

我們相信這兩個(gè)數(shù)據(jù)集將推動(dòng)問(wèn)答系統(tǒng)的重大發(fā)展,并且我們也期待這些系統(tǒng)將為整個(gè)研究界帶來(lái)新的見(jiàn)解。

Via:https://ai.stanford.edu/blog/beyond_local_pattern_matching/ 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)