丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

本文作者: 叢末 2019-03-10 15:18
導(dǎo)語:為問答任務(wù)加入更多「閱讀」和「推理」。

雷鋒網(wǎng) AI 科技評(píng)論:不久前,斯坦福大學(xué)的計(jì)算機(jī)科學(xué)博士陳丹琦的一篇長(zhǎng)達(dá) 156 頁的畢業(yè)論文《Neural Reading Comprehension and Beyond》成為「爆款文章」,一時(shí)引起了不小轟動(dòng)。而本文是她與同樣師從 Christopher Manning 的同學(xué) Peng Qi 一起發(fā)表的文章,兩位來自斯坦福大學(xué)的 NLP 大牛在文中一起探索了機(jī)器閱讀的最新進(jìn)展。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

不知道大家是否曾用谷歌瀏覽器搜索過任何問題(例如「世界上有多少個(gè)國(guó)家」)?而瀏覽器返回了精準(zhǔn)答案而不僅僅是一系列的鏈接是否又曾讓你印象深刻?顯而易見,它的這個(gè)特點(diǎn)很漂亮也很實(shí)用,但也仍舊存在局限性:當(dāng)你搜索稍微復(fù)雜些的問題(例如「我還需要騎多久單車才能消耗掉剛剛吃掉的巨無霸的卡路里」),谷歌瀏覽器就無法反饋一個(gè)很好答案——即便大家可以通過查看前面兩條鏈接并找到需要的答案。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

上文中所列舉案例從谷歌瀏覽器上搜索到的結(jié)果

在當(dāng)今這個(gè)信息大爆炸時(shí)代,當(dāng)我們?nèi)祟愋枰刻於家晕谋荆ɑ蚱渌问剑┊a(chǎn)生的過量的新知識(shí)時(shí),讓機(jī)器來幫助我們閱讀大量的文本和回答問題是自然語言理解領(lǐng)域的最重要且最實(shí)用的任務(wù)之一。解決這些機(jī)器閱讀或者問答任務(wù),將會(huì)為創(chuàng)建像電影《時(shí)光機(jī)器》中的圖書管理員那樣強(qiáng)大而知識(shí)淵博的 AI 系統(tǒng)打下重要的基石。

最近,像斯坦福問答數(shù)據(jù)集(SQuAD,數(shù)據(jù)集查看地址:https://rajpurkar.github.io/SQuAD-explorer/)和 TriviaQA (數(shù)據(jù)集查看地址:http://nlp.cs.washington.edu/triviaqa/)等大規(guī)模問答數(shù)據(jù)大大加速了朝著這個(gè)目標(biāo)的發(fā)展。這些數(shù)據(jù)集允許研究人員訓(xùn)練強(qiáng)大而缺乏數(shù)據(jù)的深度學(xué)習(xí)模型,現(xiàn)在已經(jīng)獲得了非常好的結(jié)果,例如能夠通過從維基百科頁面上找到合適答案來回答大量隨機(jī)問題的算法(相關(guān)論文:「Reading Wikipedia to Answer Open-Domain Questions」,ACL 2017,論文閱讀地址:https://cs.stanford.edu/~danqi/papers/acl2017.pdf),這就使得人類不再需要親力親為地去處理所有麻煩的工作。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

SQuAD 由從超過 500 篇維基百科文章中收集而來的 10 萬多個(gè)示例組成。該數(shù)據(jù)集中,針對(duì)文章中的每個(gè)段落都單獨(dú)列出了一個(gè)問題列表,并要求這些問題使用段落中連續(xù)的幾個(gè)詞語來回答(參見上面基于維基百科文章 Super Bowl 50 的示例),這種方式也稱作「提取型問答」。

然而,盡管這些結(jié)果看起來非常不錯(cuò),但這些數(shù)據(jù)集也有明顯的缺點(diǎn),而這些缺點(diǎn)也會(huì)限制了該領(lǐng)域的進(jìn)一步發(fā)展。事實(shí)上,研究人員已經(jīng)證明,使用這些數(shù)據(jù)集訓(xùn)練的模型實(shí)際上并沒有學(xué)習(xí)非常復(fù)雜的語言理解,而是主要依靠簡(jiǎn)單的模式匹配啟發(fā)式算法( pattern-matching heuristics)。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

該實(shí)例源自 Robin Jia 和 Percy Liang 的論文。增加的短句子顯示了,模型學(xué)習(xí)以模型匹配的方式來找到城市的名字,并沒有真正理解問題和答案。

在這篇博文中,我們會(huì)介紹由斯坦福自然語言處理團(tuán)隊(duì)(Stanford NLP Group)收集的兩個(gè)最新的數(shù)據(jù)集,希望能進(jìn)一步推動(dòng)機(jī)器閱讀領(lǐng)域的發(fā)展。特別地,這些數(shù)據(jù)集的用意在于——在問答任務(wù)中加入更多的「閱讀」和「推理」來回答無法通過簡(jiǎn)單的模式匹配回答的問題。其中的一個(gè)是 CoQA,它通過引入關(guān)于一段文本的自然對(duì)話的語境豐富的接口,從對(duì)話的角度來解決問題。另一個(gè)數(shù)據(jù)集是 HotpotQA,它沒有將答案限定于某個(gè)段落的范圍,而是通過在多個(gè)文檔上進(jìn)行推理來獲得答案這一方法來應(yīng)對(duì)這一挑戰(zhàn),下面我們將詳細(xì)介紹這種方法。

CoQA:對(duì)話式問答數(shù)據(jù)集

CoQA 是什么?

當(dāng)前的大多數(shù)問答系統(tǒng)僅限于單獨(dú)回答某個(gè)問題(如上面所示的 SQuAD 示例)。雖然這類問答交互有時(shí)會(huì)發(fā)生在人與人之間,但通過參與涉及一系列相關(guān)聯(lián)問題和答案的對(duì)話來尋找信息則是更為常見的方式。CoQA 是一個(gè)對(duì)話式問答數(shù)據(jù)集,它就是專門針對(duì)解決這一局限性而開發(fā)的,其目標(biāo)是推動(dòng)對(duì)話式 AI 系統(tǒng)的開發(fā)。該數(shù)據(jù)集包含 12.7 萬個(gè)有答案的問題,這些問題和答案獲取自 7 個(gè)不同領(lǐng)域的關(guān)于文本段落的 8 千組對(duì)話。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

如上所示,一個(gè) CoQA 示例由文本段落(在該示例中的文本段落從 CNN 的新聞文章中收集而來)和關(guān)于段落內(nèi)容的對(duì)話構(gòu)成。在這個(gè)對(duì)話中,每一輪對(duì)話都包含一個(gè)問題和一個(gè)答案,而第一個(gè)問題之后的每個(gè)問題都依賴于(每個(gè)問題)之前所進(jìn)行的對(duì)話。不同于 SQuAD 和許多其他現(xiàn)有的數(shù)據(jù)集,CoQA 中的對(duì)話歷史記錄對(duì)于回答許多問題是不可或缺的。例如,在不知道前面已經(jīng)說過了什么的情況下,第二個(gè)問題 Q2(where?)不可能回答出來的。同樣值得注意的是,中心實(shí)體實(shí)際上在整個(gè)對(duì)話中都一直在改變,例如,Q4 中的「his」、Q5 中的「he」,以及 Q6 中的「them」都指的是不同的實(shí)體,這也使得理解這些問題變得更具挑戰(zhàn)性。

除了需要到對(duì)話上下文中去理解 CoQA 的問題這一關(guān)鍵點(diǎn),它還有其他許多令人感興趣的特點(diǎn):

  • 其中一個(gè)重要的特點(diǎn)是,CoQA 沒有像 SQUAD 那樣將答案限制為段落中的連續(xù)的單詞。我們認(rèn)為許多問題無法通過段落中的某組連續(xù)的單詞來回答,這將限制對(duì)話的自然性。例如,對(duì)于像「How many?」這樣的問題,答案可能只能是「three」,盡管文章中的文本并沒有直接將其拼寫出來。同時(shí),我們希望我們的數(shù)據(jù)集支持可靠的自動(dòng)評(píng)估,并且能達(dá)到與人類的高度一致性。為了解決這個(gè)問題,我們要求注釋者首先要強(qiáng)調(diào)文本范圍(作為支持答案的基本原理,參見示例中的 R1、R2 等),然后將文本范圍編輯為自然答案。這些基本原理在訓(xùn)練中都可以用到(但無法在測(cè)試中使用)。

  • 現(xiàn)有的大多數(shù) QA 數(shù)據(jù)集都主要關(guān)注單個(gè)領(lǐng)域,這就使得「測(cè)試現(xiàn)有模型的泛化能力」成為一件很難的事情。CoQA 的另一個(gè)重要特征便是,該數(shù)據(jù)集從 7 個(gè)不同的領(lǐng)域收集而來,包括兒童故事、文學(xué)、中學(xué)和高中英語考試、新聞、維基百科、Reddit 以及科學(xué),同時(shí),最后的兩個(gè)領(lǐng)域被用于做域外評(píng)估。

我們對(duì)該數(shù)據(jù)集進(jìn)行了深入分析。如下表所示,我們發(fā)現(xiàn)這一數(shù)據(jù)集顯示了豐富的語言現(xiàn)象。其中,有近 27.2% 的問題需要進(jìn)行如常識(shí)和預(yù)設(shè)的語用推理(pragmatic reasoning)。舉例來說,「他像貓一樣輕柔地落腳」這個(gè)闡述并不能直接回答「他的性格很吵鬧嗎?」這個(gè)問題,不過結(jié)合世界觀的闡述是能夠回答這個(gè)問題的。然而卻只有 29.8%的問題可以通過簡(jiǎn)單的詞匯匹配(即直接將問題中的單詞映射到段落中)來回答。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

此外,我們還發(fā)現(xiàn),僅有 30.5% 的問題不依賴于與會(huì)話歷史記錄的共指關(guān)系而可以自主回答問題。剩余的問題中有 49.7%的問題包含明確的共指標(biāo)記,例如「he」、「she」和「it」;而其余的 19.8%的問題(例如「Where?」)則暗中指代某個(gè)實(shí)體或事件。

與 SQuAD 2.0 的問題分布相比,我們發(fā)現(xiàn) CoQA 中的問題要比 SQuAD 中的問題短得多(平均字?jǐn)?shù)之比為 5.5 /10.1),這就體現(xiàn)了 CoQA 這個(gè)數(shù)據(jù)集的會(huì)話性質(zhì)。同時(shí),我們這個(gè)數(shù)據(jù)集還提供了更豐富得多的問題: 與近一半的 SQuAD 問題主要是「what」這類問題不同,CoQA 問題分布遍及多種問題類型?!竏id」、「was」、「is」、「does」等前綴指示的幾個(gè)扇區(qū)頻繁出現(xiàn)在 CoQA 中,但從未出現(xiàn)在 SQUAD 中。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

最新進(jìn)展

自 2018 年 8 月被推出以來,CoQA 挑戰(zhàn)已經(jīng)受到了極大的關(guān)注,成為該領(lǐng)域最具競(jìng)爭(zhēng)力的基準(zhǔn)之一。同時(shí),讓我們感到驚訝的還有它自發(fā)布以來所取得的諸多進(jìn)展,尤其是在去年 11 月谷歌發(fā)布 BERT 模型之后——該模型大大提升了當(dāng)前所有系統(tǒng)的性能。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

來自微軟亞洲研究院的最先進(jìn)的組合系統(tǒng)「BERT + MMFT + ADA」實(shí)現(xiàn)了 87.5%的域內(nèi) F1 精度和 85.3%的域外 F1 精確度。這些精度數(shù)值不僅接近于人類表現(xiàn),而且比我們 6 個(gè)月前開發(fā)的基線模型高出 20 多分。我們期待在不久的將來能夠看到這些論文和開源系統(tǒng)的發(fā)布。

HotpotQA:多文件的機(jī)器閱讀

除了通過一段長(zhǎng)時(shí)間的對(duì)話來深入探討一段特定的上下文段落之外,我們還經(jīng)常發(fā)現(xiàn)自己需要閱讀多份文件以找出關(guān)于這個(gè)世界的事實(shí)。

例如,有人可能想知道,「Yahoo!是在哪個(gè)州創(chuàng)立的?」或者「斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)哪個(gè)學(xué)校的計(jì)算機(jī)科學(xué)研究人員更多?」或者簡(jiǎn)單的問題如「燃燒掉巨無霸的卡路里需要花我多少時(shí)間?」

網(wǎng)絡(luò)涵蓋了大量此類問題的答案,但并不總是以易于獲得的形式存在,甚至答案也不在一個(gè)地方。例如,如果我們將維基百科作為回答第一個(gè)問題(Yahoo!是在哪個(gè)州創(chuàng)立的?)的知識(shí)來源,我們一開始會(huì)對(duì)無法搜到 Yahoo!的頁面或者它的聯(lián)合創(chuàng)始人 Jerry Yang 和 David Filo 的個(gè)人信息中都沒有提到關(guān)于它的信息(至少在寫這篇文章時(shí),二者的個(gè)人信息中沒有提到它)感到困惑。

為了回答這個(gè)問題,人們需要費(fèi)勁地瀏覽多篇維基百科文章,一直到他們看到以下這篇文章標(biāo)題為「Yahoo!歷史」的文章:

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

可以見得,我們可以通過以下推理步驟回答這個(gè)問題:

  • 我們注意到本文的第一個(gè)句子陳述的是「Yahoo!創(chuàng)立于斯坦福大學(xué)」。

  • 然后,我們可以在維基百科上查找「斯坦福大學(xué)」(在這種情況下,我們只需點(diǎn)擊鏈接),然后找出斯坦福大學(xué)所在的地址。

  • 斯坦福大學(xué)的頁面顯示它位于「加利福尼亞州」。

  • 最后,我們可以結(jié)合這兩個(gè)事實(shí)來得出最初問題的答案:「Yahoo!創(chuàng)立于加利福尼亞州」。

需要注意的是,要回答這個(gè)問題,有兩個(gè)技能是必不可少的:(1)能夠做一些偵測(cè)性工作,從而搞清楚要使用哪些可以回答我們的問題的文件或支持性事實(shí),以及(2)使用多個(gè)支持性數(shù)據(jù)推理得到最終答案的能力。

對(duì)于機(jī)器閱讀系統(tǒng)來說,這些都是它們需要獲得的從而有效協(xié)助我們消化不斷增長(zhǎng)的文本形式的信息和知識(shí)海洋的重要能力。遺憾的是,由于現(xiàn)存的數(shù)據(jù)集一直以來都聚焦于在單個(gè)文檔內(nèi)尋找答案而無法應(yīng)對(duì)這一挑戰(zhàn),因此我們通過編譯 HotpotQA 數(shù)據(jù)集來進(jìn)行這方面的努力(讓機(jī)器閱讀系統(tǒng)獲得上面所提到的兩個(gè)技能)。

什么是 HotpotQA?

HotpotQA 是一個(gè)大規(guī)模的問答數(shù)據(jù)集,包含約 113,000 組具備我們上面所提到的那些特征的問答對(duì)。也就是說,這些問題要求問答系統(tǒng)能夠篩選大量的文本文檔,從而找到與生成答案有關(guān)的信息,并使用其找到的多個(gè)支持性事實(shí)來推理出最終答案(見下面的例子)。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

來自 HotpotQA 的問題示例

這些問題和答案是從整個(gè)英語版的維基百科收集而來的,涵蓋了從科學(xué)、天文學(xué)、地理學(xué)到娛樂、體育和法律案例等各類主題。

要回答這些問題,需要用到多種具有挑戰(zhàn)性的推理方式。例如,在 Yahoo!的案例中,研究者需要首先推斷出 Yahoo! 與對(duì)于回答問題必不可少的「承上啟下」的實(shí)體——「斯坦福大學(xué)」二者之間的關(guān)系,然后利用「斯坦福大學(xué)位于加利福尼亞州」這一事實(shí)來得出最終答案。示意性地,整個(gè)推理鏈如下所示:

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在這里,我們將「斯坦福大學(xué)」稱作上下文中的橋接實(shí)體(bridge entity),因?yàn)樗谝阎獙?shí)體 Yahoo! 和目標(biāo)答案「加利福尼亞州」之間架起了橋接。我們觀察到,事實(shí)上大家感興趣的許多問題在某種程度上都涉及到這種橋接實(shí)體。

例如,給定以下問題:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員加入了哪支球隊(duì)?

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在這個(gè)問題中,我們可以首先問自己:在 2015 年 Diamond Head Classic 比賽中獲得 MVP 的球員是誰?然后再找到該球員目前加入的是哪支球隊(duì)。在該問題中,MVP 球員(Buddy Hield)則充當(dāng)了引導(dǎo)我們找到正確答案的橋接實(shí)體。與 Yahoo!案例的推理方式稍有不同,這里的 Buddy Hield 是初始問題的答案的一部分,然而「斯坦福大學(xué)」卻不屬于答案的一部分。

大家也可輕易想到一些「橋接實(shí)體即是答案」的有趣問題,例如:Ed Harris 主演的哪部電影是基于一部法國(guó)小說拍攝的?(答案就是《雪國(guó)列車》。)

顯而易見,對(duì)于大家通過推理多個(gè)從維基百科上收集而來的事實(shí)便能嘗試回答的所有有趣問題,這些橋接問題可能無法完全覆蓋。而在 HotpotQA 中,我們提出了一種新的問題類型來表示更加多樣化的推理技巧和語言理解能力,它就是:比較型問題(comparison question)。

在前面我們就提到過一個(gè)比較型問題:斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)哪個(gè)學(xué)校的計(jì)算機(jī)科學(xué)研究人員更多?

為了成功回答這些問題,問答系統(tǒng)不僅需要能夠找到相關(guān)的支持性事實(shí)(在這個(gè)案例中的支持性事實(shí)就是,斯坦福和 CMU 分別有多少計(jì)算機(jī)科學(xué)研究人員),還要采用有意義的方式對(duì)二者進(jìn)行比較,從而得出最終答案。然而根據(jù)我們對(duì)這一數(shù)據(jù)集的分析,對(duì)于當(dāng)前的問答系統(tǒng)來說,采用有意義的方式去比較相關(guān)的支持性事實(shí)是非常具有挑戰(zhàn)性的,由于其可能涉及數(shù)值比較、時(shí)間比較、計(jì)數(shù)甚至簡(jiǎn)單的算法比較。

然而找到相關(guān)的支持性事實(shí)也并不容易,或者說甚至可能更具挑戰(zhàn)性。雖然一般來說找到比較型問題的相關(guān)事實(shí)相對(duì)容易些,但對(duì)于橋接實(shí)體問題來說,這是非常重要的。

我們采用傳統(tǒng)的信息檢索(IR)方法來進(jìn)行實(shí)驗(yàn),將給定的問題作為查詢關(guān)鍵詞進(jìn)行查詢,該方法對(duì)所有維基百科文章進(jìn)行了排序(從最相關(guān)的文章到最不相關(guān)的文章)。結(jié)果我們發(fā)現(xiàn),平均而言,在對(duì)于正確回答問題必不可少的兩個(gè)階段(我們稱之為「黃金階段」)以外的階段,前 10 個(gè)結(jié)果種僅有約 1.1 個(gè)正確答案。在下圖 IR 對(duì)黃金階段的排序中,排名較高的階段和排名較低的階段呈現(xiàn)的是長(zhǎng)尾分布。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

更明確地說,在排名前 10 位的 IR 結(jié)果中可以找到 80%以上的排名較高的段落,然而找到的排名較低的段落卻不到 30%。我們計(jì)算了一下,如果一個(gè)人在找到兩個(gè)「黃金支持性段落」之前天真地讀完所有排名靠前的文章,那么他每回答一個(gè)問題就平均需要閱讀大約 600 篇文章——甚至在讀完這些文章之后,算法仍然不能可靠告訴我們是否已經(jīng)真的找到了那兩個(gè)「黃金支持性段落」!

當(dāng)實(shí)踐中的機(jī)器閱讀問題要用到多個(gè)推理步驟時(shí),就需要新方法來解決這些問題,因?yàn)檫@個(gè)方向的進(jìn)展將極大地促進(jìn)更有效的信息訪問系統(tǒng)的開發(fā)。

朝可解釋性問答系統(tǒng)發(fā)展

一個(gè)良好的問答系統(tǒng),它的另一個(gè)重要且理想的特征就是可解釋性。實(shí)際上,只能夠簡(jiǎn)單地發(fā)出答案而不具有能幫助驗(yàn)證其答案的解釋或演示的問答系統(tǒng),基本上是沒用的,因?yàn)榧幢氵@些答案大多數(shù)時(shí)候看上去是正確的,用戶也無法信任這些系統(tǒng)所給出的答案。遺憾地是,這也是許多最先進(jìn)的問答系統(tǒng)所存在的問題。

為此,在收集 HotpotQA 的數(shù)據(jù)時(shí),我們還要求我們的注釋者詳細(xì)說明他們用于得出最終答案的支持性句子,并將這些句子作為數(shù)據(jù)集的一部分進(jìn)行發(fā)布。

在下面這個(gè)源自數(shù)據(jù)集的實(shí)際示例中,綠色句子作為支撐答案的支持性事實(shí)(盡管這個(gè)案例中需要通過很多個(gè)推理步驟)。關(guān)于更多(密集度更?。┑闹С中允聦?shí)的示例,大家可通過 HotpotQA 數(shù)據(jù)資源管理器(地址:https://hotpotqa.github.io/explorer.html)查看。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

在我們的實(shí)驗(yàn)中,我們已經(jīng)看到這些支持性事實(shí)不僅能夠讓人們更容易地檢測(cè)問答系統(tǒng)所給出的答案,而且還通過為模型提供更強(qiáng)有力的監(jiān)督(此前這個(gè)方向上的問答數(shù)據(jù)集是缺乏監(jiān)督的),來改善系統(tǒng)本身更準(zhǔn)確地找到理想答案的表現(xiàn)。

最后的思考

隨著人類以文字記錄的知識(shí)日益豐富,以及越來越多的人類知識(shí)時(shí)時(shí)刻刻被數(shù)字化,我們相信這件事情存在巨大的價(jià)值:將這些知識(shí)與能夠?qū)崿F(xiàn)閱讀和推理自動(dòng)化并回答我們的問題的系統(tǒng)相結(jié)合,同時(shí)保持這些回答系統(tǒng)的可解釋性?,F(xiàn)在的問答系統(tǒng)往往都僅僅通過查看大量的段落和句子,然后利用「黑盒子」(大部分都為詞匹配模式)回答一輪問題,而現(xiàn)在正是開發(fā)出超越它們的問答系統(tǒng)的時(shí)候了。

為此,CoQA 考慮了一系列在給定共享語境下的自然對(duì)話中出現(xiàn)的問題,以及要求推理出不止一輪對(duì)話的具有挑戰(zhàn)性的問題;另一方面,HotpotQA 則側(cè)重于多文檔推理,并激勵(lì)研究界開發(fā)新方法來獲取大型語料庫中的支持性信息。

我們相信這兩個(gè)數(shù)據(jù)集將推動(dòng)問答系統(tǒng)的重大發(fā)展,并且我們也期待這些系統(tǒng)將為整個(gè)研究界帶來新的見解。

Via:https://ai.stanford.edu/blog/beyond_local_pattern_matching/ 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

斯坦福大學(xué)陳丹琦等人解讀機(jī)器閱讀最新進(jìn)展:超越局部模式匹配

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說