0
本文作者: 楊曉凡 | 2018-06-13 16:01 |
雷鋒網(wǎng) AI 科技評(píng)論按:斯坦福大學(xué) NLP 組(Stanford NLP Group)昨晚發(fā)出公告,文本理解挑戰(zhàn)賽 & 數(shù)據(jù)集 SQuAD 升級(jí)為 SQuAD 2.0,在原來基礎(chǔ)上增加對(duì)抗性問題的同時(shí),也新增了一項(xiàng)任務(wù)「判斷一個(gè)問題能否根據(jù)提供的閱讀文本作答」。新版本 SQuAD 2.0 由斯坦福大學(xué)計(jì)算機(jī)系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在獲得 ACL 2018 最佳論文獎(jiǎng)的論文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 頁面的主題色也從玫紅色更換為了藍(lán)紫色。
基于 SQuAD(Stanford Question Answering Dataset)的文本理解挑戰(zhàn)賽,是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級(jí)水平測(cè)試;它構(gòu)建了一個(gè)包含十萬個(gè)問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集,選取超過 500 篇的維基百科文章。數(shù)據(jù)集中每一個(gè)閱讀理解問題的答案是來自給定的閱讀文章的一小段文本 —— 以及,現(xiàn)在在 SQuAD 2.0 中還要判斷這個(gè)問題是否能夠根據(jù)當(dāng)前的閱讀文本作答。
在原來的 SQuAD(SQuAD 1.1)的十萬個(gè)問題 - 答案對(duì)的基礎(chǔ)上,SQuAD 2.0 中新增了超過五萬個(gè)新增的、由人類眾包者對(duì)抗性地設(shè)計(jì)的無法回答的問題。執(zhí)行 SQuAD 2.0 閱讀理解任務(wù)的模型不僅要能夠在問題可回答時(shí)給出答案,還要判斷哪些問題是閱讀文本中沒有材料支持的,并拒絕回答這些問題。
圖示為兩個(gè)無法回答的問題。紅色標(biāo)出的答案看似有理,但其實(shí)是錯(cuò)誤的。
Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰寫了論文《Know What You Don't Know: Unanswerable Questions for SQuAD》對(duì)這一新任務(wù)以及 SQuAD 2.0 做了介紹。論文中為 SQuAD 2.0 設(shè)立了新的人類表現(xiàn)基準(zhǔn)線(EM 86.831,F(xiàn)1 89.452)的同時(shí),也通過對(duì)比展現(xiàn)出了 SQuAD 2.0 的難度:一個(gè)強(qiáng)有力的基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)可以在 SQuAD 1.1 上得到 86% 的 F1 分?jǐn)?shù),但在 SQuAD 2.0 上只能得到 66%。這篇論文也獲得了 ACL 2018 最佳論文獎(jiǎng)。其它四篇最佳論文介紹請(qǐng)看這里。
詳細(xì)信息歡迎訪問 SQuAD 網(wǎng)站(Stanford-qa.com)以及閱讀論文(https://arxiv.org/abs/1806.03822)。雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。
相關(guān)文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。