SQuAD 2.0來了！現(xiàn)在這里有了機(jī)器「無法回答的問題」

本文作者：楊曉凡

2018-06-13 16:01

導(dǎo)語：自然語言處理現(xiàn)在也有了對(duì)抗性問題

雷鋒網(wǎng) AI 科技評(píng)論按：斯坦福大學(xué) NLP 組（Stanford NLP Group）昨晚發(fā)出公告，文本理解挑戰(zhàn)賽 & 數(shù)據(jù)集 SQuAD 升級(jí)為 SQuAD 2.0，在原來基礎(chǔ)上增加對(duì)抗性問題的同時(shí)，也新增了一項(xiàng)任務(wù)「判斷一個(gè)問題能否根據(jù)提供的閱讀文本作答」。新版本 SQuAD 2.0 由斯坦福大學(xué)計(jì)算機(jī)系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在獲得 ACL 2018 最佳論文獎(jiǎng)的論文《Know What You Don't Know: Unanswerable Questions for SQuAD》（https://arxiv.org/abs/1806.03822）中提出。SQuAD 頁面的主題色也從玫紅色更換為了藍(lán)紫色。

基于 SQuAD（Stanford Question Answering Dataset）的文本理解挑戰(zhàn)賽，是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級(jí)水平測(cè)試；它構(gòu)建了一個(gè)包含十萬個(gè)問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集，選取超過 500 篇的維基百科文章。數(shù)據(jù)集中每一個(gè)閱讀理解問題的答案是來自給定的閱讀文章的一小段文本 —— 以及，現(xiàn)在在 SQuAD 2.0 中還要判斷這個(gè)問題是否能夠根據(jù)當(dāng)前的閱讀文本作答。

在原來的 SQuAD（SQuAD 1.1）的十萬個(gè)問題 - 答案對(duì)的基礎(chǔ)上，SQuAD 2.0 中新增了超過五萬個(gè)新增的、由人類眾包者對(duì)抗性地設(shè)計(jì)的無法回答的問題。執(zhí)行 SQuAD 2.0 閱讀理解任務(wù)的模型不僅要能夠在問題可回答時(shí)給出答案，還要判斷哪些問題是閱讀文本中沒有材料支持的，并拒絕回答這些問題。

SQuAD 2.0來了！現(xiàn)在這里有了機(jī)器「無法回答的問題」

圖示為兩個(gè)無法回答的問題。紅色標(biāo)出的答案看似有理，但其實(shí)是錯(cuò)誤的。

Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰寫了論文《Know What You Don't Know: Unanswerable Questions for SQuAD》對(duì)這一新任務(wù)以及 SQuAD 2.0 做了介紹。論文中為 SQuAD 2.0 設(shè)立了新的人類表現(xiàn)基準(zhǔn)線（EM 86.831，F(xiàn)1 89.452）的同時(shí)，也通過對(duì)比展現(xiàn)出了 SQuAD 2.0 的難度：一個(gè)強(qiáng)有力的基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)可以在 SQuAD 1.1 上得到 86% 的 F1 分?jǐn)?shù)，但在 SQuAD 2.0 上只能得到 66%。這篇論文也獲得了 ACL 2018 最佳論文獎(jiǎng)。其它四篇最佳論文介紹請(qǐng)看這里。

詳細(xì)信息歡迎訪問 SQuAD 網(wǎng)站（Stanford-qa.com）以及閱讀論文（https://arxiv.org/abs/1806.03822）。雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

相關(guān)文章：

一窺 ACL 2018 最佳論文

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章