0
雷鋒網(wǎng) AI 科技評論按:斯坦福大學 NLP 組(Stanford NLP Group)昨晚發(fā)出公告,文本理解挑戰(zhàn)賽 & 數(shù)據(jù)集 SQuAD 升級為 SQuAD 2.0,在原來基礎上增加對抗性問題的同時,也新增了一項任務「判斷一個問題能否根據(jù)提供的閱讀文本作答」。新版本 SQuAD 2.0 由斯坦福大學計算機系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在獲得 ACL 2018 最佳論文獎的論文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 頁面的主題色也從玫紅色更換為了藍紫色。
基于 SQuAD(Stanford Question Answering Dataset)的文本理解挑戰(zhàn)賽,是行業(yè)內公認的機器閱讀理解領域的頂級水平測試;它構建了一個包含十萬個問題的大規(guī)模機器閱讀理解數(shù)據(jù)集,選取超過 500 篇的維基百科文章。數(shù)據(jù)集中每一個閱讀理解問題的答案是來自給定的閱讀文章的一小段文本 —— 以及,現(xiàn)在在 SQuAD 2.0 中還要判斷這個問題是否能夠根據(jù)當前的閱讀文本作答。
在原來的 SQuAD(SQuAD 1.1)的十萬個問題 - 答案對的基礎上,SQuAD 2.0 中新增了超過五萬個新增的、由人類眾包者對抗性地設計的無法回答的問題。執(zhí)行 SQuAD 2.0 閱讀理解任務的模型不僅要能夠在問題可回答時給出答案,還要判斷哪些問題是閱讀文本中沒有材料支持的,并拒絕回答這些問題。
圖示為兩個無法回答的問題。紅色標出的答案看似有理,但其實是錯誤的。
Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰寫了論文《Know What You Don't Know: Unanswerable Questions for SQuAD》對這一新任務以及 SQuAD 2.0 做了介紹。論文中為 SQuAD 2.0 設立了新的人類表現(xiàn)基準線(EM 86.831,F(xiàn)1 89.452)的同時,也通過對比展現(xiàn)出了 SQuAD 2.0 的難度:一個強有力的基于神經(jīng)網(wǎng)絡的系統(tǒng)可以在 SQuAD 1.1 上得到 86% 的 F1 分數(shù),但在 SQuAD 2.0 上只能得到 66%。這篇論文也獲得了 ACL 2018 最佳論文獎。其它四篇最佳論文介紹請看這里。
詳細信息歡迎訪問 SQuAD 網(wǎng)站(Stanford-qa.com)以及閱讀論文(https://arxiv.org/abs/1806.03822)。雷鋒網(wǎng) AI 科技評論報道。
相關文章:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。