0
本文作者: skura | 2019-01-26 10:24 |
雷鋒網(wǎng) AI 科技評(píng)論按,1 月 23 日,谷歌人工智能語(yǔ)言研究科學(xué)家 Tom Kwiatkowski 和 Michael Collins 在 Google AI Blog 上發(fā)布了一篇博文,宣布發(fā)布一個(gè)新的大規(guī)模訓(xùn)練和評(píng)估開(kāi)放領(lǐng)域問(wèn)答系統(tǒng)的語(yǔ)料庫(kù) Natural Questions (NQ),旨在推動(dòng)人們開(kāi)發(fā)出更有效、更強(qiáng)大的問(wèn)答系統(tǒng)。
開(kāi)放域問(wèn)答(QA)是自然語(yǔ)言理解(NLU)中的一項(xiàng)基準(zhǔn)任務(wù),旨在模擬人們?nèi)绾螌ふ倚畔?,通過(guò)閱讀和理解整個(gè)文檔來(lái)找到問(wèn)題的答案。給出一個(gè)用自然語(yǔ)言表達(dá)的問(wèn)題(「為什么天空是藍(lán)色的?」)一個(gè)問(wèn)答系統(tǒng)應(yīng)該能夠閱讀網(wǎng)頁(yè)(比如這個(gè)維基百科頁(yè)面)并返回正確的答案,即便這個(gè)答案有點(diǎn)復(fù)雜和冗長(zhǎng)。然而,目前還沒(méi)有大量公開(kāi)的可用于訓(xùn)練和評(píng)估問(wèn)答模型的自然生成問(wèn)題(如人們尋求信息時(shí)提出的問(wèn)題)及答案。這是因?yàn)椋瑸榱嘶卮饐?wèn)題而收集一個(gè)高質(zhì)量的數(shù)據(jù)集,不僅需要大量真實(shí)的問(wèn)題源,還需要大量的人力才能找到正確的答案。
為了推動(dòng)問(wèn)答系統(tǒng)的研究進(jìn)展,他們很高興地發(fā)布自然問(wèn)題(Natural Questions,NQ),這是一個(gè)新的大規(guī)模訓(xùn)練和評(píng)估開(kāi)放領(lǐng)域問(wèn)題回答系統(tǒng)的語(yǔ)料庫(kù),它第一個(gè)復(fù)制了人們找到問(wèn)題答案的端到端流程。NQ 很大,由 30 萬(wàn)個(gè)自然發(fā)生的問(wèn)題以及維基百科頁(yè)面上的人工注釋答案組成,它們可以被用于訓(xùn)練問(wèn)答系統(tǒng)。他們還包括 16000 個(gè)由 5 個(gè)不同的注釋員標(biāo)注了答案(對(duì)同一個(gè)問(wèn)題)的例子,這有助于評(píng)估經(jīng)過(guò)訓(xùn)練的問(wèn)答系統(tǒng)的性能。對(duì)于計(jì)算機(jī)來(lái)說(shuō),回答瑣事是很容易的。由于在 NQ 中回答問(wèn)題需要比回答瑣事對(duì)問(wèn)題有更深入的理解,基于這些數(shù)據(jù)他們還組織了一次競(jìng)賽,以幫助推動(dòng)計(jì)算機(jī)自然語(yǔ)言理解這項(xiàng)研究的進(jìn)展。雷鋒網(wǎng)
數(shù)據(jù)
NQ 是首先使用自然發(fā)生的查詢(xún)的數(shù)據(jù)集,它專(zhuān)注于通過(guò)閱讀整個(gè)頁(yè)面而不是從短段落中提取答案來(lái)查找答案。為了創(chuàng)建 NQ,他們從用戶(hù)向谷歌搜索引擎提出的真實(shí)、匿名、聚合的查詢(xún)開(kāi)始。然后,他們要求注釋員通過(guò)閱讀整個(gè)維基百科頁(yè)面來(lái)找到答案,就像問(wèn)題是他們自己提出來(lái)的一樣。注釋員尋找包含推斷答案所需的所有信息的長(zhǎng)答案,以及簡(jiǎn)潔地用一個(gè)或多個(gè)詞語(yǔ)回答問(wèn)題的短答案。NQ 語(yǔ)料庫(kù)中注釋的準(zhǔn)確度高達(dá) 90%。
NQ 旨在使問(wèn)答系統(tǒng)能夠閱讀和理篇整個(gè)維基百科文章,這些文章可能包含問(wèn)題的答案,也可能不包含問(wèn)題的答案。首先,系統(tǒng)需要確定問(wèn)題是否定義得足夠好,可以回答——許多問(wèn)題都包含錯(cuò)誤的假設(shè),或者描述太模糊,無(wú)法簡(jiǎn)明地回答。然后,他們需要確定維基百科頁(yè)面中是否有任何部分包含推斷答案所需的所有信息。他們認(rèn)為,長(zhǎng)答案識(shí)別任務(wù)——找到推斷答案所需的所有信息——需要比在知道長(zhǎng)答案后找到短答案更深入的語(yǔ)言理解水平。
他們的論文「Natural Questions: a Benchmark for Question Answering Research」,已在計(jì)算語(yǔ)言學(xué)協(xié)會(huì)學(xué)報(bào)上發(fā)表,文章對(duì)數(shù)據(jù)收集過(guò)程進(jìn)行了全面的描述。要從數(shù)據(jù)集中查看更多示例,請(qǐng)?jiān)L問(wèn) NQ 網(wǎng)站。
挑戰(zhàn)賽
自然問(wèn)題有一個(gè) 7842 個(gè)示例的盲測(cè)試集,其格式與發(fā)布的開(kāi)發(fā)集完全相同。在此頁(yè)面上創(chuàng)建一個(gè)配置文件以在測(cè)試集上運(yùn)行模型,并查看它們的性能。為了保持測(cè)試集的完整性,每個(gè)團(tuán)隊(duì)每周只允許提交一次。你們可以在他們提供的 200 個(gè)示例 dev set 上運(yùn)行測(cè)試。這個(gè)不限制次數(shù)。
要提交一個(gè)模型,您應(yīng)該創(chuàng)建一個(gè) Docker 映像,并按照 NQ 的 Github 頁(yè)面上的說(shuō)明將其上傳到谷歌云存儲(chǔ)庫(kù)。
上傳圖像后,請(qǐng)登錄此頁(yè)面以顯示提交表單。選擇要顯示在 NQ 排行榜上的模型名稱(chēng),以及將在個(gè)人主頁(yè)上顯示的標(biāo)簽。
他們希望 NQ 的發(fā)布以及相關(guān)的挑戰(zhàn)賽將有助于推動(dòng)大家開(kāi)發(fā)出更有效、更強(qiáng)大的 QA 系統(tǒng)。他們鼓勵(lì) NLU 社區(qū)參與并幫助縮小當(dāng)前最先進(jìn)方法與人類(lèi)上限之間的巨大差距。請(qǐng)?jiān)L問(wèn)挑戰(zhàn)賽網(wǎng)站,查看排行榜并了解更多信息。
via:https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。