0
本文作者: 奕欣 | 2018-02-22 12:15 |
雷鋒網(wǎng) AI 科技評論消息,2 月 21 日,百度 NLP 團(tuán)隊提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微軟的 MS MARCO 機(jī)器閱讀理解測試第一名。目前人類評測 Rouge-L 得分為 47;BLEU-1 得分為 46。
據(jù)了解,百度提交的 V-NET 模型使用了一種新的多候選文檔聯(lián)合建模表示方法,通過注意力機(jī)制使不同文檔產(chǎn)生的答案之間能夠產(chǎn)生交換信息,互相印證,從而更好的預(yù)測答案。
雷鋒網(wǎng) AI 科技評論了解到,除了百度位列第一外,憑借 Microsoft AI and Research 提交的 S-Net、R-Net、ReasoNet,二、三、四名均由微軟摘得。此外,新加坡管理大學(xué)與德國人工智能研究中心也緊隨其后。
MS MARCO 全稱為 Microsoft MAchine Reading Comprehension,即「微軟機(jī)器閱讀理解」,官網(wǎng)資料顯示其正式發(fā)布于 NIPS 2016。這是一套由 10 萬個問答和 20 萬篇不重復(fù)的文檔組成的數(shù)據(jù)集。
在機(jī)器閱讀理解領(lǐng)域,想必大家更為熟悉的是斯坦福大學(xué)發(fā)起的 SQuAD(Stanford Question Answering Dataset),雷鋒網(wǎng) AI 科技評論此前也有過不少相關(guān)報道。SQuAD 是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級水平測試,它構(gòu)建了一個包含十萬個問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集,選取超過 500 篇的維基百科文章。在閱讀數(shù)據(jù)集內(nèi)的文章后,機(jī)器需要回答若干與文章內(nèi)容相關(guān)的問題,并通過與標(biāo)準(zhǔn)答案的比對,得到 EM(精確匹配)和 F1(模糊匹配)的結(jié)果。訊飛與哈工大聯(lián)合實驗室、微軟、阿里巴巴、騰訊等國內(nèi)外知名研究企業(yè)及機(jī)構(gòu)都是 SQuAD 榜單上的???。
與 SQuAD 的最大不同之處在于,MARCO 數(shù)據(jù)集中的問題全都基于來自微軟必應(yīng)搜索(BING)引擎和微軟小娜人工智能助手(Cortana)的已匿名處理的真實查詢。此外,相關(guān)回答是由真人參考真實網(wǎng)頁編寫的,并對其準(zhǔn)確性進(jìn)行了驗證??梢哉f,數(shù)據(jù)集的建立完全是根據(jù)用戶在 BING 中輸入的真實問題模擬搜索引擎中的真實應(yīng)用場景,其研發(fā)團(tuán)隊也曾表示,「MS MARCO 是目前同類型中最有用的數(shù)據(jù)集,因為它建立在經(jīng)過匿名處理的真實世界數(shù)據(jù)基礎(chǔ)之上。」
目前搜索引擎只能針對用戶的提問回答一些簡單問題,可以回答復(fù)雜問題的系統(tǒng)仍然處于起步階段,而普通人日常想獲取一些瑣碎復(fù)雜問題的答案,則需要在搜索引擎提供的結(jié)果中再次進(jìn)行篩選、分析和整理。這些并無明確答案或存在多個可能答案的查詢,是微軟發(fā)布這一數(shù)據(jù)集希望攻克的閱讀理解高堡。
在每一個問題中,MARCO 提供多篇來自搜索結(jié)果的網(wǎng)頁文檔,系統(tǒng)需要根據(jù)這些文檔來回答給定的問題。就像人類在搜索引擎給定的結(jié)果中自行篩選信息一樣,這些文檔中是否有對應(yīng)的答案、在哪一篇文章中,都需要系統(tǒng)自行判斷,甚至還需要結(jié)合多篇文章做出提煉與總結(jié),而這也對機(jī)器的閱讀理解能力提出了更高的要求。
「此次在 MARCO 的測試中取得第一,只是百度機(jī)器閱讀理解技術(shù)經(jīng)歷的一次小考,」百度自然語言處理首席科學(xué)家兼百度技術(shù)委員會主席吳華表示,「我們希望能夠與領(lǐng)域內(nèi)的其他同行者一起,推進(jìn)機(jī)器閱讀理解技術(shù)和應(yīng)用的研究,使 AI 能夠理解人類的語言、用自然語言與人類交流,讓 AI 更『懂』人類?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。