剛剛，微軟刷新了SQuAD記錄...你猜啥時(shí)候會(huì)被刷下來(lái)？

本文作者：岑大師

2017-09-22 14:35

導(dǎo)語(yǔ)：剛剛，微軟刷新了SQuAD記錄

就在幾小時(shí)前，斯坦福大學(xué)NLP組發(fā)推稱，微軟在昨天提交了一次SQuAD的測(cè)試成績(jī)，重新奪回了該數(shù)據(jù)集測(cè)試榜單第一的位置。

在今年7月份，科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室(HFL)提交的系統(tǒng)模型奪得第一，這也是中國(guó)本土研究機(jī)構(gòu)首次取得該比賽的冠軍。當(dāng)時(shí)科大訊飛北京研究院院長(zhǎng)王士進(jìn)博士告訴雷鋒網(wǎng)，SQuAD的成績(jī)刷新得很快，基本兩周或者一個(gè)月就會(huì)被刷新一次（參見(jiàn)雷鋒網(wǎng)文章：《專訪科大訊飛：成為世界第一，只是閱讀理解系統(tǒng)萬(wàn)里長(zhǎng)征的第一步》）。

SQuAD（Stanford Question Answering Dataset）是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級(jí)水平測(cè)試，被譽(yù)為機(jī)器閱讀理解領(lǐng)域的ImageNet。SQuAD與ImageNet具有諸多共同點(diǎn)：都是各自領(lǐng)域的頂尖測(cè)試集，負(fù)責(zé)人都是斯坦福的新銳青年學(xué)者，都得到了工業(yè)界和學(xué)術(shù)界的青睞。

在ImageNet負(fù)責(zé)人李飛飛在今年IJCAI大會(huì)上的《ImageNet：Where we have been，Where we are going》演講中，李飛飛曾提到這樣一個(gè)細(xì)節(jié)：ImageNet團(tuán)隊(duì)試圖在 2014 年結(jié)束競(jìng)賽的一個(gè)子項(xiàng)目，但卻遭到了來(lái)自Google、Facebook 等公司的阻力，因?yàn)椤爱a(chǎn)業(yè)界非常喜歡這個(gè)基準(zhǔn)”，同樣，SQuAD也很討產(chǎn)業(yè)界的喜歡，參賽者包括來(lái)自微軟總部及微軟亞洲研究院、Salesforce、科大訊飛、谷歌以及卡內(nèi)基·梅隆大學(xué)、復(fù)旦大學(xué)等知名企業(yè)研究機(jī)構(gòu)和高校，目前在排行榜上，前三名均來(lái)自產(chǎn)業(yè)界。

剛剛，微軟刷新了SQuAD記錄...你猜啥時(shí)候會(huì)被刷下來(lái)？

SQuAD數(shù)據(jù)集剛剛進(jìn)入第二個(gè)年頭，目前精確匹配（Exact Match）和模糊匹配(F1-Score)的結(jié)果在80%左右，從正確率看大致相當(dāng)于ImageNet在2012年到2013年的水平，但從難度看，SQuAD要略高于ImageNet：人類在ImageNet測(cè)試的錯(cuò)誤率在4%左右，而SQuAD人類的精確匹配和模糊匹配錯(cuò)誤率分別在18%和9%左右。此外CNN 對(duì)模式分類非常適合，其最初就是為識(shí)別二維形狀而特殊設(shè)計(jì)的，而在閱讀理解領(lǐng)域，雖然大家都在使用深度學(xué)習(xí)，但始終缺乏像2012年在ImageNet上橫空出世的AlexNet這樣的突破。

科大訊飛北京研究院院長(zhǎng)王士進(jìn)博士告訴雷鋒網(wǎng)，目前成績(jī)較好的隊(duì)伍基本都采用的是模型融合（ensemble）的方式，即對(duì)于問(wèn)題提出不同的模型，然后對(duì)這些模型進(jìn)行一個(gè)融合，而在融合的過(guò)程中，對(duì)模型的選型，即如何選擇更優(yōu)秀、魯棒性更好的模型至關(guān)重要。

但雷鋒網(wǎng)也注意到，使用好的單一模型取得的成績(jī)與模型融合相差不大，微軟AI研究院在這個(gè)月提交的一個(gè)單模型測(cè)試結(jié)果就得到了第五名的成績(jī)。由于模型融合會(huì)增大對(duì)應(yīng)的計(jì)算量，最終工業(yè)界是否會(huì)對(duì)正確率和消耗的資源進(jìn)行平衡，開(kāi)發(fā)一款“經(jīng)濟(jì)實(shí)用型”的產(chǎn)品還未為可知。

但工業(yè)界會(huì)永遠(yuǎn)為每一個(gè)零點(diǎn)零幾的提升而努力?！拔覀兗夹g(shù)上最近有一些升級(jí)，預(yù)計(jì)近期會(huì)更新一次結(jié)果?！蓖跏窟M(jìn)告訴雷鋒網(wǎng)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

岑大師

發(fā)私信

當(dāng)月熱門(mén)文章

剛剛，微軟刷新了SQuAD記錄...你猜啥時(shí)候會(huì)被刷下來(lái)？

剛剛，微軟刷新了SQuAD記錄...你猜啥時(shí)候會(huì)被刷下來(lái)？