1
本文作者: 奕欣 | 2018-01-24 19:27 |
雷鋒網(wǎng)AI科技評(píng)論按:科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室(HFL)在 SQuAD 上又刷新了成績(jī),不僅在精確匹配(Exact Match,下稱 EM)指標(biāo)上超過(guò)人類平均水平,模糊匹配(F1-score,下稱 F1)指標(biāo)也首次達(dá)到 89.281 。
SQuAD(Stanford Question Answering Dataset)為斯坦福大學(xué)發(fā)起的文本理解挑戰(zhàn)賽,是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級(jí)水平測(cè)試,它構(gòu)建了一個(gè)包含十萬(wàn)個(gè)問(wèn)題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集,選取超過(guò) 500 篇的維基百科文章。
在閱讀數(shù)據(jù)集內(nèi)的文章后,機(jī)器需要回答若干與文章內(nèi)容相關(guān)的問(wèn)題,并通過(guò)與標(biāo)準(zhǔn)答案的比對(duì),得到 EM 和 F1 的結(jié)果。
在 2018 年 1 月初,以阿里巴巴、微軟亞洲研究院(下稱 MSRA)為代表的中國(guó)研究團(tuán)隊(duì)相繼刷新了 SQuAD 的 EM 紀(jì)錄,機(jī)器閱讀能力的準(zhǔn)確率首次超越人類。 而在今天,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室也在 SQuAD 上獲得了超越人類的 EM 分?jǐn)?shù),并在 F1 上也獲得了第一名的成績(jī)。
早在 2017 年 7 月,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室( HFL )在 SQuAD 上提交的系統(tǒng)模型就曾奪得第一,這也是中國(guó)本土研究機(jī)構(gòu)首次取得該比賽的冠軍。為此,雷鋒網(wǎng) AI 科技評(píng)論專訪了科大訊飛研究院副院長(zhǎng)王士進(jìn),當(dāng)時(shí)他指出,成為世界第一,只是閱讀理解系統(tǒng)萬(wàn)里長(zhǎng)征的第一步。
雖然國(guó)內(nèi)研究機(jī)構(gòu)所提交的系統(tǒng)相繼在 SQuAD 中超過(guò)了人類平均水平,相比往期毫無(wú)疑問(wèn)是一個(gè)巨大的進(jìn)步,但這并不能代表機(jī)器在閱讀理解任務(wù)上「完全」戰(zhàn)勝人類。畢竟在認(rèn)知推理層面,機(jī)器仍然沒(méi)有達(dá)到人類所具備的真實(shí)能力。
閱讀理解是 NLP 領(lǐng)域里一個(gè)公認(rèn)的難題,也是未來(lái)一個(gè)非常重要的趨勢(shì)。據(jù)了解,訊飛與哈工大聯(lián)合實(shí)驗(yàn)室提交的融合式層疊注意力系統(tǒng)(Hybrid Attention-over-Attention Reader)融合了基于上下文的文本表示、自適應(yīng)轉(zhuǎn)隨機(jī)梯度下降的優(yōu)化方法等前沿技術(shù)。王士進(jìn)在此前的采訪中表示,在 7 月份向 SQuAD 提交結(jié)果前,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)在該數(shù)據(jù)集中花了四個(gè)多月的時(shí)間,主要采用的方法還是主流的深度學(xué)習(xí)。
原來(lái)的做法是,系統(tǒng)會(huì)給出一些訓(xùn)練集,包括包括篇章、問(wèn)題和對(duì)應(yīng)的答案,然后通過(guò)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí),自動(dòng)構(gòu)建找到問(wèn)題和答案的對(duì)應(yīng)關(guān)系的一個(gè)方式。但我們做法有兩點(diǎn)不一樣的地方:
一個(gè)是我們的“基于交互式層疊注意力模型”,一開始她可能先鎖定住一些片段,然后通過(guò)多輪迭代的方式進(jìn)行過(guò)濾,進(jìn)一步鎖定篩選出更精準(zhǔn)的一些內(nèi)容,去除整篇文章的干擾,最終得出問(wèn)題的答案。
第二,我們采用了模型融合的方式。對(duì)于問(wèn)題我們會(huì)提出不同的模型,然后對(duì)這些模型進(jìn)行一個(gè)融合(ensamble)。因?yàn)槲覀冎溃话銇?lái)說(shuō)單一模型的性能并不是特別好,我們其實(shí)研究的是如何把多個(gè)不同機(jī)理的模型融合和在一起產(chǎn)生最好的效果。
詳細(xì)的技術(shù)細(xì)節(jié)分析與趨勢(shì)探討,可參考雷鋒網(wǎng) AI 科技評(píng)論的往期報(bào)道《成為世界第一,只是閱讀理解系統(tǒng)萬(wàn)里長(zhǎng)征的第一步》。
更多精彩內(nèi)容,敬請(qǐng)關(guān)注雷鋒網(wǎng)AI 科技評(píng)論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。