訊飛與哈工大聯(lián)合實(shí)驗室刷新SQuAD成績，兩項指標(biāo)均大幅提升

本文作者：奕欣

2018-01-24 19:27

導(dǎo)語：科大訊飛與哈工大聯(lián)合實(shí)驗室（HFL）在 SQuAD 上又刷新了成績。

科大訊飛

+10

AI影響因子

比賽

比賽名稱：SQuAD

年份：2018

企業(yè)：科大訊飛

操作：刷新

名次：1

雷鋒網(wǎng)AI科技評論按：科大訊飛與哈工大聯(lián)合實(shí)驗室（HFL）在 SQuAD 上又刷新了成績，不僅在精確匹配（Exact Match，下稱 EM）指標(biāo)上超過人類平均水平，模糊匹配（F1-score，下稱 F1）指標(biāo)也首次達(dá)到 89.281 。

訊飛與哈工大聯(lián)合實(shí)驗室刷新SQuAD成績，兩項指標(biāo)均大幅提升

SQuAD（Stanford Question Answering Dataset）為斯坦福大學(xué)發(fā)起的文本理解挑戰(zhàn)賽，是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級水平測試，它構(gòu)建了一個包含十萬個問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集，選取超過 500 篇的維基百科文章。

在閱讀數(shù)據(jù)集內(nèi)的文章后，機(jī)器需要回答若干與文章內(nèi)容相關(guān)的問題，并通過與標(biāo)準(zhǔn)答案的比對，得到 EM 和 F1 的結(jié)果。

在 2018 年 1 月初，以阿里巴巴、微軟亞洲研究院（下稱 MSRA）為代表的中國研究團(tuán)隊相繼刷新了 SQuAD 的 EM 紀(jì)錄，機(jī)器閱讀能力的準(zhǔn)確率首次超越人類。而在今天，科大訊飛與哈工大聯(lián)合實(shí)驗室也在 SQuAD 上獲得了超越人類的 EM 分?jǐn)?shù)，并在 F1 上也獲得了第一名的成績。

早在 2017 年 7 月，科大訊飛與哈工大聯(lián)合實(shí)驗室( HFL )在 SQuAD 上提交的系統(tǒng)模型就曾奪得第一，這也是中國本土研究機(jī)構(gòu)首次取得該比賽的冠軍。為此，雷鋒網(wǎng) AI 科技評論專訪了科大訊飛研究院副院長王士進(jìn)，當(dāng)時他指出，成為世界第一，只是閱讀理解系統(tǒng)萬里長征的第一步。

雖然國內(nèi)研究機(jī)構(gòu)所提交的系統(tǒng)相繼在 SQuAD 中超過了人類平均水平，相比往期毫無疑問是一個巨大的進(jìn)步，但這并不能代表機(jī)器在閱讀理解任務(wù)上「完全」戰(zhàn)勝人類。畢竟在認(rèn)知推理層面，機(jī)器仍然沒有達(dá)到人類所具備的真實(shí)能力。

閱讀理解是 NLP 領(lǐng)域里一個公認(rèn)的難題，也是未來一個非常重要的趨勢。據(jù)了解，訊飛與哈工大聯(lián)合實(shí)驗室提交的融合式層疊注意力系統(tǒng)（Hybrid Attention-over-Attention Reader）融合了基于上下文的文本表示、自適應(yīng)轉(zhuǎn)隨機(jī)梯度下降的優(yōu)化方法等前沿技術(shù)。王士進(jìn)在此前的采訪中表示，在 7 月份向 SQuAD 提交結(jié)果前，科大訊飛與哈工大聯(lián)合實(shí)驗室團(tuán)隊在該數(shù)據(jù)集中花了四個多月的時間，主要采用的方法還是主流的深度學(xué)習(xí)。

原來的做法是，系統(tǒng)會給出一些訓(xùn)練集，包括包括篇章、問題和對應(yīng)的答案，然后通過神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)，自動構(gòu)建找到問題和答案的對應(yīng)關(guān)系的一個方式。但我們做法有兩點(diǎn)不一樣的地方：
一個是我們的“基于交互式層疊注意力模型”，一開始她可能先鎖定住一些片段，然后通過多輪迭代的方式進(jìn)行過濾，進(jìn)一步鎖定篩選出更精準(zhǔn)的一些內(nèi)容，去除整篇文章的干擾，最終得出問題的答案。
第二，我們采用了模型融合的方式。對于問題我們會提出不同的模型，然后對這些模型進(jìn)行一個融合（ensamble）。因為我們知道，一般來說單一模型的性能并不是特別好，我們其實(shí)研究的是如何把多個不同機(jī)理的模型融合和在一起產(chǎn)生最好的效果。

詳細(xì)的技術(shù)細(xì)節(jié)分析與趨勢探討，可參考雷鋒網(wǎng) AI 科技評論的往期報道《成為世界第一，只是閱讀理解系統(tǒng)萬里長征的第一步》。

更多精彩內(nèi)容，敬請關(guān)注雷鋒網(wǎng)AI 科技評論。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。