1
本文作者: 奕欣 | 2018-01-24 19:27 |
雷鋒網(wǎng)AI科技評論按:科大訊飛與哈工大聯(lián)合實驗室(HFL)在 SQuAD 上又刷新了成績,不僅在精確匹配(Exact Match,下稱 EM)指標上超過人類平均水平,模糊匹配(F1-score,下稱 F1)指標也首次達到 89.281 。
SQuAD(Stanford Question Answering Dataset)為斯坦福大學發(fā)起的文本理解挑戰(zhàn)賽,是行業(yè)內(nèi)公認的機器閱讀理解領(lǐng)域的頂級水平測試,它構(gòu)建了一個包含十萬個問題的大規(guī)模機器閱讀理解數(shù)據(jù)集,選取超過 500 篇的維基百科文章。
在閱讀數(shù)據(jù)集內(nèi)的文章后,機器需要回答若干與文章內(nèi)容相關(guān)的問題,并通過與標準答案的比對,得到 EM 和 F1 的結(jié)果。
在 2018 年 1 月初,以阿里巴巴、微軟亞洲研究院(下稱 MSRA)為代表的中國研究團隊相繼刷新了 SQuAD 的 EM 紀錄,機器閱讀能力的準確率首次超越人類。 而在今天,科大訊飛與哈工大聯(lián)合實驗室也在 SQuAD 上獲得了超越人類的 EM 分數(shù),并在 F1 上也獲得了第一名的成績。
早在 2017 年 7 月,科大訊飛與哈工大聯(lián)合實驗室( HFL )在 SQuAD 上提交的系統(tǒng)模型就曾奪得第一,這也是中國本土研究機構(gòu)首次取得該比賽的冠軍。為此,雷鋒網(wǎng) AI 科技評論專訪了科大訊飛研究院副院長王士進,當時他指出,成為世界第一,只是閱讀理解系統(tǒng)萬里長征的第一步。
雖然國內(nèi)研究機構(gòu)所提交的系統(tǒng)相繼在 SQuAD 中超過了人類平均水平,相比往期毫無疑問是一個巨大的進步,但這并不能代表機器在閱讀理解任務(wù)上「完全」戰(zhàn)勝人類。畢竟在認知推理層面,機器仍然沒有達到人類所具備的真實能力。
閱讀理解是 NLP 領(lǐng)域里一個公認的難題,也是未來一個非常重要的趨勢。據(jù)了解,訊飛與哈工大聯(lián)合實驗室提交的融合式層疊注意力系統(tǒng)(Hybrid Attention-over-Attention Reader)融合了基于上下文的文本表示、自適應(yīng)轉(zhuǎn)隨機梯度下降的優(yōu)化方法等前沿技術(shù)。王士進在此前的采訪中表示,在 7 月份向 SQuAD 提交結(jié)果前,科大訊飛與哈工大聯(lián)合實驗室團隊在該數(shù)據(jù)集中花了四個多月的時間,主要采用的方法還是主流的深度學習。
原來的做法是,系統(tǒng)會給出一些訓練集,包括包括篇章、問題和對應(yīng)的答案,然后通過神經(jīng)網(wǎng)絡(luò)去學習,自動構(gòu)建找到問題和答案的對應(yīng)關(guān)系的一個方式。但我們做法有兩點不一樣的地方:
一個是我們的“基于交互式層疊注意力模型”,一開始她可能先鎖定住一些片段,然后通過多輪迭代的方式進行過濾,進一步鎖定篩選出更精準的一些內(nèi)容,去除整篇文章的干擾,最終得出問題的答案。
第二,我們采用了模型融合的方式。對于問題我們會提出不同的模型,然后對這些模型進行一個融合(ensamble)。因為我們知道,一般來說單一模型的性能并不是特別好,我們其實研究的是如何把多個不同機理的模型融合和在一起產(chǎn)生最好的效果。
詳細的技術(shù)細節(jié)分析與趨勢探討,可參考雷鋒網(wǎng) AI 科技評論的往期報道《成為世界第一,只是閱讀理解系統(tǒng)萬里長征的第一步》。
更多精彩內(nèi)容,敬請關(guān)注雷鋒網(wǎng)AI 科技評論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。