2
本文作者: 奕欣 | 2018-01-13 19:08 |
雷鋒網(wǎng) AI 科技評論消息,2018 年對于 NLP 領(lǐng)域、特別對于中國 NLP 研究來說,想必是不平凡的一年。在斯坦福大學(xué)發(fā)起的 SQuAD(Stanford Question Answering Dataset)文本理解挑戰(zhàn)賽上,以阿里巴巴、 微軟亞洲研究院(下稱 MSRA)為代表的中國研究團(tuán)隊(duì)在近日相繼刷新了 SQuAD 紀(jì)錄,機(jī)器閱讀能力的準(zhǔn)確率首次超越人類。
官網(wǎng)顯示,阿里巴巴與 MSRA 目前并列 SQuAD 榜單的第一名。
阿里巴巴 iDST NLP 團(tuán)隊(duì)于 1 月 5 日提交的 SLQA + 在 EM 值(Exact Match, 表示預(yù)測答案和真實(shí)答案完全匹配)上也獲得了 82.440 的優(yōu)秀成績,F(xiàn)1 值(F1-score,評測模型的整體性能)則為 88.607。
MSRA 自然語言計(jì)算組于 2018 年 1 月 3 日提交的 R-NET 模型在 EM 值上獲得了 82.650 的成績,在 F1 值上的表現(xiàn)為 88.493 。
兩個團(tuán)隊(duì)的 EM 值成績都超越了人類在該項(xiàng)目上的得分——82.304,這也標(biāo)志著,機(jī)器閱讀理解準(zhǔn)確率超越人類這一看似困難重重的目標(biāo),在 2018 年已經(jīng)成為現(xiàn)實(shí)。
SQuAD(Stanford Question Answering Dataset)是行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域的頂級水平測試,被譽(yù)為機(jī)器閱讀理解領(lǐng)域的 ImageNet。它構(gòu)建了一個包含十萬個問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集,選取超過 500 篇的維基百科文章。機(jī)器在閱讀數(shù)據(jù)集內(nèi)的文章后,需要回答若干與文章內(nèi)容相關(guān)的問題,并通過與標(biāo)準(zhǔn)答案的比對,得到精確匹配(Exact Match)和模糊匹配(F1-score)的結(jié)果。
在最新榜單中,包括騰訊、科大訊飛在內(nèi)的中國研究團(tuán)隊(duì)也有著不俗表現(xiàn),成績?nèi)〉昧讼鄳?yīng)的大幅提升。科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室(HFL)、微軟都曾經(jīng)刷新過 SQuAD 的紀(jì)錄,雷鋒網(wǎng) AI 科技評論也曾做過相關(guān)報道。
機(jī)器閱讀理解技術(shù)擁有廣闊的應(yīng)用場景,比如在精準(zhǔn)問答上能為用戶提供極大的幫助;另外,它也能推動很多 NLP 相關(guān)領(lǐng)域的進(jìn)步,如知識的表示、上下文篇章理解、知識推理等。
阿里巴巴自然語言處理首席科學(xué)家司羅表示,未來希望能向終極目標(biāo)邁進(jìn),即機(jī)器真正對通用內(nèi)容「能理解會思考」。
據(jù)了解,阿里巴巴 iDST NLP 團(tuán)隊(duì)在本次 SQuAD 的榜單上獲得第一,主要得益于其提出的「基于分層融合注意力機(jī)制」的深度神經(jīng)網(wǎng)絡(luò)模型。這一模型能夠模擬人類在閱讀理解中所產(chǎn)生的行為,包括審題、帶著問題閱讀文章,對文章進(jìn)行標(biāo)注等。
這樣一來,模型能夠在找尋問題與文章關(guān)聯(lián)的同時,借助分層策略,逐步集中注意力,使答案邊界清晰;另外,采用「融合方式將全局信息加入注意力機(jī)制」,以確保關(guān)注點(diǎn)正確。
這一技術(shù)實(shí)際上已被應(yīng)用于阿里巴巴內(nèi)部,例如顧客在雙十一期間對活動規(guī)則進(jìn)行咨詢,阿里小蜜通過機(jī)器閱讀理解技術(shù),幫助顧客進(jìn)行相關(guān)問題的解答。又如,這一技術(shù)能夠幫助顧客閱讀商品詳情頁,智能提取信息,為顧客直接解答基礎(chǔ)問題等。
MSRA 副院長、自然語言計(jì)算組負(fù)責(zé)人周明博士也第一時間對研究院的優(yōu)秀成績表示祝賀:「祝賀中國的自然語言理解研究已經(jīng)走在世界前列!整個領(lǐng)域的進(jìn)步需要大家共同的努力和投入來推動。自然語言處理長路漫漫,讓我們共勉。」
關(guān)于 MSRA R-NET 的技術(shù)細(xì)節(jié),可以理解為一個多層的網(wǎng)絡(luò)結(jié)構(gòu),對整個閱讀理解任務(wù)的算法進(jìn)行建模。具體包括如下步驟:
閱讀文章及審題:最底層做表示學(xué)習(xí),采用多層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),給問題和文本中的每一個詞做一個表示,即深度學(xué)習(xí)里的向量。
尋找問題與文中內(nèi)容的關(guān)聯(lián),綜合全文進(jìn)行驗(yàn)證:通過注意力機(jī)制(attention),將問題中的向量和文本中的向量做一個比對,找出問題和哪些文字比較接近。然后,再將結(jié)果放在全局中比對。
精篩,選出正確答案:針對挑出的答案候選區(qū)中的每一個詞匯進(jìn)行預(yù)測,哪一個詞是答案的開始,到哪個詞是答案的結(jié)束。這樣,系統(tǒng)會挑出可能性最高的一段文本,最后將答案輸出出來。
整個過程就是一個基于以上層面的神經(jīng)網(wǎng)絡(luò)的端到端系統(tǒng)(見下圖)。
關(guān)于 R-Net 的詳細(xì)內(nèi)容,可參考 AI 科技評論往期文章《從短句到長文,微軟研究院如何教計(jì)算機(jī)學(xué)習(xí)閱讀理解?》。
更多精彩內(nèi)容,敬請關(guān)注雷鋒網(wǎng) AI 科技評論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。