0
雷鋒網 AI 研習社按,日前,由中國中文信息學會 (CIPS)、中國計算機學會 (CCF) 和百度公司聯(lián)合舉辦的「2018 機器閱讀理解技術競賽」落下帷幕,Naturali 奇點機智從國內外 800 多支隊伍中脫穎而出,獲得第一名。在兩個評價標準 ROUGE-L 和 BLEU-4 上,奇點機智分別獲得 63.38 和 59.23 的得分,均高出第二名超過兩分。(目前,奇點機智憑借在「2018 機器閱讀理解技術競賽」上獲得冠軍以及比賽專訪,在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中獲得 13 分。)
迄今為止,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由斯坦福大學發(fā)起的 SQuAD 挑戰(zhàn)賽以及微軟的 MS MARCO 機器閱讀理解測試,而此次賽事基于百度 DuReader 中文數據集,對中文閱讀理解有著里程碑式的意義。
奇點機智是一家提供定制化語音交互解決方案的公司,談及參賽原因,他們對雷鋒網 AI 研習社說道,「機器閱讀理解是推動人工智能未來發(fā)展的核心。機器能夠并且應該去理解人類,而不是人類去理解機器。閱讀理解是奇點機智關注的問題,公司的 NLP 團隊在相關領域有所積累,希望嘗試將開發(fā)的基礎組件應用到實際問題的解決中,也想借此比賽驗證公司在自然語言處理方面的技術實力?!?/p>
比賽介紹
本次比賽數據集來自搜索引擎真實應用場景,其中的問題為百度搜索用戶的真實問題,每個問題對應 5 個候選文檔文本及人工整理的優(yōu)質答案。
數據集共包含 30 萬問題(27 萬訓練集、1 萬開發(fā)集和 2 萬測試集),其中 20 萬來源于百度 DuReader 數據集(18 萬訓練集、1 萬開發(fā)集和 1 萬測試集)。
DuReader 是迄今為止最大的面向真實應用場景的中文閱讀理解數據集,它包含來自百度搜索的 30 萬個真實問題,數據集中標注了問題類型、實體和觀點等豐富信息。
在這次比賽中,對于給定問題 q 及其對應的文本形式的候選文檔集合 D=d1, d2, ..., dn,要求參評閱讀理解系統(tǒng)自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案 a。目標是 a 能夠正確、完整、簡潔地回答問題 q。
此次比賽評價指標采用 ROUGH-L 和 BLEU4,ROUGH-L 為主評價指標。針對是非及實體類型問題,主辦方對 ROUGE-L 和 BLEU4 評價指標進行了微調,適當增加了正確識別是非答案類型及匹配實體的得分獎勵,這在一定程度上彌補了傳統(tǒng) ROUGE-L 和 BLEU4 指標對是非和實體類型問題評價不敏感的問題。
奇點機智表示,長時間以來,自然語言處理的研究都是基于句子級別的閱讀理解,例如理解句子中的主謂賓、定狀補,時間、地點、事件等等。然而,基于篇章的長文本理解一直是一個技術難題,因為涉及到更高難度的研究內容,例如句子之間的連貫、上下文、推理等等,這也正是此次競賽面臨的挑戰(zhàn)。
雖然目前機器閱讀理解與人類還存在差距,但此次比賽中,他們的答案與人工標注的答案非常接近,甚至有些比人工答案更全面,這也算是一大進步。下面是奇點機智答案與人工標注答案的對比:
問題:昆特牌什么時候公測(實體類)
奇點機智答案:「巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日, 暫定為期兩周,即 6 月 6 日-6 月 19 日?!?/p>
人工答案:「時間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日?!?/p>
問題:肩袖損傷能自愈嗎(判斷類)
奇點機智答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了。」
人工答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了。」, 「一般是不可以治愈的,需要外用膏藥,結合活血化瘀的藥品治療?!?/p>
問題:蘭陵王妃大結局是什么(描述類)
奇點機智答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕?!?/p>
人工答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕?!? 「高長恭最終抱的美人歸,與元清鎖共度生死。」
從直觀感覺上來說,奇點機智的回答比較完整和合理,從指標上來說,在比賽中 BLEU 超越第二名兩分也是非常難得的。
參賽細節(jié)
將中文閱讀理解與英文相對比,中文存在分詞問題,也缺少像 GloVe 這樣在大規(guī)模數據上預訓練好的詞向量。此外,中文的成語典故、俗語、一詞多義、歧義等都增加了機器閱讀的難度。那么面對這些挑戰(zhàn),奇點機智在比賽中是如何完成這看似不可能的任務的呢?
據奇點機智介紹,這次比賽主要是由技術團隊的兩名同事做系統(tǒng)實驗,其他同事提供相關幫助。
他們對雷鋒網 AI 研習社表示,比賽數據集都是用戶的真實問答,有些問題在百度搜索里沒有答案,而且問題不一定很直接。比如「響一聲就說正在通話中」,這表面上并不是一個問題,用戶描述了一個現象,這種問題回答起來更具挑戰(zhàn)性。
由于競賽給定了文檔全文,有的文檔可能會非常長,為了不超出內存占用和保證訓練效率,他們采取了簡單有效的啟發(fā)式方法預先對每個文檔抽取可能包含答案的部分內容。
他們針對判斷類問題訓練了一個額外的分類模型,除此之外,比賽數據集中有一部分數據來源于百度搜索,一部分數據來源于百度知道,針對問題來源,他們也做了一些策略調整。
在特征的選擇上,他們使用了詞向量、詞性標注向量、以及篇章中的詞是否出現在問題中。
在模型選擇上,他們閱讀了大量論文,參考和借鑒了很多經典 MRC 模型,比如 BIDAF、Match-LSTM、R-Net、DCN 等。最終的模型基于 BIDAF,他們嘗試引入了多個答案的信息。
此外,他們也發(fā)現,一些 NLP 的底層基礎部件,比如分詞和詞向量表示等也會對系統(tǒng)性能產生一定影響。
而從公布數據到最終結果提交只有兩個月左右的時間,雖然時間上比較緊迫,但公司內部有自己的實驗系統(tǒng)和比較充足的硬件資源。
奇點機智表示,「在這次比賽中,公司在自然語言處理方面的技術積累,團隊超強的執(zhí)行力和學習力,良好的硬件資源和實驗平臺都是奪得冠軍的因素?!?/p>
值得一提的是,參與競賽的兩位技術人員平時在奇點機智是做機器學習、語音識別相關工作,參賽之前沒有特別接觸過閱讀理解。能在短短兩個月左右快速上手并最終奪冠,這也在一定程度上反應了團隊超強的學習力和執(zhí)行力。
未來
他們表示,在比較干凈的數據集上,機器模型已經可以做到非常好,比如在維基百科上,機器的表現已經可以超過人類。如果數據集比較原始,依然會有不錯的表現,但挑戰(zhàn)更大,這也是他們愿意去挑戰(zhàn)的難題。閱讀理解在一定程度上會給語音助手、問答系統(tǒng)等帶來諸多利好,這也是他們的研究重點。
這次比賽使得他們對閱讀理解任務有了更深入的理解,包括任務可能運用的場景、問題難點等。下一步,他們一方面將在性能上嘗試對模型進一步優(yōu)化,另一方面,將在工程上考慮將機器閱讀引入實際商業(yè)場景和產品中。參賽團隊對雷鋒網 AI 研習社說道,希望通過此次真實用戶問答數據,訓練優(yōu)質實用的模型,將領先的機器閱讀理解技術應用于今后的產品以及各個領域中。
在采訪的最后,奇點機智 CTO 林德康表示,「我們對過去的積累非常有信心,我們愿意去做有意義的、有挑戰(zhàn)性的事情,同時,我們也會經常組織大家一起學習、讀論文,進行小組討論。沒有什么可以阻止我們不斷學習,獲取最先進的理念和技術?!?/p>
對奇點機智感興趣的同學,歡迎將簡歷投至 jobs@naturali.io
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。