0
本文作者: 奕欣 | 2018-08-06 09:47 | 專題:SMP 2018 |
雷鋒網(wǎng) AI 科技評論按:由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業(yè)大學承辦的第七屆全國社會媒體處理大會(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨家戰(zhàn)略媒體帶來專題報道。
對話是人機交互最為流暢且自然的一種形式,因此人機對話成為自然語言處理的一個重要研究方向。以微軟小冰、Siri 為代表的人機對話產(chǎn)品也作為產(chǎn)業(yè)界的代表應用迅速發(fā)展。與之相應地,人機對話的技術評測也成為了高校及企業(yè)技術的「練兵場」。
圖片來源:哈工大 SCIR 李家琦
8 月 4 日下午,SMP 2018 第二屆中文人機對話技術評測(The Second Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT) 的頒獎儀式及技術報告論壇順利召開。
本屆 SMP-ECDT 由中國中文信息學會社會媒體處理專委會主辦,承辦方包括哈爾濱工業(yè)大學和提供數(shù)據(jù)支持的科大訊飛股份有限公司,此外華為公司提供獎金支持。SMP 2018 技術評測委員會組織架構包括主席張偉男(哈爾濱工業(yè)大學),委員陳志剛(科大訊飛股份有限公司)、車萬翔(哈爾濱工業(yè)大學)及張軼博(華為公司)。
本屆 SMP-ECDT 技術評測沿襲上一年的賽制,分為用戶意圖領域分類及任務型人機對話在線評測兩個任務。
用戶意圖領域分類(任務一)針對閑聊類和任務類兩大類領域(domain),要求系統(tǒng)將用戶在單輪對話的輸入分類對應到相應的領域中;其中,任務類又細分為 30 個垂直領域。
在人機對話的應用過程中,只有正確判斷用戶的意圖,并正確進行劃分,才能進一步返回正確的回復結果。在本任務中,參賽者可以開放地獲取除主辦方提供的數(shù)據(jù)之外的訓練及開發(fā)數(shù)據(jù);主辦方提供給定測試集,并運行參賽系統(tǒng),在測試集上面得出評測結果。評價標準包括準確率(P)、召回率(R)及 F 值。
任務型人機對話在線評測(任務二)則涵蓋機票類、火車票類、酒店類 3 個垂直領域,系統(tǒng)通過與測試人員實時在線對話完成相應的預定或查詢任務。
整個評測過程對不同的參賽系統(tǒng)均給定相同的首輪對話輸入,評測員根據(jù)給定的完整意圖描述與參賽系統(tǒng)進行交互直至對話結束;系統(tǒng)返回所有任務(單任務或多任務)的執(zhí)行結果,此外,如果單個任務在 30 個對話輪數(shù)之后仍未返回測試員所需的結果,則對話測試結束。評價指標包括任務完成率、對話輪數(shù)、用戶滿意度、回復語言的自然度及資源未覆蓋情況的引導能力等五大領域。
SMP-ECDT 技術評測從 2018 年 4 月 1 日啟動,歷經(jīng)近五個月的賽程,最終吸引了 80 支隊伍共 248 位參賽者報名,相較去年第一屆技術評測有了一定程度的提升。值得一提的是,來自工業(yè)界的隊伍比重相比去年有所增加,SMP 2018 技術評測委員會主席、哈爾濱工業(yè)大學張偉男博士表示,這從一個側面上反映了工業(yè)界對人機對話技術的關注度在不斷提高,技術水平也在不斷進步。
SMP-ECDT 技術評測于 7 月 23 日公布評測結果,詳情如下:
圖片來源:哈工大 張偉男
盡管評測主題相比去年并沒有明顯變化,但張偉男博士向雷鋒網(wǎng) AI 科技評論介紹,兩個任務都采用了新的數(shù)據(jù)集,且任務一的測試集規(guī)模更大,提升了技術評測的任務難度。
與之相應地,任務一參賽隊伍的整體指標相比去年有所下降。不過,技術評測委員會也從中看到了參賽團隊的進步。
「我們看到了最近比較火的基于 T2T 的 Transformer 模型應用在了任務一的參賽系統(tǒng)中,并且取得了第一名的成績,相比于 LSTM,Transformer 僅利用 multihead 的 attention 技術,模型整體更加簡單高效,同時我們還看到了 FastText 在數(shù)據(jù)預訓練及獲取詞匯 embedding 上的應用及取得的成績?!?/p>
而任務二除了采用全新數(shù)據(jù)集外,也參考去年所遇到的一些測試問題做出了修正。令評測委員會感到欣喜的是,今年任務二的任務完成率和平均話輪數(shù)兩個主要指標有了明顯的提升,張偉男博士表示,「這無疑標志著人機對話技術在過去的一年中,起碼在我們這個任務中,有了較大的進步,讓我們對后續(xù)的進展充滿了信心和期待?!?/p>
圖片來源:哈工大 張偉男
從去年開始,SMP 技術評測委員會在劉挺老師和蔣盛益老師的支持下,于 SMP 大會上連續(xù)舉辦兩屆中文人機對話技術評測,開創(chuàng)先河。張偉男博士介紹道,在制定評測內容的過程中,委員會認為不僅要考慮人機對話研究上的熱點,更應該考慮人機對話在實際應用中的關鍵核心問題?!附?jīng)過多次討論我們確定了兩個評測任務,即用戶意圖分類和在線人機對話實時評測。經(jīng)過兩屆的評測,我們欣喜地看到了人機對話技術在這兩個任務上的進步,同時也發(fā)現(xiàn)了一些問題,如模型的領域遷移問題。」
結合各個團隊在比賽過程中暴露的共同問題,評測委員會在未來調整評測重點及后續(xù)方案的制定。張偉男博士也表示,在未來,他們也將規(guī)劃與真實應用場景的結合,如手機助手、智能音箱等,讓參賽隊伍能在實踐中及時獲得反饋并做出調整,這也有益于推動人機對話技術的進步與落地。
SMP2018中文人機對話技術評測(ECDT):http://smp2018.cips-smp.org/ecdt_index.html
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。