0
評測主頁及具體的評測方案,請參見SMP 2018大會主頁。
“第七屆全國社會媒體處理大會(The Seventh China National Conference on Social Media Processing)”將于2018年8月2日—4日在哈爾濱召開。
全國社會媒體處理大會專注于以社會媒體處理為主題的科學(xué)研究與工程開發(fā),為傳播社會媒體處理最新的學(xué)術(shù)研究與技術(shù)成果提供廣泛的交流平臺,旨在構(gòu)建社會媒體處理領(lǐng)域的產(chǎn)學(xué)研生態(tài)圈,成為中國乃至世界社會媒體處理的風(fēng)向標(biāo),會議將以社交網(wǎng)絡(luò)的形式改變傳統(tǒng)的學(xué)術(shù)會議交流體驗。
全國社會媒體處理大會每年舉辦一次,現(xiàn)已成為社會媒體處理的重要學(xué)術(shù)活動。第七屆全國社會媒體處理大會(SMP 2018)由中國中文信息學(xué)會社會媒體處理專委會主辦,哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心承辦。
本屆SMP會議計劃舉辦第二屆中文人機對話技術(shù)評測(ECDT)。近年來,人機對話技術(shù)受到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。學(xué)術(shù)上,人機對話是人機交互最自然的方式之一,其發(fā)展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進(jìn)展;產(chǎn)業(yè)上,眾多產(chǎn)業(yè)界巨頭相繼推出了人機對話技術(shù)相關(guān)產(chǎn)品,如個人事務(wù)助理、虛擬情感陪護(hù)機器人、娛樂型聊天機器人等等,并將人機對話技術(shù)作為其公司的重點研發(fā)方向。以上極大地推動了人機對話技術(shù)在學(xué)術(shù)界和產(chǎn)業(yè)界的發(fā)展。
本屆中文人機對話技術(shù)評測由中國中文信息學(xué)會社會媒體處理專委會主辦,哈爾濱工業(yè)大學(xué)、科大訊飛股份有限公司承辦,訊飛公司提供數(shù)據(jù),華為公司提供獎金。旨在促進(jìn)中文人機對話系統(tǒng)相關(guān)研究的發(fā)展,為人機對話技術(shù)相關(guān)的學(xué)術(shù)研究人員和產(chǎn)業(yè)界從業(yè)人員提供一個良好的溝通平臺。在此,評測會務(wù)組誠邀各個單位參加本次人機對話技術(shù)評測活動!
本屆人機對話技術(shù)評測主要包括兩個任務(wù),參賽者可以選擇參加任意一個任務(wù)或全部任務(wù)。
在人機對話系統(tǒng)的應(yīng)用過程中,用戶可能會有多種意圖,相應(yīng)地會觸發(fā)人機對話系統(tǒng)中的多個領(lǐng)域(domain) ,其中包括任務(wù)型垂直領(lǐng)域(如查詢機票、酒店、公交車等)、知識型問答以及閑聊等。因而,人機對話系統(tǒng)的一個關(guān)鍵任務(wù)就是正確地將用戶的輸入分類到相應(yīng)的領(lǐng)域(domain)中,從而返回正確的回復(fù)結(jié)果。
【用戶意圖領(lǐng)域分類示例】
1) 你好啊,很高興見到你! — 閑聊類 2) 我想訂一張去北京的機票。 — 任務(wù)型垂類(訂機票) 3) 我想找一家五道口附近便宜干凈的快捷酒店 — 任務(wù)型垂類(訂酒店) |
【評測說明】
評測任務(wù)1包含閑聊和垂類兩大類,其中垂類又細(xì)分為30個垂直領(lǐng)域。本次評測任務(wù)1中,僅考慮針對單輪對話用戶意圖的領(lǐng)域分類,多輪對話整體意圖的領(lǐng)域分類不在此次評測范圍之內(nèi)。
【評測方式】
開放式評測:
參賽者可以開放地獲取除主辦方提供的數(shù)據(jù)之外的訓(xùn)練及開發(fā)數(shù)據(jù)。評測時,主辦方給定測試集,并運行參賽系統(tǒng),在測試集上面得出評測結(jié)果。
【評價指標(biāo)】
準(zhǔn)確率(P)、召回率(R)及F值。
針對特定域的任務(wù)型人機對話系統(tǒng),人工實時在線對話交互及評價能夠反映系統(tǒng)對于用戶意圖響應(yīng)的性能以及用戶真實的滿意度。因此,本次評測任務(wù)2為面向特定領(lǐng)域的任務(wù)型人機對話在線評測。
【評測說明】
本次評測任務(wù)2的特定領(lǐng)域包括:機票類、火車票類、酒店類3個垂直領(lǐng)域,系統(tǒng)通過與測試人員實時在線對話完成相應(yīng)的預(yù)定或查詢?nèi)蝿?wù),滿足測試人員的需求。
【注】針對2018年ECDT任務(wù)二參評單位的評測情況,給出以下建議:
1.認(rèn)真考慮一句意圖存在連續(xù)的若干意圖,如"幫我預(yù)定一張從北京出發(fā)到重慶的4月18號的機票,再預(yù)定重慶到成都的火車票一張,再預(yù)定成都的向日葵酒店公寓一晚。"此類意圖在評分過程中占有更大的分?jǐn)?shù)比例。
2.認(rèn)真考慮資源庫外的屬性、屬性值的判定情況,例如,假設(shè)資源庫中沒有的屬性WI-FI,但測試人員詢問"有沒有wifi提供?";假設(shè)資源庫只覆蓋未來10天的機票信息,但測試人員訂一個月以后的票。
3.測試人員在測試過程中,會根據(jù)"好的,已經(jīng)幫您預(yù)訂XXX"等類似的字樣判斷對話結(jié)束,故建議所有參賽者在搜索返回最終結(jié)果時,都要加上 明顯的標(biāo)示結(jié)束、跳轉(zhuǎn)的語句,幫助測試人員作出明確的判斷。
【特定域任務(wù)型人機對話示例】:其中U表示用戶,R表示對話系統(tǒng)。
任務(wù)型對話示例1:
用戶完整意圖:預(yù)定下周四(2018年4月12日)從北京去上海的上午或者中午出發(fā),價格低于8折的便宜機票。
U:下周從北京去上海 R:請問您需要訂票嗎? U:恩,是的 R:請問您要下周哪天出發(fā)呢? U:周四吧 R:幫您預(yù)訂2018年04月12日從北京到上海的機票,請問有餐飲,價格等其他的要求嗎? U:盡量訂上午的吧,價格找便宜一點的 R:幫您查詢了2018年04月12日從北京到上海的機票,沒有上午出發(fā)的航班,中午12:10出發(fā)是否可以?7.3折,910元 U:也行,就訂這個吧 R:即將幫您預(yù)訂2018年04月12日從北京到上海的機票,南方航空,CZ6412 空客321(中),12:10:00出發(fā),7.3折,910元,不可退改簽,確定要訂票嗎? U:是的 R:已經(jīng)幫您預(yù)訂該航班機票,將跳轉(zhuǎn)至付款頁面 |
任務(wù)型對話示例2:
用戶完整意圖:預(yù)定明天(2018年4月10日),麗江古城區(qū)附近的一家酒店,價格不超過200元每晚。
U:我想預(yù)定麗江古城區(qū)附近的酒店 R:請問您想哪天入住呢? U:明天吧 R:請問您對價格有要求嗎? U:別太貴,每晚200元以下吧 R:2018年04月10日入住,麗江古城區(qū)附近,價格200元以下的酒店,為您找到以下結(jié)果(與用戶意圖最相關(guān)的5個酒店結(jié)果),請問您想預(yù)定哪一個? U:就這個麗江古城聯(lián)強酒店吧 R:好的,已經(jīng)幫您預(yù)訂麗江古城聯(lián)強酒店,2018年04月10日入住。 |
任務(wù)型對話示例3:
用戶完整意圖:查詢明天(2018年4月10日)從哈爾濱到北京的晚間軟臥火車票信息,上下鋪均可。
U:到北京的軟臥火車票還有嗎? R:請問您要從哪里出發(fā)? U:哈爾濱 R:您要定哪天的呢? U:明天吧 R:請問您對發(fā)車時間有要求嗎? U:晚上的,正好能睡一覺 R:請問您要上鋪還是下鋪呢? U:都行 R:您要查詢的2018年04月10日 晚間出發(fā)從哈爾濱到北京的軟臥火車票信息如下(與用戶意圖最相關(guān)的5個火車票查詢結(jié)果) |
任務(wù)型對話示例4:
用戶完整意圖:預(yù)定2018年4月10日從哈爾濱到北京的上午的航班或火車,價格低于500元,同時預(yù)定2018年4月10日五道口附近300-400元的快捷酒店一晚。
U:查一下明天從哈爾濱到北京的機票 R:請問您要什么艙位? U:經(jīng)濟(jì)艙 R:您要上午,下午,晚上哪個時間段出發(fā)? U:上午吧 R:有一個上午6:25出發(fā)的南方航空CZ6421的航班,5.8折,不含稅價720,請問您要預(yù)訂此航班機票嗎? U:有點貴啊,不訂機票了,看看火車票吧 R:2018年4月10日從哈爾濱到北京,上午的火車車次信息如下(與用戶意圖最相關(guān)的5條火車車次信息),請問您要預(yù)定哪一個車次?幾等座? U:D26,二等座吧 R:即將幫您預(yù)定2018年4月10日從哈爾濱到北京,D26次列車二等座。 U: 好的,再幫我找找北京五道口附近的快捷酒店吧 R:請問您哪天入???住幾晚? U:明天入住,一晚。 R:請問您對房間價格有要求嗎? U:別超過400元一晚 R:以下是2018年4月10日入住,五道口附近的快捷酒店信息(與用戶意圖最相關(guān)的5個快捷酒店信息),請問您想預(yù)定哪一個? U:第一個吧 R:即將預(yù)定2018年4月10日入住一晚,五道口附近,漢庭酒店(清華東門店)標(biāo)準(zhǔn)間一間,每晚377元,請問您確認(rèn)要預(yù)定嗎? U:確認(rèn) R:已經(jīng)幫您預(yù)訂該酒店,將跳轉(zhuǎn)至付款頁面 |
【評測方式】
任務(wù)2采用人工評價的方式,對于每個參賽系統(tǒng),主辦方提供給測試人員完整的用戶意圖描述,對于任意相同的用戶意圖描述,對不同的參賽系統(tǒng)均給定相同的首輪對話輸入,啟動在線評測,評測過程中評測員根據(jù)給定的完整意圖描述與參賽系統(tǒng)進(jìn)行交互,直至對話結(jié)束。對話結(jié)束的條件為系統(tǒng)返回所有任務(wù)(單任務(wù)或多任務(wù))的執(zhí)行結(jié)果(出于對模擬終端設(shè)備顯示區(qū)域大小限制的考慮,單任務(wù)的多條結(jié)果只顯示相關(guān)性最高的前5條),或超過50個對話輪數(shù)之后仍未返回測試員所需的結(jié)果,測試員手動結(jié)束對話測試。
【數(shù)據(jù)】
1) 完整的用戶意圖描述示例 2) Json格式的靜態(tài)航班、酒店、火車票數(shù)據(jù)資源 |
【評價指標(biāo)】
1) 任務(wù)完成率 2) 用戶滿意度 3) 回復(fù)語言的自然度 4) 對話輪數(shù) 5) 靜態(tài)的數(shù)據(jù)庫資源未覆蓋情況的引導(dǎo)能力 |
舉例來說,如果當(dāng)前只支持查詢十日航班,那么當(dāng)查到十日之外信息時,是否能友好引導(dǎo)。
【注】:除"對話輪數(shù)"之外,以上指標(biāo)均由人工給出評分。
本次評測對于上述兩個任務(wù)分別比賽及排名,并根據(jù)每個任務(wù)的最終評測結(jié)果分別取前三名進(jìn)行獎勵,總獎勵金額5萬元人民幣。
任務(wù)1: 第一名8000元,第二名5000元,第三名4000元。
任務(wù)2: 第一名15000元,第二名10000元,第三名8000元。
【注】由SMP2018主辦方中國中文信息學(xué)會社會媒體處理專業(yè)委員會(CIPS-SMP)為參評隊伍提供成績證書認(rèn)證。
以下所有時間點為北京時間(GMT+8)11:59 PM。
(除報名時間以外,其他時間點可能會有變動,請注冊參加者密切關(guān)注評測網(wǎng)站以及郵件通知。)
事件 | 時間 |
預(yù)報名 | 2018年4月1日-4月10日 |
正式報名 | 2018年4月11日-4月30日 |
發(fā)布訓(xùn)練及開發(fā)集 | 2018年5月1日 |
系統(tǒng)搭建及調(diào)整 | 2018年5月2日-7月12日 |
任務(wù)1系統(tǒng)提交及測試 | 2018年7月13日 |
任務(wù)2在線測試及結(jié)果評價 | 2018年7月14日-7月16日 |
技術(shù)報告撰寫 | 2018年7月17日-7月31日 |
SMP2018大會期間召開ECDT研討會及頒獎典禮 | 2018年8月2日-8月4日 |
注冊報名:有意向參加的單位機構(gòu)請點擊“注冊報名”,填寫報名表后提交即可。
評測委員會
主席: 張偉男(哈爾濱工業(yè)大學(xué))
委員: 陳志剛(科大訊飛股份有限公司)、車萬翔(哈爾濱工業(yè)大學(xué))、芮祥麟(華為公司)
主辦方:中國中文信息學(xué)會社會媒體處理專業(yè)委員會(CIPS-SMP)
承辦方:哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心(哈工大SCIR)、科大訊飛股份有限公司(iFLYTEK)
贊助方:華為公司
聯(lián)系方式:如果有任何與本次評測相關(guān)的問題,請隨時聯(lián)系會務(wù)組。
評測會務(wù)組郵箱:smp2018ecdt@126.com
相關(guān)文章:
國內(nèi)首屆中文人機對話技術(shù)評測賽果出爐,兩項任務(wù)冠軍團(tuán)隊都分享了哪些技術(shù)細(xì)節(jié)?|SMP 2017
大數(shù)據(jù)時代社會科學(xué)在發(fā)生巨變,六年來SMP如何基于興趣驅(qū)動促進(jìn)學(xué)科發(fā)展? | SMP 2017
電子科大周濤教授:當(dāng)時代發(fā)生巨變,一定要站在能夠產(chǎn)生重大成果的地方 | SMP 2017
全國社會媒體處理大會即將召開,一文詳解四天議程精華 | SMP 2017
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。