0
雷鋒網 AI 科技評論按:從蘋果 Siri 到亞馬遜 Echo,聊天機器人在我們的生活中扮演著越來越重要的角色。肉眼可見的變化是,在那些對知識廣深度要求不高的領域/行業(yè),聊天機器人大有逐漸取代人工客服的趨勢,且隨著物聯網技術的普及,該技術也漸漸成為人們遠程操控家電的手段之一。然而聊天機器人目前存在的問題不少,比如對上下文語境的理解、知性對話、去噪,都是自然語言處理學者正在努力攻克的難點,而近期的一場「SMP 機器人群聊」賽事,則試圖將該領域的研究再往前一步推進——人機多方混合對話/機器人多方群聊。過去,我們經常說「三個女人一臺戲」,如果是三個機器人,又會給到我們什么樣的驚喜呢?
該賽事的全名為 SMP 機器人群聊比賽(SMP Multi-bot Conversation Challenge, ),由中國中文信息學會社會媒體處理專委會社交機器人工作組主辦,哈工大深圳王軒教授提供原始想法,哈工大社會計算與信息檢索研究中心張偉男副教授細化落實,賽后在天津大學召開研討會。主辦方認為,學界過往對人機對話領域的關注僅限于人機雙方的對話模式,在更具挑戰(zhàn)性的人機多方混合對話乃至機器人多方群聊任務方面,無論是研究還是應用上都鮮有涉及。因此,他們希望通過本次比賽促進人機對話技術在多方對話場景上的發(fā)展,充分挖掘人機對話技術在各種應用場景下的潛力,為人機對話技術相關的學術界研究人員和產業(yè)界從業(yè)人員提供一個良好的溝通平臺。
由于機器人群聊比賽在國內尚無先例,因此,在賽事籌備、規(guī)則制定、評估標準等方面務必會面臨諸多思考。為了了解賽事的舉辦初衷,雷鋒網 AI 科技評論專門采訪了本次賽事的組織委員會成員,也是賽事的主要發(fā)起人和評測方案的主要制定人,來自哈爾濱工業(yè)大學張偉男副教授,具體采訪內容如下:
1)中國中文信息學會舉辦賽事的初衷是什么?
機器人群聊的形式最初是劉挺老師在首屆社交機器人論壇時,提出的一個構想,用來評測多個機器人在相同對話場景下的群聊中的會話智能程度。后經由劉老師和我的多次討論,并細化了評測的方案,在評價方案的制定過程中,中國中文信息學會社會媒體處理專委會社交機器人工作組的張洪忠老師和黃民烈老師也給出了建設性意見。
2)群聊場景對于人機對話技術而言有何特殊之處?
由于以往國內外在人機對話方面的研究都是「一對一」的形式,即對話的一方是機器人,另一方是人,并使用一套評價指標針對一個機器人和人之間的對話進行評測,這可以看作機器人之間沒有「相互影響」的獨立評價,然而由于對話天然具有多輪的屬性,對于相同的初始輸入,不同的機器人對話的過程不同,因此很難保證不同的機器人在完全相同的對話上下文中進行評測。而機器人群聊的形式是一種完全新穎的機機對話模式,機器人面對的不再是人,而是多個機器人,它們之間會共享對話上下文,對話的過程也更加考驗機器人對于對話上下文語義的理解能力和回復對象的選擇能力。
3)出題方面屆時會有哪些考量?
由于我們僅給定群聊主題,而不限制參賽隊伍的數據集來源,因此我們主要考量的是對話話題在數據收集方面的難易性,我們會優(yōu)先選擇沒有數據采集門檻的話題,盡量使數據的采集不成為參賽隊伍的障礙。
4)您認為最終影響一支隊伍比賽結果的因素有哪些?
我認為有幾方面主要的因素:
一是機器人的回復質量,如連貫性、多樣性和相關性要足夠好;
二是對于對話歷史的理解能力要強,包括對主題的理解和其他機器人回復的理解;
三是回復策略的選擇,四是保證系統(tǒng)的魯棒性和相應速度。
5)為了達到最佳群聊效果,您認為有哪些難點是需要被克服的?
我認為自然語言理解和自然語言生成本身有很多的技術挑戰(zhàn),除此之外對于對話策略的制定(可以是基于規(guī)則、規(guī)劃或學習的方式)和對話歷史的建模是相對來說新的挑戰(zhàn),同時,在完全自由的群聊模式下,對話輪的控制(turn taking)也是比較重要的方面。
6)中國在機器人群聊方面的研究整體處于什么階段?
目前 multiparty dialogue 或 multiparty conversation 上的研究是人機對話的一個重要方向,也有很多學者做出了很多貢獻,但其研究目標是更好地理解和建?!溉恕怪g的群聊內容和群聊行為,而機器人群聊的形式目前鮮有研究和應用涉及。之前也有見過機器人對聊的新聞,但商業(yè)宣傳的意味更重一些。
7)賽事消息發(fā)出后,有收到來自學界/業(yè)界的反饋嗎?
學術界和工業(yè)界的反饋都收到了,學術界上更關注比賽的形式、評價的方式,其中一些學者和專家給出了很中肯的建議。工業(yè)界的反饋集中在比賽的細節(jié)方面,如主題的選定,是否限制數據集的來源等等,也都在促進群聊比賽的完善程度,在此一并表示感謝。
8)中國中文信息學會今年在舉辦賽事方面有哪些規(guī)劃?
中國中文信息學會下屬的專委會每年都會舉辦一些評測,具體的信息可以參考中國中文信息學會官方網站上有關 2019 年學術會議及活動的介紹(http://www.cipsc.org.cn/hcontent.php?xuhao=106)和相應學術會議的官方網站。這里就我了解,今年 8 月 16-18 日在深圳舉辦的第八屆全國社會媒體處理大會上,會有 4 個技術評測,我們牽頭組織的中文人機對話評測也在其中,已經舉辦到第三屆。
賽事詳情
根據賽事最新通知,本次賽事的指定任務是在機器人群聊場景中根據已知群聊主題和歷史消息記錄,生成符合群聊主題和上下文邏輯的回復,而且生成的回復要求流暢且與群聊對話主題相關。
具體詳情:
群聊主題
在任務中,主辦方會給定群聊主題,在每個主題下進行輪對話 (N 表示參與群聊機器人總數)。其中,主題包括但不限于醫(yī)療、交通、教育、金融等。
輪轉策略
在某個群聊主題下,主辦方將按一定策略初始化機器人回復順序,確保所有機器人的回復優(yōu)先級總體相同。而在其他群聊主題中,主辦方將多次輪番調換機器人回復順序,以保證最終評分環(huán)境的公平性。
消息決策
在評測任務中,當主辦方向每個機器人請求回復時,會提供當前群聊主題和歷史消息記錄。參賽隊伍需要根據群聊主題和歷史消息記錄進行相關決策,以生成合理的回復。
賽果評價方面,屆時會分為初賽 & 決賽兩個階段。在初賽階段,主辦方將采取自動評價指標對參賽隊伍進行評價,機器人在群聊中的性能表現將會作為排名依據,這些指標包括:
Topic:評估輸出回復和群聊主題的相關程度。
Perplexity:評估輸出回復的流暢性。
Distinct:評估輸出回復的多樣性。
BLEU:評估輸出回復相對于參考回復的 N-gram 重合度。
在決賽階段,主辦方則會采取人工評估的方式,以眾包的方式對每個群聊機器人的回復在以下三個方面進行評價:
Topic:生成的回復是否符合當前群聊主題 (考慮主題)。
Fluency:生成回復的表達是否流暢,無語法錯誤 (考慮句子)。
Appropriateness:生成的回復是否符合人們的日常交流習慣 (考慮上下文語境)。
出于一些考慮,本次比賽中將采取匿名評測,即對外只公布參賽隊伍的代號和評測成績,不會公布參賽隊伍的具體信息。
報名截止日期:8 月 28 日
按比賽通知中的要求,參賽隊伍需要提供聊天機器人的接口 API,主辦方將使用該接口 API 進行群聊評測。需要注意的是,接口 API 的阻塞時間為 10s,若超時未回復,則標記回復失敗,多次回復失敗將影響最終評測得分。
以下為接口 API 的交互數據格式:
訓練數據方面,參賽隊伍可以使用包括但不限于醫(yī)療、交通、教育、金融等主題的多方對話數據進行模型訓練。
對于有興趣參賽的單位,需在 2019 年 8 月 28 日前完成報名流程,屆時勝出的隊伍將有機會在中國中文信息學會召開的論壇中進行技術 + 主題報告。
在線報名表,遇到問題可聯系評測會務組:smp_mcc@163.com
雷鋒網 AI 科技評論
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。