把多個(gè)聊天機(jī)器人湊一塊聊天，結(jié)局會(huì)是什么？這個(gè)比賽也許有答案

本文作者：黃善清

2019-07-09 14:19

導(dǎo)語：經(jīng)常說「三個(gè)女人一臺(tái)戲」，如果是三個(gè)機(jī)器人，又會(huì)給到我們什么樣的驚喜呢？

雷鋒網(wǎng) AI 科技評(píng)論按：從蘋果 Siri 到亞馬遜 Echo，聊天機(jī)器人在我們的生活中扮演著越來越重要的角色。肉眼可見的變化是，在那些對(duì)知識(shí)廣深度要求不高的領(lǐng)域/行業(yè)，聊天機(jī)器人大有逐漸取代人工客服的趨勢(shì)，且隨著物聯(lián)網(wǎng)技術(shù)的普及，該技術(shù)也漸漸成為人們遠(yuǎn)程操控家電的手段之一。然而聊天機(jī)器人目前存在的問題不少，比如對(duì)上下文語境的理解、知性對(duì)話、去噪，都是自然語言處理學(xué)者正在努力攻克的難點(diǎn)，而近期的一場(chǎng)「SMP 機(jī)器人群聊」賽事，則試圖將該領(lǐng)域的研究再往前一步推進(jìn)——人機(jī)多方混合對(duì)話/機(jī)器人多方群聊。過去，我們經(jīng)常說「三個(gè)女人一臺(tái)戲」，如果是三個(gè)機(jī)器人，又會(huì)給到我們什么樣的驚喜呢？

該賽事的全名為 SMP 機(jī)器人群聊比賽（SMP Multi-bot Conversation Challenge，把多個(gè)聊天機(jī)器人湊一塊聊天，結(jié)局會(huì)是什么？這個(gè)比賽也許有答案），由中國中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)社交機(jī)器人工作組主辦，哈工大深圳王軒教授提供原始想法，哈工大社會(huì)計(jì)算與信息檢索研究中心張偉男副教授細(xì)化落實(shí)，賽后在天津大學(xué)召開研討會(huì)。主辦方認(rèn)為，學(xué)界過往對(duì)人機(jī)對(duì)話領(lǐng)域的關(guān)注僅限于人機(jī)雙方的對(duì)話模式，在更具挑戰(zhàn)性的人機(jī)多方混合對(duì)話乃至機(jī)器人多方群聊任務(wù)方面，無論是研究還是應(yīng)用上都鮮有涉及。因此，他們希望通過本次比賽促進(jìn)人機(jī)對(duì)話技術(shù)在多方對(duì)話場(chǎng)景上的發(fā)展，充分挖掘人機(jī)對(duì)話技術(shù)在各種應(yīng)用場(chǎng)景下的潛力，為人機(jī)對(duì)話技術(shù)相關(guān)的學(xué)術(shù)界研究人員和產(chǎn)業(yè)界從業(yè)人員提供一個(gè)良好的溝通平臺(tái)。

把多個(gè)聊天機(jī)器人湊一塊聊天，結(jié)局會(huì)是什么？這個(gè)比賽也許有答案

由于機(jī)器人群聊比賽在國內(nèi)尚無先例，因此，在賽事籌備、規(guī)則制定、評(píng)估標(biāo)準(zhǔn)等方面務(wù)必會(huì)面臨諸多思考。為了了解賽事的舉辦初衷，雷鋒網(wǎng) AI 科技評(píng)論專門采訪了本次賽事的組織委員會(huì)成員，也是賽事的主要發(fā)起人和評(píng)測(cè)方案的主要制定人，來自哈爾濱工業(yè)大學(xué)張偉男副教授，具體采訪內(nèi)容如下：

把多個(gè)聊天機(jī)器人湊一塊聊天，結(jié)局會(huì)是什么？這個(gè)比賽也許有答案

1）中國中文信息學(xué)會(huì)舉辦賽事的初衷是什么？

機(jī)器人群聊的形式最初是劉挺老師在首屆社交機(jī)器人論壇時(shí)，提出的一個(gè)構(gòu)想，用來評(píng)測(cè)多個(gè)機(jī)器人在相同對(duì)話場(chǎng)景下的群聊中的會(huì)話智能程度。后經(jīng)由劉老師和我的多次討論，并細(xì)化了評(píng)測(cè)的方案，在評(píng)價(jià)方案的制定過程中，中國中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)社交機(jī)器人工作組的張洪忠老師和黃民烈老師也給出了建設(shè)性意見。

2）群聊場(chǎng)景對(duì)于人機(jī)對(duì)話技術(shù)而言有何特殊之處？

由于以往國內(nèi)外在人機(jī)對(duì)話方面的研究都是「一對(duì)一」的形式，即對(duì)話的一方是機(jī)器人，另一方是人，并使用一套評(píng)價(jià)指標(biāo)針對(duì)一個(gè)機(jī)器人和人之間的對(duì)話進(jìn)行評(píng)測(cè)，這可以看作機(jī)器人之間沒有「相互影響」的獨(dú)立評(píng)價(jià)，然而由于對(duì)話天然具有多輪的屬性，對(duì)于相同的初始輸入，不同的機(jī)器人對(duì)話的過程不同，因此很難保證不同的機(jī)器人在完全相同的對(duì)話上下文中進(jìn)行評(píng)測(cè)。而機(jī)器人群聊的形式是一種完全新穎的機(jī)機(jī)對(duì)話模式，機(jī)器人面對(duì)的不再是人，而是多個(gè)機(jī)器人，它們之間會(huì)共享對(duì)話上下文，對(duì)話的過程也更加考驗(yàn)機(jī)器人對(duì)于對(duì)話上下文語義的理解能力和回復(fù)對(duì)象的選擇能力。

3）出題方面屆時(shí)會(huì)有哪些考量？

由于我們僅給定群聊主題，而不限制參賽隊(duì)伍的數(shù)據(jù)集來源，因此我們主要考量的是對(duì)話話題在數(shù)據(jù)收集方面的難易性，我們會(huì)優(yōu)先選擇沒有數(shù)據(jù)采集門檻的話題，盡量使數(shù)據(jù)的采集不成為參賽隊(duì)伍的障礙。

4）您認(rèn)為最終影響一支隊(duì)伍比賽結(jié)果的因素有哪些？

我認(rèn)為有幾方面主要的因素：

一是機(jī)器人的回復(fù)質(zhì)量，如連貫性、多樣性和相關(guān)性要足夠好；

二是對(duì)于對(duì)話歷史的理解能力要強(qiáng)，包括對(duì)主題的理解和其他機(jī)器人回復(fù)的理解；

三是回復(fù)策略的選擇，四是保證系統(tǒng)的魯棒性和相應(yīng)速度。

5）為了達(dá)到最佳群聊效果，您認(rèn)為有哪些難點(diǎn)是需要被克服的？

我認(rèn)為自然語言理解和自然語言生成本身有很多的技術(shù)挑戰(zhàn)，除此之外對(duì)于對(duì)話策略的制定（可以是基于規(guī)則、規(guī)劃或?qū)W習(xí)的方式）和對(duì)話歷史的建模是相對(duì)來說新的挑戰(zhàn)，同時(shí)，在完全自由的群聊模式下，對(duì)話輪的控制（turn taking）也是比較重要的方面。

6）中國在機(jī)器人群聊方面的研究整體處于什么階段？

目前 multiparty dialogue 或 multiparty conversation 上的研究是人機(jī)對(duì)話的一個(gè)重要方向，也有很多學(xué)者做出了很多貢獻(xiàn)，但其研究目標(biāo)是更好地理解和建?！溉恕怪g的群聊內(nèi)容和群聊行為，而機(jī)器人群聊的形式目前鮮有研究和應(yīng)用涉及。之前也有見過機(jī)器人對(duì)聊的新聞，但商業(yè)宣傳的意味更重一些。

7）賽事消息發(fā)出后，有收到來自學(xué)界/業(yè)界的反饋嗎？

學(xué)術(shù)界和工業(yè)界的反饋都收到了，學(xué)術(shù)界上更關(guān)注比賽的形式、評(píng)價(jià)的方式，其中一些學(xué)者和專家給出了很中肯的建議。工業(yè)界的反饋集中在比賽的細(xì)節(jié)方面，如主題的選定，是否限制數(shù)據(jù)集的來源等等，也都在促進(jìn)群聊比賽的完善程度，在此一并表示感謝。

8）中國中文信息學(xué)會(huì)今年在舉辦賽事方面有哪些規(guī)劃？

中國中文信息學(xué)會(huì)下屬的專委會(huì)每年都會(huì)舉辦一些評(píng)測(cè)，具體的信息可以參考中國中文信息學(xué)會(huì)官方網(wǎng)站上有關(guān) 2019 年學(xué)術(shù)會(huì)議及活動(dòng)的介紹（http://www.cipsc.org.cn/hcontent.php?xuhao=106）和相應(yīng)學(xué)術(shù)會(huì)議的官方網(wǎng)站。這里就我了解，今年 8 月 16-18 日在深圳舉辦的第八屆全國社會(huì)媒體處理大會(huì)上，會(huì)有 4 個(gè)技術(shù)評(píng)測(cè)，我們牽頭組織的中文人機(jī)對(duì)話評(píng)測(cè)也在其中，已經(jīng)舉辦到第三屆。

賽事詳情

根據(jù)賽事最新通知，本次賽事的指定任務(wù)是在機(jī)器人群聊場(chǎng)景中根據(jù)已知群聊主題和歷史消息記錄，生成符合群聊主題和上下文邏輯的回復(fù)，而且生成的回復(fù)要求流暢且與群聊對(duì)話主題相關(guān)。

具體詳情：

群聊主題
在任務(wù)中，主辦方會(huì)給定群聊主題，在每個(gè)主題下進(jìn)行輪對(duì)話 (N 表示參與群聊機(jī)器人總數(shù))。其中，主題包括但不限于醫(yī)療、交通、教育、金融等。
輪轉(zhuǎn)策略
在某個(gè)群聊主題下，主辦方將按一定策略初始化機(jī)器人回復(fù)順序，確保所有機(jī)器人的回復(fù)優(yōu)先級(jí)總體相同。而在其他群聊主題中，主辦方將多次輪番調(diào)換機(jī)器人回復(fù)順序，以保證最終評(píng)分環(huán)境的公平性。
消息決策
在評(píng)測(cè)任務(wù)中，當(dāng)主辦方向每個(gè)機(jī)器人請(qǐng)求回復(fù)時(shí)，會(huì)提供當(dāng)前群聊主題和歷史消息記錄。參賽隊(duì)伍需要根據(jù)群聊主題和歷史消息記錄進(jìn)行相關(guān)決策，以生成合理的回復(fù)。

賽果評(píng)價(jià)方面，屆時(shí)會(huì)分為初賽 & 決賽兩個(gè)階段。在初賽階段，主辦方將采取自動(dòng)評(píng)價(jià)指標(biāo)對(duì)參賽隊(duì)伍進(jìn)行評(píng)價(jià)，機(jī)器人在群聊中的性能表現(xiàn)將會(huì)作為排名依據(jù)，這些指標(biāo)包括：

Topic：評(píng)估輸出回復(fù)和群聊主題的相關(guān)程度。
Perplexity：評(píng)估輸出回復(fù)的流暢性。
Distinct：評(píng)估輸出回復(fù)的多樣性。
BLEU：評(píng)估輸出回復(fù)相對(duì)于參考回復(fù)的 N-gram 重合度。

在決賽階段，主辦方則會(huì)采取人工評(píng)估的方式，以眾包的方式對(duì)每個(gè)群聊機(jī)器人的回復(fù)在以下三個(gè)方面進(jìn)行評(píng)價(jià)：

Topic：生成的回復(fù)是否符合當(dāng)前群聊主題 (考慮主題)。
Fluency：生成回復(fù)的表達(dá)是否流暢，無語法錯(cuò)誤 (考慮句子)。
Appropriateness：生成的回復(fù)是否符合人們的日常交流習(xí)慣 (考慮上下文語境)。

出于一些考慮，本次比賽中將采取匿名評(píng)測(cè)，即對(duì)外只公布參賽隊(duì)伍的代號(hào)和評(píng)測(cè)成績(jī)，不會(huì)公布參賽隊(duì)伍的具體信息。

報(bào)名截止日期：8 月 28 日

按比賽通知中的要求，參賽隊(duì)伍需要提供聊天機(jī)器人的接口 API，主辦方將使用該接口 API 進(jìn)行群聊評(píng)測(cè)。需要注意的是，接口 API 的阻塞時(shí)間為 10s，若超時(shí)未回復(fù)，則標(biāo)記回復(fù)失敗，多次回復(fù)失敗將影響最終評(píng)測(cè)得分。

以下為接口 API 的交互數(shù)據(jù)格式：

把多個(gè)聊天機(jī)器人湊一塊聊天，結(jié)局會(huì)是什么？這個(gè)比賽也許有答案