國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

本文作者： camel

編輯：郭奕欣

2017-09-25 08:26

導語：SMP大會舉辦了第一屆中文人機對話評測，華南農(nóng)業(yè)大學口語對話系統(tǒng)研究室和深思考人工智能機器人分獲兩項任務第一名。

雷鋒網(wǎng)AI科技評論按：近年來，人機對話技術受到了學術界和產(chǎn)業(yè)界的廣泛關注。學術上，人機對話是人機交互最自然的方式之一，其發(fā)展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展；產(chǎn)業(yè)上，眾多產(chǎn)業(yè)界巨頭相繼推出了人機對話技術相關產(chǎn)品，如小冰、siri、度秘等，并將人機對話技術作為其公司的重點研發(fā)方向。

基于人機對話技術在學、產(chǎn)兩界中的重要地位，在第六屆全國社會媒體處理大會（SMP 2017）上，由中國中文信息學會社會媒體處理專委會主辦，哈爾濱工業(yè)大學和科大訊飛股份有限公司承辦舉行了國內(nèi)首次 “中文人機對話技術評測”（ECDT），為人機對話技術相關的研發(fā)人員提供了一個良好的溝通平臺。

這次人機對話技術評測主要包括兩個任務，分別為用戶意圖領域分類（根據(jù)數(shù)據(jù)集來源又分為封閉式和開放式兩個任務）和特定域任務型人機對話在線評測。簡單來說，任務一是判斷用戶的意圖屬于哪個領域（例如閑聊、訂機票還是訂酒店等），任務二是在特定領域中通過人機多輪對話完成用戶的意圖任務。詳細內(nèi)容請參考：中文對話技術評測官網(wǎng)

經(jīng)過近五個月的籌備和角逐，共有7支隊伍獲得了獎項，其中華南農(nóng)業(yè)大學口語對話系統(tǒng)研究室（scau_SIGSDS）團隊獲得了任務一封閉式和開放式兩項的第一名，深思考人工智能（iDeepWise）獲得任務二的第一名。

任務一：用戶意圖領域分類

1、封閉式評測

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

2、開放式評測

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

任務二：特定域任務型人機對話在線評測

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

在上周六的SMP 2017大會現(xiàn)場，7支隊伍分別就他們的技術作了分享報告。雷鋒網(wǎng)記者在現(xiàn)場聽錄了7個獲獎團隊的技術報告，并隨后聯(lián)系了華南農(nóng)業(yè)大學技術團隊（任務一第一名）和深思考人工智能機器人（任務二第一名），在征得兩支團隊的許可下，分享其技術報告內(nèi)容如下。

任務一：用戶意圖領域分類任務評測

團隊：華南農(nóng)業(yè)大學

一、任務背景

口語語言理解（spoken language understanding, SLU）是SDS中的重要環(huán)節(jié)，而話語領域分類（domain classification）則是SLU的關鍵任務之一。話語領域分類的任務是把話語劃分到定義好的不同領域標簽，進而將話語正確地分進不同的SLU子系統(tǒng)。如用戶提出“幫我寫一封郵件”，系統(tǒng)則應該將其劃分到“郵件”領域之中，對該話語進行專門針對“郵件”領域的語言理解。

由于口語對話具有長度短小的特點，領域分類通常會被看作是短文本分類。早期的領域分類多采用較為復雜的人工特征，如語法信息、韻律信息、詞匯信息等，分類模型采用傳統(tǒng)的統(tǒng)計學習模型，如隨機森林、隱馬爾科夫、條件隨機場等。

深度學習流行以來，許多研究者開始用深度學習方法解決自然語言處理（natural language processing, NLP）任務，許多任務得到了長足的發(fā)展，也包括了領域分類。代表性的模型包括了深度置信網(wǎng)絡（deep belief network, DBN）、卷積神經(jīng)網(wǎng)絡（convolutional neural networks, CNN）和長短期記憶網(wǎng)絡（long and short-term memory, LSTM）等。

二、用戶意圖領域分類任務

用戶意圖領域分類比賽數(shù)據(jù)集包含31個話語類別，包括聊天類（chat）和垂類（30個垂直領域）。任務很明確，就是正確地將用戶的輸入話語分類到相應的領域中，如：

【用戶意圖領域分類示例】

1）你好啊，很高興見到你！ — 閑聊類
2）我想訂一張去北京的機票。 — 任務型垂類（訂機票）
3）我想找一家五道口附近便宜干凈的快捷酒店 — 任務型垂類（訂酒店）

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

主辦方根據(jù)是否僅允許使用其提供的評測數(shù)據(jù)進行訓練和開發(fā)分為封閉式和開放式兩項評測。

三、技術架構

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

說明：

基于關鍵詞1的領域識別：對于封閉式，采用了基于數(shù)據(jù)的領域關鍵詞提取，得到足夠支持率和置信度的領域關鍵詞，用于領域識別。

人工擴展：對于開放式，則進一步結合人工知識增加領域關鍵詞表

31分類器：對于封閉式和開放式，都通過模型和參數(shù)優(yōu)化，選擇了進行31分類的多分類器。在開發(fā)階段，采用的是訓練集進行k折交叉驗證；而用于測試模型，則是通過訓練集加上開發(fā)集一起通過交叉驗證訓練得到。

s分類器：在開放式測試中，對于在前面步驟中被判定為若干個候選領域，而在31分類器中沒有被正確歸類的樣例，則進一步通過訓練得到的s分類器進行再次分類。s分類器可以有多個。

基于知識的領域識別：對若干個合適的領域構建了領域知識表，如疾病列表，將話語直接識別到對應的領域，或者判定為有限的幾個候選領域。

四、方案

1、基于領域關鍵詞的領域識別

我們采用了基于數(shù)據(jù)的領域關鍵詞提取算法，通過對訓練集和開發(fā)集進行統(tǒng)計，抽取足夠置信度和支持率的2和3字“詞”構成了領域關鍵詞表。本系統(tǒng)采用的是置信度=0.95，支持率閾值根據(jù)領域類別樣本數(shù)量分了0.10、0.15和0.18三個等級。并根據(jù)包含關系精簡了領域關鍵詞列表。例如，“七樂”和“七樂彩”都在抽取的到的另一關鍵詞集時，保留了“七樂”。這樣做可預期具有更好的識別能力，也在一定程度上提高了誤判的風險。對于開放式評測，我們進一步結合人工知識擴展了領域關鍵詞表。

2、基于LSTM的領域分類

相比于CNN，循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks, RNN)有利于學習到句子中字詞間的長距離依賴關系，但存在梯度消失/發(fā)散問題。目前常用的是RNN的一些變體，如LSTM、GRU(Gated Recurrent Unit)等，他們通過門控機制很大程度上緩解了RNN的梯度消失問題，并防止梯度發(fā)散。

我們在給定數(shù)據(jù)集上驗證了不同RNN變體的領域分類效果，包括普通的LSTM、GRU以及帶隱層的LSTM。

3、基于領域知識表的領域識別

通過分析領域話語特點，我們針對4個領域（health、radio、epg和tvchannel），結合外部信息構建了3個領域知識表（health、radio和tv）。其中tv知識表用于識別為候選的epg或tvchannel領域，需要進一步結合epg-tvchannel二分類器進行識別。

由于時間所限，我們僅對直覺上較為有效果的幾個領域做了嘗試。許多領域也值得進一步研究如何收集和整理外部信息構建有效的領域知識表輔助話語的領域識別。

五、開發(fā)與評測

1、驗證

為了方便驗證和開發(fā)采用了正確率的評價指標。我們先用訓練集（Train）10折交叉驗證（調(diào)節(jié)學習率、層數(shù)、節(jié)點數(shù)、卷積核大小、dropout系數(shù)等超參數(shù)）進行分類模型和詞向量的選擇。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

我們進一步用訓練集（Train）10折交叉驗證對不同的RNN變體進行選擇，結果如下所示。選擇了帶隱層的LSTM模型。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

2、開發(fā)

我們用開發(fā)集（Dev）進行預測方式的選擇，以及領域關鍵詞和領域知識表的檢驗。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

3、評測

在最后的評測測試中，我們采用訓練集和開發(fā)集，重新構建領域關鍵詞表，并采用10折交叉驗證訓練了LSTM分類器。評測結果中單項（封閉式和開放式）前三名的參賽系統(tǒng)以及前十名平均值評測結果如下表所示：

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

我們的系統(tǒng)取得了封閉式和開放式兩項第一名，比Top10平均值的領域分類性能高了4.4%和4.7%。

六、總結

比賽結果表明了深度學習方法能較好地應用于中文話語的領域分類任務
基于知識的方法對進一步提升領域分類效果有幫助。
由于比賽時間有限，開放式版本中，我們僅僅針對少數(shù)領域進行了優(yōu)化，性能提升不夠明顯。
隨著領域語料的進一步擴展，將有利于進一步提升話語領域分類性能。同時，也有機會揭示出更多的技術挑戰(zhàn)。

任務二：特定域任務型人機對話在線評測

技術團隊：深思考人工智能機器人

一、任務背景

圖靈測試（The Turing test）由艾倫·麥席森·圖靈提出，指測試者與被測試者（一個人和一臺機器）隔開的情況下，通過一些裝置（如鍵盤）向被測試者提問，進行多次測試。一般提問者在5分鐘提問后，如果不足70%的人判對（也就是超過30%的裁判誤以為在和自己說話的是人而非計算機），那么這臺機器就通過了測試。圖靈測試的核心就是人機多輪交互。

早在人工智能開始時，人們就開始了這方面的探索。雖然不斷有新的技術涌現(xiàn)，人機交互的智能化程度也越來越高。但現(xiàn)階段的人機交互技術還沒有達到一個真正人類智能的水平，所以廣泛領域的人工交互還是很難達到實用的水平。而中文的人機交互，像其他自然語言處理技術一樣，受中文的特性所限，相對英文的人機交互難度更大，技術上也稍微有所差距。所以，現(xiàn)階段要使人機交互達到人們實用的基本滿意程度，就需要有所限制。通常，在閑聊以及特定的任務型限定領域，人機交互會有比較滿意的表現(xiàn)。在這些領域，由于人們的交互意圖基本圍繞在某個任務目的的范圍內(nèi)，所以對人類思維話術的處理是現(xiàn)階段自然語言處理技術所能做到。

本屆中文人機對話技術評測的任務二就是針對酒店預訂、火車票預訂、機票預訂這三個應用領域的多輪對話測試。酒店、火車票、機票預訂這三個應用領域往往是在一問一答單輪的交互中無法完成的，需要進行多輪的交互。而在多輪交互的時候，又可能出現(xiàn)領域的調(diào)轉(zhuǎn)，一句話中包含多領域的轉(zhuǎn)接或需求。為了實現(xiàn)多輪人機交互，深思考人工智能ideepwise團隊研發(fā)了語料預處理、意圖分類、上下文處理及決策、意圖理解及處理等模塊，綜合運用了多項人工智能深度學習技術（如圖-2）。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

圖-2人機多輪交互系統(tǒng)總體框架

二、語料預處理

在中文的多輪人機交互系統(tǒng)中，首先需要對用戶輸入的話進行糾錯，補全、指代消解、分詞、詞性標注、實體識別。由于用戶的習慣、語言水平等各種原因，有時用戶的輸入會有錯誤的情況。而在集成了語音識別的人機交互系統(tǒng)中，還有語音識別錯誤、環(huán)境噪音、錯誤停頓等造成問題。在實際的應用中這種語音識別的錯誤有時是非常嚴重的，甚至會導致整個交互無法繼續(xù)。同時，由于是多輪交互，人們會對上文已有的一些信息進行省略和指代。所以為了能更準確的理解用戶的意圖，需要對語音識別錯誤或用戶的錯誤用詞進行糾錯，對省略和指代的信息根據(jù)上下文進行補全和指代消解的處理。然后進行分詞、詞性標注。最后還要對時間、地點以及一些領域的實體進行實體識別。

三、意圖分類

在多領域的人機交互系統(tǒng)中，當用戶說了一句話時，首先要知道這句話是哪個領域的問題，才能交給這個領域的業(yè)務處理模塊進行處理。所以首先要對用戶的問題或輸入進行按業(yè)務領域進行分類。這個問題類似普通的分類問題，但又稍有不同。

如果特定業(yè)務領域的數(shù)據(jù)積累足夠，通常基于深度學習CNN算法來進行意圖分類可以取得不錯的效果，但若很難得到大量的這種標注好的分類訓練語料，在中文方面，這個問題更加突出，一向處理分類問題效果比較好的深度學習方法，就比較難以使用。這種情況若只依賴問題字符串來進行意圖分類是肯定不行的，因為所能提供的信息太少，所以在這里就需要結合問題域擴充數(shù)據(jù)特征維度，采用層次集成算法進行意圖分類。

三、上下文處理及決策

由于多輪交互時，有很多信息在交互的上文中已經(jīng)出現(xiàn)，用戶不會再在當前的問題中進行重復，所以需要一個上下文的記憶模塊。在上下文的記憶方面，長短期記憶網(wǎng)絡（LSTM NetWorks）要比標準遞歸神經(jīng)網(wǎng)絡（RNNs）出色許多，它解決了RNNs模型梯度彌散的問題。

哪句上文匹配哪句下文由一個決策器來做決策，決策器中采用了深度強化學習 Deep Reinforcement Learning中的Deep Q Learning算法來訓練一個最佳上下文匹配模型。以最終能夠完成該特定領域任務為目標，如果最終能夠完成該任務為正反饋，最終沒有完成該任務為負反饋，不斷用多輪對話語料去交互獲得各種反饋。一次多輪對話可以被定義為一個馬爾可夫決策過程 (MDPs), 反復在會話中間節(jié)點狀態(tài)S, 會話話術行為A，回報R, 狀態(tài)S ... 之間輪換直到一次多輪對話結束，最終獲得最佳回報即能夠正確完成任務的Q network模型，該模型來確定最佳匹配的上下文。

四、意圖理解及處理

當上下文處理及決策將當前會話交給某個領域業(yè)務處理模塊進行處理時，該模塊就需要對這句話中用戶的意圖進行理解，然后進行處理。雖然在這些特定的任務型領域，用戶的意圖相對比較確定，但人們的語言卻是無法限定的，所以即使同一個意圖的表達，不同的人不同的場景不同的時間，所用的文字話術多少會有些不同。

建立一個用戶意圖話術的FAQ。然后使用基于深度學習的句子相似度的算法來計算當前會話與FAQ中話術的相似程度。在計算句子相似度時，利用的詞向量、同義詞、關鍵詞的擴展，進行語義的計算，利用詞性、關鍵詞等信息為不同的賦予不同的貢獻權重。同時針對一些特殊的詞性和領域詞，進行了特殊的語義相似度的處理。當明白當前會話的用戶意圖后，還需要對會話中的一些信息進行抽取解析。這些信息包括常見的時間、地點，也包括一些領域需要的始發(fā)地、目的地、機場、航班號、酒店名、價格等等。

五、應用與意義

基于上述技術研發(fā)的深思考ideepwise機器人可以在特定領域場景下達到近似于人一樣流暢的交流，如圖-3用戶問到：“上海明天的天氣怎么樣？”機器人給出天氣回復，用戶再提出請求：“給我訂一個那邊的酒店”，機器人會引導用戶詢問用戶對價格的要求，用戶只需要回答價格的區(qū)間，機器人就會流暢的給出綜合答案。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

圖-3

又例如圖-4：交互流程中間被打斷，機器人還能像人一樣記得上一個流程，例如：可以在訂票過程中，如果用戶詢問天氣預報，則自動將用戶意圖分類為天氣，然后繼續(xù)訂票流程。

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

圖-4

人機多輪上下文理解與交互技術的突破的意義在于更進一步的提高智能客服、AI醫(yī)療問診，車載人機交互等人機交互的場景下的交互有效性、任務完成率和體驗，使得人機交互可以更像兩個人之間的對話，人與人之間是習慣于有上下文的，往往“基于上文，下文是說不全的”，比如傳統(tǒng)的智能客服是：

user：“我家機器壞了！”
robot：抱歉由于無法知道機器的型號，暫時無法回復您，請轉(zhuǎn)人工客服。

能夠理解上下文的技術突破后，則對話更流暢了，機器人可以真的像人一樣完成某一個特定任務，下面是另一番場景：

user：“我家機器壞了！”
robot：請問您家的機器具體是什么機器?。?/p>
user：我家電飯鍋壞了
robot：請問您家電飯鍋是什么型號的啊？
user：P10
robot：P10型號的電飯鍋建議您去距離中關村最近的***售后維修點維修

人機對話是人與機器交互最自然的方式，實現(xiàn)像人與人之間自然流暢的對話是人工智能的最終目標之一。如果人機多輪對話可以在某些應用領域?qū)崿F(xiàn)突破，那么人工智能技術在應用領域也就實現(xiàn)了一次飛躍，這遠比AlphaGo戰(zhàn)勝人類棋手的現(xiàn)實意義更為重大。

雷鋒網(wǎng)注：以上內(nèi)容由華南農(nóng)業(yè)大學口語對話系統(tǒng)研究室scau_SIGSDS團隊和深思考人工智能機器人公司(iDeepWise)提供。

scau_SIGSDS團隊為華南農(nóng)業(yè)大學數(shù)學與信息學院口語對話系統(tǒng)研究室碩士生唐杰聰和6名本科生梁泳詩、閆江月、李楊輝、凌大未、曾真、杜澤峰組成，由黃沛杰副教授指導。

iDeepWise深思考人工智能ideepwise是一家專注于“類腦人工智能與深度學習”核心科技的高科技公司，他們在“ideepwise宮頸癌閱片篩查機器人‘大腦’這一產(chǎn)品也有了突破性的進展，在Herlev 數(shù)據(jù)集上測試結果：細胞類別分類精度99.3%（比美國國立衛(wèi)生研究院NIH 高1%，2017.6)、特異性高出1%、敏感性高出1.5%，是國內(nèi)目前唯一能夠識別腺細胞異常的宮頸癌篩查的AI產(chǎn)品，目前已在多家三甲醫(yī)院和第三方檢驗機構落地使用。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

camel

編輯

持身秉正

掃描關注作者微信

發(fā)私信

當月熱門文章

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

任務一：用戶意圖領域分類任務評測

團隊：華南農(nóng)業(yè)大學

一、任務背景

二、用戶意圖領域分類任務

三、技術架構

四、方案

1、基于領域關鍵詞的領域識別

2、基于LSTM的領域分類

3、基于領域知識表的領域識別

五、開發(fā)與評測

1、驗證

2、開發(fā)

3、評測

六、總結

任務二：特定域任務型人機對話在線評測

技術團隊：深思考人工智能機器人

一、任務背景

二、 語料預處理

三、 意圖分類

三、 上下文處理及決策

四、意圖理解及處理

五、應用與意義

國內(nèi)首屆中文人機對話技術評測賽果出爐，兩項任務冠軍團隊都分享了哪些技術細節(jié)？｜SMP 2017

一、任務背景

三、技術架構

四、方案

1、基于領域關鍵詞的領域識別

2、基于LSTM的領域分類

3、基于領域知識表的領域識別

五、開發(fā)與評測

1、驗證

3、評測

六、總結

二、語料預處理

三、意圖分類

三、上下文處理及決策

五、應用與意義