0
雷鋒網(wǎng)AI科技評論按:近年來,人機對話技術(shù)受到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。學(xué)術(shù)上,人機對話是人機交互最自然的方式之一,其發(fā)展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進(jìn)展;產(chǎn)業(yè)上,眾多產(chǎn)業(yè)界巨頭相繼推出了人機對話技術(shù)相關(guān)產(chǎn)品,如小冰、siri、度秘等,并將人機對話技術(shù)作為其公司的重點研發(fā)方向。
基于人機對話技術(shù)在學(xué)、產(chǎn)兩界中的重要地位,在第六屆全國社會媒體處理大會(SMP 2017)上,由中國中文信息學(xué)會社會媒體處理專委會主辦,哈爾濱工業(yè)大學(xué)和科大訊飛股份有限公司承辦舉行了國內(nèi)首次 “中文人機對話技術(shù)評測”(ECDT),為人機對話技術(shù)相關(guān)的研發(fā)人員提供了一個良好的溝通平臺。
這次人機對話技術(shù)評測主要包括兩個任務(wù),分別為用戶意圖領(lǐng)域分類(根據(jù)數(shù)據(jù)集來源又分為封閉式和開放式兩個任務(wù))和特定域任務(wù)型人機對話在線評測。簡單來說,任務(wù)一是判斷用戶的意圖屬于哪個領(lǐng)域(例如閑聊、訂機票還是訂酒店等),任務(wù)二是在特定領(lǐng)域中通過人機多輪對話完成用戶的意圖任務(wù)。詳細(xì)內(nèi)容請參考:中文對話技術(shù)評測官網(wǎng)
經(jīng)過近五個月的籌備和角逐,共有7支隊伍獲得了獎項,其中華南農(nóng)業(yè)大學(xué)口語對話系統(tǒng)研究室(scau_SIGSDS)團(tuán)隊獲得了任務(wù)一封閉式和開放式兩項的第一名,深思考人工智能(iDeepWise)獲得任務(wù)二的第一名。
任務(wù)一:用戶意圖領(lǐng)域分類
1、封閉式評測
2、開放式評測
任務(wù)二:特定域任務(wù)型人機對話在線評測
在上周六的SMP 2017大會現(xiàn)場,7支隊伍分別就他們的技術(shù)作了分享報告。雷鋒網(wǎng)記者在現(xiàn)場聽錄了7個獲獎團(tuán)隊的技術(shù)報告,并隨后聯(lián)系了華南農(nóng)業(yè)大學(xué)技術(shù)團(tuán)隊(任務(wù)一第一名)和深思考人工智能機器人(任務(wù)二第一名),在征得兩支團(tuán)隊的許可下,分享其技術(shù)報告內(nèi)容如下。
口語語言理解(spoken language understanding, SLU)是SDS中的重要環(huán)節(jié),而話語領(lǐng)域分類(domain classification)則是SLU的關(guān)鍵任務(wù)之一。話語領(lǐng)域分類的任務(wù)是把話語劃分到定義好的不同領(lǐng)域標(biāo)簽,進(jìn)而將話語正確地分進(jìn)不同的SLU子系統(tǒng)。如用戶提出“幫我寫一封郵件”,系統(tǒng)則應(yīng)該將其劃分到“郵件”領(lǐng)域之中,對該話語進(jìn)行專門針對“郵件”領(lǐng)域的語言理解。
由于口語對話具有長度短小的特點,領(lǐng)域分類通常會被看作是短文本分類。早期的領(lǐng)域分類多采用較為復(fù)雜的人工特征,如語法信息、韻律信息、詞匯信息等 ,分類模型采用傳統(tǒng)的統(tǒng)計學(xué)習(xí)模型,如隨機森林、隱馬爾科夫、條件隨機場等。
深度學(xué)習(xí)流行以來,許多研究者開始用深度學(xué)習(xí)方法解決自然語言處理(natural language processing, NLP)任務(wù),許多任務(wù)得到了長足的發(fā)展,也包括了領(lǐng)域分類。代表性的模型包括了深度置信網(wǎng)絡(luò)(deep belief network, DBN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)和長短期記憶網(wǎng)絡(luò)(long and short-term memory, LSTM)等。
用戶意圖領(lǐng)域分類比賽數(shù)據(jù)集包含31個話語類別,包括聊天類(chat)和垂類(30個垂直領(lǐng)域)。任務(wù)很明確,就是正確地將用戶的輸入話語分類到相應(yīng)的領(lǐng)域中,如:
【用戶意圖領(lǐng)域分類示例】
1) 你好啊,很高興見到你! — 閑聊類
2) 我想訂一張去北京的機票。 — 任務(wù)型垂類(訂機票)
3) 我想找一家五道口附近便宜干凈的快捷酒店 — 任務(wù)型垂類(訂酒店)
主辦方根據(jù)是否僅允許使用其提供的評測數(shù)據(jù)進(jìn)行訓(xùn)練和開發(fā)分為封閉式和開放式兩項評測。
說明:
基于關(guān)鍵詞1的領(lǐng)域識別:對于封閉式,采用了基于數(shù)據(jù)的領(lǐng)域關(guān)鍵詞提取,得到足夠支持率和置信度的領(lǐng)域關(guān)鍵詞,用于領(lǐng)域識別。
人工擴(kuò)展:對于開放式,則進(jìn)一步結(jié)合人工知識增加領(lǐng)域關(guān)鍵詞表
31分類器:對于封閉式和開放式,都通過模型和參數(shù)優(yōu)化,選擇了進(jìn)行31分類的多分類器。在開發(fā)階段,采用的是訓(xùn)練集進(jìn)行k折交叉驗證;而用于測試模型,則是通過訓(xùn)練集加上開發(fā)集一起通過交叉驗證訓(xùn)練得到。
s分類器:在開放式測試中,對于在前面步驟中被判定為若干個候選領(lǐng)域,而在31分類器中沒有被正確歸類的樣例,則進(jìn)一步通過訓(xùn)練得到的s分類器進(jìn)行再次分類。s分類器可以有多個。
基于知識的領(lǐng)域識別:對若干個合適的領(lǐng)域構(gòu)建了領(lǐng)域知識表,如疾病列表,將話語直接識別到對應(yīng)的領(lǐng)域,或者判定為有限的幾個候選領(lǐng)域。
我們采用了基于數(shù)據(jù)的領(lǐng)域關(guān)鍵詞提取算法,通過對訓(xùn)練集和開發(fā)集進(jìn)行統(tǒng)計,抽取足夠置信度和支持率的2和3字“詞”構(gòu)成了領(lǐng)域關(guān)鍵詞表。本系統(tǒng)采用的是置信度=0.95,支持率閾值根據(jù)領(lǐng)域類別樣本數(shù)量分了0.10、0.15和0.18三個等級。并根據(jù)包含關(guān)系精簡了領(lǐng)域關(guān)鍵詞列表。例如,“七樂”和“七樂彩”都在抽取的到的另一關(guān)鍵詞集時,保留了“七樂”。這樣做可預(yù)期具有更好的識別能力,也在一定程度上提高了誤判的風(fēng)險。對于開放式評測,我們進(jìn)一步結(jié)合人工知識擴(kuò)展了領(lǐng)域關(guān)鍵詞表。
相比于CNN,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)有利于學(xué)習(xí)到句子中字詞間的長距離依賴關(guān)系,但存在梯度消失/發(fā)散問題。目前常用的是RNN的一些變體,如LSTM、GRU(Gated Recurrent Unit)等,他們通過門控機制很大程度上緩解了RNN的梯度消失問題,并防止梯度發(fā)散。
我們在給定數(shù)據(jù)集上驗證了不同RNN變體的領(lǐng)域分類效果,包括普通的LSTM、GRU以及帶隱層的LSTM。
通過分析領(lǐng)域話語特點,我們針對4個領(lǐng)域(health、radio、epg和tvchannel),結(jié)合外部信息構(gòu)建了3個領(lǐng)域知識表(health、radio和tv)。其中tv知識表用于識別為候選的epg或tvchannel領(lǐng)域,需要進(jìn)一步結(jié)合epg-tvchannel二分類器進(jìn)行識別。
由于時間所限,我們僅對直覺上較為有效果的幾個領(lǐng)域做了嘗試。許多領(lǐng)域也值得進(jìn)一步研究如何收集和整理外部信息構(gòu)建有效的領(lǐng)域知識表輔助話語的領(lǐng)域識別。
為了方便驗證和開發(fā)采用了正確率的評價指標(biāo)。我們先用訓(xùn)練集(Train)10折交叉驗證(調(diào)節(jié)學(xué)習(xí)率、層數(shù)、節(jié)點數(shù)、卷積核大小、dropout系數(shù)等超參數(shù))進(jìn)行分類模型和詞向量的選擇。
我們進(jìn)一步用訓(xùn)練集(Train)10折交叉驗證對不同的RNN變體進(jìn)行選擇,結(jié)果如下所示。選擇了帶隱層的LSTM模型。
我們用開發(fā)集(Dev)進(jìn)行預(yù)測方式的選擇,以及領(lǐng)域關(guān)鍵詞和領(lǐng)域知識表的檢驗。
在最后的評測測試中,我們采用訓(xùn)練集和開發(fā)集,重新構(gòu)建領(lǐng)域關(guān)鍵詞表,并采用10折交叉驗證訓(xùn)練了LSTM分類器。評測結(jié)果中單項(封閉式和開放式)前三名的參賽系統(tǒng)以及前十名平均值評測結(jié)果如下表所示:
我們的系統(tǒng)取得了封閉式和開放式兩項第一名,比Top10平均值的領(lǐng)域分類性能高了4.4%和4.7%。
比賽結(jié)果表明了深度學(xué)習(xí)方法能較好地應(yīng)用于中文話語的領(lǐng)域分類任務(wù)
基于知識的方法對進(jìn)一步提升領(lǐng)域分類效果有幫助。
由于比賽時間有限,開放式版本中,我們僅僅針對少數(shù)領(lǐng)域進(jìn)行了優(yōu)化,性能提升不夠明顯。
隨著領(lǐng)域語料的進(jìn)一步擴(kuò)展,將有利于進(jìn)一步提升話語領(lǐng)域分類性能。同時,也有機會揭示出更多的技術(shù)挑戰(zhàn)。
圖靈測試(The Turing test)由艾倫·麥席森·圖靈提出,指測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者提問,進(jìn)行多次測試。一般提問者在5分鐘提問后,如果不足70%的人判對(也就是超過30%的裁判誤以為在和自己說話的是人而非計算機),那么這臺機器就通過了測試。圖靈測試的核心就是人機多輪交互。
早在人工智能開始時,人們就開始了這方面的探索。雖然不斷有新的技術(shù)涌現(xiàn),人機交互的智能化程度也越來越高。但現(xiàn)階段的人機交互技術(shù)還沒有達(dá)到一個真正人類智能的水平,所以廣泛領(lǐng)域的人工交互還是很難達(dá)到實用的水平。而中文的人機交互,像其他自然語言處理技術(shù)一樣,受中文的特性所限,相對英文的人機交互難度更大,技術(shù)上也稍微有所差距。所以,現(xiàn)階段要使人機交互達(dá)到人們實用的基本滿意程度,就需要有所限制。通常,在閑聊以及特定的任務(wù)型限定領(lǐng)域,人機交互會有比較滿意的表現(xiàn)。在這些領(lǐng)域,由于人們的交互意圖基本圍繞在某個任務(wù)目的的范圍內(nèi),所以對人類思維話術(shù)的處理是現(xiàn)階段自然語言處理技術(shù)所能做到。
本屆中文人機對話技術(shù)評測的任務(wù)二就是針對酒店預(yù)訂、火車票預(yù)訂、機票預(yù)訂這三個應(yīng)用領(lǐng)域的多輪對話測試。酒店、火車票、機票預(yù)訂這三個應(yīng)用領(lǐng)域往往是在一問一答單輪的交互中無法完成的,需要進(jìn)行多輪的交互。而在多輪交互的時候,又可能出現(xiàn)領(lǐng)域的調(diào)轉(zhuǎn),一句話中包含多領(lǐng)域的轉(zhuǎn)接或需求。為了實現(xiàn)多輪人機交互,深思考人工智能ideepwise團(tuán)隊研發(fā)了語料預(yù)處理、意圖分類、上下文處理及決策、意圖理解及處理等模塊,綜合運用了多項人工智能深度學(xué)習(xí)技術(shù)(如圖-2)。
圖-2人機多輪交互系統(tǒng)總體框架
在中文的多輪人機交互系統(tǒng)中,首先需要對用戶輸入的話進(jìn)行糾錯,補全、指代消解、分詞、詞性標(biāo)注、實體識別。由于用戶的習(xí)慣、語言水平等各種原因,有時用戶的輸入會有錯誤的情況。而在集成了語音識別的人機交互系統(tǒng)中,還有語音識別錯誤、環(huán)境噪音、錯誤停頓等造成問題。在實際的應(yīng)用中這種語音識別的錯誤有時是非常嚴(yán)重的,甚至?xí)?dǎo)致整個交互無法繼續(xù)。同時,由于是多輪交互,人們會對上文已有的一些信息進(jìn)行省略和指代。所以為了能更準(zhǔn)確的理解用戶的意圖,需要對語音識別錯誤或用戶的錯誤用詞進(jìn)行糾錯,對省略和指代的信息根據(jù)上下文進(jìn)行補全和指代消解的處理。然后進(jìn)行分詞、詞性標(biāo)注。最后還要對時間、地點以及一些領(lǐng)域的實體進(jìn)行實體識別。
在多領(lǐng)域的人機交互系統(tǒng)中,當(dāng)用戶說了一句話時,首先要知道這句話是哪個領(lǐng)域的問題,才能交給這個領(lǐng)域的業(yè)務(wù)處理模塊進(jìn)行處理。所以首先要對用戶的問題或輸入進(jìn)行按業(yè)務(wù)領(lǐng)域進(jìn)行分類。這個問題類似普通的分類問題,但又稍有不同。
如果特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù)積累足夠,通?;谏疃葘W(xué)習(xí)CNN算法來進(jìn)行意圖分類可以取得不錯的效果,但若很難得到大量的這種標(biāo)注好的分類訓(xùn)練語料,在中文方面,這個問題更加突出,一向處理分類問題效果比較好的深度學(xué)習(xí)方法,就比較難以使用。這種情況若只依賴問題字符串來進(jìn)行意圖分類是肯定不行的,因為所能提供的信息太少,所以在這里就需要結(jié)合問題域擴(kuò)充數(shù)據(jù)特征維度,采用層次集成算法進(jìn)行意圖分類。
由于多輪交互時,有很多信息在交互的上文中已經(jīng)出現(xiàn),用戶不會再在當(dāng)前的問題中進(jìn)行重復(fù),所以需要一個上下文的記憶模塊。在上下文的記憶方面,長短期記憶網(wǎng)絡(luò)(LSTM NetWorks)要比標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)出色許多,它解決了RNNs模型梯度彌散的問題。
哪句上文匹配哪句下文由一個決策器來做決策,決策器中采用了深度強化學(xué)習(xí) Deep Reinforcement Learning中的Deep Q Learning算法來訓(xùn)練一個最佳上下文匹配模型。以最終能夠完成該特定領(lǐng)域任務(wù)為目標(biāo),如果最終能夠完成該任務(wù)為正反饋,最終沒有完成該任務(wù)為負(fù)反饋,不斷用多輪對話語料去交互獲得各種反饋。一次多輪對話可以被定義為一個馬爾可夫決策過程 (MDPs), 反復(fù)在會話中間節(jié)點狀態(tài)S, 會話話術(shù)行為A, 回報R, 狀態(tài)S ... 之間輪換直到一次多輪對話結(jié)束,最終獲得最佳回報即能夠正確完成任務(wù)的Q network模型,該模型來確定最佳匹配的上下文。
當(dāng)上下文處理及決策將當(dāng)前會話交給某個領(lǐng)域業(yè)務(wù)處理模塊進(jìn)行處理時,該模塊就需要對這句話中用戶的意圖進(jìn)行理解,然后進(jìn)行處理。雖然在這些特定的任務(wù)型領(lǐng)域,用戶的意圖相對比較確定,但人們的語言卻是無法限定的,所以即使同一個意圖的表達(dá),不同的人不同的場景不同的時間,所用的文字話術(shù)多少會有些不同。
建立一個用戶意圖話術(shù)的FAQ。然后使用基于深度學(xué)習(xí)的句子相似度的算法來計算當(dāng)前會話與FAQ中話術(shù)的相似程度。在計算句子相似度時,利用的詞向量、同義詞、關(guān)鍵詞的擴(kuò)展,進(jìn)行語義的計算,利用詞性、關(guān)鍵詞等信息為不同的賦予不同的貢獻(xiàn)權(quán)重。同時針對一些特殊的詞性和領(lǐng)域詞,進(jìn)行了特殊的語義相似度的處理。當(dāng)明白當(dāng)前會話的用戶意圖后,還需要對會話中的一些信息進(jìn)行抽取解析。這些信息包括常見的時間、地點,也包括一些領(lǐng)域需要的始發(fā)地、目的地、機場、航班號、酒店名、價格等等。
基于上述技術(shù)研發(fā)的深思考ideepwise機器人可以在特定領(lǐng)域場景下達(dá)到近似于人一樣流暢的交流,如圖-3用戶問到:“上海明天的天氣怎么樣?”機器人給出天氣回復(fù),用戶再提出請求:“給我訂一個那邊的酒店”,機器人會引導(dǎo)用戶詢問用戶對價格的要求,用戶只需要回答價格的區(qū)間,機器人就會流暢的給出綜合答案。
圖-3
又例如圖-4:交互流程中間被打斷,機器人還能像人一樣記得上一個流程,例如:可以在訂票過程中,如果用戶詢問天氣預(yù)報,則自動將用戶意圖分類為天氣,然后繼續(xù)訂票流程。
圖-4
人機多輪上下文理解與交互技術(shù)的突破的意義在于更進(jìn)一步的提高智能客服、AI醫(yī)療問診,車載人機交互等人機交互的場景下的交互有效性、任務(wù)完成率和體驗,使得人機交互可以更像兩個人之間的對話,人與人之間是習(xí)慣于有上下文的,往往“基于上文,下文是說不全的”,比如傳統(tǒng)的智能客服是:
user:“我家機器壞了!”
robot:抱歉由于無法知道機器的型號,暫時無法回復(fù)您,請轉(zhuǎn)人工客服。
能夠理解上下文的技術(shù)突破后,則對話更流暢了,機器人可以真的像人一樣完成某一個特定任務(wù),下面是另一番場景:
user:“我家機器壞了!”
robot:請問您家的機器具體是什么機器???
user:我家電飯鍋壞了
robot:請問您家電飯鍋是什么型號的啊?
user:P10
robot:P10型號的電飯鍋建議您去距離中關(guān)村最近的***售后維修點維修
人機對話是人與機器交互最自然的方式,實現(xiàn)像人與人之間自然流暢的對話是人工智能的最終目標(biāo)之一。如果人機多輪對話可以在某些應(yīng)用領(lǐng)域?qū)崿F(xiàn)突破,那么人工智能技術(shù)在應(yīng)用領(lǐng)域也就實現(xiàn)了一次飛躍,這遠(yuǎn)比AlphaGo戰(zhàn)勝人類棋手的現(xiàn)實意義更為重大。
雷鋒網(wǎng)注:以上內(nèi)容由華南農(nóng)業(yè)大學(xué)口語對話系統(tǒng)研究室scau_SIGSDS團(tuán)隊和深思考人工智能機器人公司(iDeepWise)提供。
scau_SIGSDS團(tuán)隊為華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院 口語對話系統(tǒng)研究室碩士生唐杰聰和6名本科生梁泳詩、閆江月、李楊輝、凌大未、曾真、杜澤峰組成,由黃沛杰副教授指導(dǎo)。
iDeepWise深思考人工智能ideepwise是一家專注于“類腦人工智能與深度學(xué)習(xí)”核心科技的高科技公司,他們在“ideepwise宮頸癌閱片篩查機器人‘大腦’這一產(chǎn)品也有了突破性的進(jìn)展,在Herlev 數(shù)據(jù)集上測試結(jié)果:細(xì)胞類別分類精度99.3%(比美國國立衛(wèi)生研究院NIH 高1%,2017.6)、 特異性高出1%、敏感性高出1.5%,是國內(nèi)目前唯一能夠識別腺細(xì)胞異常的宮頸癌篩查的AI產(chǎn)品,目前已在多家三甲醫(yī)院和第三方檢驗機構(gòu)落地使用。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。