0
雷鋒網(wǎng)AI科技評論按:近年來,人機對話技術(shù)受到了學術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。學術(shù)上,人機對話是人機交互最自然的方式之一,其發(fā)展影響及推動著語音識別與合成、自然語言理解、對話管理以及自然語言生成等研究的進展;產(chǎn)業(yè)上,眾多產(chǎn)業(yè)界巨頭相繼推出了人機對話技術(shù)相關(guān)產(chǎn)品,如小冰、siri、度秘等,并將人機對話技術(shù)作為其公司的重點研發(fā)方向。
基于人機對話技術(shù)在學、產(chǎn)兩界中的重要地位,在第六屆全國社會媒體處理大會(SMP 2017)上,由中國中文信息學會社會媒體處理專委會主辦,哈爾濱工業(yè)大學和科大訊飛股份有限公司承辦舉行了國內(nèi)首次 “中文人機對話技術(shù)評測”(ECDT),為人機對話技術(shù)相關(guān)的研發(fā)人員提供了一個良好的溝通平臺。
這次人機對話技術(shù)評測主要包括兩個任務,分別為用戶意圖領(lǐng)域分類(根據(jù)數(shù)據(jù)集來源又分為封閉式和開放式兩個任務)和特定域任務型人機對話在線評測。簡單來說,任務一是判斷用戶的意圖屬于哪個領(lǐng)域(例如閑聊、訂機票還是訂酒店等),任務二是在特定領(lǐng)域中通過人機多輪對話完成用戶的意圖任務。詳細內(nèi)容請參考:中文對話技術(shù)評測官網(wǎng)
經(jīng)過近五個月的籌備和角逐,共有7支隊伍獲得了獎項,其中華南農(nóng)業(yè)大學口語對話系統(tǒng)研究室(scau_SIGSDS)團隊獲得了任務一封閉式和開放式兩項的第一名,深思考人工智能(iDeepWise)獲得任務二的第一名。
任務一:用戶意圖領(lǐng)域分類
1、封閉式評測
2、開放式評測
任務二:特定域任務型人機對話在線評測
在上周六的SMP 2017大會現(xiàn)場,7支隊伍分別就他們的技術(shù)作了分享報告。雷鋒網(wǎng)記者在現(xiàn)場聽錄了7個獲獎團隊的技術(shù)報告,并隨后聯(lián)系了華南農(nóng)業(yè)大學技術(shù)團隊(任務一第一名)和深思考人工智能機器人(任務二第一名),在征得兩支團隊的許可下,分享其技術(shù)報告內(nèi)容如下。
口語語言理解(spoken language understanding, SLU)是SDS中的重要環(huán)節(jié),而話語領(lǐng)域分類(domain classification)則是SLU的關(guān)鍵任務之一。話語領(lǐng)域分類的任務是把話語劃分到定義好的不同領(lǐng)域標簽,進而將話語正確地分進不同的SLU子系統(tǒng)。如用戶提出“幫我寫一封郵件”,系統(tǒng)則應該將其劃分到“郵件”領(lǐng)域之中,對該話語進行專門針對“郵件”領(lǐng)域的語言理解。
由于口語對話具有長度短小的特點,領(lǐng)域分類通常會被看作是短文本分類。早期的領(lǐng)域分類多采用較為復雜的人工特征,如語法信息、韻律信息、詞匯信息等 ,分類模型采用傳統(tǒng)的統(tǒng)計學習模型,如隨機森林、隱馬爾科夫、條件隨機場等。
深度學習流行以來,許多研究者開始用深度學習方法解決自然語言處理(natural language processing, NLP)任務,許多任務得到了長足的發(fā)展,也包括了領(lǐng)域分類。代表性的模型包括了深度置信網(wǎng)絡(deep belief network, DBN)、卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)和長短期記憶網(wǎng)絡(long and short-term memory, LSTM)等。
用戶意圖領(lǐng)域分類比賽數(shù)據(jù)集包含31個話語類別,包括聊天類(chat)和垂類(30個垂直領(lǐng)域)。任務很明確,就是正確地將用戶的輸入話語分類到相應的領(lǐng)域中,如:
【用戶意圖領(lǐng)域分類示例】
1) 你好啊,很高興見到你! — 閑聊類
2) 我想訂一張去北京的機票。 — 任務型垂類(訂機票)
3) 我想找一家五道口附近便宜干凈的快捷酒店 — 任務型垂類(訂酒店)
主辦方根據(jù)是否僅允許使用其提供的評測數(shù)據(jù)進行訓練和開發(fā)分為封閉式和開放式兩項評測。
說明:
基于關(guān)鍵詞1的領(lǐng)域識別:對于封閉式,采用了基于數(shù)據(jù)的領(lǐng)域關(guān)鍵詞提取,得到足夠支持率和置信度的領(lǐng)域關(guān)鍵詞,用于領(lǐng)域識別。
人工擴展:對于開放式,則進一步結(jié)合人工知識增加領(lǐng)域關(guān)鍵詞表
31分類器:對于封閉式和開放式,都通過模型和參數(shù)優(yōu)化,選擇了進行31分類的多分類器。在開發(fā)階段,采用的是訓練集進行k折交叉驗證;而用于測試模型,則是通過訓練集加上開發(fā)集一起通過交叉驗證訓練得到。
s分類器:在開放式測試中,對于在前面步驟中被判定為若干個候選領(lǐng)域,而在31分類器中沒有被正確歸類的樣例,則進一步通過訓練得到的s分類器進行再次分類。s分類器可以有多個。
基于知識的領(lǐng)域識別:對若干個合適的領(lǐng)域構(gòu)建了領(lǐng)域知識表,如疾病列表,將話語直接識別到對應的領(lǐng)域,或者判定為有限的幾個候選領(lǐng)域。
我們采用了基于數(shù)據(jù)的領(lǐng)域關(guān)鍵詞提取算法,通過對訓練集和開發(fā)集進行統(tǒng)計,抽取足夠置信度和支持率的2和3字“詞”構(gòu)成了領(lǐng)域關(guān)鍵詞表。本系統(tǒng)采用的是置信度=0.95,支持率閾值根據(jù)領(lǐng)域類別樣本數(shù)量分了0.10、0.15和0.18三個等級。并根據(jù)包含關(guān)系精簡了領(lǐng)域關(guān)鍵詞列表。例如,“七樂”和“七樂彩”都在抽取的到的另一關(guān)鍵詞集時,保留了“七樂”。這樣做可預期具有更好的識別能力,也在一定程度上提高了誤判的風險。對于開放式評測,我們進一步結(jié)合人工知識擴展了領(lǐng)域關(guān)鍵詞表。
相比于CNN,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks, RNN)有利于學習到句子中字詞間的長距離依賴關(guān)系,但存在梯度消失/發(fā)散問題。目前常用的是RNN的一些變體,如LSTM、GRU(Gated Recurrent Unit)等,他們通過門控機制很大程度上緩解了RNN的梯度消失問題,并防止梯度發(fā)散。
我們在給定數(shù)據(jù)集上驗證了不同RNN變體的領(lǐng)域分類效果,包括普通的LSTM、GRU以及帶隱層的LSTM。
通過分析領(lǐng)域話語特點,我們針對4個領(lǐng)域(health、radio、epg和tvchannel),結(jié)合外部信息構(gòu)建了3個領(lǐng)域知識表(health、radio和tv)。其中tv知識表用于識別為候選的epg或tvchannel領(lǐng)域,需要進一步結(jié)合epg-tvchannel二分類器進行識別。
由于時間所限,我們僅對直覺上較為有效果的幾個領(lǐng)域做了嘗試。許多領(lǐng)域也值得進一步研究如何收集和整理外部信息構(gòu)建有效的領(lǐng)域知識表輔助話語的領(lǐng)域識別。
為了方便驗證和開發(fā)采用了正確率的評價指標。我們先用訓練集(Train)10折交叉驗證(調(diào)節(jié)學習率、層數(shù)、節(jié)點數(shù)、卷積核大小、dropout系數(shù)等超參數(shù))進行分類模型和詞向量的選擇。
我們進一步用訓練集(Train)10折交叉驗證對不同的RNN變體進行選擇,結(jié)果如下所示。選擇了帶隱層的LSTM模型。
我們用開發(fā)集(Dev)進行預測方式的選擇,以及領(lǐng)域關(guān)鍵詞和領(lǐng)域知識表的檢驗。
在最后的評測測試中,我們采用訓練集和開發(fā)集,重新構(gòu)建領(lǐng)域關(guān)鍵詞表,并采用10折交叉驗證訓練了LSTM分類器。評測結(jié)果中單項(封閉式和開放式)前三名的參賽系統(tǒng)以及前十名平均值評測結(jié)果如下表所示:
我們的系統(tǒng)取得了封閉式和開放式兩項第一名,比Top10平均值的領(lǐng)域分類性能高了4.4%和4.7%。
比賽結(jié)果表明了深度學習方法能較好地應用于中文話語的領(lǐng)域分類任務
基于知識的方法對進一步提升領(lǐng)域分類效果有幫助。
由于比賽時間有限,開放式版本中,我們僅僅針對少數(shù)領(lǐng)域進行了優(yōu)化,性能提升不夠明顯。
隨著領(lǐng)域語料的進一步擴展,將有利于進一步提升話語領(lǐng)域分類性能。同時,也有機會揭示出更多的技術(shù)挑戰(zhàn)。
圖靈測試(The Turing test)由艾倫·麥席森·圖靈提出,指測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者提問,進行多次測試。一般提問者在5分鐘提問后,如果不足70%的人判對(也就是超過30%的裁判誤以為在和自己說話的是人而非計算機),那么這臺機器就通過了測試。圖靈測試的核心就是人機多輪交互。
早在人工智能開始時,人們就開始了這方面的探索。雖然不斷有新的技術(shù)涌現(xiàn),人機交互的智能化程度也越來越高。但現(xiàn)階段的人機交互技術(shù)還沒有達到一個真正人類智能的水平,所以廣泛領(lǐng)域的人工交互還是很難達到實用的水平。而中文的人機交互,像其他自然語言處理技術(shù)一樣,受中文的特性所限,相對英文的人機交互難度更大,技術(shù)上也稍微有所差距。所以,現(xiàn)階段要使人機交互達到人們實用的基本滿意程度,就需要有所限制。通常,在閑聊以及特定的任務型限定領(lǐng)域,人機交互會有比較滿意的表現(xiàn)。在這些領(lǐng)域,由于人們的交互意圖基本圍繞在某個任務目的的范圍內(nèi),所以對人類思維話術(shù)的處理是現(xiàn)階段自然語言處理技術(shù)所能做到。
本屆中文人機對話技術(shù)評測的任務二就是針對酒店預訂、火車票預訂、機票預訂這三個應用領(lǐng)域的多輪對話測試。酒店、火車票、機票預訂這三個應用領(lǐng)域往往是在一問一答單輪的交互中無法完成的,需要進行多輪的交互。而在多輪交互的時候,又可能出現(xiàn)領(lǐng)域的調(diào)轉(zhuǎn),一句話中包含多領(lǐng)域的轉(zhuǎn)接或需求。為了實現(xiàn)多輪人機交互,深思考人工智能ideepwise團隊研發(fā)了語料預處理、意圖分類、上下文處理及決策、意圖理解及處理等模塊,綜合運用了多項人工智能深度學習技術(shù)(如圖-2)。
圖-2人機多輪交互系統(tǒng)總體框架
在中文的多輪人機交互系統(tǒng)中,首先需要對用戶輸入的話進行糾錯,補全、指代消解、分詞、詞性標注、實體識別。由于用戶的習慣、語言水平等各種原因,有時用戶的輸入會有錯誤的情況。而在集成了語音識別的人機交互系統(tǒng)中,還有語音識別錯誤、環(huán)境噪音、錯誤停頓等造成問題。在實際的應用中這種語音識別的錯誤有時是非常嚴重的,甚至會導致整個交互無法繼續(xù)。同時,由于是多輪交互,人們會對上文已有的一些信息進行省略和指代。所以為了能更準確的理解用戶的意圖,需要對語音識別錯誤或用戶的錯誤用詞進行糾錯,對省略和指代的信息根據(jù)上下文進行補全和指代消解的處理。然后進行分詞、詞性標注。最后還要對時間、地點以及一些領(lǐng)域的實體進行實體識別。
在多領(lǐng)域的人機交互系統(tǒng)中,當用戶說了一句話時,首先要知道這句話是哪個領(lǐng)域的問題,才能交給這個領(lǐng)域的業(yè)務處理模塊進行處理。所以首先要對用戶的問題或輸入進行按業(yè)務領(lǐng)域進行分類。這個問題類似普通的分類問題,但又稍有不同。
如果特定業(yè)務領(lǐng)域的數(shù)據(jù)積累足夠,通?;谏疃葘W習CNN算法來進行意圖分類可以取得不錯的效果,但若很難得到大量的這種標注好的分類訓練語料,在中文方面,這個問題更加突出,一向處理分類問題效果比較好的深度學習方法,就比較難以使用。這種情況若只依賴問題字符串來進行意圖分類是肯定不行的,因為所能提供的信息太少,所以在這里就需要結(jié)合問題域擴充數(shù)據(jù)特征維度,采用層次集成算法進行意圖分類。
由于多輪交互時,有很多信息在交互的上文中已經(jīng)出現(xiàn),用戶不會再在當前的問題中進行重復,所以需要一個上下文的記憶模塊。在上下文的記憶方面,長短期記憶網(wǎng)絡(LSTM NetWorks)要比標準遞歸神經(jīng)網(wǎng)絡(RNNs)出色許多,它解決了RNNs模型梯度彌散的問題。
哪句上文匹配哪句下文由一個決策器來做決策,決策器中采用了深度強化學習 Deep Reinforcement Learning中的Deep Q Learning算法來訓練一個最佳上下文匹配模型。以最終能夠完成該特定領(lǐng)域任務為目標,如果最終能夠完成該任務為正反饋,最終沒有完成該任務為負反饋,不斷用多輪對話語料去交互獲得各種反饋。一次多輪對話可以被定義為一個馬爾可夫決策過程 (MDPs), 反復在會話中間節(jié)點狀態(tài)S, 會話話術(shù)行為A, 回報R, 狀態(tài)S ... 之間輪換直到一次多輪對話結(jié)束,最終獲得最佳回報即能夠正確完成任務的Q network模型,該模型來確定最佳匹配的上下文。
當上下文處理及決策將當前會話交給某個領(lǐng)域業(yè)務處理模塊進行處理時,該模塊就需要對這句話中用戶的意圖進行理解,然后進行處理。雖然在這些特定的任務型領(lǐng)域,用戶的意圖相對比較確定,但人們的語言卻是無法限定的,所以即使同一個意圖的表達,不同的人不同的場景不同的時間,所用的文字話術(shù)多少會有些不同。
建立一個用戶意圖話術(shù)的FAQ。然后使用基于深度學習的句子相似度的算法來計算當前會話與FAQ中話術(shù)的相似程度。在計算句子相似度時,利用的詞向量、同義詞、關(guān)鍵詞的擴展,進行語義的計算,利用詞性、關(guān)鍵詞等信息為不同的賦予不同的貢獻權(quán)重。同時針對一些特殊的詞性和領(lǐng)域詞,進行了特殊的語義相似度的處理。當明白當前會話的用戶意圖后,還需要對會話中的一些信息進行抽取解析。這些信息包括常見的時間、地點,也包括一些領(lǐng)域需要的始發(fā)地、目的地、機場、航班號、酒店名、價格等等。
基于上述技術(shù)研發(fā)的深思考ideepwise機器人可以在特定領(lǐng)域場景下達到近似于人一樣流暢的交流,如圖-3用戶問到:“上海明天的天氣怎么樣?”機器人給出天氣回復,用戶再提出請求:“給我訂一個那邊的酒店”,機器人會引導用戶詢問用戶對價格的要求,用戶只需要回答價格的區(qū)間,機器人就會流暢的給出綜合答案。
圖-3
又例如圖-4:交互流程中間被打斷,機器人還能像人一樣記得上一個流程,例如:可以在訂票過程中,如果用戶詢問天氣預報,則自動將用戶意圖分類為天氣,然后繼續(xù)訂票流程。
圖-4
人機多輪上下文理解與交互技術(shù)的突破的意義在于更進一步的提高智能客服、AI醫(yī)療問診,車載人機交互等人機交互的場景下的交互有效性、任務完成率和體驗,使得人機交互可以更像兩個人之間的對話,人與人之間是習慣于有上下文的,往往“基于上文,下文是說不全的”,比如傳統(tǒng)的智能客服是:
user:“我家機器壞了!”
robot:抱歉由于無法知道機器的型號,暫時無法回復您,請轉(zhuǎn)人工客服。
能夠理解上下文的技術(shù)突破后,則對話更流暢了,機器人可以真的像人一樣完成某一個特定任務,下面是另一番場景:
user:“我家機器壞了!”
robot:請問您家的機器具體是什么機器???
user:我家電飯鍋壞了
robot:請問您家電飯鍋是什么型號的???
user:P10
robot:P10型號的電飯鍋建議您去距離中關(guān)村最近的***售后維修點維修
人機對話是人與機器交互最自然的方式,實現(xiàn)像人與人之間自然流暢的對話是人工智能的最終目標之一。如果人機多輪對話可以在某些應用領(lǐng)域?qū)崿F(xiàn)突破,那么人工智能技術(shù)在應用領(lǐng)域也就實現(xiàn)了一次飛躍,這遠比AlphaGo戰(zhàn)勝人類棋手的現(xiàn)實意義更為重大。
雷鋒網(wǎng)注:以上內(nèi)容由華南農(nóng)業(yè)大學口語對話系統(tǒng)研究室scau_SIGSDS團隊和深思考人工智能機器人公司(iDeepWise)提供。
scau_SIGSDS團隊為華南農(nóng)業(yè)大學數(shù)學與信息學院 口語對話系統(tǒng)研究室碩士生唐杰聰和6名本科生梁泳詩、閆江月、李楊輝、凌大未、曾真、杜澤峰組成,由黃沛杰副教授指導。
iDeepWise深思考人工智能ideepwise是一家專注于“類腦人工智能與深度學習”核心科技的高科技公司,他們在“ideepwise宮頸癌閱片篩查機器人‘大腦’這一產(chǎn)品也有了突破性的進展,在Herlev 數(shù)據(jù)集上測試結(jié)果:細胞類別分類精度99.3%(比美國國立衛(wèi)生研究院NIH 高1%,2017.6)、 特異性高出1%、敏感性高出1.5%,是國內(nèi)目前唯一能夠識別腺細胞異常的宮頸癌篩查的AI產(chǎn)品,目前已在多家三甲醫(yī)院和第三方檢驗機構(gòu)落地使用。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。