0
本文作者: 呂倩 | 2017-07-14 19:04 | 專題:GAIR 2017 |
7月8日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)全程承辦的 AI 盛會(huì)——全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)上,哈爾濱工業(yè)大學(xué)劉挺教授現(xiàn)場講解人機(jī)對話技術(shù)進(jìn)展歷程。
劉挺表示,人機(jī)對話概述,就是人機(jī)對話的基本框架,包括語音接入、語音輸出,或者說文本直接交互。其中包括三個(gè)重要的模塊——語言理解、對話管理、語言生成。
從學(xué)術(shù)界角度切入,劉挺將人機(jī)對話的歷程分為三個(gè)階段——語音助手時(shí)代、2014年進(jìn)入聊天機(jī)器人時(shí)代,以及場景化的任務(wù)執(zhí)行時(shí)代。
2011年,在技術(shù)尚未成熟時(shí),喬布斯臨終前在iPhone4S中推出Siri。2014年,據(jù)雷鋒網(wǎng)了解,中國各廠商紛紛效仿推出語音助手,與此同時(shí),也有很多企業(yè)將語音助手團(tuán)隊(duì)解散。主要原因,劉挺解釋道:
第一,技術(shù)尚不成熟,聽得見,但聽不懂。以至于很多本來嚴(yán)肅的服務(wù),最后變成對其他語音助手的調(diào)戲。語言并不總是最自然的溝通方式,它需要私密的環(huán)境,有時(shí)候還需要圖像界面進(jìn)行配合。
第二,語境的建模和機(jī)器人自身建模方面,還有很多困難。比如你問機(jī)器人,“你今年多大了?”“我5歲了”,“你結(jié)婚了嗎?”“我結(jié)婚10年了”。這就自相矛盾,因?yàn)闄C(jī)器人建模很困難。
第三,在具體應(yīng)用上,用戶留存率并不是很高。雖然用戶量大,但持續(xù)跟機(jī)器人聊下去的并不多。
而就人機(jī)對話功能方面,劉挺對雷鋒網(wǎng)表示,主要有四大功能——聊天、知識問答、任務(wù)執(zhí)行、推薦。
人機(jī)對話系統(tǒng)層面,分為三方面——自然語言理解、對話管理、自然語言生成。劉挺從功能方面切入技術(shù)的發(fā)展?fàn)顩r——聊天上,最早是在上世紀(jì)60年代有人研究出與精神病患者聊天的機(jī)器人,之后,騰訊推出小Q機(jī)器人,微軟小冰等。
單輪對話的進(jìn)展比較技術(shù)化,發(fā)展趨勢不僅通過算法解決問題,且要確定一個(gè)主題借用外部資源,把話說得更豐滿。
多輪對話方面,聊天與搜索有很大區(qū)別。雖然目前搜索也啟動(dòng)多輪搜索,但真正的多輪對話需要讓人感覺到這是一個(gè)完整的對話,其中包括深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的融合等多方面技術(shù)。
從Siri開始,微軟、Facebook、亞馬遜、百度等大企業(yè),不但自己做智能助手,而且提供對話平臺,即對話操作系統(tǒng)或?qū)υ捜斯ぶ悄堋?br/>
對話型技術(shù)發(fā)展,經(jīng)歷普通的時(shí)間、地點(diǎn)等基礎(chǔ)要素,要之后又CRF與LSTM,以及之后兩者結(jié)合。對話生成,略過模板階段,進(jìn)入序列深度學(xué)習(xí)。
劉挺以哈工大實(shí)驗(yàn)室研制的名為“笨笨”的系統(tǒng)為例,功能包括聊天、知識問答、任務(wù)執(zhí)行、推薦。多輪對話是基于DQN進(jìn)行。這個(gè)優(yōu)化和任務(wù)執(zhí)行的優(yōu)化正好反過來。聊天的優(yōu)化是要盡可能讓這個(gè)聊天能繼續(xù)下去,讓話題輪數(shù)更多。
劉挺在雷鋒網(wǎng)CCF-GAIR現(xiàn)場表示,人機(jī)對話是自然語言處理發(fā)展的一個(gè)高峰,從歷程上分為四個(gè)階段——從形式匹配到語義匹配,到文本推理,再到言外之意。目前劉挺教授所在哈工大實(shí)驗(yàn)室具體布局工作,主要分幾個(gè)方向,第一,基礎(chǔ)架構(gòu)、LTP;第二,人機(jī)對話;第三,篇章劃分。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章