0
本文作者: 叢末 | 2019-11-20 09:59 |
雷鋒網(wǎng) AI 科技評(píng)論按:對(duì)話作為人類最基本、最重要的交流方式,自然語(yǔ)言對(duì)話技術(shù)自然也成為了自然語(yǔ)言處理領(lǐng)域離人類最近的技術(shù)之一,這一領(lǐng)域乃至整個(gè)人工智能領(lǐng)域要想走向理想狀態(tài),勢(shì)必要解決自然語(yǔ)言對(duì)話所面臨的一系列問(wèn)題和挑戰(zhàn)。
而所有技術(shù)的問(wèn)題和挑戰(zhàn)在實(shí)踐應(yīng)用中是最容易體現(xiàn)出來(lái)的,因而對(duì)此最具有發(fā)言權(quán)的莫過(guò)于實(shí)現(xiàn)技術(shù)落地的企業(yè)一線技術(shù)人員。
近日,華為諾亞方舟實(shí)驗(yàn)室語(yǔ)音語(yǔ)義首席科學(xué)家劉群就在 CNCC2019 上主辦了一場(chǎng)主題為「自然語(yǔ)言對(duì)話:技術(shù)挑戰(zhàn)和應(yīng)用前景」的技術(shù)論壇,邀請(qǐng)了來(lái)自微軟、阿里、百度、小米、京東以及華為這幾家在自然語(yǔ)言處理領(lǐng)域涉獵較深的大廠一線技術(shù)負(fù)責(zé)人——周明、陳海青、孫珂、王剛、何曉冬以及蔣欣來(lái)對(duì)這一主題進(jìn)行探討,幾位演講嘉賓既從宏觀的技術(shù)視角闡述了自己對(duì)于該研究領(lǐng)域的看法和觀點(diǎn),也從應(yīng)用案例的角度分享了自然語(yǔ)言對(duì)話的技術(shù)實(shí)踐。
從左至右依次為:陳海青、何曉冬、孫珂、周明、王剛、蔣欣、劉群
我們一一來(lái)看他們?cè)诒緢?chǎng)技術(shù)論壇的分享內(nèi)容。
來(lái)自微軟亞洲研究院的周明,首先從宏觀、全局的視角分享了聊天機(jī)器人的整個(gè)技術(shù)演化進(jìn)程。他指出,聊天機(jī)器人技術(shù)有從檢索式回復(fù)到生成式回復(fù)再到集成式回復(fù)的三個(gè)發(fā)展階段。
其中檢索式回復(fù)利用文本匹配技術(shù)選出相似的對(duì)話以此輸出對(duì)應(yīng)的回復(fù),而生成式回復(fù)則是利用文本生成技術(shù)得到相應(yīng)的回復(fù),二者相比各有優(yōu)缺,前者的優(yōu)勢(shì)在于可讀性好、語(yǔ)言流程,多樣性強(qiáng)以及易于分析、可解釋性強(qiáng),缺點(diǎn)則在于強(qiáng)依賴于檢索數(shù)據(jù),輸出的回復(fù)有時(shí)在相關(guān)性方面并不好;后者在相關(guān)性方面表現(xiàn)較好,易于進(jìn)行端到端實(shí)現(xiàn)并且靈活性強(qiáng)、不太依賴于檢索數(shù)據(jù),然而在多樣性方面較差,同時(shí)輸出的回復(fù)往往比較短,沒(méi)有太多信息量。
集成式回復(fù)生成則采用檢索式系統(tǒng)提供候選原型回復(fù)、生成式系統(tǒng)對(duì)原型加以修改的方式,既能夠繼承檢索模型回復(fù)的多樣性,又能夠繼承生成模型的靈活性,對(duì)二者揚(yáng)長(zhǎng)避短。
與此同時(shí),周明指出,雖然回復(fù)技術(shù)取得了一定進(jìn)展,包括基于神經(jīng)網(wǎng)絡(luò)的 S2S 模型一定程度上改進(jìn)了生成的回復(fù)流暢度,預(yù)訓(xùn)練模型讓檢索式回復(fù)技術(shù)一定程度上增強(qiáng)了上下文理解能力等,但目前聊天機(jī)器人依舊距離理想的狀態(tài)很遠(yuǎn),具體而言體現(xiàn)在:
第一,在多輪對(duì)話中,機(jī)器人依舊無(wú)法真正理解對(duì)話歷史中的復(fù)雜句間關(guān)系;
第二,對(duì)話風(fēng)格與內(nèi)容的解耦仍然不佳,即便風(fēng)格符合,內(nèi)容往往在改寫中出錯(cuò);
第三,對(duì)話很難保持時(shí)間、空間和邏輯一致性,容易出現(xiàn)前后矛盾的情況;
第四,缺乏人類先驗(yàn)知識(shí);
第五,聊天機(jī)器人「健忘」,無(wú)法記憶用戶所說(shuō)的內(nèi)容。
對(duì)此,未來(lái)聊天機(jī)器人需要采用面向深度理解的回復(fù)機(jī)制,努力的方向包括:讓聊天機(jī)器人融入常識(shí)和知識(shí)、 精準(zhǔn)理解對(duì)話歷史、強(qiáng)化記憶機(jī)制從而提高上下文的一致性,并且能夠?qū)崿F(xiàn)定制回復(fù)生成的風(fēng)格(包括詞匯量、情感、句式和正規(guī)性等),而為了實(shí)現(xiàn)這些目標(biāo),社區(qū)還需要建立更加精準(zhǔn)的評(píng)測(cè),包括數(shù)據(jù)集和評(píng)測(cè)指標(biāo)等。
阿里巴巴集團(tuán)達(dá)摩院智能服務(wù)事業(yè)部資深算法專家陳海青則從更加應(yīng)用的角度,基于阿里的人機(jī)交互產(chǎn)品——阿里小蜜介紹了阿里 NLP 核心技術(shù)及人機(jī)交互技術(shù)實(shí)踐、面臨的挑戰(zhàn)及未來(lái)的發(fā)展方向。
簡(jiǎn)單介紹阿里小蜜平臺(tái)的生態(tài)圈和應(yīng)用后,陳海青介紹了其背后的核心 NLP 支撐技術(shù):
自然語(yǔ)言處理板塊的分層梳理流程,主要包括分層領(lǐng)域的框架設(shè)計(jì),基于不同業(yè)務(wù)場(chǎng)景的意圖和模型設(shè)計(jì)與積累,以及通過(guò)模型沉淀框架并進(jìn)行平臺(tái)化積累,能夠完成 QA Bot、Task Bot、Predict Bot 以及 Chit Chat 四項(xiàng)任務(wù)的能力。
圍繞數(shù)據(jù)、算法、服務(wù)、應(yīng)用四個(gè)層面的 NLU 架構(gòu)體系,則包括數(shù)據(jù)的沉淀以及業(yè)務(wù)標(biāo)注的訓(xùn)練平臺(tái)體系構(gòu)建、基于平臺(tái)化算法框架的意圖識(shí)別和實(shí)體識(shí)別能力搭建以及基于規(guī)則、降級(jí)模型以及深度模型的 NLU 工程能力平臺(tái)搭建。
而當(dāng)前 NLU 還是以意圖識(shí)別和實(shí)體識(shí)別為核心能力,其面臨的核心挑戰(zhàn)是意圖的平臺(tái)化擴(kuò)展效率和小樣本場(chǎng)景的冷啟動(dòng),就 NLU 的效率和效果而言,主要涉及的問(wèn)題是如何構(gòu)建數(shù)據(jù)、算法和服務(wù)。
最后,陳海青指出,未來(lái)智能服務(wù)機(jī)器人將以多模態(tài)的方式,不僅提供自動(dòng)服務(wù)模式,同時(shí)提供更好的人機(jī)協(xié)同模式,為用戶和客服人員提供更復(fù)雜問(wèn)題的解決能力和決策支持能力,而持續(xù)探索的技術(shù)方向有生成模型、強(qiáng)化模型、遷移學(xué)習(xí)、機(jī)器閱讀理解、情感分析等。
百度自然語(yǔ)言處理部主任研發(fā)工程師、UNIT 平臺(tái)技術(shù)負(fù)責(zé)人孫珂基于百度的智能對(duì)話定制和服務(wù)平臺(tái) UNIT 分享了目前可定制對(duì)話系統(tǒng)的挑戰(zhàn)與設(shè)計(jì)。
一開(kāi)始,孫珂先拋出了對(duì)話技術(shù)在面對(duì)產(chǎn)業(yè)定制需求時(shí)所面臨的一些挑戰(zhàn):
在消費(fèi)互聯(lián)網(wǎng)中,對(duì)話服務(wù)的關(guān)鍵任務(wù)是提供最好的產(chǎn)品服務(wù)從而盡可能擴(kuò)大用戶規(guī)模,要求工程師結(jié)合使用算法實(shí)現(xiàn)效果最佳化、能夠定向挖掘海量資源以及部署方案具備高吞吐能力的定制對(duì)話技術(shù);
然而到了產(chǎn)業(yè)互聯(lián)網(wǎng),對(duì)話服務(wù)的關(guān)鍵任務(wù)則是在實(shí)現(xiàn)較好效果的前提下降低定制的邊際成本,要求工程師結(jié)合應(yīng)用算法的綜合優(yōu)化成本低廉、獲取資源和詞典低成本以及部署方案能夠靈活適應(yīng)環(huán)境的可遷移對(duì)話技術(shù)。
而將可遷移對(duì)話技術(shù)的目標(biāo)進(jìn)行拆解來(lái)看,設(shè)計(jì)思路便是用高學(xué)習(xí)效率的模型和自動(dòng)發(fā)現(xiàn)模型缺陷板塊來(lái)提高單位數(shù)據(jù)對(duì)提高對(duì)話效果的幫助,而使用知識(shí)輔助構(gòu)建和預(yù)置知識(shí)來(lái)降低單位數(shù)據(jù)的獲取成本。
整體基于這一思路設(shè)計(jì)的 UNIT,核心對(duì)話技術(shù)包括任務(wù)式對(duì)話和問(wèn)答式對(duì)話,具體設(shè)計(jì)思路分別如下:
針對(duì)任務(wù)式對(duì)話,UNIT 在高效率的學(xué)習(xí)模型上采用的是核心理解引擎為啟發(fā)式對(duì)話理解、基于深度學(xué)習(xí)的對(duì)話理解以及多引擎結(jié)果融合,成分分析為領(lǐng)域或通用關(guān)鍵詞分析的多引擎融合對(duì)話理解模型;在自動(dòng)發(fā)現(xiàn)模型缺陷板塊和高效率知識(shí)構(gòu)建工具方面,則采用 DataKit 以及 15 套對(duì)話式理解范式,可自動(dòng)修復(fù)理解異常問(wèn)題,從而提高對(duì)話效果理解。
針對(duì)問(wèn)答式對(duì)話,UNIT 的設(shè)計(jì)思路則是不定義任務(wù)、不梳理知識(shí),而是直接用原始業(yè)務(wù)數(shù)據(jù)直接生成回復(fù);其核心技術(shù)是引入外部知識(shí)的閱讀理解模型——文本表示和知識(shí)表示融合的閱讀理解模型 KT-NET。
與前兩位基于自家產(chǎn)品進(jìn)行技術(shù)解析不同,小米人工智能部副總經(jīng)理、小愛(ài)團(tuán)隊(duì)負(fù)責(zé)人王剛從語(yǔ)音交互給人機(jī)交互帶來(lái)的變化出發(fā),闡述了自身對(duì)于語(yǔ)音交互未來(lái)發(fā)展方向的看法。
他認(rèn)為未來(lái)的語(yǔ)音交互有三個(gè)發(fā)展趨勢(shì):無(wú)所不在、更自然的交互以及更懂你。而背后的技術(shù)可具體拆解為喚醒、識(shí)別、理解、滿足與合成幾大板塊,針對(duì)這幾大板塊目前所存在的幾大問(wèn)題,王剛分別介紹了這些問(wèn)題面臨的挑戰(zhàn)、當(dāng)前的解決方案以及未來(lái)的潛在解決方案:
第一個(gè)問(wèn)題是 ASR 錯(cuò)誤率高,其面臨的挑戰(zhàn)主要為同音錯(cuò)別字、多字少字、中英文混雜、口音及方言,當(dāng)前的解決方案為「NLP 幫 ASR」、「ASR 幫 NLP」,而未來(lái)可以嘗試往語(yǔ)音、語(yǔ)義一體化的方向嘗試;
第二個(gè)問(wèn)題是 Query 意圖理解難,其面臨的挑戰(zhàn)主要為領(lǐng)域和常識(shí)知識(shí)積累少、信息量少以及表達(dá)方式多樣化,當(dāng)前的解決方案為垂域持續(xù)建設(shè)以及增強(qiáng)中控能力等,而未來(lái)則會(huì)逐漸走向涵蓋知識(shí)能力、算法能力、數(shù)據(jù)能力和用戶反饋閉環(huán)的綜合能力的建設(shè)。
第三個(gè)問(wèn)題是全領(lǐng)域全雙工連續(xù)對(duì)話,目前面臨的挑戰(zhàn)為技術(shù)鏈路長(zhǎng),當(dāng)前解決方案為在前端進(jìn)行回聲消除,采用上下文繼承方法來(lái)實(shí)現(xiàn)垂直域、跨垂域多輪對(duì)話,以及無(wú)效音拒識(shí)(語(yǔ)音拒識(shí)、語(yǔ)義拒識(shí)、聲紋識(shí)別)、節(jié)奏控制(回復(fù)打斷、主動(dòng)響應(yīng)以及 Query 預(yù)測(cè))以及結(jié)合應(yīng)用圖形交互界面和語(yǔ)音交互界面等方法;
第四個(gè)問(wèn)題是單領(lǐng)域復(fù)雜任務(wù)對(duì)話,目前面臨的挑戰(zhàn)為當(dāng)遇到領(lǐng)域特有詞時(shí),ASR 的錯(cuò)誤率上升,另外面對(duì)歧義表達(dá)需要領(lǐng)域知識(shí)消歧和驅(qū)動(dòng)對(duì)話等,當(dāng)前的解決方法為:1)提高表示能力,包括領(lǐng)域知識(shí)的本體表示、對(duì)話表示以及本體表示道對(duì)話表示的轉(zhuǎn)移能力等;2)提高任務(wù)式對(duì)話能力,包括在 NLU 上,基于對(duì)話建模抽取槽位信息而非槽位標(biāo)注方案以提高魯棒性;在 DST 上,基于對(duì)話表述和 NLU 輸出更新對(duì)話狀態(tài);在 Policy 方面,基于對(duì)話狀態(tài)進(jìn)行對(duì)話引導(dǎo)。
第五個(gè)問(wèn)題是主動(dòng)感知和推薦問(wèn)題,目前的解決方法主要從主動(dòng)交互、場(chǎng)景理解以及用戶畫(huà)像等層面來(lái)解決此問(wèn)題。
京東人工智能研究院常務(wù)副院長(zhǎng)、深度學(xué)習(xí)及語(yǔ)音和語(yǔ)言實(shí)驗(yàn)室主任何曉冬在演講中強(qiáng)調(diào)了人機(jī)對(duì)話對(duì)于人機(jī)交互未來(lái)發(fā)展的重要性及其當(dāng)前面臨的幾大技術(shù)難點(diǎn),基于此,他也對(duì)對(duì)話系統(tǒng)下一步的發(fā)展方向闡述了自己的觀點(diǎn)。
他指出,多輪人機(jī)對(duì)話是人工智能的起點(diǎn)及圣杯,而作為人類最基本、最重要的交流方式,對(duì)話也是人機(jī)交互技術(shù)未來(lái)的期望所在,然而雖然目前出現(xiàn)了很多應(yīng)用于特定領(lǐng)域的對(duì)話系統(tǒng)并且領(lǐng)域內(nèi)也在嘗試針對(duì)開(kāi)放領(lǐng)域以及高復(fù)雜、可靠性要求高的任務(wù)的對(duì)話系統(tǒng),但是目前尚無(wú)系統(tǒng)能夠真正通過(guò)圖靈測(cè)試。
在典型應(yīng)用上,以京東大規(guī)模的復(fù)雜客服場(chǎng)景為例,對(duì)話系統(tǒng)需要覆蓋售前、售中、售后以及物流,涉及到智能調(diào)度、智能導(dǎo)航、智能摘要、實(shí)時(shí)輔助應(yīng)答、智能質(zhì)檢以及智能創(chuàng)事件等具體任務(wù)?;谠诖笠?guī)模任務(wù)導(dǎo)向場(chǎng)景中的積累,京東還聯(lián)合北京智源研究院發(fā)布了智源—京東大規(guī)模任務(wù)導(dǎo)向性對(duì)話數(shù)據(jù)集。
從技術(shù)難點(diǎn)來(lái)看,何曉冬進(jìn)一步指出,對(duì)話技術(shù)目前主要面臨五大難點(diǎn):
一是多輪對(duì)話狀態(tài)跟蹤不充分,對(duì)話系統(tǒng)缺乏有效的全局優(yōu)化機(jī)制,評(píng)估準(zhǔn)則欠缺;
二是基于上下文歷史信息的精確語(yǔ)義理解還有待提高,缺乏對(duì)用戶意圖的精確理解;
三是缺乏大量的領(lǐng)域知識(shí)及基礎(chǔ)常識(shí)的支撐,目前還不能執(zhí)行深度的推理與決策;
四是對(duì)話生成機(jī)制還待探索,缺乏可控性、可解釋性,難以產(chǎn)生有對(duì)用戶有同理心的回復(fù);
五是包括視覺(jué)、語(yǔ)音、語(yǔ)言的跨模態(tài)的對(duì)話與交互技術(shù)還有待深入研究;
對(duì)此,何曉冬表示,對(duì)話系統(tǒng)下一步必然走向全方位多模態(tài)的交互方式,通過(guò)視覺(jué)、語(yǔ)音、語(yǔ)言、知識(shí)等統(tǒng)一,使得人與機(jī)器的交流變成無(wú)限制的交流?;谶@一目標(biāo),京東 AI 研究院也在不斷推進(jìn)多模態(tài)對(duì)話智能基礎(chǔ)研究。
來(lái)自華為諾亞方舟實(shí)驗(yàn)室的蔣欣則從對(duì)話數(shù)據(jù)的收集和增強(qiáng)以及對(duì)話深度語(yǔ)義理解兩個(gè)維度來(lái)分享對(duì)話系統(tǒng)中的一些技術(shù)探索。
作為構(gòu)建對(duì)話系統(tǒng)的基石,對(duì)話數(shù)據(jù)的收集面臨著不少困難,例如用戶隱私、領(lǐng)域強(qiáng)相關(guān)、標(biāo)注復(fù)雜性以及動(dòng)態(tài)交互和評(píng)估等都是其面臨的問(wèn)題,對(duì)此學(xué)術(shù)界提出了人-人對(duì)話、人-機(jī)器對(duì)話以及機(jī)器-機(jī)器對(duì)話等三種數(shù)據(jù)收集方法。
其中人-人對(duì)話(Wizard-of-Oz)雖然較為貼近真實(shí)對(duì)話場(chǎng)景,然而人工標(biāo)注和校驗(yàn)成本高,并且對(duì)交互行為的覆蓋率低;機(jī)器-機(jī)器對(duì)話(Self-Play)雖然在覆蓋率和多樣性方面更佳,標(biāo)注也相對(duì)容易,然而對(duì)話數(shù)據(jù)質(zhì)量依賴于模擬用戶機(jī)器人和系統(tǒng)機(jī)器人,因而在實(shí)踐中往往會(huì)結(jié)合 Wizard-of-Oz 和 Self-Play 兩種方式分別生成對(duì)話數(shù)據(jù),再使用數(shù)據(jù)訓(xùn)練對(duì)話系統(tǒng)的 NLU、DST、Policy 以及 NLG 模塊,通??梢栽谑芟揞I(lǐng)域的對(duì)話中達(dá)到較高的成功率。
對(duì)話數(shù)據(jù)增強(qiáng)方面,一個(gè)比較通用的方法則是復(fù)述生成,華為諾亞在近期的工作中提出基于 Seq2Seq 神經(jīng)網(wǎng)絡(luò)生成相同語(yǔ)義的不同表達(dá),具備更好的可解釋性、可控性和可遷移性;此外,在對(duì)話狀態(tài)跟蹤任務(wù)上,提出基于 Contextual Bandits 對(duì)增強(qiáng)的數(shù)據(jù)進(jìn)行選擇,最后并聯(lián)合訓(xùn)練數(shù)據(jù)增強(qiáng)模塊和狀態(tài)跟蹤模塊。
對(duì)話深度語(yǔ)義理解上,目前最好的模型是預(yù)訓(xùn)練語(yǔ)言模型:
預(yù)訓(xùn)練語(yǔ)言模型作為語(yǔ)義理解新范式,具體指在大規(guī)模文本語(yǔ)料上訓(xùn)練語(yǔ)言模型,之后在下游任務(wù)上微調(diào)訓(xùn)練,以中文預(yù)訓(xùn)練語(yǔ)言模型「哪吒」為例,目前基于 BERT 已在華為云上實(shí)現(xiàn)了多機(jī)多卡數(shù)據(jù)并行訓(xùn)練并嘗試了混合精度訓(xùn)練、全詞覆蓋等一系列訓(xùn)練技術(shù);
TinyBERT 模型則是專為 Transformer 模型設(shè)計(jì)的知識(shí)蒸餾方法,是以 BERT 作為「老師」蒸餾出的一個(gè)小型化模型,以適應(yīng)不同邊緣設(shè)備上的計(jì)算需求。它的參數(shù)量為 BERT 的 1/7,預(yù)測(cè)速度是后者的 9 倍,并且在 GLUE 評(píng)測(cè)上相比 BERT 僅下降了 3 個(gè)百分點(diǎn)。
演講結(jié)束后,在劉群的主持下,周明、陳海青、孫珂、王剛、何曉冬以及蔣欣六位嘉賓還基于本場(chǎng)技術(shù)論壇的主題「「自然語(yǔ)言對(duì)話:技術(shù)挑戰(zhàn)和應(yīng)用前景」,展開(kāi)了一場(chǎng) Panel 討論,就「在開(kāi)發(fā)對(duì)話系統(tǒng)的實(shí)踐中遇到的難點(diǎn)」、「自然語(yǔ)言對(duì)話的數(shù)據(jù)和評(píng)價(jià)問(wèn)題」、「強(qiáng)化學(xué)習(xí)在自然語(yǔ)言對(duì)話的實(shí)際應(yīng)用中所存在的問(wèn)題」以及「未來(lái)對(duì)話技術(shù)將會(huì)在哪些方面會(huì)取得突破,應(yīng)用上是否會(huì)有殺手級(jí)的場(chǎng)景出現(xiàn)」等問(wèn)題發(fā)表了自己的觀點(diǎn)并展開(kāi)了深度交流。
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。