0
本文作者: 叢末 | 2019-11-20 09:59 |
雷鋒網(wǎng) AI 科技評論按:對話作為人類最基本、最重要的交流方式,自然語言對話技術(shù)自然也成為了自然語言處理領(lǐng)域離人類最近的技術(shù)之一,這一領(lǐng)域乃至整個人工智能領(lǐng)域要想走向理想狀態(tài),勢必要解決自然語言對話所面臨的一系列問題和挑戰(zhàn)。
而所有技術(shù)的問題和挑戰(zhàn)在實(shí)踐應(yīng)用中是最容易體現(xiàn)出來的,因而對此最具有發(fā)言權(quán)的莫過于實(shí)現(xiàn)技術(shù)落地的企業(yè)一線技術(shù)人員。
近日,華為諾亞方舟實(shí)驗(yàn)室語音語義首席科學(xué)家劉群就在 CNCC2019 上主辦了一場主題為「自然語言對話:技術(shù)挑戰(zhàn)和應(yīng)用前景」的技術(shù)論壇,邀請了來自微軟、阿里、百度、小米、京東以及華為這幾家在自然語言處理領(lǐng)域涉獵較深的大廠一線技術(shù)負(fù)責(zé)人——周明、陳海青、孫珂、王剛、何曉冬以及蔣欣來對這一主題進(jìn)行探討,幾位演講嘉賓既從宏觀的技術(shù)視角闡述了自己對于該研究領(lǐng)域的看法和觀點(diǎn),也從應(yīng)用案例的角度分享了自然語言對話的技術(shù)實(shí)踐。
從左至右依次為:陳海青、何曉冬、孫珂、周明、王剛、蔣欣、劉群
我們一一來看他們在本場技術(shù)論壇的分享內(nèi)容。
來自微軟亞洲研究院的周明,首先從宏觀、全局的視角分享了聊天機(jī)器人的整個技術(shù)演化進(jìn)程。他指出,聊天機(jī)器人技術(shù)有從檢索式回復(fù)到生成式回復(fù)再到集成式回復(fù)的三個發(fā)展階段。
其中檢索式回復(fù)利用文本匹配技術(shù)選出相似的對話以此輸出對應(yīng)的回復(fù),而生成式回復(fù)則是利用文本生成技術(shù)得到相應(yīng)的回復(fù),二者相比各有優(yōu)缺,前者的優(yōu)勢在于可讀性好、語言流程,多樣性強(qiáng)以及易于分析、可解釋性強(qiáng),缺點(diǎn)則在于強(qiáng)依賴于檢索數(shù)據(jù),輸出的回復(fù)有時在相關(guān)性方面并不好;后者在相關(guān)性方面表現(xiàn)較好,易于進(jìn)行端到端實(shí)現(xiàn)并且靈活性強(qiáng)、不太依賴于檢索數(shù)據(jù),然而在多樣性方面較差,同時輸出的回復(fù)往往比較短,沒有太多信息量。
集成式回復(fù)生成則采用檢索式系統(tǒng)提供候選原型回復(fù)、生成式系統(tǒng)對原型加以修改的方式,既能夠繼承檢索模型回復(fù)的多樣性,又能夠繼承生成模型的靈活性,對二者揚(yáng)長避短。
與此同時,周明指出,雖然回復(fù)技術(shù)取得了一定進(jìn)展,包括基于神經(jīng)網(wǎng)絡(luò)的 S2S 模型一定程度上改進(jìn)了生成的回復(fù)流暢度,預(yù)訓(xùn)練模型讓檢索式回復(fù)技術(shù)一定程度上增強(qiáng)了上下文理解能力等,但目前聊天機(jī)器人依舊距離理想的狀態(tài)很遠(yuǎn),具體而言體現(xiàn)在:
第一,在多輪對話中,機(jī)器人依舊無法真正理解對話歷史中的復(fù)雜句間關(guān)系;
第二,對話風(fēng)格與內(nèi)容的解耦仍然不佳,即便風(fēng)格符合,內(nèi)容往往在改寫中出錯;
第三,對話很難保持時間、空間和邏輯一致性,容易出現(xiàn)前后矛盾的情況;
第四,缺乏人類先驗(yàn)知識;
第五,聊天機(jī)器人「健忘」,無法記憶用戶所說的內(nèi)容。
對此,未來聊天機(jī)器人需要采用面向深度理解的回復(fù)機(jī)制,努力的方向包括:讓聊天機(jī)器人融入常識和知識、 精準(zhǔn)理解對話歷史、強(qiáng)化記憶機(jī)制從而提高上下文的一致性,并且能夠?qū)崿F(xiàn)定制回復(fù)生成的風(fēng)格(包括詞匯量、情感、句式和正規(guī)性等),而為了實(shí)現(xiàn)這些目標(biāo),社區(qū)還需要建立更加精準(zhǔn)的評測,包括數(shù)據(jù)集和評測指標(biāo)等。
阿里巴巴集團(tuán)達(dá)摩院智能服務(wù)事業(yè)部資深算法專家陳海青則從更加應(yīng)用的角度,基于阿里的人機(jī)交互產(chǎn)品——阿里小蜜介紹了阿里 NLP 核心技術(shù)及人機(jī)交互技術(shù)實(shí)踐、面臨的挑戰(zhàn)及未來的發(fā)展方向。
簡單介紹阿里小蜜平臺的生態(tài)圈和應(yīng)用后,陳海青介紹了其背后的核心 NLP 支撐技術(shù):
自然語言處理板塊的分層梳理流程,主要包括分層領(lǐng)域的框架設(shè)計,基于不同業(yè)務(wù)場景的意圖和模型設(shè)計與積累,以及通過模型沉淀框架并進(jìn)行平臺化積累,能夠完成 QA Bot、Task Bot、Predict Bot 以及 Chit Chat 四項(xiàng)任務(wù)的能力。
圍繞數(shù)據(jù)、算法、服務(wù)、應(yīng)用四個層面的 NLU 架構(gòu)體系,則包括數(shù)據(jù)的沉淀以及業(yè)務(wù)標(biāo)注的訓(xùn)練平臺體系構(gòu)建、基于平臺化算法框架的意圖識別和實(shí)體識別能力搭建以及基于規(guī)則、降級模型以及深度模型的 NLU 工程能力平臺搭建。
而當(dāng)前 NLU 還是以意圖識別和實(shí)體識別為核心能力,其面臨的核心挑戰(zhàn)是意圖的平臺化擴(kuò)展效率和小樣本場景的冷啟動,就 NLU 的效率和效果而言,主要涉及的問題是如何構(gòu)建數(shù)據(jù)、算法和服務(wù)。
最后,陳海青指出,未來智能服務(wù)機(jī)器人將以多模態(tài)的方式,不僅提供自動服務(wù)模式,同時提供更好的人機(jī)協(xié)同模式,為用戶和客服人員提供更復(fù)雜問題的解決能力和決策支持能力,而持續(xù)探索的技術(shù)方向有生成模型、強(qiáng)化模型、遷移學(xué)習(xí)、機(jī)器閱讀理解、情感分析等。
百度自然語言處理部主任研發(fā)工程師、UNIT 平臺技術(shù)負(fù)責(zé)人孫珂基于百度的智能對話定制和服務(wù)平臺 UNIT 分享了目前可定制對話系統(tǒng)的挑戰(zhàn)與設(shè)計。
一開始,孫珂先拋出了對話技術(shù)在面對產(chǎn)業(yè)定制需求時所面臨的一些挑戰(zhàn):
在消費(fèi)互聯(lián)網(wǎng)中,對話服務(wù)的關(guān)鍵任務(wù)是提供最好的產(chǎn)品服務(wù)從而盡可能擴(kuò)大用戶規(guī)模,要求工程師結(jié)合使用算法實(shí)現(xiàn)效果最佳化、能夠定向挖掘海量資源以及部署方案具備高吞吐能力的定制對話技術(shù);
然而到了產(chǎn)業(yè)互聯(lián)網(wǎng),對話服務(wù)的關(guān)鍵任務(wù)則是在實(shí)現(xiàn)較好效果的前提下降低定制的邊際成本,要求工程師結(jié)合應(yīng)用算法的綜合優(yōu)化成本低廉、獲取資源和詞典低成本以及部署方案能夠靈活適應(yīng)環(huán)境的可遷移對話技術(shù)。
而將可遷移對話技術(shù)的目標(biāo)進(jìn)行拆解來看,設(shè)計思路便是用高學(xué)習(xí)效率的模型和自動發(fā)現(xiàn)模型缺陷板塊來提高單位數(shù)據(jù)對提高對話效果的幫助,而使用知識輔助構(gòu)建和預(yù)置知識來降低單位數(shù)據(jù)的獲取成本。
整體基于這一思路設(shè)計的 UNIT,核心對話技術(shù)包括任務(wù)式對話和問答式對話,具體設(shè)計思路分別如下:
針對任務(wù)式對話,UNIT 在高效率的學(xué)習(xí)模型上采用的是核心理解引擎為啟發(fā)式對話理解、基于深度學(xué)習(xí)的對話理解以及多引擎結(jié)果融合,成分分析為領(lǐng)域或通用關(guān)鍵詞分析的多引擎融合對話理解模型;在自動發(fā)現(xiàn)模型缺陷板塊和高效率知識構(gòu)建工具方面,則采用 DataKit 以及 15 套對話式理解范式,可自動修復(fù)理解異常問題,從而提高對話效果理解。
針對問答式對話,UNIT 的設(shè)計思路則是不定義任務(wù)、不梳理知識,而是直接用原始業(yè)務(wù)數(shù)據(jù)直接生成回復(fù);其核心技術(shù)是引入外部知識的閱讀理解模型——文本表示和知識表示融合的閱讀理解模型 KT-NET。
與前兩位基于自家產(chǎn)品進(jìn)行技術(shù)解析不同,小米人工智能部副總經(jīng)理、小愛團(tuán)隊(duì)負(fù)責(zé)人王剛從語音交互給人機(jī)交互帶來的變化出發(fā),闡述了自身對于語音交互未來發(fā)展方向的看法。
他認(rèn)為未來的語音交互有三個發(fā)展趨勢:無所不在、更自然的交互以及更懂你。而背后的技術(shù)可具體拆解為喚醒、識別、理解、滿足與合成幾大板塊,針對這幾大板塊目前所存在的幾大問題,王剛分別介紹了這些問題面臨的挑戰(zhàn)、當(dāng)前的解決方案以及未來的潛在解決方案:
第一個問題是 ASR 錯誤率高,其面臨的挑戰(zhàn)主要為同音錯別字、多字少字、中英文混雜、口音及方言,當(dāng)前的解決方案為「NLP 幫 ASR」、「ASR 幫 NLP」,而未來可以嘗試往語音、語義一體化的方向嘗試;
第二個問題是 Query 意圖理解難,其面臨的挑戰(zhàn)主要為領(lǐng)域和常識知識積累少、信息量少以及表達(dá)方式多樣化,當(dāng)前的解決方案為垂域持續(xù)建設(shè)以及增強(qiáng)中控能力等,而未來則會逐漸走向涵蓋知識能力、算法能力、數(shù)據(jù)能力和用戶反饋閉環(huán)的綜合能力的建設(shè)。
第三個問題是全領(lǐng)域全雙工連續(xù)對話,目前面臨的挑戰(zhàn)為技術(shù)鏈路長,當(dāng)前解決方案為在前端進(jìn)行回聲消除,采用上下文繼承方法來實(shí)現(xiàn)垂直域、跨垂域多輪對話,以及無效音拒識(語音拒識、語義拒識、聲紋識別)、節(jié)奏控制(回復(fù)打斷、主動響應(yīng)以及 Query 預(yù)測)以及結(jié)合應(yīng)用圖形交互界面和語音交互界面等方法;
第四個問題是單領(lǐng)域復(fù)雜任務(wù)對話,目前面臨的挑戰(zhàn)為當(dāng)遇到領(lǐng)域特有詞時,ASR 的錯誤率上升,另外面對歧義表達(dá)需要領(lǐng)域知識消歧和驅(qū)動對話等,當(dāng)前的解決方法為:1)提高表示能力,包括領(lǐng)域知識的本體表示、對話表示以及本體表示道對話表示的轉(zhuǎn)移能力等;2)提高任務(wù)式對話能力,包括在 NLU 上,基于對話建模抽取槽位信息而非槽位標(biāo)注方案以提高魯棒性;在 DST 上,基于對話表述和 NLU 輸出更新對話狀態(tài);在 Policy 方面,基于對話狀態(tài)進(jìn)行對話引導(dǎo)。
第五個問題是主動感知和推薦問題,目前的解決方法主要從主動交互、場景理解以及用戶畫像等層面來解決此問題。
京東人工智能研究院常務(wù)副院長、深度學(xué)習(xí)及語音和語言實(shí)驗(yàn)室主任何曉冬在演講中強(qiáng)調(diào)了人機(jī)對話對于人機(jī)交互未來發(fā)展的重要性及其當(dāng)前面臨的幾大技術(shù)難點(diǎn),基于此,他也對對話系統(tǒng)下一步的發(fā)展方向闡述了自己的觀點(diǎn)。
他指出,多輪人機(jī)對話是人工智能的起點(diǎn)及圣杯,而作為人類最基本、最重要的交流方式,對話也是人機(jī)交互技術(shù)未來的期望所在,然而雖然目前出現(xiàn)了很多應(yīng)用于特定領(lǐng)域的對話系統(tǒng)并且領(lǐng)域內(nèi)也在嘗試針對開放領(lǐng)域以及高復(fù)雜、可靠性要求高的任務(wù)的對話系統(tǒng),但是目前尚無系統(tǒng)能夠真正通過圖靈測試。
在典型應(yīng)用上,以京東大規(guī)模的復(fù)雜客服場景為例,對話系統(tǒng)需要覆蓋售前、售中、售后以及物流,涉及到智能調(diào)度、智能導(dǎo)航、智能摘要、實(shí)時輔助應(yīng)答、智能質(zhì)檢以及智能創(chuàng)事件等具體任務(wù)?;谠诖笠?guī)模任務(wù)導(dǎo)向場景中的積累,京東還聯(lián)合北京智源研究院發(fā)布了智源—京東大規(guī)模任務(wù)導(dǎo)向性對話數(shù)據(jù)集。
從技術(shù)難點(diǎn)來看,何曉冬進(jìn)一步指出,對話技術(shù)目前主要面臨五大難點(diǎn):
一是多輪對話狀態(tài)跟蹤不充分,對話系統(tǒng)缺乏有效的全局優(yōu)化機(jī)制,評估準(zhǔn)則欠缺;
二是基于上下文歷史信息的精確語義理解還有待提高,缺乏對用戶意圖的精確理解;
三是缺乏大量的領(lǐng)域知識及基礎(chǔ)常識的支撐,目前還不能執(zhí)行深度的推理與決策;
四是對話生成機(jī)制還待探索,缺乏可控性、可解釋性,難以產(chǎn)生有對用戶有同理心的回復(fù);
五是包括視覺、語音、語言的跨模態(tài)的對話與交互技術(shù)還有待深入研究;
對此,何曉冬表示,對話系統(tǒng)下一步必然走向全方位多模態(tài)的交互方式,通過視覺、語音、語言、知識等統(tǒng)一,使得人與機(jī)器的交流變成無限制的交流?;谶@一目標(biāo),京東 AI 研究院也在不斷推進(jìn)多模態(tài)對話智能基礎(chǔ)研究。
來自華為諾亞方舟實(shí)驗(yàn)室的蔣欣則從對話數(shù)據(jù)的收集和增強(qiáng)以及對話深度語義理解兩個維度來分享對話系統(tǒng)中的一些技術(shù)探索。
作為構(gòu)建對話系統(tǒng)的基石,對話數(shù)據(jù)的收集面臨著不少困難,例如用戶隱私、領(lǐng)域強(qiáng)相關(guān)、標(biāo)注復(fù)雜性以及動態(tài)交互和評估等都是其面臨的問題,對此學(xué)術(shù)界提出了人-人對話、人-機(jī)器對話以及機(jī)器-機(jī)器對話等三種數(shù)據(jù)收集方法。
其中人-人對話(Wizard-of-Oz)雖然較為貼近真實(shí)對話場景,然而人工標(biāo)注和校驗(yàn)成本高,并且對交互行為的覆蓋率低;機(jī)器-機(jī)器對話(Self-Play)雖然在覆蓋率和多樣性方面更佳,標(biāo)注也相對容易,然而對話數(shù)據(jù)質(zhì)量依賴于模擬用戶機(jī)器人和系統(tǒng)機(jī)器人,因而在實(shí)踐中往往會結(jié)合 Wizard-of-Oz 和 Self-Play 兩種方式分別生成對話數(shù)據(jù),再使用數(shù)據(jù)訓(xùn)練對話系統(tǒng)的 NLU、DST、Policy 以及 NLG 模塊,通常可以在受限領(lǐng)域的對話中達(dá)到較高的成功率。
對話數(shù)據(jù)增強(qiáng)方面,一個比較通用的方法則是復(fù)述生成,華為諾亞在近期的工作中提出基于 Seq2Seq 神經(jīng)網(wǎng)絡(luò)生成相同語義的不同表達(dá),具備更好的可解釋性、可控性和可遷移性;此外,在對話狀態(tài)跟蹤任務(wù)上,提出基于 Contextual Bandits 對增強(qiáng)的數(shù)據(jù)進(jìn)行選擇,最后并聯(lián)合訓(xùn)練數(shù)據(jù)增強(qiáng)模塊和狀態(tài)跟蹤模塊。
對話深度語義理解上,目前最好的模型是預(yù)訓(xùn)練語言模型:
預(yù)訓(xùn)練語言模型作為語義理解新范式,具體指在大規(guī)模文本語料上訓(xùn)練語言模型,之后在下游任務(wù)上微調(diào)訓(xùn)練,以中文預(yù)訓(xùn)練語言模型「哪吒」為例,目前基于 BERT 已在華為云上實(shí)現(xiàn)了多機(jī)多卡數(shù)據(jù)并行訓(xùn)練并嘗試了混合精度訓(xùn)練、全詞覆蓋等一系列訓(xùn)練技術(shù);
TinyBERT 模型則是專為 Transformer 模型設(shè)計的知識蒸餾方法,是以 BERT 作為「老師」蒸餾出的一個小型化模型,以適應(yīng)不同邊緣設(shè)備上的計算需求。它的參數(shù)量為 BERT 的 1/7,預(yù)測速度是后者的 9 倍,并且在 GLUE 評測上相比 BERT 僅下降了 3 個百分點(diǎn)。
演講結(jié)束后,在劉群的主持下,周明、陳海青、孫珂、王剛、何曉冬以及蔣欣六位嘉賓還基于本場技術(shù)論壇的主題「「自然語言對話:技術(shù)挑戰(zhàn)和應(yīng)用前景」,展開了一場 Panel 討論,就「在開發(fā)對話系統(tǒng)的實(shí)踐中遇到的難點(diǎn)」、「自然語言對話的數(shù)據(jù)和評價問題」、「強(qiáng)化學(xué)習(xí)在自然語言對話的實(shí)際應(yīng)用中所存在的問題」以及「未來對話技術(shù)將會在哪些方面會取得突破,應(yīng)用上是否會有殺手級的場景出現(xiàn)」等問題發(fā)表了自己的觀點(diǎn)并展開了深度交流。
雷鋒網(wǎng) AI 科技評論報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。