丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給章敏
發(fā)送

1

ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

本文作者: 章敏 2016-07-29 10:52
導語:本文運用Gaussian過程分類法與一種基于神經(jīng)網(wǎng)絡的無監(jiān)管式對話嵌入方法,提出了一種主動的獎賞函數(shù)學習模型,從而實現(xiàn)了口語對話系統(tǒng)中真正意義上的在線策略學習。

用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

聯(lián)合編譯:陳圳,章敏,高斐

摘要

計算正確獎勵函數(shù)的能力對于通過加強學習優(yōu)化對話系統(tǒng)十分的關鍵。在現(xiàn)實世界的應用中,使用明確的用戶反饋作為獎勵信號往往是不可靠的,并且收集反饋花費也十分地高。但這一問題可以有所減輕,如果能提前知道用戶的意圖或是數(shù)據(jù)能預先訓練任務離線的任務成功預測器。在實踐中這兩種都不太適合現(xiàn)實中的大多數(shù)應用。在這里我們提出了一個在線學習框架,通過帶有高斯過程模式的主動學習,對話策略能按照獎勵模式共同進行訓練。高斯過程開發(fā)了一系列連續(xù)的空間對話表示,但都是在無監(jiān)督的情況下使用遞歸神經(jīng)網(wǎng)絡編碼和解碼器完成的。試驗結果表明所提出的框架能大量減少數(shù)據(jù)注釋的花費以及減輕在對話策略學習中嘈雜使用者的反饋。

1. 介紹

口語對話系統(tǒng)(SDS)允許使用自然語言進行人機互動。他們大致可以分為兩種類型:以閑聊為主的系統(tǒng),其主要目標是與使用者進行交談并提供合理的,符合上下文語境的回答;以任務為主的系統(tǒng)是主要任務是幫助使用者實現(xiàn)特定的目標(例如,發(fā)現(xiàn)酒店,電影或是公交時間表)。后者通常是根據(jù)設計本體結構(或是數(shù)據(jù)庫),來決定系統(tǒng)可以談論的領域。教會系統(tǒng)在以任務為主的SDS中如何正確地回答是一項重要的工作。這種對話管理往往是手動指定對話流程,這也直接決定了對話的質量。最近,對話管理能自動優(yōu)化解決加強學習(RL)的問題。在這一框架中,系統(tǒng)學會由嘗試或是錯誤過程所導致的潛在延遲學習目標,但這一般是由獎勵函數(shù)決定的。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖1:以任務為主的對話實例,以及其提前規(guī)定的任務和結果評價。

在以任務為主的對話系統(tǒng)中,一個典型的方法就是決定獎勵機制是運用一個小回合的懲罰機制來鼓勵剪短對話,并在每一個成功互動后給予正面獎勵。圖1是任務型對話的實例,是專門為付費用戶設置的對話系統(tǒng)。當用戶啟動完成特定任務,對話是否成功是由用戶的主觀反應的,或是基于特定任務是否完成的客觀標準決定的。然而,在現(xiàn)實情況中使用者的目標一般不能提前得知,這也使得反饋評價方法變得不顯示。

而且,目標的評級是不靈活,且從圖1可以看出如果使用者并未嚴格按照任務流程,失敗的幾率十分的大。這樣的結果是目標和主體的不匹配導致的。但是,僅僅依靠主觀排序也是大有問題的,因為人群來源的主體經(jīng)常會給出不準確的反應,而且人類也不愿意為給出反饋而擴展互動,導致學習不穩(wěn)定。為過濾掉錯誤的用戶反饋,Gasic等人使用僅僅使用主體和客體相等的對話。然而,在大多數(shù)現(xiàn)實任務中,這是低效,不可行的,因為使用者的目標通常是未知的并且難以推測。

基于以上所述,建議從離線模擬對話中學習神經(jīng)網(wǎng)絡目標估計。這將免去在線策略學習時進行目標檢查的需要,使用obj=subj的檢查能讓其策略如同訓練過一般的有效。但是,用戶模擬器僅僅只能提供一個近似真實用戶的數(shù)據(jù),開發(fā)使用者模擬器是一個昂貴的過程。

為解決上述問題,本文描述了一種在線主動學習方法,在此過程中用戶會被要求提供反饋,無論對話成功與否。但僅僅只有在反饋有效時,主動學習才會限制反饋的要求,而且噪聲模式也被引入解釋用戶的錯誤反饋。高斯過程分類(GPC)模式利用魯棒模式對嘈雜用戶的反饋進行建模。因為GPC是在固定長度的觀察空間運行的,但是其對話長度是可以變化的,一個以遞歸神經(jīng)網(wǎng)絡(RNN)為基礎的嵌入函數(shù)時用于提供固定長度的對話表示。在本質上,所提出的方法學習對話策略和在線反饋模擬器,并直接適用于現(xiàn)實世界的應用。

本文余下內(nèi)容安排如下。下一部分介紹相關工作。所提出的框架會在第3部分介紹。這包括策略學習算法,對話鑲嵌函數(shù)的創(chuàng)造和按照用戶排序的主動反饋模式。第4部分介紹所建議方法在英國劍橋餐館信息背景下其評價結果。我們首先對對話鑲嵌空間進行深入分析。當它與真實用戶進行對話策略訓練時,結果就會被呈現(xiàn)出來。最后,結論在第5部分。

2. 相關工作

自90年代以來,對話評估一直是一個活躍的研究領域,提出了PARADISE框架,在此框架任務完成的線性函數(shù)和各種各樣的對話特征,例如對話時長,都會別=被用于推測用戶滿意度。這一測評方法會被用作學習對話策略的反饋函數(shù)。然而,需要指出的是,當與真實用戶進行互動時,任務很少完成,關于模式理論準確性的問題也以提出。

在給定的注釋對話語料庫中,一些方法已經(jīng)用于對話反饋模式的學習中。Yang等人使用協(xié)同過濾來推斷使用者的偏好。獎勵塑性的使用也進行了研究,為加速對話策略學習豐富反饋函數(shù)。同時,Ultes和Minker表明專家使用者的滿意度和對話成功與否之間相關性很強。然而,所有這些方法假設可靠對話注釋是可用的,例如專家排序,但是在實踐中卻是十分難得。減輕注釋錯誤影響的一個有效方法是對相同數(shù)據(jù)進行多次排名,一些方法已經(jīng)發(fā)展到用不確定的模式指導注釋過程。當需要注釋時,主動學習在決定時是相當有用的。在使用貝葉斯優(yōu)化方法時,它經(jīng)常被使用。在此基礎上,Daniel等人利用pool-based主動學習方法用于機器人應用。他們要求使用者基于目前所收集的信息實例進行反饋,并顯示出了這個方法的有效性。

不是明確地規(guī)定獎勵函數(shù),逆RL(IRL)旨在從良好的行為示范中恢復潛在的獎勵,接著學習能最大限度回收獎勵的策略。IRL是在SDS中第一次進行引進,在此過程中獎勵是從人對人對話中推斷出來的,并在語料庫中模仿所觀察到的行為。IRL也在Wizard-of-Oz設置中進行過研究;Rojas Barahona和Cerisara基于不同嘈雜等級的演講理解輸出,人類專家會充當對話管理者選擇每一個系統(tǒng)。然而,這一方法十分的昂貴,并且沒有理由假設一個人的表現(xiàn)最佳,尤其是在一個高噪音環(huán)境。

因為人類在給予相關評價方面比給予絕對評價方面表現(xiàn)更好,另一個相關研究主要集中在RL偏好的的方法。在Sugiyama等人的研究中,使用者會被要求在不同的對話中進行排序。但是,這一過程也十分的昂貴,并且沒有良好的現(xiàn)實應用。

3. 提出的框架

所提出的框架在圖2中有所描述。主要分為三個部分:對話策略,對話鑲嵌函數(shù)和對于使用者反饋的主動獎勵機制。當每一個對話結束時, 會從中提取一套水平化特征ft,并將其鑲嵌入鑲嵌函數(shù)σ得出維度固定的對話表示d,這一表示會作為獎勵模式R的輸入空間。這種獎勵是仿照作為高斯的過程,每一個輸入點對任務成功進行了評價,同時也對其不確定性進行了評估?;谶@種不確定性,R會決定是否有必要詢問用戶的反饋。然后返回加強的信號來更新對話策略,其策略是通過GP-SARSA算法計算出來的。GP-SARSA同樣也會運用高斯過程提供了一個在線實例有效性加強學習,利用最少數(shù)量的實例進行稀疏函數(shù)的評價推進。每一個對話的質量是由累積獎勵決定的,每一個對話會產(chǎn)生一個負獎勵(-1),最后獎勵是0或是20是由獎勵模式對任務完成度進行的評價決定的。

注意到關鍵是學習獎勵模式的噪音魯棒性,當使用者是監(jiān)督者和會話策略能同時在線。主動學習并不是框架的重要組成部分,但是卻能在實踐中降低監(jiān)督機制對于使用者的影響。提前訓練鑲嵌函數(shù)的使用時所提議方法的一個組成部分,并且是在語料庫中進行離線訓練而不是手動進行設計。

3.1 未受監(jiān)督的對話鑲嵌模式

為對對話長度不一樣的用戶反饋進行建模,鑲嵌函數(shù)會將每一個函數(shù)進行固定空間維度定位。嵌入函數(shù)的使用在最近單詞表示中獲得了關注,并且提高了一些自然語言處理過程的表現(xiàn)。在機器翻譯(MT)中也有成功地運用,它使用RNN解碼和編碼器對長短不一樣的短語進行固定長度向量定位。與MT相似的是,對話鑲嵌使得長短不一的話語能在固定長度向量上進行定位。盡管鑲嵌在此處的運用是為GPC任務成功分類器創(chuàng)造維度固定的輸出空間,但是值得指出的是這會潛在促進依賴分類和聚集的任務種類增加。

模式結構的嵌入函數(shù)如圖2左邊所示,片段水平ft是從對話中提取出來的,并作為輸入特征進行編碼。在我們所提出的模式中,解碼器是雙向長短期記憶網(wǎng)絡(BLSTM)。LSTM是遞歸神經(jīng)網(wǎng)絡(RNN)的一個遞歸單元,是在解決和減輕梯度消失問題中引進的方法。兩個方向的輸入數(shù)據(jù)BLSTM解碼器都將其序列信息考慮了進去,計算正向隱藏序列h1:T和反向隱藏序列hT:1,同時迭代所有的輸入特征ft,t=1,...T:

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

其中LSTM表示激活函數(shù)。然后對話表示d作為所有隱藏序列的平均值計算:

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

其中ht=[ht;ht]是兩個雙向隱藏序列的結合。

給定的對話表示d由編碼器輸出,解碼器是向前的LSTM(每一次調整t產(chǎn)生調整序列f1:T時,將d作為輸入)。

編碼器-解碼器的訓練目標是最小化預測f`1:T和輸出f1:T(同樣作為輸入)之間的均方誤差:

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

其中N是訓練對話的數(shù)量,||·||2表示l2-norm。由于所有用于解碼器和編碼器中的函數(shù)是不一樣的,隨機梯度下降(SGD)可用于訓練模型。

基于LSTM無監(jiān)督嵌入函數(shù)產(chǎn)生的對話表示,隨后被用于評論3.2節(jié)中介紹的獎勵模型。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖:2:系統(tǒng)框架示意圖。三大主要的系統(tǒng)組件:對話策略,對話嵌入創(chuàng)作,和基于用戶反饋的獎勵模型,如§3所描述。

3.2.主動獎勵學習

高斯過程是一個可用于回歸或分類的貝葉斯非參數(shù)模型。它特別有吸引力,因為它可以從一個小的觀測值(利用一個內(nèi)核函數(shù)定義的相關性)學習,它提供了評估的不確定性。

在口語對話系統(tǒng)的語境中,它已被成功用于RL策略優(yōu)化和IRL獎勵函數(shù)回歸。

在這里,我們提出了和如高斯過程(GP)一樣成功的建模對話。這涉及評估p(y|d,D)的概率(任務成功給出了當前對話表示d和包含以前分類對話的pool D)。我們將這偽裝成一個分級問題,其中評估是二進制的評論y ∈ {?1, 1}——決定成功或失敗。評論y是從有著成功概率p(y=1|d,D)的伯努利分布(Bernoulli distribution)中描繪出的。概率涉及一個潛在函數(shù)f(d|D):Rdim(d)→R,它由概率函數(shù)p(y=1|d,D)=?(f(d|D))映射到一個單元區(qū)間,其中?表示標準高斯分布的累積密度函數(shù)。

潛在函數(shù)在前面給定了一個GP:f(d)~gP(m(d),k(d,d’)),其中m(·)是平均函數(shù),k(·,·)是協(xié)方差函數(shù)(kernel)。這使用了固定平方指數(shù)內(nèi)核KSE。為了計算用戶評估中的“噪音”,它還結合了一個白噪音核kWN:

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

其中第一項為kSE,而第二項為kWN

超參數(shù)p,l,σn可以使用基于梯度的方法最大化邊緣似然進行充分優(yōu)化。由于?(·)不是高斯分布,得到的后驗概率p(y=1|d,D)難以分析。因此,并不是用近似方法,我們使用了期望傳播(EP)。查詢用戶的反饋是昂貴的,并且可能會對用戶體驗產(chǎn)生負面影響。這種影響可以通過使用主動學習信息(通過GP模型的不確定性評估)方式減少。這確保了只有當模型不確定其目前的預測時,尋求用戶反饋。對于目前的應用程序,需要一個聯(lián)機(stream-based)版本的主動學習。

圖3說明了1維度的例子。給定標記數(shù)據(jù)D,后驗平均值μ*和在當前對話表示d*潛在的值f(d*)的后驗方差σ2*可以被計算。然后一個閾值區(qū)間[ 1?λ,λ]設置在預測成功概率p()y*=1|d*,D)=?(μ*/根號1+σ2*)在,以決定對話是否一個被標記。決策邊界隱式地考慮后驗均值以及方差。

當在建議的框架部署這個獎勵模型時,前面用于f有著0平均(zero-mean)的GP被初始化,且D={}。在對話策略π 完成與用戶的片段后,使用對話嵌入函數(shù)σ,將生成的對話圈轉化為對話表示d=σ(f1:T)。給定d,預測均值和f(d|D)的分差就被確定了,且獎勵模型基于在?(f(d|D))的閾值λ決定是否需要尋求用戶反饋。如果模型是不確定的,那么在當前片段d的用戶反饋,用于更新GP模型,并產(chǎn)生增強信號來訓練策略π;否則獎勵模型的預測成功評估直接用于更新策略。每一次對話后都會進行該過程。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖片3:提出的GP主動獎勵學習模型的1維度實例。

4.實驗結果

目標應用程序是一個基于電話的口語對話系統(tǒng),用于為劍橋(英國)地區(qū)提供餐廳信息。主要由150個場館組成,每個有6個插槽(屬性),其中3可由由系統(tǒng)使用來約束搜索(食物類型,范圍和價格范圍),剩余的3是信息性質(電話號碼、地址和郵編)一旦需要的數(shù)據(jù)庫實體已被發(fā)現(xiàn)便可使用。

SDS共享的核心組件和所有實驗一樣,包含一個基于HMM的識別器,一個混淆的語義網(wǎng)絡(CNET)輸入解碼器,一個BUDS信念狀態(tài)跟蹤器(使用動態(tài)貝葉斯網(wǎng)絡產(chǎn)生對話狀態(tài)),和一個基于自然語言的模板——將系統(tǒng)語義行動描述成自然語言響應用戶。

所有的策略都使用GP-SARSA算法進行訓練,且RL策略的總結行動空間包括20個行動。給予每個對話的獎勵設置成20×1success-N,其中N是對話匝數(shù),并且1是對話成功的指標函數(shù),它是由不同的方法決定如下所述。這些獎勵構成了用于策略學習的加強策略。

4.1 對話表示

LSTM解碼和編碼模式在3.1部分有描述,它主要是用來對每一句對話生成一個鑲嵌d。每一個對話都包含了使用者的話語和系統(tǒng)的回答,大小為74的特征向量被提取了出來。這個向量包括解碼器決定的用戶意圖,由本體決定的利益觀念分布,一個熱門的系統(tǒng)回答編碼,由最大化匝數(shù)所決定的匝數(shù)數(shù)量(這里是30)。這一特征向量是作為LSTM編碼解碼模式的輸入和目標,其訓練目標是減少MSE的重建函數(shù)的損失。

該模式使用了Theano 圖書館語料庫進行試驗。這一語料庫包括8565,1199,650名真實用戶在劍橋餐廳的對話,分別用于訓練,檢測和測試。這一語料庫通過Amazon Mechanical Turk(AMT)服務進行收集,其受雇主體是通過對話系統(tǒng)進行交流。在反向傳播中SGD的每一個對話都用于訓練模式。為防止過度擬合,基于驗證數(shù)據(jù)會進行早期阻止。

為將嵌入的嵌入的影響可視化,所有650個測試對話都會轉變?yōu)榍度牒瘮?shù),如圖4,并且使用t-SNE減少二維嵌入功能。對于每一個對話樣本來說,該形狀暗示了對話成功與否,并且顏色還暗示了對話的長度(最長為30)。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖4:劍橋餐廳內(nèi)真實用戶數(shù)據(jù)的無監(jiān)督對話表示t-SNE可視化。標簽是按照用戶的主觀評價進行排序。

從圖中我們可以清楚地看到,從左上方(較短對話)到右下方(較長對話)的顏色梯度表示肯定的Subj標注。這表明在對話表征中,對話長度是其重要特征之一。同時也可以觀察到,那些較長的失敗對話(多余15輪)間隔距離不遠,大多數(shù)居于右下方。另一方面,也有一些失敗的對話是零散分布的。此外,成功的對話平均短于10輪,這一現(xiàn)象與以下觀點一致:在經(jīng)過良好訓練的任務型系統(tǒng)中,用戶并不能完全投入到較長的對話中。

這一清晰可見的結果表明了無監(jiān)管式對話嵌入方式的潛在利用價值,由于經(jīng)過改進的對話表征似乎與大多數(shù)成功的對話案例相關。根據(jù)GP獎勵模型的目的,該LATM編碼解碼嵌入功能似乎有助于提取一種恰當?shù)墓潭ňS度的對話表征。

  4.2 對話策略學習

  鑒于經(jīng)過良好訓練的對話嵌入功能,所提出的GP獎勵模型將在該輸入空間內(nèi)運行。該系統(tǒng)在GPy圖書館得到實施(Hensman等,2012)。根據(jù)每一次新型可觀察到的對話的成功可能性預測結果,不確定區(qū)域的閾值最初被設定為1,以鼓勵用戶詢問注釋,在第一組50次對話訓練結束后,該閾值被將至0.85,隨后便將該閾值設定為0.85。

最初,由于每一次新的對話都被增添入訓練集合中,在Eqn中提到的用于定義核心結構的超參數(shù)得到優(yōu)化,旨在將共軛梯度上邊際可能性的負面結果將至最低。為避免出現(xiàn)過度擬合現(xiàn)象,經(jīng)過訓練第一組40次對話之后,將只針對每20次對話重新優(yōu)化這些超參數(shù)。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖5所示為在線策略優(yōu)化過程中的學習曲線,該曲線表示主觀成功為訓練對話次數(shù)的函數(shù)。圖中on-line GP,Subj, off-line RNN及Obj=Subj系統(tǒng)分別用黑色曲線,紅色曲線,藍色曲線和紅色曲線表示。淺色區(qū)域表示一個標準差的時間間隔。

為了研究我們所提出的在線GP策略學習框架的性能,三種其他具有對比性系統(tǒng)的性能也都已經(jīng)被檢驗。注意:手工系統(tǒng)未進入對比之列,由于其規(guī)模不能適用于更大的領域,且其對言語識別錯誤比較敏感。對于每一個系統(tǒng),唯一存在的差異是用于計算獎勵的方法的不同:

1. Obj=Subj系統(tǒng)利用對本任務的先前了解,僅僅使用訓練對話的方式,在此過程中,用戶對成功的主觀評價與(Gasic等人,2013)的客觀評價相一致。

2. Subj系統(tǒng)僅僅利用用戶對成功的評價,直接優(yōu)化策略,不論使用者的評價精準與否。

3. 線下RNN系統(tǒng)運用1K模擬數(shù)據(jù)和相匹配的Obj標簽來訓練RNN任務成功預測器(Su等,2015a)。

在運用Subj系統(tǒng)評估方法的過程中,為了只關注策略的性能,而非關注系統(tǒng)的其他方面,如所回復句子的流暢度,用戶被要求回答一下問題:你已經(jīng)找到所需要的所有信息了嗎?,來預測對話成功與否。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

圖6:在線策略優(yōu)化過程中,每一個系統(tǒng)詢問用戶以獲取反饋信息的次數(shù)是訓練對話次數(shù)的函數(shù)。圖中橙色線代表Obj=Subj,Subj系統(tǒng),黑色曲線代表在線GP系統(tǒng)。

通過對由AMT服務終端正選的用戶在線發(fā)起500次對話,來訓練以上四種系統(tǒng)。圖5所示為訓練過程中,主觀成功預測的在線學習曲線。對于每一個系統(tǒng),均采用含有150次對話的窗口計算動態(tài)平均值。在訓練每一個系統(tǒng)的過程中,均對三種不同的策略進行訓練,對所得結果取平均值,以降低用戶所提供的反饋信息的嘈雜度。

如我們所見,經(jīng)過將近500次對話訓練后,以上四種系統(tǒng)的性能優(yōu)于80%的主觀成功預測器的性能。其中,相對于其他系統(tǒng)來講,Obj=Subj系統(tǒng)的性能較差。這可能是由于使用者依然預測對話結果為成功,盡管客觀預測結果顯示為對話失敗。類似于這種情況,該對話將被舍棄,不用于訓練。因此,為了獲取500次有用的對話,Obj=Subj系統(tǒng)要求使用700次對話,然而,所有其他的學習系統(tǒng)則是高效率地運用每一次對話。

為了能夠在較長時間內(nèi)研究學習行為,訓練在線GP系統(tǒng)和Subj系統(tǒng)所需要的對話次數(shù)被擴展到850次。如圖所示,對這兩種學習系統(tǒng)的訓練結果呈平緩上升趨勢。

與Gasic等人(2011)所得結果相似,Subj系統(tǒng)也會受到使用者不可靠的反饋信息的影響。首先,在訓練Obj=Subj系統(tǒng)的過程中,用戶將所有的任務要求均拋諸腦后,特別是忘記請求獲得所有需要的信息。其次,由于對所提供的反饋信息的關注不夠,用戶提供的反饋信息呈現(xiàn)出不一致的現(xiàn)象。從圖5中,我們能夠清楚地觀察到,在線GP系統(tǒng)的性能一直以來都優(yōu)于Subj系統(tǒng),出現(xiàn)這種現(xiàn)象可能是由于嘈雜模型抵沖了用戶反饋信息不一致所造成的影響。當然,不像人群來源主體,真正的用戶可能會提供更為一致的反饋信息,但是,偶爾出現(xiàn)非一致現(xiàn)象是不可避免的,并且嘈雜模型能夠提供所需要的反饋信息的強健性。

在線GP系統(tǒng)在減少系統(tǒng)對用戶反饋信息需求次數(shù)(即標簽成本)方面的優(yōu)點可以從圖6中看到。黑色曲線顯示為,在訓練在線GP系統(tǒng)的過程中所需要的主觀學習查詢的次數(shù),所顯示的結果是經(jīng)過對三種策略求平均值得出的。該系統(tǒng)僅需要詢問獲得150為用戶的反饋信息便可訓練得到一種強健的獎勵模型。另一方面,如橙色虛線所示,Obj=Subj系統(tǒng)和Subj系統(tǒng)在訓練每一次對話的過程中,均需要用戶的反饋信息。

當然,當在線訓練該系統(tǒng)時,線下RNN系統(tǒng)根本不需要用戶的反饋信息,由于該系統(tǒng)具有運用用戶模擬器的優(yōu)勢。然而,在訓練過程中,當?shù)谝唤M300次對話訓練結束后,該系統(tǒng)的性能不及在線GP系統(tǒng)。

4.3對對話策略進行評估

為了對比各種學習系統(tǒng)的性能,表格1的第一部分為400至500次對話的平均值和標準差。在訓練400次對話和500次對話的間隔時間段內(nèi),Subj系統(tǒng),線下RNN系統(tǒng)及在線GP系統(tǒng)的訓練結果相當,并未表現(xiàn)出統(tǒng)計學上的差異。表1同時也顯示了Subj系統(tǒng)和在線GP系統(tǒng)從500次對話到850次對話連續(xù)進行訓練的結果。表1中的數(shù)據(jù)也表明在線GP系統(tǒng)具有顯著的優(yōu)越性,可能是由于與Subj系統(tǒng)相比,該系統(tǒng)對于有誤的用戶信息更為敏感。

4.4對獎勵模型進行評估

上述結果證實了我們提出的獎勵模型對策略學習的有效性。在本部分,我們將進一步研究該模型在預測主觀成功率方面的精準度。表2為對在線GP獎勵模型在1至850次對話訓練過程中所得結果的評估。

由于每訓練850次對話便可學習3種獎勵模型,總計需要訓練2550次對話。在這些對話訓練過程中,這些模型總計需要詢問獲得用戶反饋信息454次,剩余2096次對話訓練則用于學習,而這種學習方式依賴于獎勵模型的預測結果。表中所示結果為2096次對話訓練的平均值。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

表1:不同在線策略學習階段,對Obj=Subj系統(tǒng),線下RNN系統(tǒng),Subj系統(tǒng)及在線GP系統(tǒng)性能的主觀評估結果。主觀性:用戶對對話成功與否的兩分法預測。運用two-tailed學生t-test計算上述結果的統(tǒng)計學意義,其中p<0.05。

如我們可以觀察到的,由于對話策略隨著對話訓練次數(shù)的增多而得到改善,對話成功標簽與對話失敗標簽兩者的比例呈現(xiàn)出不平衡的現(xiàn)象。由于該獎勵模型更偏重使用肯定標簽的數(shù)據(jù),這將削弱使用者對失敗對話預測的記憶。然而,其精確度也隨之提高。另一方面,我們提出的獎勵模型能夠精確地預測對話的成功性。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

表2:關于Subj預測率的在線GP系統(tǒng)預測結果的統(tǒng)計學方面評估

4.5對話實例

與其他模型相比,在線GP獎勵模型的主要優(yōu)勢在于其對用戶反饋信息的嘈雜性的抵沖作用及對用戶監(jiān)管措施的有效利用。由于上述進行比較的四種系統(tǒng)僅在獎勵模型的設計方面存在差異,其在線行為在很大程度上表現(xiàn)出相似性。

表3所列舉的是用戶與在線GP系統(tǒng)之間兩個實例對話,旨在闡釋該系統(tǒng)在不同的嘈雜條件下是如何運行的。表中也顯示了用戶的主觀預測結果與由在線GP獎勵模型生成的預測結果。標簽‘n-th AS’與‘n-SEM’分別指代言語識別器和語義解碼器所能產(chǎn)生的第n中做可能的假設。

 ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

表格3:在線用戶與假定的在線GP系統(tǒng)之間的對話實例

5. 結論

在本文中,我們運用Gaussian過程分類法與一種基于神經(jīng)網(wǎng)絡的無監(jiān)管式對話嵌入方法,提出了一種主動獎勵學習模型,旨在實現(xiàn)口語對話系統(tǒng)中真正意義上的在線策略學習。該模型通過強健地模擬真實用戶的反饋信息的內(nèi)在嘈雜屬性,能夠達到穩(wěn)定的策略優(yōu)化效果,并且運用主動學習方法最大限度地減少對用戶反饋信息的詢問次數(shù)。我們發(fā)現(xiàn),與其他state-of-the-art方法相比,所提出的模型能夠有效地學習策略,而且具有更高的性能。該Bayesian模型的主要優(yōu)勢在于其不確定性評估結果能夠使學習與噪音處理以一種自然的方式進行。這種無監(jiān)管式對話嵌入功能在訓練過程中不需要有標注的數(shù)據(jù),卻能夠為獎勵預測器提供一種經(jīng)過壓縮處理且有用的輸入信息。整體上來講,本文中研發(fā)的這些技術首次為真實世界中的對話系統(tǒng)提供了一種切實可行的在線學習方法,這種在線學習方法并不需要由人工標注的數(shù)據(jù)構成的大語料庫,也不需要構建一個用戶模擬器。

與我們之前的工作結果相一致,本文研究的獎勵功能主要聚焦于任務的成功與否。這一獎勵模型在商業(yè)應用方面可能會顯得過于簡單,在今后研究工作中,我們將會與人類交互專家一同識別并囊括對話品質的其他維度的信息,這些信息將滿足更高水平的用戶需求。

哈爾濱工業(yè)大學李衍杰副教授的點評:通過加強學習方法來優(yōu)化對話管理策略是一種非常有效的方法,但精確的獎賞函數(shù)對于優(yōu)化結果的好壞是十分關鍵的。這篇文章運用Gaussian過程分類法與一種基于神經(jīng)網(wǎng)絡的無監(jiān)管式對話嵌入方法,提出了一種主動的獎賞函數(shù)學習模型,也就是當發(fā)現(xiàn)系統(tǒng)對用戶的信息不確定時,通過主動詢問的方式收集更多的信息來得到精確的獎賞函數(shù),從而實現(xiàn)了口語對話系統(tǒng)中真正意義上的在線策略學習。該系統(tǒng)通過魯棒地建模真實用戶反饋中的內(nèi)在噪聲,能夠實現(xiàn)穩(wěn)定的策略優(yōu)化,并且運用主動學習方法來最小化用戶反饋詢問的次數(shù),有助于增強用戶的體驗感。與其他現(xiàn)有方法相比,該論文所提出的模型能夠有效地學習對話策略,而且具有更高的性能。

PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉載!更多ACL相關資訊掃碼關注微信群

ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

ACL2016最佳論文:用于口語對話系統(tǒng)策略優(yōu)化的在線自動獎勵學習

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說