丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給三川
發(fā)送

1

AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

本文作者: 三川 2017-01-19 20:46
導(dǎo)語(yǔ):雷鋒網(wǎng)參會(huì)記者為大家整理出這份演講實(shí)錄。

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

編者按:鄧力博士原為加拿大滑鐵盧大學(xué)教授,1999 年加入微軟,2016 年起擔(dān)任微軟首席人工智能科學(xué)家,負(fù)責(zé)微軟深度學(xué)習(xí)技術(shù)中心應(yīng)用趨向的深度學(xué)習(xí)研究。

在上周的 AI Frontiers 會(huì)議上,鄧力博士為參會(huì)嘉賓做了口語(yǔ)對(duì)話系統(tǒng)的專(zhuān)題演講。雷鋒網(wǎng)與會(huì)記者將現(xiàn)場(chǎng)演講記錄下來(lái),結(jié)合 PPT 為大家整理出這份演講實(shí)錄。此次鄧?yán)蠋熃榻B了口語(yǔ)對(duì)話系統(tǒng)的分類(lèi),三代演變史,以及三大研究前沿領(lǐng)域,可謂干貨滿滿。NLP 領(lǐng)域的童鞋們不可錯(cuò)過(guò)。

鄧力:

今天,我想講一講口語(yǔ)對(duì)話系統(tǒng)(Spoken Dialogue System)。 “Spoken Dialogue System” 成為一個(gè)術(shù)語(yǔ)已經(jīng)有 30 年了,現(xiàn)在我們也稱(chēng)其為對(duì)話式交互界面(conversational UI),或者稱(chēng)為“bots”。所以它有好幾個(gè)術(shù)語(yǔ),但基本指的是同一件事。開(kāi)發(fā)這類(lèi)系統(tǒng),需要能夠與人對(duì)話,要么通過(guò)語(yǔ)音,要么通過(guò)文字。這次我專(zhuān)門(mén)講語(yǔ)音,以及這兩類(lèi) bots 之間的根本性區(qū)別。

語(yǔ)音識(shí)別 vs 基于文字

語(yǔ)音識(shí)別技術(shù)在最近五年中飛速進(jìn)步,這兩類(lèi)對(duì)話系統(tǒng)之間的差距在縮小,這是一個(gè)很重要的信號(hào)。但在另一方面,許多情況下我們?nèi)匀挥性S多語(yǔ)音識(shí)別錯(cuò)誤。在某種程度上,我們可以把對(duì)話系統(tǒng)看作:

對(duì)話系統(tǒng)=語(yǔ)音識(shí)別+基于文字(text-based,或翻譯為“語(yǔ)義理解”)的系統(tǒng)

語(yǔ)音識(shí)別向基于文字的對(duì)話系統(tǒng),提供了一些低延遲的文字輸入。因此你可以把它們放在一起(認(rèn)為它們對(duì)等),這是較傳統(tǒng)的觀點(diǎn)。

如今,你可以超出傳統(tǒng)觀點(diǎn),來(lái)思考怎么做出整合的系統(tǒng)設(shè)計(jì)。相比把這兩類(lèi)系統(tǒng)一起放進(jìn)管道(pipeline),你可以事實(shí)上做得更好。這就是整合學(xué)習(xí)(integrated learning)的概念。我會(huì)聚焦在這個(gè)方向。

語(yǔ)音提供了語(yǔ)言之外的信息(Para-linguistic cues),比如語(yǔ)氣、情緒。這在基于文字的對(duì)話系統(tǒng)里是沒(méi)有的——后者沒(méi)有提供這些信息,或者說(shuō)線索。從這個(gè)方面來(lái)說(shuō),兩個(gè)系統(tǒng)不是對(duì)等的。取決不同的用戶,語(yǔ)音輸入可能會(huì)比文字輸入更簡(jiǎn)單——但也可能更復(fù)雜。對(duì)我個(gè)人而言,由于對(duì)語(yǔ)音比較了解,我傾向于使用語(yǔ)音來(lái)表述復(fù)雜事實(shí),它的錯(cuò)誤率未必會(huì)那么高。語(yǔ)音使得我能更快地提供更多信息。但對(duì)于大多數(shù)人而言,當(dāng)使用基于文字的對(duì)話,他們傾向于使用復(fù)雜句式。原因要么是這樣做更快,要么更可能的是,他們會(huì)擔(dān)心對(duì)方的語(yǔ)音識(shí)別能力,然后不想重復(fù)、或者說(shuō)太多,尤其在噪聲大的環(huán)境下。取決于用戶的個(gè)人特質(zhì),這兩種情況都可能發(fā)生。我認(rèn)為,隨著時(shí)間流逝,語(yǔ)音識(shí)別系統(tǒng)越來(lái)越成熟,語(yǔ)音和文字對(duì)話在這方面的差距會(huì)越來(lái)越小。

另一個(gè)很重要的方面是窄領(lǐng)域 vs 寬領(lǐng)域(narrow domain vs wide domain)?;谡Z(yǔ)音的對(duì)話傾向于聚焦在窄領(lǐng)域。但現(xiàn)在正變得不一樣,因?yàn)檎Z(yǔ)音識(shí)別技術(shù)的進(jìn)步。

幾個(gè)月前,Venturebeat 發(fā)表了一篇很不錯(cuò)的文章“Introducing the Bots Landscape”,對(duì)口語(yǔ)對(duì)話系統(tǒng)作了概括(再次提醒,有些人稱(chēng)其為 Bots,有時(shí)稱(chēng)之為對(duì)話式交互界面),以及它們的業(yè)界現(xiàn)狀。

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

Bots 領(lǐng)域的景觀一覽

上欄:有吸引力的 Bots;左欄(由上至下):連接器/分享服務(wù),發(fā)現(xiàn) Bot ,分析;右欄(由上至下):AI 工具:NLP、ML、語(yǔ)音識(shí)別;Bot 開(kāi)發(fā)者框架和工具,短訊

對(duì)話系統(tǒng)可被看作是一個(gè)連接器,來(lái)把你的技術(shù)與第三方相連。然后你有一系列開(kāi)發(fā)框架和工具來(lái)實(shí)現(xiàn)這點(diǎn)。微軟在這方面有大動(dòng)作:11 個(gè)月前,微軟 Build 開(kāi)發(fā)者大會(huì)上有一個(gè)重大的宣布,即 Microsoft Bot Framework(微軟 Bot 框架),它讓大家、第三方都能使用。

Bots 的分類(lèi)

由于時(shí)間限制,今天我只會(huì)聚焦于 AI 工具,在自然語(yǔ)言處理(NLP)、語(yǔ)音識(shí)別這方面。從這個(gè)角度,我會(huì)回顧自 1990 年代初以來(lái),相關(guān)技術(shù)經(jīng)歷的三代發(fā)展。

幾個(gè)月前,我寫(xiě)了這篇文章“How deep reinforcement learning can help chatbots”,討論 bots的價(jià)值。今天的話題以該文章為基礎(chǔ)。文章中,我首先談到了app 和網(wǎng)絡(luò)模型(web models)遇到的問(wèn)題;其次,對(duì)話作為一個(gè)新生的、正不斷壯大的移動(dòng)交互界面(mobile UI),以及在這之中,bots 扮演的人機(jī)之間智能代理的角色。我會(huì)對(duì)技術(shù)細(xì)節(jié)作更深入的討論。

我把 bots 歸納為三個(gè)類(lèi)別:

  • 社交機(jī)器人(social chatbot)。這方面,微軟在中國(guó)開(kāi)發(fā)的“小冰”相當(dāng)成功,是個(gè)很好的例子。在美國(guó),幾個(gè)月前我們發(fā)布了聊天機(jī)器人 Tay(雷鋒網(wǎng)注,這就是學(xué)會(huì)了罵人、在推特上發(fā)布不到一天就被緊急撤下的那個(gè),入選年度十大 AI 事件)。

  • 信息機(jī)器人 (infobot)。它們其實(shí)是搜索引擎部分功能的替代——它們?cè)试S用戶不再需要點(diǎn)擊網(wǎng)頁(yè)鏈接,而能夠直接獲得想要搜索的答案。這減少了一部分麻煩。如果問(wèn)題比較復(fù)雜,你也許只需要兩三輪解釋來(lái)是回答更明確。

  • 任務(wù)完成機(jī)器人(task completion bot),它們能為你做事情。相比只能交談、對(duì)話的社交機(jī)器人,它們能處理實(shí)際問(wèn)題,所以一般需要第三方的幫助。

口語(yǔ)對(duì)話系統(tǒng)的三代發(fā)展

現(xiàn)在,我開(kāi)始講過(guò)去一些年技術(shù)的進(jìn)步。近幾年,我們經(jīng)歷了不少次公眾對(duì)于 AI 技術(shù)的興奮高潮(hype)。但現(xiàn)實(shí)是,相關(guān)技術(shù)的基礎(chǔ)在 1980 年代末、1990 年代初就已經(jīng)開(kāi)發(fā)出來(lái)了。我會(huì)對(duì)這些技術(shù)如何從第一代發(fā)展到最新一代作個(gè)概括。

第一代:基于符號(hào)規(guī)則、模板

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

首先,第一代技術(shù)從 1980 年代末開(kāi)啟,在流行度上面,幾年前這一波技術(shù)就可以說(shuō)是結(jié)束了,雖然你能夠發(fā)現(xiàn)一些商用系統(tǒng)和 bot 初創(chuàng)企業(yè)還在使用它們。這代技術(shù)依賴(lài)于專(zhuān)家人工制定的語(yǔ)法規(guī)則和本體設(shè)計(jì)(ontological design)。這些規(guī)則很容易解釋、理解,比較透明,這就是這代技術(shù)為什么能催生出一系列的成功商業(yè)應(yīng)用的原因。修補(bǔ)漏洞很容易,系統(tǒng)更新也很容易。

它的局限性:

  • 依賴(lài)于專(zhuān)家。如果沒(méi)有懂得編寫(xiě)這類(lèi)應(yīng)用的專(zhuān)家,開(kāi)發(fā)會(huì)極其困難。

  • 跨領(lǐng)域的擴(kuò)展性不足

  • 數(shù)據(jù)用來(lái)設(shè)計(jì)規(guī)則,而不是學(xué)習(xí)

早期有相當(dāng)多的高校、政府機(jī)關(guān)、商業(yè)公司研發(fā)這類(lèi)系統(tǒng)。它們可分為語(yǔ)音識(shí)別和語(yǔ)言理解系統(tǒng)。它們?nèi)加煞?hào)規(guī)則組成,需要付出極大的努力來(lái)開(kāi)發(fā)。

由于這些局限,第一代技術(shù)只能應(yīng)用于極狹窄的領(lǐng)域,而這也許是一件好事。有一個(gè)非常好的、關(guān)于這類(lèi)技術(shù)的論文,它的研究對(duì)象是伯克利的餐廳。雷鋒網(wǎng)獲知,普通餐廳反而是不行的,因?yàn)樾枰獙?xiě)的規(guī)則太多。

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

第二代:數(shù)據(jù)驅(qū)動(dòng)、淺層學(xué)習(xí)

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

第二代技術(shù)是數(shù)據(jù)驅(qū)動(dòng)型的。

從業(yè)者不愿意把這代技術(shù)稱(chēng)之為淺層學(xué)習(xí)(shallow learning),但事實(shí)如此,它們是傳統(tǒng)的淺層學(xué)習(xí)方法。對(duì)了,用于對(duì)話規(guī)則(dialogue policy)的強(qiáng)化學(xué)習(xí)就是這時(shí)候研究出來(lái)的(1990 年代)。今天我們看到的強(qiáng)化學(xué)習(xí)高潮,在那時(shí)就打下了基礎(chǔ)。如今深度學(xué)習(xí)的進(jìn)步進(jìn)一步起到了幫助。

這種基于淺層學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方式,不容易理解和修補(bǔ)漏洞,但確實(shí)有學(xué)習(xí)能力。

這篇論文(“POMDP-based statistical spoken dialogue systems:a review”)對(duì)第二代技術(shù)做了整體歸納,它發(fā)表的時(shí)間是 4 年前(2013),恰恰在深度學(xué)習(xí)登場(chǎng)之前。這篇論文是劍橋大學(xué)的成果,他們做了很多努力來(lái)把該系統(tǒng)商業(yè)化。

第三代:數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

第三代技術(shù)用深度學(xué)習(xí)取代了淺層學(xué)習(xí)的部分。和第二代技術(shù)一樣,數(shù)據(jù)被用來(lái)學(xué)習(xí)對(duì)話系統(tǒng)中的所有東西。第三代的神經(jīng)模型和表示遠(yuǎn)遠(yuǎn)比前兩代要強(qiáng)大,端到端的學(xué)習(xí)也變得可行。從兩年前開(kāi)始,它吸引了全世界范圍內(nèi)巨大的研究興趣。但它也有許多局限性:

  • 解釋、修補(bǔ)漏洞、更新系統(tǒng)仍然不容易。

  • 在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和符號(hào)自然語(yǔ)言之間缺乏交互界面

  • 跨領(lǐng)域的擴(kuò)展,但相當(dāng)多的研究在想辦法利用深度遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)

  • 尚無(wú)明確的商業(yè)成功案例。

這三代技術(shù)有各自的強(qiáng)項(xiàng),如何把這些優(yōu)點(diǎn)整合起來(lái),是一項(xiàng)主要的挑戰(zhàn)。很多研究聚焦于此。

強(qiáng)化學(xué)習(xí)

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

如何用強(qiáng)化學(xué)習(xí)來(lái)明確地表達(dá)這類(lèi)系統(tǒng)?

如果你仔細(xì)考慮“什么是 state (狀態(tài))?什么是action(行動(dòng))?什么是reward(獎(jiǎng)勵(lì))?”你就可以把上文提到這三種類(lèi)型的 Bots (社交機(jī)器人、信息機(jī)器人、任務(wù)完成機(jī)器人)用強(qiáng)化學(xué)習(xí)表示出來(lái)。

研究前沿

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

這里我列出了三項(xiàng)前沿研究領(lǐng)域:

  • 基于語(yǔ)音 vs 基于文字

  • 針對(duì)對(duì)話的深度強(qiáng)化學(xué)習(xí)

  • 符號(hào)-神經(jīng)之間的整合

語(yǔ)音識(shí)別的未來(lái)

語(yǔ)音識(shí)別已經(jīng)取得巨大進(jìn)展。這里我的觀點(diǎn)是,語(yǔ)音問(wèn)題不僅僅是一個(gè)信號(hào)識(shí)別問(wèn)題,而是信息處理問(wèn)題。

相關(guān)文章:

阿里云AI專(zhuān)家陳一寧:別被語(yǔ)音識(shí)別率的數(shù)字所“騙”、語(yǔ)音交互產(chǎn)品大多很雞肋

語(yǔ)音交互的痛點(diǎn),為什么扎克伯格精心打造的AI“賈維斯”還會(huì)出糗?

NLP工程師技術(shù)解讀:智能語(yǔ)音助理類(lèi)產(chǎn)品的未來(lái)在哪里?

人工智能 2016 十大里程碑盤(pán)點(diǎn)!革命還是泡沫?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

 AI Frontiers | 微軟首席 AI 科學(xué)家鄧力演講:口語(yǔ)對(duì)話系統(tǒng)的分類(lèi)及三代演變

分享:
相關(guān)文章

用愛(ài)救世界
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)