丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給三川
發(fā)送

0

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

本文作者: 三川 2017-03-26 19:21
導語:作為該領域頂級專家,鄧力博士如何看待口語對話系統(tǒng)?

雷鋒網按:本月 18 日,由美中技術與創(chuàng)新協(xié)會(Association of Technology and Innovation,ATI)主辦的第一屆“AI NEXT”大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業(yè)內知名專家。

大會主題是“探索 AI 的潛力,把 AI 技術應用于實用項目和服務”,對 CV、NLP、智能助手、深度學習框架均做了專題報告。其中,鄧力博士以”對話系統(tǒng):歷史發(fā)展與現(xiàn)狀“為題,向與會者作了 ppt 演講報告。

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

鄧力在 AI NEXT 演講現(xiàn)場

雷鋒網注:鄧老師原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智能科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。

鄧力:很高興能夠來這里,與大家分享我的一些研究——對于該領域,我個人將其稱之為”聊天機器人技術“(Bot Technology),有時也被叫做對話系統(tǒng)(Dialogue System),與人機交流(Human-Machine Communication)緊密相關。對該領域的研究,已經有相當長的歷史。借這次機會,我想要與大家分享該技術的歷史發(fā)展,以及一些時新論文研究中的前沿技術突破。

當我們談起對話系統(tǒng)、對話代理(Conversational Agent)、對話式交互界面(Conversational UI)或者聊天機器人,它們其實從屬于同一類技術,是實現(xiàn)人機交互(HCI)的一種方式。今天我主要想講講,在過去的二三十年間,這類技術是如何發(fā)展的。就好像對于神經網絡專家,今天所流行的深度學習以及各種 AI 技術,其根源都要追溯到二三十年前。過去許多有價值的研究,都被現(xiàn)在的年輕人忽視了。我希望大家能夠回頭看看這些技術的演進歷程——今天的技術都不是孤立存在的,也不是科研人員用一兩年時間一下子研究出來的。

我先從對該技術的簡單介紹開始。

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

首先,這類技術可被分為兩類:基于文字(Text-based)和基于語音(Speech-based)。大家將會從下一位演講者 Nikko(亞馬遜 Alexa 首席科學家  Nikko Strom,本次大會上他的演講主題為 “Alexa是怎樣煉成的”)那里,聽到更多關于”基于語音“的東西,因此我會重點講”基于文字“和它們之間的區(qū)別。

有一種視角把口語對話系統(tǒng)看作是兩類系統(tǒng)的接替(基于語音→基于文字):先是語音識別,然后,語音識別的結果變成一連串的文字,這就成了基于文字的系統(tǒng)。這是傳統(tǒng)的觀點。

但現(xiàn)在看來,這兩種系統(tǒng)可以很好的整合到一起,不再是兩條分離的流水線(Pipeline)。這樣可以對端到端(End-to-End)的性能進行優(yōu)化。這方面有些不錯的學術出版物。

所以,我寫的“對話系統(tǒng)= | ≠語音識別+基于文字的對話系統(tǒng)”的意思是:口語對話系統(tǒng)既可被看作是兩種系統(tǒng)的接替,也可不這么看。傳統(tǒng)的觀點十分簡潔,可以有兩個不同的開發(fā)者社群來進行技術開發(fā):一個是語音識別,一個是用基于文字的系統(tǒng)識別錯誤,因為語音識別會產生錯誤。

在這里,我想指出三點:

  1. 設計對話系統(tǒng)有兩種不同方式:整合學習(Integrated learning)vs. Simply pipelined;

  2. 對于基于語音的系統(tǒng),它包含額外的信息:我們稱之為 Para-linguistic cues,這在文字中是缺失的。若能充分利用 Para-linguistic cues,比如說話者的情緒、肢體語言,基于語音的系統(tǒng)會遠遠強大于基于文字的系統(tǒng)。當然,后者也有一些表達情緒的方式,比如 emoji 的使用,但和 Para-linguistic cues 相比仍然是不同的東西。這是基于語音和基于文字系統(tǒng)的一項主要區(qū)別。

    另外,取決不同的用戶,語音輸入可能會比文字輸入更簡單——或者更復雜。對我個人而言,由于對語音技術比較了解,在噪音不高的情況下,我傾向于使用語音來于小娜對話。但對于大多數(shù)人而言,他們傾向于使用基于文字的對話,因為他們不知道語音識別在什么情況下效果好,什么情況下效果不好。區(qū)別于不同用戶,會有不同的人機對話行為,這是系統(tǒng)設計中需要考慮的、很重要的一點。

  3. 另一個重要區(qū)別是:窄領域 vs 寬領域(narrow domain vs wide domain)。目前來講,基于文字的系統(tǒng)一般被看作是寬領域,語音是窄領域。但這是由于目前技術所限,隨著語音識別技術成熟,情況很快就可能發(fā)生變化,尤其鑒于深度學習對語音識別的改善。今天的研究人員,已經可以著手思考怎么讓基于語音的系統(tǒng)更寬更 open。

接下來,我會講講口語對話系統(tǒng)的三代發(fā)展。

口語對話系統(tǒng)的三代發(fā)展

近幾年,我們經歷了一輪又一輪公眾對于 AI 技術的興奮期。但現(xiàn)實是,相關技術的基礎在 1980 年代末、1990 年代初就已經開發(fā)出來了。我會對這些技術如何從第一代發(fā)展到最新一代作個概括。

第一代:基于符號規(guī)則、模板

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

首先,第一代技術從 1980 年代末開啟,在流行度上面,幾年前這一波技術就可以說是結束了,雖然你能夠發(fā)現(xiàn)一些商用系統(tǒng)和 bot 初創(chuàng)企業(yè)還在使用它們。這代技術依賴于專家人工制定的語法規(guī)則和本體設計(ontological design)。這些規(guī)則很容易解釋、理解,比較透明,這就是這代技術為什么能催生出一系列的成功商業(yè)應用的原因。修補漏洞很容易,系統(tǒng)更新也很容易。

它的局限性:

  • 依賴于專家。如果沒有懂得編寫這類應用的專家,開發(fā)會極其困難。

  • 跨領域的擴展性不足

  • 數(shù)據用來設計規(guī)則,而不是學習

早期有相當多的高校、政府機關、商業(yè)公司研發(fā)這類系統(tǒng)。它們可分為語音識別和語言理解系統(tǒng)。它們全都由符號規(guī)則組成,需要付出極大的努力來開發(fā)。

由于這些局限,第一代技術只能應用于極狹窄的領域,而這也許是一件好事。有一個非常好的、關于這類技術的論文,它的研究對象是伯克利的餐廳。雷鋒網獲知,普通餐廳反而是不行的,因為需要寫的規(guī)則太多。


第二代:數(shù)據驅動、淺層學習

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

第二代技術是數(shù)據驅動型的。

從業(yè)者不愿意把這代技術稱之為淺層學習(shallow learning),但事實如此,它們是傳統(tǒng)的淺層學習方法。對了,用于對話規(guī)則(dialogue policy)的強化學習就是這時候研究出來的(1990 年代)。今天我們看到的強化學習高潮,在那時就打下了基礎。如今深度學習的進步進一步起到了幫助。

這種基于淺層學習的數(shù)據驅動方式,不容易理解和修補漏洞,但確實有學習能力。

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

這篇論文(“POMDP-based statistical spoken dialogue systems:a review”)對第二代技術做了整體歸納,它發(fā)表的時間是 4 年前(2013),恰恰在深度學習登場之前。這篇論文是劍橋大學的成果,他們做了很多努力來把該系統(tǒng)商業(yè)化。

第三代:數(shù)據驅動的深度學習

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

第三代技術用深度學習取代了淺層學習的部分。和第二代技術一樣,數(shù)據被用來學習對話系統(tǒng)中的所有東西。第三代的神經模型和表示遠遠比前兩代要強大,端到端的學習也變得可行。從兩年前開始,它吸引了全世界范圍內巨大的研究興趣。但它也有許多局限性:

  • 解釋、修補漏洞、更新系統(tǒng)仍然不容易。

  • 在神經網絡學習和符號自然語言之間缺乏交互界面

  • 跨領域的擴展,但相當多的研究在想辦法利用深度遷移學習和強化學習來實現(xiàn)

  • 尚無明確的商業(yè)成功案例。

這三代技術有各自的強項,如何把這些優(yōu)點整合起來,是一項主要的挑戰(zhàn)。很多研究聚焦于此。

研究前沿

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

這里我列出了三項前沿研究領域:

  • 基于語音 vs 基于文字

  • 針對對話的深度強化學習

  • 符號-神經之間的整合

相關文章:

亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

微軟首席 AI 科學家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT

分享:
相關文章

用愛救世界
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說