0
本文作者: 李詩 | 2018-05-12 13:40 |
雷鋒網(wǎng)按:這些天,谷歌AI冒充真人打電話在朋友圈大火,可以說谷歌很成功地制造出了一次熱點話題。然而,這可忙壞了微軟集團的公關(guān)們,不得不趕緊發(fā)技術(shù)聲明表示微軟早已實現(xiàn)了AI與真人通電話。
美國時間5月8日,谷歌在2018年度開發(fā)者大會(Google I/O 2018)上介紹了智能語音助手Google Assistant中新增加的Duplex,它可以自己給飯館、發(fā)廊等商業(yè)店面打電話,幫用戶預(yù)約時間。我們再來看看I/O 大會現(xiàn)場的演示視頻:
AI助手與人交流、完成指令已經(jīng)不是新鮮事。如果你經(jīng)常跟Siri對話,或者你有一臺天貓精靈、小愛同學(xué)等智能音箱,你會發(fā)現(xiàn),跟AI對話實在是太費勁。你需要字正腔圓,還要一次次地說喚醒詞,無法實現(xiàn)連續(xù)對話。
Duplex讓人感到驚訝的是:它不僅用自然流暢的語音和電話另一頭的人類完成了交流,且對方根本沒有意識到打電話來的居然是個[ AI ]。這是因為谷歌Duplex實現(xiàn)了連續(xù)對話、加入了人在對話中通常會用的語詞助詞"emm"、“uha”等、能理解對話的上下文,此外還具備了主動提供語料的功能。
這樣的雙向?qū)υ?,一直是微軟、蘋果、亞馬遜、Facebook這些做對話式人工智能的公司們努力的方向。谷歌這次放了個大招,獲得了很高的關(guān)注,微軟顯然坐不住了,趕緊站出來說,且慢,我們才是先實現(xiàn)這項技術(shù)突破的。
關(guān)于這件事,微軟在昨天發(fā)了一篇技術(shù)聲明。以下為聲明全文:
全雙工語音技術(shù)(Full Duplex)的意義在于,它能夠使“人機交互”進化為“人機交流”。一字之差,價值巨大。
今年4月4日,我們正式在美國和中國同步發(fā)布了Full Duplex感官,并預(yù)言行業(yè)將意識到這一技術(shù)的價值,加快向這一方向集中。我們很高興看到越來越多的同行業(yè)者加入。
其實,人類歷史上第一次與人工智能進行全雙工語音電話,并不是發(fā)生在美國,而是發(fā)生在中國。我們很榮幸能將這一桂冠奉獻給祖國。自2016年8月起,微軟(亞洲)互聯(lián)網(wǎng)工程院通過人類用戶主動發(fā)起的方式,已讓小冰與人類用戶累計完成了超過60萬通電話。
今天,我們公布其中一通發(fā)生在兩年前的實際電話錄音,將之作為珍貴的資料,奉獻給全世界說中文的華人。
而這一技術(shù)也已經(jīng)完成產(chǎn)品落地。兩年來,正是在人類的訓(xùn)練下,小冰已實現(xiàn)不局限于任何封閉域,而是可針對開放域進行全雙工語音對話。目前,微軟已落地的對話場景包括傳統(tǒng)電話、VoIP電話和智能音箱設(shè)備,微軟小冰的車載路試正在進行中。
如果您想要體驗Full Duplex全雙工語音,不需等待數(shù)周,今天就能。在微軟小冰已落地的產(chǎn)品中,我們推薦您使用我們與小米合作的米家生態(tài)鏈Yeelight智能硬件產(chǎn)品。在隨附的用戶真實使用視頻中,您將體會到:
? 一次喚醒之后的連續(xù)對話
? 微軟小冰對用戶的預(yù)測模型
? 幫助用戶輕松完成多重任務(wù)
? 小冰的內(nèi)容創(chuàng)造能力
? 以及最重要的:人機情感交流
人工智能時代已來,讓我們持續(xù)創(chuàng)新。
微軟的聲明中,雷鋒網(wǎng)發(fā)現(xiàn)了三個關(guān)鍵點:首先,在技術(shù)層面上,微軟在今年4月4日正式發(fā)布了“全雙工語音交互”技術(shù);其次,在事件事實上,微軟在兩年前就實現(xiàn)了AI與人類通電話;最后,在產(chǎn)品落地上,微軟的全雙工語音交互已經(jīng)具備多個場景,且搭載全雙工語音交互技術(shù)的微軟小冰已經(jīng)出現(xiàn)在智能音箱——米家生態(tài)鏈Yeelight智能硬件產(chǎn)品中。
微軟所說的全雙工語音交互技術(shù)(Full-Deplex Voice)與谷歌Duplex的技術(shù)框架和實現(xiàn)的功能應(yīng)該是類似的。
微軟對“全雙工語音交互技術(shù)”的定義是:與既有的單輪或多輪連續(xù)語音識別不同,這項新技術(shù)可實時預(yù)測人類即將說出的內(nèi)容,實時生成回應(yīng)并控制對話節(jié)奏,能理解對話場景在訴說者/傾聽者之間實現(xiàn)角色轉(zhuǎn)變,還可以識別說話人的性別、有幾個人在說話。
也就是說,與只能實現(xiàn)單輪的語音的智能語音助手不同,能連續(xù)對話的全雙工語音交互能實現(xiàn)和人類雙向交流,而這種雙向交流最常見的場景則是通電話。因為通電話是一個在短時間內(nèi)持續(xù)對話的過程,對通話雙方的即時反應(yīng)要求最高。
在3月28日,微軟也在北京召開了媒體交流會,詳細(xì)介紹過”全雙工語音交互技術(shù)“。
雷鋒網(wǎng)了解到,全雙工語音交互背后主要有兩個關(guān)鍵技術(shù):一個是預(yù)測模型,實現(xiàn)邊聽邊想;例如,當(dāng)用戶說出一句話的時候,小冰會先回答“嗯,你說”,然后再去完成指令,這樣就可以填補完成指令的空白時間。
另一個是生成模型(LSTM),能更好理解場景,自動生成回復(fù)。正常的對話都不是單向的一問一答,小冰也會在適當(dāng)?shù)臅r候主動提供內(nèi)容,并且能知道在用戶完成指令沉默幾秒后自動結(jié)束對話?,F(xiàn)在運用了全雙工語音交互技術(shù)的微軟小冰的所有回復(fù)都是自己生成的,有別于傳統(tǒng)的基于模塊、搜索來進行的回復(fù)。(關(guān)于微軟全雙工語音交互技術(shù)可以查看雷鋒網(wǎng)此前報道:《微軟發(fā)大招:要做智商和情商兼具的語音助手》
雷鋒網(wǎng)在對谷歌Duplex的技術(shù)解析文章中也提到,Duplex的核心是一個RNN(循環(huán)神經(jīng))網(wǎng)絡(luò),由TensorFlow Extended(RFX)構(gòu)建,谷歌用匿名的電話對話數(shù)據(jù)訓(xùn)練了Duplex的RNN網(wǎng)絡(luò),這個網(wǎng)絡(luò)會使用谷歌自動語音識別(ASR)的識別結(jié)果文本,同時也會使用音頻中的特征、對話歷史、對話參數(shù)(比如要預(yù)定的服務(wù),當(dāng)前時間)等等。
輸入語音先經(jīng)過自動語音識別系統(tǒng)(ASR)處理,生成的文本會與上下文數(shù)據(jù)以及其它輸入一起輸入 RNN 網(wǎng)絡(luò),生成的應(yīng)答文本再通過文本轉(zhuǎn)語音(TTS)系統(tǒng)讀出來。
谷歌用的生成模型是RNN,而微軟用的是LSTM,從體驗來看,兩者實現(xiàn)的效果很接近。跟Yeelight中的微軟小冰對話時,能實現(xiàn)一次喚醒連續(xù)對話長達20分鐘,有適當(dāng)?shù)恼Z氣詞,能主動提供預(yù)料,主動結(jié)束對話。
在谷歌I/O大會的最后一天,獲得年度圖靈獎的Alphabet新任董事長John Hennessy宣布:"在預(yù)約領(lǐng)域,谷歌Duplex通過了圖靈測試“。也就是說,目前谷歌Duplex與人類展開對話,人類無法識別出其是機器人。這個消息,確實令人振奮。與搭載了微軟全雙工語音交互技術(shù)的微軟小冰相比,谷歌Duplex的一大特色是其聲音和語調(diào)與真人幾乎一致,這是他們花費了數(shù)月時間采集真人聲音訓(xùn)練而成的結(jié)果。
谷歌稱,今年夏天會開始基于Google Assistant測試Duplex,從預(yù)訂餐館、預(yù)訂發(fā)廊、詢問節(jié)假日的營業(yè)時間這樣的事項開始。而微軟小冰則是將人工智能助手和聊天機器人結(jié)合起來,努力進入各個場景,包括傳統(tǒng)電話、VoIP電話和智能音箱設(shè)備,微軟小冰的車載路試也正在進行中。
(Yeelight微軟小冰用戶體驗視頻)
微軟全雙工語音技術(shù)已經(jīng)在做產(chǎn)品落地,卻被還在測試中的谷歌Duplex搶占了熱點,難免有一點著急。
然而如果我們回想技術(shù)發(fā)展的歷程,我們會記得,1844年,莫爾斯從從華盛頓到巴爾的摩拍發(fā)人類歷史上的第一份電報,說的是:"上帝呀,你究竟干了一些什么?”;1876年,貝爾發(fā)明世界上第一臺電話,他說的第一句話““沃森先生,快來幫我”成為人類第一句通過電話傳送的語音。然而,人工智能助手與人類的第一通電話顯然就難以定義了,畢竟我們在人工智能的道路上,還有很長的路要走。
相關(guān)文章:
會打電話的 AI 背后:谷歌 Duplex 技術(shù)解析
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。