谷歌AI打電話刷屏，微軟坐不住了

本文作者：李詩

2018-05-12 13:40

導(dǎo)語：周五晚上，微軟發(fā)了一篇技術(shù)聲明稱人類歷史上第一次與人工智能進行全雙工語音電話，并不是發(fā)生在美國，而是發(fā)生在中國。

雷鋒網(wǎng)按：這些天，谷歌AI冒充真人打電話在朋友圈大火，可以說谷歌很成功地制造出了一次熱點話題。然而，這可忙壞了微軟集團的公關(guān)們，不得不趕緊發(fā)技術(shù)聲明表示微軟早已實現(xiàn)了AI與真人通電話。

美國時間5月8日，谷歌在2018年度開發(fā)者大會（Google I/O 2018）上介紹了智能語音助手Google Assistant中新增加的Duplex，它可以自己給飯館、發(fā)廊等商業(yè)店面打電話，幫用戶預(yù)約時間。我們再來看看I/O 大會現(xiàn)場的演示視頻：

AI助手與人交流、完成指令已經(jīng)不是新鮮事。如果你經(jīng)常跟Siri對話，或者你有一臺天貓精靈、小愛同學(xué)等智能音箱，你會發(fā)現(xiàn)，跟AI對話實在是太費勁。你需要字正腔圓，還要一次次地說喚醒詞，無法實現(xiàn)連續(xù)對話。

Duplex讓人感到驚訝的是：它不僅用自然流暢的語音和電話另一頭的人類完成了交流，且對方根本沒有意識到打電話來的居然是個[ AI ]。這是因為谷歌Duplex實現(xiàn)了連續(xù)對話、加入了人在對話中通常會用的語詞助詞"emm"、“uha”等、能理解對話的上下文，此外還具備了主動提供語料的功能。

這樣的雙向?qū)υ?，一直是微軟、蘋果、亞馬遜、Facebook這些做對話式人工智能的公司們努力的方向。谷歌這次放了個大招，獲得了很高的關(guān)注，微軟顯然坐不住了，趕緊站出來說，且慢，我們才是先實現(xiàn)這項技術(shù)突破的。

關(guān)于這件事，微軟在昨天發(fā)了一篇技術(shù)聲明。以下為聲明全文：

全雙工語音技術(shù)（Full Duplex）的意義在于，它能夠使“人機交互”進化為“人機交流”。一字之差，價值巨大。

今年4月4日，我們正式在美國和中國同步發(fā)布了Full Duplex感官，并預(yù)言行業(yè)將意識到這一技術(shù)的價值，加快向這一方向集中。我們很高興看到越來越多的同行業(yè)者加入。

其實，人類歷史上第一次與人工智能進行全雙工語音電話，并不是發(fā)生在美國，而是發(fā)生在中國。我們很榮幸能將這一桂冠奉獻給祖國。自2016年8月起，微軟（亞洲）互聯(lián)網(wǎng)工程院通過人類用戶主動發(fā)起的方式，已讓小冰與人類用戶累計完成了超過60萬通電話。

今天，我們公布其中一通發(fā)生在兩年前的實際電話錄音，將之作為珍貴的資料，奉獻給全世界說中文的華人。

而這一技術(shù)也已經(jīng)完成產(chǎn)品落地。兩年來，正是在人類的訓(xùn)練下，小冰已實現(xiàn)不局限于任何封閉域，而是可針對開放域進行全雙工語音對話。目前，微軟已落地的對話場景包括傳統(tǒng)電話、VoIP電話和智能音箱設(shè)備，微軟小冰的車載路試正在進行中。

如果您想要體驗Full Duplex全雙工語音，不需等待數(shù)周，今天就能。在微軟小冰已落地的產(chǎn)品中，我們推薦您使用我們與小米合作的米家生態(tài)鏈Yeelight智能硬件產(chǎn)品。在隨附的用戶真實使用視頻中，您將體會到：

? 一次喚醒之后的連續(xù)對話

? 微軟小冰對用戶的預(yù)測模型

? 幫助用戶輕松完成多重任務(wù)

? 小冰的內(nèi)容創(chuàng)造能力

? 以及最重要的：人機情感交流

人工智能時代已來，讓我們持續(xù)創(chuàng)新。

微軟的聲明中，雷鋒網(wǎng)發(fā)現(xiàn)了三個關(guān)鍵點：首先，在技術(shù)層面上，微軟在今年4月4日正式發(fā)布了“全雙工語音交互”技術(shù)；其次，在事件事實上，微軟在兩年前就實現(xiàn)了AI與人類通電話；最后，在產(chǎn)品落地上，微軟的全雙工語音交互已經(jīng)具備多個場景，且搭載全雙工語音交互技術(shù)的微軟小冰已經(jīng)出現(xiàn)在智能音箱——米家生態(tài)鏈Yeelight智能硬件產(chǎn)品中。

微軟所說的全雙工語音交互技術(shù)（Full-Deplex Voice）與谷歌Duplex的技術(shù)框架和實現(xiàn)的功能應(yīng)該是類似的。

微軟對“全雙工語音交互技術(shù)”的定義是：與既有的單輪或多輪連續(xù)語音識別不同，這項新技術(shù)可實時預(yù)測人類即將說出的內(nèi)容，實時生成回應(yīng)并控制對話節(jié)奏，能理解對話場景在訴說者/傾聽者之間實現(xiàn)角色轉(zhuǎn)變，還可以識別說話人的性別、有幾個人在說話。

也就是說，與只能實現(xiàn)單輪的語音的智能語音助手不同，能連續(xù)對話的全雙工語音交互能實現(xiàn)和人類雙向交流，而這種雙向交流最常見的場景則是通電話。因為通電話是一個在短時間內(nèi)持續(xù)對話的過程，對通話雙方的即時反應(yīng)要求最高。

在3月28日，微軟也在北京召開了媒體交流會，詳細介紹過”全雙工語音交互技術(shù)“。

雷鋒網(wǎng)了解到，全雙工語音交互背后主要有兩個關(guān)鍵技術(shù)：一個是預(yù)測模型，實現(xiàn)邊聽邊想；例如，當用戶說出一句話的時候，小冰會先回答“嗯，你說”，然后再去完成指令，這樣就可以填補完成指令的空白時間。

另一個是生成模型（LSTM），能更好理解場景，自動生成回復(fù)。正常的對話都不是單向的一問一答，小冰也會在適當?shù)臅r候主動提供內(nèi)容，并且能知道在用戶完成指令沉默幾秒后自動結(jié)束對話?，F(xiàn)在運用了全雙工語音交互技術(shù)的微軟小冰的所有回復(fù)都是自己生成的，有別于傳統(tǒng)的基于模塊、搜索來進行的回復(fù)。（關(guān)于微軟全雙工語音交互技術(shù)可以查看雷鋒網(wǎng)此前報道：《微軟發(fā)大招：要做智商和情商兼具的語音助手》

雷鋒網(wǎng)在對谷歌Duplex的技術(shù)解析文章中也提到，Duplex的核心是一個RNN（循環(huán)神經(jīng)）網(wǎng)絡(luò)，由TensorFlow Extended（RFX）構(gòu)建，谷歌用匿名的電話對話數(shù)據(jù)訓(xùn)練了Duplex的RNN網(wǎng)絡(luò)，這個網(wǎng)絡(luò)會使用谷歌自動語音識別（ASR）的識別結(jié)果文本，同時也會使用音頻中的特征、對話歷史、對話參數(shù)（比如要預(yù)定的服務(wù)，當前時間）等等。

谷歌AI打電話刷屏，微軟坐不住了

輸入語音先經(jīng)過自動語音識別系統(tǒng)（ASR）處理，生成的文本會與上下文數(shù)據(jù)以及其它輸入一起輸入 RNN 網(wǎng)絡(luò)，生成的應(yīng)答文本再通過文本轉(zhuǎn)語音（TTS）系統(tǒng)讀出來。

谷歌用的生成模型是RNN，而微軟用的是LSTM，從體驗來看，兩者實現(xiàn)的效果很接近。跟Yeelight中的微軟小冰對話時，能實現(xiàn)一次喚醒連續(xù)對話長達20分鐘，有適當?shù)恼Z氣詞，能主動提供預(yù)料，主動結(jié)束對話。

在谷歌I/O大會的最后一天，獲得年度圖靈獎的Alphabet新任董事長John Hennessy宣布："在預(yù)約領(lǐng)域，谷歌Duplex通過了圖靈測試“。也就是說，目前谷歌Duplex與人類展開對話，人類無法識別出其是機器人。這個消息，確實令人振奮。與搭載了微軟全雙工語音交互技術(shù)的微軟小冰相比，谷歌Duplex的一大特色是其聲音和語調(diào)與真人幾乎一致，這是他們花費了數(shù)月時間采集真人聲音訓(xùn)練而成的結(jié)果。

谷歌稱，今年夏天會開始基于Google Assistant測試Duplex，從預(yù)訂餐館、預(yù)訂發(fā)廊、詢問節(jié)假日的營業(yè)時間這樣的事項開始。而微軟小冰則是將人工智能助手和聊天機器人結(jié)合起來，努力進入各個場景，包括傳統(tǒng)電話、VoIP電話和智能音箱設(shè)備，微軟小冰的車載路試也正在進行中。

（Yeelight微軟小冰用戶體驗視頻）

微軟全雙工語音技術(shù)已經(jīng)在做產(chǎn)品落地，卻被還在測試中的谷歌Duplex搶占了熱點，難免有一點著急。

然而如果我們回想技術(shù)發(fā)展的歷程，我們會記得，1844年，莫爾斯從從華盛頓到巴爾的摩拍發(fā)人類歷史上的第一份電報，說的是："上帝呀,你究竟干了一些什么?”;1876年，貝爾發(fā)明世界上第一臺電話，他說的第一句話““沃森先生，快來幫我”成為人類第一句通過電話傳送的語音。然而，人工智能助手與人類的第一通電話顯然就難以定義了，畢竟我們在人工智能的道路上，還有很長的路要走。

相關(guān)文章：

會打電話的 AI 背后：谷歌 Duplex 技術(shù)解析

微軟發(fā)大招：要做智商和情商兼具的語音助手

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

李詩

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章

谷歌AI打電話刷屏，微軟坐不住了

谷歌AI打電話刷屏，微軟坐不住了