0
本文作者: 奕欣 | 2018-04-05 10:42 |
在 3 月底的云棲大會(huì)上,阿里云總裁胡曉明在會(huì)上做出戰(zhàn)略宣布:阿里巴巴全面進(jìn)軍 IoT。這是繼電商、金融、物流、云計(jì)算之后的一條新的主賽道。
阿里巴巴希望數(shù)字化整個(gè)物理世界,并作為 IoT 基礎(chǔ)設(shè)施的搭建者而存在。這樣一層「新身份」也讓不少人為之振奮,認(rèn)為「5 年內(nèi) 100 億設(shè)備」的未來(lái)將成為阿里云 IoT 事業(yè)部總經(jīng)理庫(kù)偉所說(shuō)的「萬(wàn)物智聯(lián)」的全新世界。
在阿里巴巴這樣的企業(yè)戰(zhàn)略規(guī)劃之下,以語(yǔ)音交互智能實(shí)驗(yàn)室為代表的眾多研究部門(mén)如何明確自己的定位,并助力阿里巴巴更好地領(lǐng)跑這一賽道,也成為一個(gè)亟待解答的問(wèn)題。
在 3 月底舉辦的首屆 AITech 峰會(huì)上,阿里巴巴達(dá)摩院-機(jī)器智能技術(shù)研究院的語(yǔ)音交互智能實(shí)驗(yàn)室首席科學(xué)家鄢志杰做了題為《IoT 時(shí)代的語(yǔ)音交互智能》的主題演講。
圖via 新一代人工智能聯(lián)盟
計(jì)算是心臟,AI 是大腦,IoT 是神經(jīng);這是阿里巴巴數(shù)字化進(jìn)程中發(fā)揮重要作用的三個(gè)「器官」。那么作為「阿里集團(tuán)乃至螞蟻金服語(yǔ)音技術(shù)的研究開(kāi)發(fā)和產(chǎn)品部門(mén)」,鄢志杰所在的語(yǔ)音交互智能實(shí)驗(yàn)室在 IoT 中擔(dān)任怎樣的角色?
鄢志杰認(rèn)為,語(yǔ)音是最自然的與 IoT 交互的方式。首先它無(wú)需學(xué)習(xí)。用語(yǔ)言交流是人類所具備的一種獨(dú)特能力;其次,語(yǔ)音「hands-free」、「eyes-free」的特點(diǎn)也讓教育用戶的成本幾乎能夠降到最低。
「語(yǔ)音交互智能是 AI 與大眾最近的接觸。」鄢志杰如是說(shuō)。不論是 BB-8 還是 R2-D2,能與機(jī)器順暢自由地交流一直是科幻作品的美好想象。得益于 AI 近年來(lái)的突破性進(jìn)展,以語(yǔ)音、計(jì)算機(jī)視覺(jué)為代表的感知智能;與語(yǔ)義理解、語(yǔ)義生成的認(rèn)知智能,技術(shù)的飛躍有目共睹。
在近年來(lái),業(yè)界也推出了以聊天機(jī)器人、智能音箱為代表的語(yǔ)音交互產(chǎn)品,也讓這一愿景不再遙遠(yuǎn)。而智能語(yǔ)音交互也已跨越了「能用」的基本訴求,正在逐步向「好用」邁進(jìn)。
阿里巴巴的語(yǔ)音交互智能實(shí)驗(yàn)室也正在嘗試架起「人機(jī)交互」和「?jìng)€(gè)性化服務(wù)」的橋梁。而上升到技術(shù)層面來(lái)總結(jié),語(yǔ)音交互智能將成為 IoT 與互聯(lián)網(wǎng)內(nèi)容和服務(wù)的橋梁。
以 NUI 自然交互平臺(tái)為例,背靠「云+端基礎(chǔ)設(shè)施」和相應(yīng)的開(kāi)發(fā)者社群,語(yǔ)音交互智能得以從意圖理解、對(duì)話管理、問(wèn)答系統(tǒng)、聊天系統(tǒng)、推薦廣告和數(shù)據(jù)閉環(huán)展開(kāi)對(duì)自然輸入輸出的技術(shù)發(fā)現(xiàn),并連接不同的功能選項(xiàng)(如出行、購(gòu)物、天氣等)和相應(yīng)的 IoT 設(shè)備(如手機(jī)、汽車等)。
而從語(yǔ)音交互智能實(shí)驗(yàn)室的研究切入點(diǎn)來(lái)分析,一個(gè)完整的交互過(guò)程有兩個(gè)主要環(huán)節(jié),語(yǔ)音進(jìn)和語(yǔ)音出。
從用戶說(shuō)第一句話開(kāi)始,首先涉及的是麥克風(fēng)采集傳感器的硬件技術(shù),到麥克風(fēng)陣列的信號(hào)處理;在清晰采集到語(yǔ)音信息之后,系統(tǒng)需要對(duì)語(yǔ)音進(jìn)行正確識(shí)別;再者,對(duì)語(yǔ)義做出正確的判斷和理解,并結(jié)合用戶的需求獲取相應(yīng)的回復(fù);最終,合成語(yǔ)音達(dá)成輸出,反饋給用戶。鄢志杰還補(bǔ)充道,話題背后的相關(guān)數(shù)據(jù)積累,也作為整個(gè)交互過(guò)程的一個(gè)調(diào)用環(huán)節(jié)而存在。
語(yǔ)音交互智能實(shí)驗(yàn)室每半年會(huì)迭代一次聲學(xué)模型,原來(lái)的 BLSTM(雙向長(zhǎng)短時(shí)記憶單元,Bidirectional LSTM)到后來(lái)的 Low frame rate latency controlled 的 BLSTM,在精度上已經(jīng)有了很大飛躍。而今年即將在國(guó)際聲學(xué)會(huì)議 ICASSP 2018 上做 oral 報(bào)告的 DFSMN(深度前饋序列記憶網(wǎng)絡(luò))。DFSMN 使用基于 BLSTM 的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)作為基線系統(tǒng),采用廣泛使用的跳躍連接技術(shù),在執(zhí)行反向傳播算法時(shí),梯度可以繞過(guò)非線性變換。鄢志杰告訴雷鋒網(wǎng) AI 科技評(píng)論,這一技術(shù)已經(jīng)在阿里巴巴的實(shí)際業(yè)務(wù)中發(fā)光發(fā)熱。
除了典型的 IoT 產(chǎn)品,如天貓音箱、榮威智聯(lián)網(wǎng)汽車、天貓盒子、海爾人工智能電視外,鄢志杰還提及了 IoT 在公共場(chǎng)所服務(wù)上的應(yīng)用案例。去年 12 月,上海地鐵與阿里云攜手推出了上海地鐵語(yǔ)音售票機(jī)。
理論要應(yīng)用到 IoT 實(shí)際層面,也有著不少門(mén)檻和障礙。在實(shí)際生活的體驗(yàn)和接觸中不難發(fā)現(xiàn),市面上的語(yǔ)音交互產(chǎn)品多應(yīng)用于家庭、辦公等安靜場(chǎng)景中,強(qiáng)噪音場(chǎng)景下的技術(shù)落地存在諸多難點(diǎn)。
首先是識(shí)別「誰(shuí)在說(shuō)話」的問(wèn)題。語(yǔ)音交互智能實(shí)驗(yàn)室結(jié)合攝像頭帶來(lái)的視覺(jué)數(shù)據(jù),結(jié)合語(yǔ)音輸入的信息,能夠進(jìn)一步確認(rèn)說(shuō)話者及相應(yīng)的指令。視覺(jué)和語(yǔ)音的多模態(tài)交互配合能夠讓識(shí)別率更加精準(zhǔn),進(jìn)一步提升強(qiáng)噪音場(chǎng)景的應(yīng)用能力。
解決了「誰(shuí)在說(shuō)話」的問(wèn)題,下一步則是更好地保證語(yǔ)音輸入的信息完整。在排隊(duì)買票的過(guò)程中,如何精準(zhǔn)識(shí)別買票者的語(yǔ)音信息,而盡可能避免后方排隊(duì)者帶來(lái)的噪聲干擾,也是困擾語(yǔ)音交互智能實(shí)驗(yàn)室的又一問(wèn)題。通過(guò)改造麥克風(fēng)陣列的立體布局,將關(guān)注點(diǎn)更多地定位在站在售票機(jī)前說(shuō)話者身上,則成為了解決這一方法的有效手段。
而相應(yīng)地,上海地鐵的硬件設(shè)施也進(jìn)行了一次「大改造」,增加了光學(xué)攝像頭及面板背后的麥克風(fēng)陣列,這也涉及與以傳感器為代表的硬件廠商的合作。
鄢志杰也對(duì)雷鋒網(wǎng) AI 科技評(píng)論表示,從 IoT 的層面上看,語(yǔ)音交互智能實(shí)驗(yàn)室可能原本只需要研究純軟件的技術(shù),但進(jìn)軍 IoT 賽道后,包括機(jī)器智能技術(shù)研究院都要下沉到硬件,團(tuán)隊(duì)的擴(kuò)張有很大一部分源于聲學(xué)硬件人才的加盟,如雷鋒網(wǎng) AI 科技評(píng)論曾經(jīng)采訪過(guò)的馮津偉博士。
但不可忽視的一個(gè)現(xiàn)狀是,語(yǔ)音尚未成為主流的交互方式。鄢志杰經(jīng)常在內(nèi)部分享提一句話,「今天語(yǔ)音交互技術(shù)的真實(shí)水平,與用戶的期待、業(yè)界的 PR 存在明顯的鴻溝。」針對(duì)這一點(diǎn),鄢志杰認(rèn)為可能有兩個(gè)方式可以去著力。
首先是良好的交互設(shè)計(jì)。
交互設(shè)計(jì)本身是一門(mén)科學(xué),它能夠通過(guò)用戶調(diào)研將主觀的體驗(yàn)觀感轉(zhuǎn)化為客觀的指標(biāo)。這樣一來(lái),即使技術(shù)水平在短時(shí)間內(nèi)無(wú)法有大的提升,但可以以巧妙的方式將技術(shù)的缺陷掩蓋過(guò)去。在《夏洛特?zé)馈防镉幸粋€(gè)情節(jié),沈騰告訴老大爺,自己要找馬冬梅。老大爺沒(méi)聽(tīng)清,反問(wèn),「馬什么梅」。這就是一個(gè)典型的交互案例。
如果系統(tǒng)在識(shí)別時(shí)沒(méi)有完全聽(tīng)清,對(duì)正確理解用戶的意圖沒(méi)有把握時(shí),聰明的交互設(shè)計(jì)可以選擇避免讓用戶直接重復(fù)所說(shuō)過(guò)的話,而是換一種角度讓用戶再次重申自己的意圖。
其次是如何找到應(yīng)用場(chǎng)景,通過(guò)有效(useful)的交互結(jié)果讓用戶產(chǎn)生良好的反饋(reward),并最終培養(yǎng)用戶習(xí)慣。
在汽車內(nèi)的語(yǔ)音交互就是一個(gè)重要的強(qiáng)場(chǎng)景。在車載系統(tǒng)上用語(yǔ)音輸入想去的地點(diǎn),在技術(shù)成熟度和交互體驗(yàn)上都有了極大的提升,這也促使了正循環(huán),逐步淘汰原有的鍵盤(pán)輸入方式。如何暢想 IoT 可能與語(yǔ)音交互產(chǎn)生關(guān)聯(lián)的場(chǎng)景?鄢志杰表示,「當(dāng)萬(wàn)物互聯(lián),或者說(shuō)萬(wàn)物智聯(lián)真正走向縱深,在你一天所可能接觸的任何場(chǎng)景都一定會(huì)有相應(yīng)的 IoT 設(shè)備?!?/p>
從商業(yè)化的角度來(lái)看,在 IoT 時(shí)代下的語(yǔ)音交互智能,需要將互聯(lián)網(wǎng)內(nèi)容和服務(wù)通過(guò) IoT 觸達(dá)用戶形成商業(yè)閉環(huán),并做好端和云的布局。
鄢志杰也在會(huì)上提及了阿里巴巴的研究與實(shí)踐,主要分為三個(gè)方面。
構(gòu)建有深度、全鏈路、多模態(tài)的關(guān)鍵技術(shù)棧;
其次,產(chǎn)出低成本、易復(fù)制的智能化 IoT 方案;
再者,以打造標(biāo)桿硬件為「手段」,以基礎(chǔ)平臺(tái)建設(shè)為「目的」。天貓音箱等產(chǎn)品和 NUI 自然交互平臺(tái)就是明證。
鄢志杰反復(fù)重申的多模態(tài)交互概念,也讓語(yǔ)音交互智能實(shí)驗(yàn)室不再局限于語(yǔ)音層面。這也就意味著,它與其他技術(shù)團(tuán)隊(duì)的交流也會(huì)變得越來(lái)越頻繁和深入。鄢志杰表示,目前主要協(xié)作較多的還是計(jì)算機(jī)視覺(jué)團(tuán)隊(duì)和用戶體驗(yàn)的團(tuán)隊(duì)。在未來(lái),融合表情、動(dòng)作等蘊(yùn)含高語(yǔ)境的模態(tài)識(shí)別,或許也會(huì)成為人機(jī)交互的一個(gè)重點(diǎn)攻關(guān)方向。
在此,引用鄢志杰在年初的技術(shù)預(yù)測(cè)做為結(jié)尾:
「從 2018 年開(kāi)始,人類與機(jī)器的交互方式將開(kāi)始徹底擺脫任何形式的交互界面,變得更接近人與人的交互。這背后是對(duì)聽(tīng)覺(jué)、視覺(jué)、觸覺(jué),甚至味覺(jué)等多模態(tài)技術(shù)的全面融合。機(jī)器將能感知到人類在語(yǔ)氣語(yǔ)態(tài)、肢體動(dòng)作、面部表情等更豐富的表達(dá)方式,從而更智能的理解人類的意圖。生活空間、交通空間、工作空間將是三個(gè)首先落地領(lǐng)域?!?/p>
附鄢志杰簡(jiǎn)介:
阿里巴巴達(dá)摩院-機(jī)器智能技術(shù)研究院語(yǔ)音交互智能實(shí)驗(yàn)室首席科學(xué)家。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語(yǔ)音組主管研究員。畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)訊飛語(yǔ)音實(shí)驗(yàn)室,獲博士學(xué)位。研究領(lǐng)域主要包括語(yǔ)音識(shí)別、語(yǔ)音合成、說(shuō)話人識(shí)別驗(yàn)證、OCR/ 手寫(xiě)識(shí)別、機(jī)器學(xué)習(xí)算法等。在語(yǔ)音及文本識(shí)別領(lǐng)域頂級(jí)學(xué)術(shù)期刊及會(huì)議發(fā)表多篇論文,長(zhǎng)期擔(dān)任語(yǔ)音領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議及期刊的專家評(píng)審,并擁有多項(xiàng)美國(guó)及 PCT 專利,目前是 IEEE senior member。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。