丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

專訪鄢志杰:阿里全面進軍 IoT,語音交互能做什么、將做什么?

本文作者: 奕欣 2018-04-05 10:42
導語:阿里巴巴達摩院的語音交互智能實驗室正在嘗試架起「人機交互」和「個性化服務」的橋梁。而上升到技術層面來總結,語音交互智能將成為IoT與互聯(lián)網(wǎng)內容和服務的橋梁。

在 3 月底的云棲大會上,阿里云總裁胡曉明在會上做出戰(zhàn)略宣布:阿里巴巴全面進軍 IoT。這是繼電商、金融、物流、云計算之后的一條新的主賽道。

阿里巴巴希望數(shù)字化整個物理世界,并作為 IoT 基礎設施的搭建者而存在。這樣一層「新身份」也讓不少人為之振奮,認為「5 年內 100 億設備」的未來將成為阿里云 IoT 事業(yè)部總經(jīng)理庫偉所說的「萬物智聯(lián)」的全新世界。

在阿里巴巴這樣的企業(yè)戰(zhàn)略規(guī)劃之下,以語音交互智能實驗室為代表的眾多研究部門如何明確自己的定位,并助力阿里巴巴更好地領跑這一賽道,也成為一個亟待解答的問題。

在 3 月底舉辦的首屆 AITech 峰會上,阿里巴巴達摩院-機器智能技術研究院的語音交互智能實驗室首席科學家鄢志杰做了題為《IoT 時代的語音交互智能》的主題演講。

專訪鄢志杰:阿里全面進軍 IoT,語音交互能做什么、將做什么?

圖via 新一代人工智能聯(lián)盟

計算是心臟,AI 是大腦,IoT 是神經(jīng);這是阿里巴巴數(shù)字化進程中發(fā)揮重要作用的三個「器官」。那么作為「阿里集團乃至螞蟻金服語音技術的研究開發(fā)和產品部門」,鄢志杰所在的語音交互智能實驗室在 IoT 中擔任怎樣的角色?

鄢志杰認為,語音是最自然的與 IoT 交互的方式。首先它無需學習。用語言交流是人類所具備的一種獨特能力;其次,語音「hands-free」、「eyes-free」的特點也讓教育用戶的成本幾乎能夠降到最低。

「語音交互智能是 AI 與大眾最近的接觸。」鄢志杰如是說。不論是 BB-8 還是 R2-D2,能與機器順暢自由地交流一直是科幻作品的美好想象。得益于 AI 近年來的突破性進展,以語音、計算機視覺為代表的感知智能;與語義理解、語義生成的認知智能,技術的飛躍有目共睹。

在近年來,業(yè)界也推出了以聊天機器人、智能音箱為代表的語音交互產品,也讓這一愿景不再遙遠。而智能語音交互也已跨越了「能用」的基本訴求,正在逐步向「好用」邁進。

阿里巴巴的語音交互智能實驗室也正在嘗試架起「人機交互」和「個性化服務」的橋梁。而上升到技術層面來總結,語音交互智能將成為 IoT 與互聯(lián)網(wǎng)內容和服務的橋梁。

以 NUI 自然交互平臺為例,背靠「云+端基礎設施」和相應的開發(fā)者社群,語音交互智能得以從意圖理解、對話管理、問答系統(tǒng)、聊天系統(tǒng)、推薦廣告和數(shù)據(jù)閉環(huán)展開對自然輸入輸出的技術發(fā)現(xiàn),并連接不同的功能選項(如出行、購物、天氣等)和相應的 IoT 設備(如手機、汽車等)。

而從語音交互智能實驗室的研究切入點來分析,一個完整的交互過程有兩個主要環(huán)節(jié),語音進和語音出。

從用戶說第一句話開始,首先涉及的是麥克風采集傳感器的硬件技術,到麥克風陣列的信號處理;在清晰采集到語音信息之后,系統(tǒng)需要對語音進行正確識別;再者,對語義做出正確的判斷和理解,并結合用戶的需求獲取相應的回復;最終,合成語音達成輸出,反饋給用戶。鄢志杰還補充道,話題背后的相關數(shù)據(jù)積累,也作為整個交互過程的一個調用環(huán)節(jié)而存在。

語音交互智能實驗室每半年會迭代一次聲學模型,原來的 BLSTM(雙向長短時記憶單元,Bidirectional LSTM)到后來的 Low frame rate latency controlled 的 BLSTM,在精度上已經(jīng)有了很大飛躍。而今年即將在國際聲學會議 ICASSP 2018 上做 oral 報告的 DFSMN(深度前饋序列記憶網(wǎng)絡)。DFSMN 使用基于 BLSTM 的統(tǒng)計參數(shù)語音合成系統(tǒng)作為基線系統(tǒng),采用廣泛使用的跳躍連接技術,在執(zhí)行反向傳播算法時,梯度可以繞過非線性變換。鄢志杰告訴雷鋒網(wǎng) AI 科技評論,這一技術已經(jīng)在阿里巴巴的實際業(yè)務中發(fā)光發(fā)熱。

除了典型的 IoT 產品,如天貓音箱、榮威智聯(lián)網(wǎng)汽車、天貓盒子、海爾人工智能電視外,鄢志杰還提及了 IoT 在公共場所服務上的應用案例。去年 12 月,上海地鐵與阿里云攜手推出了上海地鐵語音售票機。

專訪鄢志杰:阿里全面進軍 IoT,語音交互能做什么、將做什么?

理論要應用到 IoT 實際層面,也有著不少門檻和障礙。在實際生活的體驗和接觸中不難發(fā)現(xiàn),市面上的語音交互產品多應用于家庭、辦公等安靜場景中,強噪音場景下的技術落地存在諸多難點。

  • 首先是識別「誰在說話」的問題。語音交互智能實驗室結合攝像頭帶來的視覺數(shù)據(jù),結合語音輸入的信息,能夠進一步確認說話者及相應的指令。視覺和語音的多模態(tài)交互配合能夠讓識別率更加精準,進一步提升強噪音場景的應用能力。

  • 解決了「誰在說話」的問題,下一步則是更好地保證語音輸入的信息完整。在排隊買票的過程中,如何精準識別買票者的語音信息,而盡可能避免后方排隊者帶來的噪聲干擾,也是困擾語音交互智能實驗室的又一問題。通過改造麥克風陣列的立體布局,將關注點更多地定位在站在售票機前說話者身上,則成為了解決這一方法的有效手段。

而相應地,上海地鐵的硬件設施也進行了一次「大改造」,增加了光學攝像頭及面板背后的麥克風陣列,這也涉及與以傳感器為代表的硬件廠商的合作。

鄢志杰也對雷鋒網(wǎng) AI 科技評論表示,從 IoT 的層面上看,語音交互智能實驗室可能原本只需要研究純軟件的技術,但進軍 IoT 賽道后,包括機器智能技術研究院都要下沉到硬件,團隊的擴張有很大一部分源于聲學硬件人才的加盟,如雷鋒網(wǎng) AI 科技評論曾經(jīng)采訪過的馮津偉博士。

但不可忽視的一個現(xiàn)狀是,語音尚未成為主流的交互方式。鄢志杰經(jīng)常在內部分享提一句話,「今天語音交互技術的真實水平,與用戶的期待、業(yè)界的 PR 存在明顯的鴻溝?!?/strong>針對這一點,鄢志杰認為可能有兩個方式可以去著力。

  • 首先是良好的交互設計。

交互設計本身是一門科學,它能夠通過用戶調研將主觀的體驗觀感轉化為客觀的指標。這樣一來,即使技術水平在短時間內無法有大的提升,但可以以巧妙的方式將技術的缺陷掩蓋過去。在《夏洛特煩惱》里有一個情節(jié),沈騰告訴老大爺,自己要找馬冬梅。老大爺沒聽清,反問,「馬什么梅」。這就是一個典型的交互案例。

如果系統(tǒng)在識別時沒有完全聽清,對正確理解用戶的意圖沒有把握時,聰明的交互設計可以選擇避免讓用戶直接重復所說過的話,而是換一種角度讓用戶再次重申自己的意圖。

  • 其次是如何找到應用場景,通過有效(useful)的交互結果讓用戶產生良好的反饋(reward),并最終培養(yǎng)用戶習慣。

在汽車內的語音交互就是一個重要的強場景。在車載系統(tǒng)上用語音輸入想去的地點,在技術成熟度和交互體驗上都有了極大的提升,這也促使了正循環(huán),逐步淘汰原有的鍵盤輸入方式。如何暢想 IoT 可能與語音交互產生關聯(lián)的場景?鄢志杰表示,「當萬物互聯(lián),或者說萬物智聯(lián)真正走向縱深,在你一天所可能接觸的任何場景都一定會有相應的 IoT 設備。」

從商業(yè)化的角度來看,在 IoT 時代下的語音交互智能,需要將互聯(lián)網(wǎng)內容和服務通過 IoT 觸達用戶形成商業(yè)閉環(huán),并做好端和云的布局。

鄢志杰也在會上提及了阿里巴巴的研究與實踐,主要分為三個方面。

  • 構建有深度、全鏈路、多模態(tài)的關鍵技術棧;

  • 其次,產出低成本、易復制的智能化 IoT 方案;

  • 再者,以打造標桿硬件為「手段」,以基礎平臺建設為「目的」。天貓音箱等產品和 NUI 自然交互平臺就是明證。

鄢志杰反復重申的多模態(tài)交互概念,也讓語音交互智能實驗室不再局限于語音層面。這也就意味著,它與其他技術團隊的交流也會變得越來越頻繁和深入。鄢志杰表示,目前主要協(xié)作較多的還是計算機視覺團隊和用戶體驗的團隊。在未來,融合表情、動作等蘊含高語境的模態(tài)識別,或許也會成為人機交互的一個重點攻關方向。

在此,引用鄢志杰在年初的技術預測做為結尾:

「從 2018 年開始,人類與機器的交互方式將開始徹底擺脫任何形式的交互界面,變得更接近人與人的交互。這背后是對聽覺、視覺、觸覺,甚至味覺等多模態(tài)技術的全面融合。機器將能感知到人類在語氣語態(tài)、肢體動作、面部表情等更豐富的表達方式,從而更智能的理解人類的意圖。生活空間、交通空間、工作空間將是三個首先落地領域?!?/p>

附鄢志杰簡介:

阿里巴巴達摩院-機器智能技術研究院語音交互智能實驗室首席科學家。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業(yè)于中國科學技術大學訊飛語音實驗室,獲博士學位。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領域頂級學術期刊及會議發(fā)表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及 PCT 專利,目前是 IEEE senior member。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

專訪鄢志杰:阿里全面進軍 IoT,語音交互能做什么、將做什么?

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄