丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給李智勇
發(fā)送

0

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

本文作者: 李智勇 編輯:谷磊 2017-05-11 18:34
導(dǎo)語:李智勇老師的這篇文章不僅揭示了遠(yuǎn)場(chǎng)語音交互的核心技術(shù),還對(duì)商業(yè)化落地的路徑進(jìn)行了深入的解讀,無論是語音交互的技術(shù)人員,還是產(chǎn)品經(jīng)理,都值得一讀。

雷鋒網(wǎng)按:本文作者李智勇,聲智科技聯(lián)合創(chuàng)始人,十年棧道程序員,有一個(gè)好玩的公號(hào):zuomoshi(琢磨事)。本文為雷鋒網(wǎng)首發(fā)文章。

關(guān)于遠(yuǎn)場(chǎng)語音交互,聲智科技 CEO 陳孝良告訴雷鋒網(wǎng):“語音是最簡(jiǎn)單、最自然的人機(jī)交互方式,同時(shí)也是技術(shù)難度最大的交互方式,特別是語音交互從近場(chǎng)走向遠(yuǎn)場(chǎng)落地到真實(shí)場(chǎng)景,必須考慮噪聲、混響、回聲等聲學(xué)問題,以及數(shù)據(jù)差異引入的機(jī)器學(xué)習(xí)模型問題,這些都是保證自由人機(jī)交互的核心技術(shù)。”


但是網(wǎng)絡(luò)上橫跨聲學(xué)和計(jì)算機(jī)學(xué)科的教育資源太少,李智勇老師的這篇文章不僅揭示了遠(yuǎn)場(chǎng)語音交互的核心技術(shù),還對(duì)商業(yè)化落地的路徑進(jìn)行了深入的解讀,無論是語音交互的技術(shù)人員,還是產(chǎn)品經(jīng)理,都值得一讀。

手機(jī)之后國外各大巨頭非常罕見的步調(diào)一致的在做同一件事情:智能音箱。而這一切最初的驅(qū)動(dòng)力來自于Amazon Echo,但有意思的事情是Amazon Echo這產(chǎn)品根本沒做任何的功能上的創(chuàng)新,聽歌、看新聞、設(shè)鬧鐘、說笑話、控制家電等所有東西都可以在手機(jī)上找到替代品,它唯一的變化只是把語音交互的方式從近場(chǎng)升級(jí)為遠(yuǎn)場(chǎng),并把精度和速度打磨到非常優(yōu)秀的程度。只是這么一點(diǎn)點(diǎn)變化,似乎就要?jiǎng)?chuàng)造一個(gè)無比巨大的行業(yè),那遠(yuǎn)場(chǎng)語音交互為什么有這么大的威力?

語音交互等價(jià)于遠(yuǎn)場(chǎng)語音交互

極端的講法是世界上并不存在一種方式叫近場(chǎng)語音交互,語音交互基本等價(jià)于遠(yuǎn)場(chǎng)語音交互。事實(shí)證明過去很多年里各種近場(chǎng)語音交互的嘗試(比如Siri)并沒獲得很好的進(jìn)展,甚至簡(jiǎn)單實(shí)用的語音輸入法也沒能成為主流。從應(yīng)用場(chǎng)景來看遠(yuǎn)場(chǎng)和近場(chǎng)的核心差別是拉開和語音設(shè)備的距離后,雙手再也沒用了。這樣和觸屏就可以徹底的差異化,可以徹底的發(fā)揮語音的快捷優(yōu)勢(shì)。想象下面的場(chǎng)景:

在微信里給一個(gè)人打視頻電話,如果用手機(jī)那是下面這樣的過程

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

如果變成遠(yuǎn)場(chǎng)語音,那核心步驟會(huì)變成兩個(gè)

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

顯然在這兩種場(chǎng)景下便利程度是完全不一樣的,這種便利理論上講在近場(chǎng)的情形下同樣存在,但核心點(diǎn)在于近場(chǎng)時(shí)就需要挑戰(zhàn)用戶根深蒂固的觸屏習(xí)慣,這很難。觸屏雖然大流行,但顯然并沒能在筆記本上挑戰(zhàn)鍵盤鼠標(biāo)的既有地位。這不單是偏好問題,也與各種應(yīng)用與特定交互方式的綁定有關(guān)。觸屏雖然好用,但并不能完全在Office上用起來,所以如果Office根深蒂固,那么鍵盤鼠標(biāo)就根深蒂固。所以我們說,語音交互基本等價(jià)于遠(yuǎn)場(chǎng)語音交互,一旦它真的成為主流交互方式,培養(yǎng)了用戶習(xí)慣,那反過來才可能在近場(chǎng)的場(chǎng)景(比如近場(chǎng)的Siri)下占有一席之地。

遠(yuǎn)場(chǎng)語音交互的核心技術(shù)

遠(yuǎn)場(chǎng)語音交互如果變的無處不在,那Amazon Alexa(以及同類產(chǎn)品)會(huì)變成新一代的Android,那個(gè)時(shí)候整個(gè)生態(tài)會(huì)像下面這樣:

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

這個(gè)時(shí)候Alexa這樣的系統(tǒng)同時(shí)覆蓋了傳統(tǒng)上Android和應(yīng)用商店的角色,在其上面則會(huì)有新的今日頭條、新的O2O等。而如果要把Alexa所依托的技術(shù)進(jìn)行細(xì)分的話,那么基本上是三層:

  • 前端的聲學(xué)部分(算法+陣列)

  • 識(shí)別

  • NLU

這樣一來遠(yuǎn)場(chǎng)語音交互就正好面臨一大一小兩個(gè)瓶頸:

 亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

  • 第一個(gè)瓶頸是眼下就要解決的問題,即在語義仍然有限制的條件下,打造偏命令控制的產(chǎn)品,這個(gè)時(shí)候產(chǎn)品的ID很難擬人化(想想Echo,Airpods這些產(chǎn)品),一旦擬人用戶的潛在期望就會(huì)無限拔高,你也就不可能做出非常滿足用戶體驗(yàn)的產(chǎn)品。

  • 第二個(gè)瓶頸則具有一定的不確定性,具有探索性質(zhì),我們?nèi)匀贿€不知道什么時(shí)候自然語言理解中可以體現(xiàn)出真的智能,但確實(shí)只有這點(diǎn)做了突破,并且同計(jì)算機(jī)視覺進(jìn)行融合才能真的做好擬人的機(jī)器人。

而為了解決第一個(gè)瓶頸事實(shí)上需要做好的事情有兩個(gè):

  • 一個(gè)是前端聲學(xué)算法軟硬件的持續(xù)優(yōu)化

  • 一個(gè)是通過獲取的數(shù)據(jù)重新訓(xùn)練云端的ASR

這個(gè)過程可以用下圖橙色的部分來概括。

 亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

上述這個(gè)看著并不太長(zhǎng)的鏈條其實(shí)復(fù)雜度非常高,它即跨越不同的學(xué)科(聲學(xué)部分屬于經(jīng)典物理,識(shí)別部分則屬于CS),也需要打穿軟硬件。

在算法層面只是前端就需要處理大量經(jīng)典問題,比如降噪、去混響、回聲抵消、Beamforming等。加不加這些算法的音頻信號(hào)差異極大,如:

 亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度   亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

(具體效果試聽可以參照http://soundai.com/demo.html)

而我們經(jīng)常說的麥克風(fēng)陣列即使拋開算法不論,單只在硬件層次上也遠(yuǎn)不是標(biāo)準(zhǔn)品:

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

上圖是一款強(qiáng)調(diào)通用性的麥克風(fēng)陣列,通過USB連接可以隨便連接到筆記本、PAD、手機(jī)上進(jìn)行使用。同樣的陣列還可以做成線性、L型、球形,最終的目的都是匹配特定的場(chǎng)景,讓最終遠(yuǎn)場(chǎng)交互的精度最優(yōu)。

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

如果進(jìn)一步下探,那就會(huì)出現(xiàn)更為底層的選擇,比如是用駐極體麥克風(fēng)還是用MEMS的,是用數(shù)字的還是用模擬的。

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

再進(jìn)一步挖掘,麥克風(fēng)從特性上還可以進(jìn)一步細(xì)分,比如:

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

所有上面這些點(diǎn)如果不能一一理順,那就沒法給用戶輸出一種綜合性的體驗(yàn),單點(diǎn)最優(yōu)在遠(yuǎn)場(chǎng)語音交互這里價(jià)值很小,相當(dāng)于必要不充分條件。只有能夠綜合,并且能夠優(yōu)化單點(diǎn)才真的能夠解決當(dāng)前產(chǎn)品落地中的實(shí)際問題。

(編輯友情提醒:聲智科技即將推出的“遠(yuǎn)場(chǎng)語音交互課程”中,將會(huì)對(duì)Echo進(jìn)行拆解并做技術(shù)剖析,有興趣深入了解的,可以關(guān)注一下。傳送門:實(shí)戰(zhàn)特訓(xùn):遠(yuǎn)場(chǎng)語音交互技術(shù)

技術(shù)和商業(yè)上的正反饋

幾乎所有大公司都感受到了遠(yuǎn)場(chǎng)語音交互背后的價(jià)值,所以紛紛試水:繼亞馬遜、Google之后,微軟宣布了自己的智能音箱產(chǎn)品,預(yù)計(jì)蘋果也會(huì)宣布自己的相似產(chǎn)品。但是遠(yuǎn)場(chǎng)語音交互的落地卻可能比大家期望的要慢。核心點(diǎn)就在于技術(shù)-商業(yè)上的正反饋需要一定的啟動(dòng)周期。顯然的技術(shù)不好用,產(chǎn)品體驗(yàn)就不好;而反過來產(chǎn)品沒銷量技術(shù)就缺乏打磨的場(chǎng)景,內(nèi)容配套也就不會(huì)跟上。這種互鎖狀態(tài)就會(huì)形成一個(gè)冷啟動(dòng)周期,在這個(gè)周期里做技術(shù)的公司打磨自己的技術(shù),在沒那么大量的產(chǎn)品上落地,產(chǎn)品公司則接受技術(shù)現(xiàn)實(shí),打磨自己的產(chǎn)品。這樣一來整個(gè)遠(yuǎn)場(chǎng)語音交互很可能會(huì)跑下面的曲線:

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

這個(gè)過程是可以和過去很多商業(yè)現(xiàn)實(shí)驗(yàn)證的,比如2007年iPhone發(fā)布,小米手機(jī)則要遲到2011年,這期間的4年可以看成是智能手機(jī)的啟動(dòng)期,一旦這個(gè)市場(chǎng)啟動(dòng)后則進(jìn)入一個(gè)高速增長(zhǎng)期,小米手機(jī)的銷量迅速從2012的700多萬臺(tái)增加到2014年的6000多萬臺(tái)。

遠(yuǎn)場(chǎng)語音交互的這個(gè)技術(shù)-商業(yè)正反饋當(dāng)前還處在非常初期的階段,亞馬遜的Echo(各種型號(hào))如果2017年的銷量真的逼近2000萬臺(tái),那基本上可以認(rèn)為在美國,技術(shù)-商業(yè)的正反饋第一回合完成。而在國內(nèi),同品類產(chǎn)品銷量都還處在幾萬、十幾萬量級(jí)的水平,這個(gè)技術(shù)-商業(yè)的正反饋遠(yuǎn)未完成。

當(dāng)然這并非壞事,在格局已定的市場(chǎng)上,后來者是沒有機(jī)會(huì)的;只有在這種充滿未知的領(lǐng)域上,創(chuàng)業(yè)者才真的有顛覆性的機(jī)會(huì)。如果回退到20年前,聯(lián)想、門戶相對(duì)于現(xiàn)在的BAT都是巨無霸型公司,要資源有資源,要渠道有渠道,要人有人但很有意思的事情是BAT最終崛起了。

小結(jié)

手機(jī)的觸屏把很多人塑造成了低頭族,遠(yuǎn)場(chǎng)語音交互估計(jì)會(huì)塑造出許多和機(jī)器說話的人。那時(shí)候語言不再只是人和人的交互手段。

雷鋒網(wǎng)注:現(xiàn)在雷鋒網(wǎng) mooc.ai 已推出了遠(yuǎn)場(chǎng)語音交互技術(shù)的實(shí)戰(zhàn)特訓(xùn)班,由語音交互專家、聲智科技 CTO 馮大航主講,為你剖析語音信號(hào)處理,麥克風(fēng)陣列信號(hào)處理,語音識(shí)別中的關(guān)鍵技術(shù)及實(shí)用技巧。為了鼓勵(lì)更多人投入語音領(lǐng)域,聲智科技提供價(jià)值1999元的 SAI_MICA_41T-UI、USB 版本的開發(fā)版給學(xué)員,增強(qiáng)實(shí)操練習(xí)。5月17日即將開課,感興趣的同學(xué)可點(diǎn)擊鏈接報(bào)名。

(完)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

亞馬遜 Echo大獲成功,遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色? | 深度

分享:
相關(guān)文章

專欄作者

十年棧道程序員,有一個(gè)好玩的公號(hào):zuomoshi(琢磨事)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說