亞馬遜 Echo大獲成功，遠(yuǎn)場(chǎng)語音交互技術(shù)在其中究竟扮演了什么角色？ | 深度

本文作者：李智勇

編輯：谷磊

2017-05-11 18:34

導(dǎo)語：李智勇老師的這篇文章不僅揭示了遠(yuǎn)場(chǎng)語音交互的核心技術(shù)，還對(duì)商業(yè)化落地的路徑進(jìn)行了深入的解讀，無論是語音交互的技術(shù)人員，還是產(chǎn)品經(jīng)理，都值得一讀。

雷鋒網(wǎng)按：本文作者李智勇，聲智科技聯(lián)合創(chuàng)始人，十年棧道程序員，有一個(gè)好玩的公號(hào)：zuomoshi（琢磨事）。本文為雷鋒網(wǎng)首發(fā)文章。

關(guān)于遠(yuǎn)場(chǎng)語音交互，聲智科技 CEO 陳孝良告訴雷鋒網(wǎng)：“語音是最簡(jiǎn)單、最自然的人機(jī)交互方式，同時(shí)也是技術(shù)難度最大的交互方式，特別是語音交互從近場(chǎng)走向遠(yuǎn)場(chǎng)落地到真實(shí)場(chǎng)景，必須考慮噪聲、混響、回聲等聲學(xué)問題，以及數(shù)據(jù)差異引入的機(jī)器學(xué)習(xí)模型問題，這些都是保證自由人機(jī)交互的核心技術(shù)。”

但是網(wǎng)絡(luò)上橫跨聲學(xué)和計(jì)算機(jī)學(xué)科的教育資源太少，李智勇老師的這篇文章不僅揭示了遠(yuǎn)場(chǎng)語音交互的核心技術(shù)，還對(duì)商業(yè)化落地的路徑進(jìn)行了深入的解讀，無論是語音交互的技術(shù)人員，還是產(chǎn)品經(jīng)理，都值得一讀。

手機(jī)之后國外各大巨頭非常罕見的步調(diào)一致的在做同一件事情：智能音箱。而這一切最初的驅(qū)動(dòng)力來自于Amazon Echo，但有意思的事情是Amazon Echo這產(chǎn)品根本沒做任何的功能上的創(chuàng)新，聽歌、看新聞、設(shè)鬧鐘、說笑話、控制家電等所有東西都可以在手機(jī)上找到替代品，它唯一的變化只是把語音交互的方式從近場(chǎng)升級(jí)為遠(yuǎn)場(chǎng)，并把精度和速度打磨到非常優(yōu)秀的程度。只是這么一點(diǎn)點(diǎn)變化，似乎就要?jiǎng)?chuàng)造一個(gè)無比巨大的行業(yè)，那遠(yuǎn)場(chǎng)語音交互為什么有這么大的威力？

語音交互等價(jià)于遠(yuǎn)場(chǎng)語音交互

極端的講法是世界上并不存在一種方式叫近場(chǎng)語音交互，語音交互基本等價(jià)于遠(yuǎn)場(chǎng)語音交互。事實(shí)證明過去很多年里各種近場(chǎng)語音交互的嘗試（比如Siri）并沒獲得很好的進(jìn)展，甚至簡(jiǎn)單實(shí)用的語音輸入法也沒能成為主流。從應(yīng)用場(chǎng)景來看遠(yuǎn)場(chǎng)和近場(chǎng)的核心差別是拉開和語音設(shè)備的距離后，雙手再也沒用了。這樣和觸屏就可以徹底的差異化，可以徹底的發(fā)揮語音的快捷優(yōu)勢(shì)。想象下面的場(chǎng)景：

在微信里給一個(gè)人打視頻電話，如果用手機(jī)那是下面這樣的過程