3
本文作者: 陳孝良 | 2017-02-21 09:52 |
雷鋒網(wǎng)按:本文作者袁媛,來自微信公眾號(hào)“聲學(xué)在線”(ID:soundonline)。
1、國(guó)內(nèi)外巨頭相繼進(jìn)入語音交互領(lǐng)域
去年10月份,Intel與科大訊飛宣布合作共同研發(fā)AI芯片,該芯片將麥克風(fēng)陣列、遠(yuǎn)場(chǎng)語音識(shí)別等功能集成到SOC當(dāng)中,形成完整的遠(yuǎn)場(chǎng)語音交互鏈條,此次合作正式宣告Intel也將進(jìn)入智能語音交互市場(chǎng)。
此前,科大訊飛的麥克風(fēng)陣列等硬件一直委托國(guó)內(nèi)的全志科技研發(fā),全志科技顯然是ARM陣營(yíng)的追隨者。然而,根據(jù)Intel內(nèi)部人員的透露,科大訊飛對(duì)于和國(guó)內(nèi)芯片廠商的合作并不完全滿意,語音交互市場(chǎng)競(jìng)爭(zhēng)激烈,而國(guó)內(nèi)初創(chuàng)公司如聲智科技等,在麥克風(fēng)陣列技術(shù)和方案方面帶給訊飛不小的壓力,這近一步促成了科大訊飛與國(guó)外芯片巨頭Intel的聯(lián)盟,希望與Intel聯(lián)合的芯片計(jì)劃從根本上扭轉(zhuǎn)這個(gè)趨勢(shì)。
今年2月份,百度宣布全資收購(gòu)渡鴉科技,創(chuàng)始人呂騁攜團(tuán)隊(duì)正式加盟百度,并出任百度智能家居硬件總經(jīng)理,向百度集團(tuán)總裁和首席運(yùn)營(yíng)官陸奇匯報(bào)。陸奇同時(shí)宣布原度秘團(tuán)隊(duì)升級(jí)為度秘事業(yè)部,加速人工智能布局。陸奇指出,憑借語音與對(duì)話技術(shù)的優(yōu)勢(shì),百度在引領(lǐng)新一代人機(jī)交互平臺(tái)上將擁有巨大的機(jī)會(huì),自然語言和其他智能交互方式有可能出現(xiàn)在從手機(jī)到家居的每一個(gè)設(shè)備中。百度通告還顯示,百度高級(jí)總監(jiān)景鯤和首席架構(gòu)師朱凱華將擔(dān)任事業(yè)部的核心管理層。
而近日,據(jù)彭博社報(bào)道,華為在深圳有一個(gè)超過100名工程師的團(tuán)隊(duì)正在開發(fā)語音助手服務(wù),開發(fā)工作目前還處于早期階段。華為語音助手項(xiàng)目目標(biāo)宏大,瞄準(zhǔn)蘋果Siri、亞馬遜Alexa和Google Assistant。華為語音助手定位中文,面向國(guó)內(nèi)用戶,在海外市場(chǎng)將繼續(xù)與谷歌和亞馬遜合作。
同樣,三星在語音助手領(lǐng)域更是積極布局,2016年10月份收購(gòu)了Viv,同時(shí)以80億美元收購(gòu)哈曼國(guó)際,隨后又聯(lián)合GPU巨頭英偉達(dá)投資SoundHound。SoundHound是一家致力于語音識(shí)別與搜索的初創(chuàng)科技公司,最初要服務(wù)是提供和音樂有關(guān)的信息。
Facebook 創(chuàng)始人扎克伯格也在2016年自己花費(fèi) 100 小時(shí)完成了 AI 管家 Jarvis 的開發(fā)。扎克伯格及家人可用語音向手機(jī)或計(jì)算機(jī)下達(dá)語音指令,實(shí)現(xiàn)燈光、溫度、電器、音樂和安防設(shè)備的控制操作。Jarvis系統(tǒng)具備的學(xué)習(xí)功能可使其識(shí)別主人的偏好模式、學(xué)習(xí)新詞匯與相關(guān)概念。
隨著亞馬遜、谷歌、微軟相繼在語音交互設(shè)備上發(fā)力,市場(chǎng)已經(jīng)看到了這一領(lǐng)域的無限潛力。語音作為人類交流最自然的方式,比文字和圖像更具天然的優(yōu)勢(shì)。尤其是亞馬遜Echo的成功,把人們帶到了了無屏?xí)r代的門檻。日前,亞馬遜創(chuàng)始人貝佐斯接受專訪提到,Alexa已經(jīng)成為亞馬遜的核心戰(zhàn)略之一,其估值可能接近百億美元。
而蘋果在這場(chǎng)戰(zhàn)爭(zhēng)中則另辟蹊徑,選擇從智能耳機(jī)入手。近日市場(chǎng)調(diào)研公司Slice Intelligence發(fā)布的美國(guó)無線耳機(jī)市場(chǎng)線上銷售情況報(bào)告也證實(shí)了這一點(diǎn)。短短的一個(gè)月內(nèi),蘋果AirPods就異軍突起占據(jù)了美國(guó)無線耳機(jī)26%的市場(chǎng)份額。該報(bào)告顯示,AirPods發(fā)售前,無線耳機(jī)市場(chǎng)基本由Beats和Bose占據(jù)主導(dǎo)地位;但在AirPods發(fā)售后,市面上前十大無線耳機(jī)品牌中,除了Bose的市場(chǎng)份額有所增長(zhǎng)外,其他品牌地市場(chǎng)占有率均不同程度地縮水,其中甚至包括曾經(jīng)稱霸無線耳機(jī)市場(chǎng)多年的AirPods“同門師兄”Beats。
至此,幾乎國(guó)內(nèi)外所有IT巨頭都相繼進(jìn)入了語音交互市場(chǎng),包括谷歌、蘋果、微軟、亞馬遜、Facebook、三星、阿里、百度、騰訊、華為、科大訊飛等等,國(guó)內(nèi)也陸續(xù)出現(xiàn)了思必馳、云知聲、聲智科技、三角獸、驀然、Rokid等創(chuàng)業(yè)公司,語音助手成為了非?;鸨脑掝},幾乎掀起了全行業(yè)研究亞馬遜Echo的熱潮。
2、語音交互市場(chǎng)趨勢(shì)和規(guī)模已被普遍認(rèn)可
VoiceLabs近日發(fā)布了《2017年語音報(bào)告》(The 2017 Voice Report)。報(bào)告對(duì)亞馬遜Alexa和谷歌Google Home的開發(fā)者和消費(fèi)者進(jìn)行了調(diào)查,總結(jié)了目前的智能語音市場(chǎng),并對(duì)2017年的趨勢(shì)做出預(yù)測(cè)。2017年,語音產(chǎn)業(yè)結(jié)構(gòu)將按照硬件產(chǎn)品、AI軟件、語音應(yīng)用Apps、生態(tài)系統(tǒng)服務(wù)相結(jié)合的架構(gòu)繼續(xù)向前發(fā)展。預(yù)計(jì)2450萬臺(tái)以語音為主要交互方式的智能硬件產(chǎn)品發(fā)貨,市場(chǎng)總量將達(dá)到3300萬臺(tái),市場(chǎng)規(guī)模超過200億美元。而對(duì)各種智能語音助手以及語音交互app而言,競(jìng)爭(zhēng)將更加激烈。
亞馬遜于 2014 年底推出智能音箱 Echo,如今已成為美國(guó)使用最廣的智能家居產(chǎn)品。根據(jù) CIRP的報(bào)告,自 2014 年 11 月發(fā)布到 2017 年 1 月,亞馬遜 Echo 系列(包括 Echo、EchoDot 和 Tap)用戶已達(dá)到 820 萬,同比增長(zhǎng) 2 倍,較 2016 年 11 月時(shí)的數(shù)據(jù)增長(zhǎng) 60%。而公司 2017 年的銷量目標(biāo)是 1000 萬。銷量激增的背后是 Echo 正迅速?gòu)脑缙谟脩?的小眾圈子進(jìn)入大眾市場(chǎng)。
從產(chǎn)品銷量,技術(shù)進(jìn)展,到相關(guān)創(chuàng)業(yè)公司的興起,以及資本市場(chǎng)的頻繁運(yùn)作,種種跡象表明,智能語音交互市場(chǎng)的趨勢(shì)已經(jīng)明朗,語音是AI領(lǐng)域中最先落地的應(yīng)用之一。這從電子技術(shù)發(fā)展歷程中也可參考類比,以語音為核心的電話是20世紀(jì)最偉大的發(fā)明之一,而其后相當(dāng)長(zhǎng)的時(shí)間才出現(xiàn)以視頻為主的電視,移動(dòng)電話同樣遵循了這個(gè)規(guī)律。從物理層面來看,語音信號(hào)無論是從數(shù)據(jù)量還是計(jì)算量方面都低于視頻信號(hào),這在趨勢(shì)剛興起的時(shí)候,更容易適用于遠(yuǎn)未標(biāo)準(zhǔn)化的硬件體系,但是隨著技術(shù)的發(fā)展,多傳感的融合仍然是根本趨勢(shì)。
3、語音交互的全球競(jìng)爭(zhēng)態(tài)勢(shì)初顯
VoiceLabs 預(yù)測(cè),亞馬遜或谷歌今年會(huì)通過類似手機(jī)上的推送通知來加強(qiáng)新應(yīng)用的分發(fā),并試圖解決用戶留存率低的問題,2017 年也將是語音應(yīng)用貨幣化的起步元年。當(dāng)智能語音助手充分了解“主人”需求之后,應(yīng)有能力在合適的時(shí)間主動(dòng)提示合適的應(yīng)用,既提高用戶的使用價(jià)值,又解決了語音應(yīng)用的分發(fā)留存問題。
從全球來看,亞馬遜Echo最著名也最有競(jìng)爭(zhēng)力的對(duì)手當(dāng)屬谷歌的Google Home。Google Home自2016年推出以來,一直與Echo明爭(zhēng)暗斗,爭(zhēng)搶智能家居中樞的角色。通過亞馬遜和谷歌在美國(guó)“超級(jí)碗”投放的電視廣告就能體會(huì)到這種競(jìng)爭(zhēng)的激烈,兩家不約而同地打出了溫馨家庭“懶生活”牌,突出產(chǎn)品智能管家的功能。
美國(guó)市場(chǎng)調(diào)查機(jī)構(gòu)Slice Intelligence近日發(fā)布的一份報(bào)告,對(duì)在線購(gòu)買Echo消費(fèi)者的性別、年齡、購(gòu)物習(xí)慣等特征進(jìn)行了統(tǒng)計(jì)。某種層面上,這意味著Echo在消費(fèi)者眼中不再是只有極客和技術(shù)控才感興趣的“玩意兒”,而是獲得廣泛認(rèn)同的大眾消費(fèi)品。當(dāng)電子消費(fèi)品獲得了女性用戶的認(rèn)可,并且呈現(xiàn)出女性消費(fèi)者占據(jù)市場(chǎng)購(gòu)買主導(dǎo)優(yōu)勢(shì)后,產(chǎn)品將逐漸成為成熟品類,并迅速出現(xiàn)銷量攀升態(tài)勢(shì)。
Google已經(jīng)意識(shí)到與Amazon的差距,盡力通過收購(gòu)等方式快速?gòu)浹a(bǔ)這種差距。2017年1月初,谷歌宣布收購(gòu)Limes Audio,并表示將會(huì)把Limes Audio集成到自己的視頻會(huì)議解決方案中,為客戶提供低成本、高質(zhì)量的音頻體驗(yàn)。「 Limes Audio總部位于瑞典于奧默,成立于2007年,業(yè)務(wù)重心為提高雙向語音通話系統(tǒng)的語音質(zhì)量。Limes Audio專注語音信號(hào)處理,該公司開發(fā)的TrueVoice音頻軟件套件通過回聲消除、環(huán)境降噪及自動(dòng)混音等技術(shù),改善通信中的語音質(zhì)量。」
反觀國(guó)內(nèi),類似Echo的產(chǎn)品始終沒有吸引到消費(fèi)者的眼球,一般來說,國(guó)內(nèi)相比國(guó)外市場(chǎng)有6-18個(gè)月的延后,但是以國(guó)內(nèi)的技術(shù)水平來看,可能需要的時(shí)間更長(zhǎng)一些。國(guó)內(nèi)在語音助手方面的布局略顯不足??拼笥嶏w雖然從技術(shù)鏈條上最為完善,也推出了類似Echo的叮咚產(chǎn)品,但是市場(chǎng)反響一直沒有達(dá)到預(yù)期。
百度、阿里、騰訊、360也極大投入做了布局,但是技術(shù)鏈條仍不完善,產(chǎn)品和服務(wù)始終沒有很好的落地。即便在技術(shù)環(huán)節(jié),國(guó)內(nèi)活躍的創(chuàng)業(yè)公司相比國(guó)外也少了很多,語音識(shí)別領(lǐng)域主要還是云知聲和思必馳,NLP領(lǐng)域主要是三角獸、驀然、竹簡(jiǎn)等,而融合語音感知和語音識(shí)別主打底層邏輯的創(chuàng)業(yè)公司還僅有聲智科技一家,顯然技術(shù)也制約了國(guó)內(nèi)智能音箱的產(chǎn)品進(jìn)度。
還有一個(gè)值得關(guān)注的消息,華爾街日?qǐng)?bào)援引消息人士的說法,亞馬遜和谷歌都在研究為其智能音箱增加語音通話功能,該功能預(yù)計(jì)將于今年推出。如果這一計(jì)劃能夠成功實(shí)施,無疑將進(jìn)一步提升智能家居的體驗(yàn)。
4、語音交互將會(huì)帶來哪些根本性變化?
從當(dāng)前Amazon、Google、Apple的市場(chǎng)實(shí)踐來看,智能語音交互至少在三個(gè)領(lǐng)域帶來了根本性的變化:
智能語音交互將改變音樂分發(fā)的格局
音樂行業(yè)是亞馬遜還沒有征服的一個(gè)領(lǐng)域,亞馬遜早期在CD零售上的領(lǐng)頭羊地位因?yàn)镸P3盜版的影響而不復(fù)存在。在音樂數(shù)字下載的年代,亞馬遜在音樂銷售上被蘋果的iTunes商店超越。在2005年亞馬遜進(jìn)行過一次音樂流媒體的內(nèi)部嘗試,但是在產(chǎn)品正式發(fā)布前就被叫停了。這給市場(chǎng)留下了一個(gè)空白,而現(xiàn)在這個(gè)市場(chǎng)被Spotify和Apple Music占據(jù),它們各自有著4000萬和2000萬的用戶。亞馬遜為了抓住更多耳朵的最新嘗試是在2016年10月發(fā)布的Amazon Music Unlimited,這是一項(xiàng)基于訂閱的流媒體服務(wù)。
亞馬遜的數(shù)字語音助手Alexa將會(huì)是決定Amazon Music Unlimited能否成功的關(guān)鍵因素。Alexa使用的精巧的語音識(shí)別算法在過去幾年中逐漸成為了行業(yè)中的領(lǐng)先技術(shù)。得到這樣的領(lǐng)頭羊地位后,貝佐斯努力嘗試將Alexa推向更多的應(yīng)用領(lǐng)域最開始是通過它的亞馬遜Echo音響設(shè)備,而后又把Alexa集成在小型化后的Echo Dot中。Echo Dot一舉成為了亞馬遜在過去一個(gè)假期中銷售表現(xiàn)最好的產(chǎn)品。貝佐斯的狂熱也傳染給了音樂行業(yè),許多音樂節(jié)的高管們都對(duì)這些設(shè)備贊不絕口。
蘋果由于意識(shí)到Siri在遠(yuǎn)場(chǎng)技術(shù)與Alexa的差距,選擇以近場(chǎng)語音交互為主的AirPods智能耳機(jī)為切入點(diǎn)發(fā)力,相比音箱,耳機(jī)的利用率更高。所謂的智能家居,總是寄托于“家”的。一個(gè)家庭或許只需要一臺(tái)智能音箱,但耳機(jī)則是更個(gè)人化的物品,每個(gè)家庭成員都可能擁有不止一副耳機(jī)。而且,耳機(jī)作為一種已經(jīng)被廣泛接受的可穿戴設(shè)備,有更多更自然的應(yīng)用場(chǎng)景。耳機(jī)的便攜性使其更有潛力成為一種“無縫陪伴式”的智能產(chǎn)品。AirPods最為核心的功能也是利用Siri增強(qiáng)蘋果音樂分發(fā)的能力。
從亞馬遜和蘋果的實(shí)踐角度來看,Alexa成為了音樂分發(fā)的重要渠道,這對(duì)于國(guó)內(nèi)仍然在困境之中的在線音樂行業(yè)是一個(gè)值得深入思考的事情。
語音交互將會(huì)成為下一代搜索的核心
毫無疑問,通過語言交流獲取知識(shí)是人類最有效的學(xué)習(xí)方式。搜索從PC時(shí)代的搜索框到移動(dòng)時(shí)代的APP,其實(shí)都是在向著精準(zhǔn)搜索的方向發(fā)展,而語音交互天生就有這兩種優(yōu)勢(shì)。從Amazon Echo和Google Home的用戶群體分析,小朋友更是喜歡這種知識(shí)學(xué)習(xí)方式,而習(xí)慣就是這樣逐步被改變。Google是最早認(rèn)識(shí)到這一點(diǎn)的巨頭,典型的舉措便是把最有現(xiàn)金流的Google搜索納入到母公司Alphabet中。
語音交互可能會(huì)改變社交領(lǐng)域的格局
國(guó)內(nèi)外社交領(lǐng)域似乎很難再有新的變化,但是隨著Amazon Echo和Google Home的崛起,用戶已經(jīng)強(qiáng)烈建議增加語音通話功能,蘋果的AirPods顯然天生就具有了通話的功能。這就產(chǎn)生了一個(gè)問題,Amazon和Google會(huì)接入現(xiàn)有的社交軟件嗎?蘋果是不是也要通過AirPods繼續(xù)強(qiáng)化自家軟件的社交能力?至少,這也是值得國(guó)內(nèi)各大巨頭深入思考的問題。
5、語音交互技術(shù)和市場(chǎng)還有哪些不足?
國(guó)內(nèi)普遍不太看好智能語音交互市場(chǎng)的原因其實(shí)很簡(jiǎn)單:體驗(yàn)不好,市場(chǎng)還早。的確,當(dāng)前的語音交互技術(shù),特別是遠(yuǎn)場(chǎng)語音交互技術(shù)還沒有完全成熟,就連Echo至多也就是80分的水準(zhǔn)。這主要是由于語音交互涉及了非常復(fù)雜的技術(shù)鏈條,包括了聲學(xué)處理、語音識(shí)別、語義理解和語音合成等核心技術(shù)。
聲學(xué)處理主要是仿真人類的耳朵,保證機(jī)器能夠聽得準(zhǔn)真實(shí)環(huán)境下人的聲音,語音識(shí)別則是把聽到的人聲翻譯成文字,語義理解則分析這些文字的意義,語音合成就把機(jī)器要表達(dá)的文字翻譯成語音。這四項(xiàng)技術(shù)雖然獨(dú)立發(fā)展,但實(shí)際上無法割裂,同時(shí)在其他技術(shù)的配合下,才能形成一次語音交互的完整鏈條。
從當(dāng)前的技術(shù)水平來看,這四項(xiàng)技術(shù)已經(jīng)達(dá)到了商業(yè)初級(jí)可用的階段,但是距離我們滿意還應(yīng)該有3-5年時(shí)間的距離。即便是被國(guó)內(nèi)幾家公司號(hào)稱最為成熟的語音識(shí)別,其實(shí)也處在近場(chǎng)到遠(yuǎn)場(chǎng)的技術(shù)升級(jí)期。
以Siri為代表的近場(chǎng)語音識(shí)別已經(jīng)發(fā)展了60多年,特別是在2009年以后借助深度學(xué)習(xí)有了實(shí)質(zhì)性提高,但是正如扎克伯格所說的,當(dāng)真正產(chǎn)品落地的時(shí)候,我們發(fā)現(xiàn)用戶真正需要的卻是類似Echo所倡導(dǎo)的遠(yuǎn)場(chǎng)語音識(shí)別。顯然,這又是一個(gè)嶄新的技術(shù)領(lǐng)域,因?yàn)槭耙艟嚯x的擴(kuò)大帶來的問題不僅僅是語音信號(hào)的衰減,而且還帶來了復(fù)雜的真實(shí)環(huán)境以及復(fù)雜的用戶習(xí)慣。
以Siri為代表的近場(chǎng)語音識(shí)別要求必須是低噪聲、無混響、距離聲源很近的場(chǎng)景,比如用戶總是要對(duì)著手機(jī)講話才能獲得符合近場(chǎng)語音識(shí)別要求的聲音信號(hào),同時(shí)還要求用戶滿足標(biāo)準(zhǔn)發(fā)音,其識(shí)別率才有可能達(dá)到95%以上。但是,若聲源距離距離較遠(yuǎn),并且真實(shí)環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號(hào)的質(zhì)量下降,這就會(huì)嚴(yán)重影響語音識(shí)別率。同樣的,我們?nèi)祟愒趶?fù)雜遠(yuǎn)場(chǎng)環(huán)境的表現(xiàn)也不如兩兩交耳的竊竊私語。
通常近場(chǎng)語音識(shí)別引擎在遠(yuǎn)場(chǎng)環(huán)境下,若沒有聲學(xué)處理的支持,比如麥克風(fēng)陣列技術(shù)的適配,其真實(shí)場(chǎng)景識(shí)別率實(shí)際不足60%。而且,由于真實(shí)場(chǎng)景總是有多個(gè)聲源和環(huán)境噪聲疊加,比如經(jīng)常會(huì)出現(xiàn)周邊噪聲干擾和多人同時(shí)說話的場(chǎng)景,這就更加重了語音識(shí)別的難度。因?yàn)楫?dāng)前的語音識(shí)別引擎,都是單人識(shí)別模式,無法同時(shí)處理多人識(shí)別的問題。
遠(yuǎn)場(chǎng)語音交互技術(shù)正在逐步成熟,Amazon通過Echo已經(jīng)證明了遠(yuǎn)場(chǎng)語音交互已經(jīng)邁過用戶可接受的門檻,而國(guó)內(nèi)的科大訊飛和聲智科技也在發(fā)力這個(gè)領(lǐng)域。
從市場(chǎng)層面來看,語音交互毋庸置疑是繼鍵盤、鼠標(biāo)和觸摸屏之后的主流交互方式,但是距離真正走入國(guó)內(nèi)市場(chǎng)還總是差那么一點(diǎn)。技術(shù)鏈條僅僅是其中一個(gè)小部分原因,從戰(zhàn)略認(rèn)知、資金投入到需求挖掘,國(guó)內(nèi)公司都欠缺了很大的火候,而國(guó)內(nèi)各大巨頭更應(yīng)該在戰(zhàn)略決心和技術(shù)鏈條上發(fā)力。智能語音交互的全球競(jìng)爭(zhēng)之中,國(guó)內(nèi)的AI巨頭似乎才剛剛蘇醒。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。