創(chuàng)新大屏交互之——無處不在的語(yǔ)音技術(shù)

本文作者：小薇

2015-02-22 09:00

導(dǎo)語(yǔ)：再過5--10年，接近電影《Her》里的場(chǎng)景就會(huì)出現(xiàn)，你相信嗎？

再過5--10年，接近電影《Her》里的場(chǎng)景就會(huì)出現(xiàn)，你相信嗎？在“創(chuàng)新大屏交互”系列里，雷鋒網(wǎng)相繼介紹了多點(diǎn)觸控和體感技術(shù)，這次我們來聊一聊語(yǔ)音技術(shù)。

Google 2008年開始做語(yǔ)音搜索(Voice Search)，Apple 2009年收購(gòu)Siri，將語(yǔ)音交互推到了實(shí)用；2014年11月，亞馬遜推出的家居虛擬助手設(shè)備Echo廣受關(guān)注。那末，在大屏領(lǐng)域，語(yǔ)音交互出現(xiàn)了哪些新特點(diǎn)和新挑戰(zhàn)？雷鋒網(wǎng)采訪了云知聲的首席產(chǎn)品官李霄寒博士。來聽聽他的看法吧~

創(chuàng)新大屏交互之——無處不在的語(yǔ)音技術(shù)

語(yǔ)音技術(shù)的發(fā)展及要素

《2014中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展白皮書》顯示，2014年，中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到30.6億元，同比增長(zhǎng)高達(dá)81.1%；帶動(dòng)移動(dòng)互聯(lián)網(wǎng)、智能家電、汽車電子等相關(guān)產(chǎn)業(yè)規(guī)模增長(zhǎng)超過150億元。預(yù)計(jì)2014-2017年，應(yīng)用語(yǔ)音技術(shù)的電視（包括機(jī)頂盒）銷量將翻三倍。

資料顯示，目前市場(chǎng)上國(guó)產(chǎn)智能電視的語(yǔ)音技術(shù)多由科大訊飛提供，2013年國(guó)產(chǎn)智能電視出貨量約2500 萬(wàn)臺(tái)，2014年國(guó)產(chǎn)智能電視出貨量達(dá)到3110萬(wàn)臺(tái)，有預(yù)測(cè)表示，訊飛到2015年將很可能擁有5000 萬(wàn)用戶。

雷鋒網(wǎng)了解到，關(guān)于智能電視激活量和活躍度的行業(yè)數(shù)據(jù)，大致會(huì)在3、4月份公布；李霄寒告訴雷鋒網(wǎng)，在智能電視行業(yè)，云知聲目前已經(jīng)和樂視、長(zhǎng)虹、海爾等電視廠商展開合作。

那末，是什么契機(jī)帶來語(yǔ)音技術(shù)這樣的飛速發(fā)展和廣泛關(guān)注呢？

語(yǔ)音技術(shù)的發(fā)展：PC——手機(jī)——物聯(lián)網(wǎng)

李霄寒告訴我們：

PC時(shí)代，由于設(shè)備計(jì)算能力的原因和人們對(duì)產(chǎn)品接受度的問題，語(yǔ)音技術(shù)并非剛需；

2005-2007年，隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和云計(jì)算的出現(xiàn)，語(yǔ)音技術(shù)開始在智能手機(jī)中應(yīng)用，但語(yǔ)音技術(shù)依然起輔助作用；

到了近幾年，隨著硬件處理能力的提高和云計(jì)算的廣泛使用，語(yǔ)音技術(shù)實(shí)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)上的突破，物聯(lián)網(wǎng)化的時(shí)代到來，未來更多硬件將變得智能化，傳統(tǒng)的交互方式更難滿足用戶的需求，語(yǔ)音的作用會(huì)越來越強(qiáng)。

在大屏領(lǐng)域，以智能電視為例，傳統(tǒng)的遙控器阻礙了電視內(nèi)容的發(fā)展，語(yǔ)音技術(shù)可以讓大屏的交互內(nèi)容更豐富，體驗(yàn)更自然、簡(jiǎn)潔。

語(yǔ)音技術(shù)在大屏幕上的應(yīng)用及挑戰(zhàn)

大屏語(yǔ)音交互的用戶反饋

2014年，樂視超級(jí)電視售出150萬(wàn)臺(tái)，超級(jí)電視集成了由云知聲提供的智能語(yǔ)音交互技術(shù)，由此，李霄寒告訴雷鋒網(wǎng)：

就樂視超級(jí)電視的用戶反饋來看，智能電視對(duì)語(yǔ)音交互的重度請(qǐng)求是視頻瀏覽；

其次，股票、天氣、音樂、聊天等應(yīng)用也較為活躍；

搜索功能也較為常用。

智能電視搭載語(yǔ)音技術(shù)的成本

樂視官網(wǎng)搭載語(yǔ)音技術(shù)的遙控器售價(jià)260元

李霄寒告訴我們，從合作廠商那里得來的數(shù)據(jù)顯示，不加語(yǔ)音技術(shù)的傳統(tǒng)遙控器成本大約在十幾元；搭載語(yǔ)音技術(shù)的遙控器，涉及到添加識(shí)音麥克風(fēng)，以及DSP的轉(zhuǎn)換，2.4G的數(shù)據(jù)傳輸，因此遙控器要加一些模塊，此外，電視機(jī)也要安裝一些接收設(shè)備，還有一些軟件開發(fā)的成本，整個(gè)方案大約有十幾元成本的上升，遙控器成本在30元左右。

語(yǔ)音交互技術(shù)的要素及難點(diǎn)

李霄寒告訴雷鋒網(wǎng)，對(duì)于語(yǔ)音交互而言，最重要的要素包括技術(shù)、知識(shí)庫(kù)、內(nèi)容等，現(xiàn)如今，將語(yǔ)音技術(shù)應(yīng)用在大屏幕領(lǐng)域，還面臨著技術(shù)及知識(shí)庫(kù)等方面的挑戰(zhàn)。

1、技術(shù)層面：與硬件整合

從音頻輸入的角度來講，語(yǔ)音容易受到環(huán)境、人以及設(shè)備本身的影響，要掌控輸入，那么進(jìn)入麥克風(fēng)的聲音就要符合預(yù)期，這就需要硬件制造廠商的設(shè)備能夠保持聲源、降低噪音；與此同時(shí)，輸入的音頻可能存在失真的問題，云知聲的技術(shù)團(tuán)隊(duì)就要進(jìn)行適配，這方面的技術(shù)門檻很高，云知聲大約用了1年的時(shí)間來解決這一問題，保證5M范圍內(nèi)的聲音都能被準(zhǔn)確識(shí)別和計(jì)算。

李霄寒向我們透露，3月份的時(shí)候，云知聲可能會(huì)有搭載這一技術(shù)的產(chǎn)品發(fā)布。

2、智能化：整合產(chǎn)業(yè)鏈，形成知識(shí)庫(kù)

在智能電視上，語(yǔ)音脫離了鍵盤、觸屏的輔助，需要獨(dú)立使用，對(duì)智能性的要求更高，語(yǔ)音交互體驗(yàn)?zāi)懿荒軡M足用戶的需求，能不能在一兩個(gè)回合里解決用戶的問題至關(guān)重要，因?yàn)橛脩魢L試的次數(shù)多了還未解決問題，就會(huì)放棄語(yǔ)音交互。

李霄寒告訴雷鋒網(wǎng)，解決這一問題的關(guān)鍵還是知識(shí)庫(kù)。識(shí)別用戶的意圖并不難，但如果受到行業(yè)壁壘的束縛，沒有打通產(chǎn)業(yè)的上下游，導(dǎo)致內(nèi)容提供方、電視品牌廠商、語(yǔ)音技術(shù)提供方之間的數(shù)據(jù)是割裂開的，就沒有辦法實(shí)現(xiàn)整合，就沒有豐富的知識(shí)庫(kù)，那么，語(yǔ)音交互也好，人工智能也罷，就無法繼續(xù)往前走。

電影《Her》里的場(chǎng)景何日出現(xiàn)？

電影《Her》是一部講述人機(jī)交互的科（ai）幻（qing）電影，片中女主角Samantha（人工智能系統(tǒng)）沒有身體，只能發(fā)出聲音。表面上看，這只是一個(gè)具有升級(jí)版的的語(yǔ)音助手。實(shí)際上，Samantha能夠進(jìn)行對(duì)話交互，具備流暢的情感流露，具備高級(jí)的搜索、計(jì)算、學(xué)習(xí)本領(lǐng)，營(yíng)造了非常理想化的人機(jī)交互情境，相信也是不少科技宅男的居住樣本。

李霄寒告訴我們，電影《Her》里出現(xiàn)的場(chǎng)景，不僅依托于全語(yǔ)音技術(shù)的發(fā)展，而且還需要全模式交互技術(shù)的發(fā)展。全語(yǔ)音技術(shù)的發(fā)展，就是上文提到的技術(shù)、內(nèi)容、知識(shí)庫(kù)等要素的全面發(fā)展；而全模式的交互，則是指語(yǔ)音技術(shù)與其他交互方式的整合。

在全模式交互這方面，2014年4月份，云知聲牽頭的“全智能交互聯(lián)盟”成立，首批加入聯(lián)盟的企業(yè)包括語(yǔ)義理解技術(shù)公司“哦啦”、圖像識(shí)別技術(shù)公司“亮風(fēng)臺(tái)”、人臉識(shí)別技術(shù)公司“Face++”等，云知聲CEO黃偉表示，聯(lián)盟可以將語(yǔ)音、圖像、人臉交互方案打包，給硬件廠商和開發(fā)者提供一站式交互技術(shù)超市，此項(xiàng)目還在研發(fā)階段，沒有階段性進(jìn)展。

創(chuàng)新大屏交互之——無處不在的語(yǔ)音技術(shù)

說到用語(yǔ)音技術(shù)連接未來與現(xiàn)在，雷鋒網(wǎng)認(rèn)為有一款產(chǎn)品十分具有代表性，那就是亞馬遜研發(fā)的家居虛擬助手設(shè)備Echo，Echo采用了波束形成技術(shù)，在頂部配置了7個(gè)麥克風(fēng)，能夠識(shí)別整個(gè)房間內(nèi)各個(gè)位置的聲音。并且，Echo有著出色的降噪處理，即使你在用它聽音樂的時(shí)候，也能夠識(shí)別出你說的話。

無處不在，將會(huì)是未來語(yǔ)音界面的核心屬性。如果有多個(gè)設(shè)備接收到你的聲音，系統(tǒng)軟件會(huì)知道你是在跟哪個(gè)設(shè)備進(jìn)行交互。

估計(jì)會(huì)有大量的企業(yè)去開發(fā)那種硬件。冰箱、臺(tái)燈、桌子和其它的家居物品將整合揚(yáng)聲器、麥克風(fēng)和網(wǎng)絡(luò)連接，以便支持虛擬助手。

語(yǔ)音技術(shù)，將會(huì)無處不在。想必那時(shí)，《Her》里的場(chǎng)景，就相距不遠(yuǎn)了。

系列回顧：

1、創(chuàng)新大屏交互之——你所不知道的多點(diǎn)觸控技術(shù)

2、讓大屏愛上你的新技能，你get了嗎？

3、創(chuàng)新大屏交互之——酷炫的體感技術(shù)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章