0
本文作者: 小薇 | 2015-02-22 09:00 |
再過(guò)5--10年,接近電影《Her》里的場(chǎng)景就會(huì)出現(xiàn),你相信嗎?在“創(chuàng)新大屏交互”系列里,雷鋒網(wǎng)相繼介紹了多點(diǎn)觸控和體感技術(shù),這次我們來(lái)聊一聊語(yǔ)音技術(shù)。
Google 2008年開(kāi)始做語(yǔ)音搜索(Voice Search),Apple 2009年收購(gòu)Siri,將語(yǔ)音交互推到了實(shí)用;2014年11月,亞馬遜推出的家居虛擬助手設(shè)備Echo廣受關(guān)注。那末,在大屏領(lǐng)域,語(yǔ)音交互出現(xiàn)了哪些新特點(diǎn)和新挑戰(zhàn)?雷鋒網(wǎng)采訪了云知聲的首席產(chǎn)品官李霄寒博士。來(lái)聽(tīng)聽(tīng)他的看法吧~
《2014中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展白皮書(shū)》顯示,2014年,中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到30.6億元,同比增長(zhǎng)高達(dá)81.1%;帶動(dòng)移動(dòng)互聯(lián)網(wǎng)、智能家電、汽車(chē)電子等相關(guān)產(chǎn)業(yè)規(guī)模增長(zhǎng)超過(guò)150億元。預(yù)計(jì)2014-2017年,應(yīng)用語(yǔ)音技術(shù)的電視(包括機(jī)頂盒)銷(xiāo)量將翻三倍。
資料顯示,目前市場(chǎng)上國(guó)產(chǎn)智能電視的語(yǔ)音技術(shù)多由科大訊飛提供,2013年國(guó)產(chǎn)智能電視出貨量約2500 萬(wàn)臺(tái),2014年國(guó)產(chǎn)智能電視出貨量達(dá)到3110萬(wàn)臺(tái),有預(yù)測(cè)表示,訊飛到2015年將很可能擁有5000 萬(wàn)用戶。
雷鋒網(wǎng)了解到,關(guān)于智能電視激活量和活躍度的行業(yè)數(shù)據(jù),大致會(huì)在3、4月份公布;李霄寒告訴雷鋒網(wǎng),在智能電視行業(yè),云知聲目前已經(jīng)和樂(lè)視、長(zhǎng)虹、海爾等電視廠商展開(kāi)合作。
那末,是什么契機(jī)帶來(lái)語(yǔ)音技術(shù)這樣的飛速發(fā)展和廣泛關(guān)注呢?
李霄寒告訴我們:
PC時(shí)代,由于設(shè)備計(jì)算能力的原因和人們對(duì)產(chǎn)品接受度的問(wèn)題,語(yǔ)音技術(shù)并非剛需;
2005-2007年,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和云計(jì)算的出現(xiàn),語(yǔ)音技術(shù)開(kāi)始在智能手機(jī)中應(yīng)用,但語(yǔ)音技術(shù)依然起輔助作用;
到了近幾年,隨著硬件處理能力的提高和云計(jì)算的廣泛使用,語(yǔ)音技術(shù)實(shí)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)上的突破,物聯(lián)網(wǎng)化的時(shí)代到來(lái),未來(lái)更多硬件將變得智能化,傳統(tǒng)的交互方式更難滿足用戶的需求,語(yǔ)音的作用會(huì)越來(lái)越強(qiáng)。
在大屏領(lǐng)域,以智能電視為例,傳統(tǒng)的遙控器阻礙了電視內(nèi)容的發(fā)展,語(yǔ)音技術(shù)可以讓大屏的交互內(nèi)容更豐富,體驗(yàn)更自然、簡(jiǎn)潔。
2014年,樂(lè)視超級(jí)電視售出150萬(wàn)臺(tái),超級(jí)電視集成了由云知聲提供的智能語(yǔ)音交互技術(shù),由此,李霄寒告訴雷鋒網(wǎng):
就樂(lè)視超級(jí)電視的用戶反饋來(lái)看,智能電視對(duì)語(yǔ)音交互的重度請(qǐng)求是視頻瀏覽;
其次,股票、天氣、音樂(lè)、聊天等應(yīng)用也較為活躍;
搜索功能也較為常用。
李霄寒告訴我們,從合作廠商那里得來(lái)的數(shù)據(jù)顯示,不加語(yǔ)音技術(shù)的傳統(tǒng)遙控器成本大約在十幾元;搭載語(yǔ)音技術(shù)的遙控器,涉及到添加識(shí)音麥克風(fēng),以及DSP的轉(zhuǎn)換,2.4G的數(shù)據(jù)傳輸,因此遙控器要加一些模塊,此外,電視機(jī)也要安裝一些接收設(shè)備,還有一些軟件開(kāi)發(fā)的成本,整個(gè)方案大約有十幾元成本的上升,遙控器成本在30元左右。
李霄寒告訴雷鋒網(wǎng),對(duì)于語(yǔ)音交互而言,最重要的要素包括技術(shù)、知識(shí)庫(kù)、內(nèi)容等,現(xiàn)如今,將語(yǔ)音技術(shù)應(yīng)用在大屏幕領(lǐng)域,還面臨著技術(shù)及知識(shí)庫(kù)等方面的挑戰(zhàn)。
從音頻輸入的角度來(lái)講,語(yǔ)音容易受到環(huán)境、人以及設(shè)備本身的影響,要掌控輸入,那么進(jìn)入麥克風(fēng)的聲音就要符合預(yù)期,這就需要硬件制造廠商的設(shè)備能夠保持聲源、降低噪音;與此同時(shí),輸入的音頻可能存在失真的問(wèn)題,云知聲的技術(shù)團(tuán)隊(duì)就要進(jìn)行適配,這方面的技術(shù)門(mén)檻很高,云知聲大約用了1年的時(shí)間來(lái)解決這一問(wèn)題,保證5M范圍內(nèi)的聲音都能被準(zhǔn)確識(shí)別和計(jì)算。
李霄寒向我們透露,3月份的時(shí)候,云知聲可能會(huì)有搭載這一技術(shù)的產(chǎn)品發(fā)布。
在智能電視上,語(yǔ)音脫離了鍵盤(pán)、觸屏的輔助,需要獨(dú)立使用,對(duì)智能性的要求更高,語(yǔ)音交互體驗(yàn)?zāi)懿荒軡M足用戶的需求,能不能在一兩個(gè)回合里解決用戶的問(wèn)題至關(guān)重要,因?yàn)橛脩魢L試的次數(shù)多了還未解決問(wèn)題,就會(huì)放棄語(yǔ)音交互。
李霄寒告訴雷鋒網(wǎng),解決這一問(wèn)題的關(guān)鍵還是知識(shí)庫(kù)。識(shí)別用戶的意圖并不難,但如果受到行業(yè)壁壘的束縛,沒(méi)有打通產(chǎn)業(yè)的上下游,導(dǎo)致內(nèi)容提供方、電視品牌廠商、語(yǔ)音技術(shù)提供方之間的數(shù)據(jù)是割裂開(kāi)的,就沒(méi)有辦法實(shí)現(xiàn)整合,就沒(méi)有豐富的知識(shí)庫(kù),那么,語(yǔ)音交互也好,人工智能也罷,就無(wú)法繼續(xù)往前走。
電影《Her》是一部講述人機(jī)交互的科(ai)幻(qing)電影,片中女主角Samantha(人工智能系統(tǒng))沒(méi)有身體,只能發(fā)出聲音。表面上看,這只是一個(gè)具有升級(jí)版的的語(yǔ)音助手。實(shí)際上,Samantha能夠進(jìn)行對(duì)話交互,具備流暢的情感流露,具備高級(jí)的搜索、計(jì)算、學(xué)習(xí)本領(lǐng),營(yíng)造了非常理想化的人機(jī)交互情境,相信也是不少科技宅男的居住樣本。
李霄寒告訴我們,電影《Her》里出現(xiàn)的場(chǎng)景,不僅依托于全語(yǔ)音技術(shù)的發(fā)展,而且還需要全模式交互技術(shù)的發(fā)展。全語(yǔ)音技術(shù)的發(fā)展,就是上文提到的技術(shù)、內(nèi)容、知識(shí)庫(kù)等要素的全面發(fā)展;而全模式的交互,則是指語(yǔ)音技術(shù)與其他交互方式的整合。
在全模式交互這方面,2014年4月份,云知聲牽頭的“全智能交互聯(lián)盟”成立,首批加入聯(lián)盟的企業(yè)包括語(yǔ)義理解技術(shù)公司“哦啦”、圖像識(shí)別技術(shù)公司“亮風(fēng)臺(tái)”、人臉識(shí)別技術(shù)公司“Face++”等,云知聲CEO黃偉表示,聯(lián)盟可以將語(yǔ)音、圖像、人臉交互方案打包,給硬件廠商和開(kāi)發(fā)者提供一站式交互技術(shù)超市,此項(xiàng)目還在研發(fā)階段,沒(méi)有階段性進(jìn)展。
說(shuō)到用語(yǔ)音技術(shù)連接未來(lái)與現(xiàn)在,雷鋒網(wǎng)認(rèn)為有一款產(chǎn)品十分具有代表性,那就是亞馬遜研發(fā)的家居虛擬助手設(shè)備Echo,Echo采用了波束形成技術(shù),在頂部配置了7個(gè)麥克風(fēng),能夠識(shí)別整個(gè)房間內(nèi)各個(gè)位置的聲音。并且,Echo有著出色的降噪處理,即使你在用它聽(tīng)音樂(lè)的時(shí)候,也能夠識(shí)別出你說(shuō)的話。
無(wú)處不在,將會(huì)是未來(lái)語(yǔ)音界面的核心屬性。如果有多個(gè)設(shè)備接收到你的聲音,系統(tǒng)軟件會(huì)知道你是在跟哪個(gè)設(shè)備進(jìn)行交互。
估計(jì)會(huì)有大量的企業(yè)去開(kāi)發(fā)那種硬件。冰箱、臺(tái)燈、桌子和其它的家居物品將整合揚(yáng)聲器、麥克風(fēng)和網(wǎng)絡(luò)連接,以便支持虛擬助手。
語(yǔ)音技術(shù),將會(huì)無(wú)處不在。想必那時(shí),《Her》里的場(chǎng)景,就相距不遠(yuǎn)了。
系列回顧:
1、創(chuàng)新大屏交互之——你所不知道的多點(diǎn)觸控技術(shù)
3、創(chuàng)新大屏交互之——酷炫的體感技術(shù)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。