0
再過5--10年,接近電影《Her》里的場景就會出現(xiàn),你相信嗎?在“創(chuàng)新大屏交互”系列里,雷鋒網(wǎng)相繼介紹了多點觸控和體感技術,這次我們來聊一聊語音技術。
Google 2008年開始做語音搜索(Voice Search),Apple 2009年收購Siri,將語音交互推到了實用;2014年11月,亞馬遜推出的家居虛擬助手設備Echo廣受關注。那末,在大屏領域,語音交互出現(xiàn)了哪些新特點和新挑戰(zhàn)?雷鋒網(wǎng)采訪了云知聲的首席產品官李霄寒博士。來聽聽他的看法吧~
《2014中國智能語音產業(yè)發(fā)展白皮書》顯示,2014年,中國語音產業(yè)規(guī)模預計達到30.6億元,同比增長高達81.1%;帶動移動互聯(lián)網(wǎng)、智能家電、汽車電子等相關產業(yè)規(guī)模增長超過150億元。預計2014-2017年,應用語音技術的電視(包括機頂盒)銷量將翻三倍。
資料顯示,目前市場上國產智能電視的語音技術多由科大訊飛提供,2013年國產智能電視出貨量約2500 萬臺,2014年國產智能電視出貨量達到3110萬臺,有預測表示,訊飛到2015年將很可能擁有5000 萬用戶。
雷鋒網(wǎng)了解到,關于智能電視激活量和活躍度的行業(yè)數(shù)據(jù),大致會在3、4月份公布;李霄寒告訴雷鋒網(wǎng),在智能電視行業(yè),云知聲目前已經(jīng)和樂視、長虹、海爾等電視廠商展開合作。
那末,是什么契機帶來語音技術這樣的飛速發(fā)展和廣泛關注呢?
李霄寒告訴我們:
PC時代,由于設備計算能力的原因和人們對產品接受度的問題,語音技術并非剛需;
2005-2007年,隨著移動互聯(lián)網(wǎng)的發(fā)展和云計算的出現(xiàn),語音技術開始在智能手機中應用,但語音技術依然起輔助作用;
到了近幾年,隨著硬件處理能力的提高和云計算的廣泛使用,語音技術實現(xiàn)了深度神經(jīng)網(wǎng)絡上的突破,物聯(lián)網(wǎng)化的時代到來,未來更多硬件將變得智能化,傳統(tǒng)的交互方式更難滿足用戶的需求,語音的作用會越來越強。
在大屏領域,以智能電視為例,傳統(tǒng)的遙控器阻礙了電視內容的發(fā)展,語音技術可以讓大屏的交互內容更豐富,體驗更自然、簡潔。
2014年,樂視超級電視售出150萬臺,超級電視集成了由云知聲提供的智能語音交互技術,由此,李霄寒告訴雷鋒網(wǎng):
就樂視超級電視的用戶反饋來看,智能電視對語音交互的重度請求是視頻瀏覽;
其次,股票、天氣、音樂、聊天等應用也較為活躍;
搜索功能也較為常用。
李霄寒告訴我們,從合作廠商那里得來的數(shù)據(jù)顯示,不加語音技術的傳統(tǒng)遙控器成本大約在十幾元;搭載語音技術的遙控器,涉及到添加識音麥克風,以及DSP的轉換,2.4G的數(shù)據(jù)傳輸,因此遙控器要加一些模塊,此外,電視機也要安裝一些接收設備,還有一些軟件開發(fā)的成本,整個方案大約有十幾元成本的上升,遙控器成本在30元左右。
李霄寒告訴雷鋒網(wǎng),對于語音交互而言,最重要的要素包括技術、知識庫、內容等,現(xiàn)如今,將語音技術應用在大屏幕領域,還面臨著技術及知識庫等方面的挑戰(zhàn)。
從音頻輸入的角度來講,語音容易受到環(huán)境、人以及設備本身的影響,要掌控輸入,那么進入麥克風的聲音就要符合預期,這就需要硬件制造廠商的設備能夠保持聲源、降低噪音;與此同時,輸入的音頻可能存在失真的問題,云知聲的技術團隊就要進行適配,這方面的技術門檻很高,云知聲大約用了1年的時間來解決這一問題,保證5M范圍內的聲音都能被準確識別和計算。
李霄寒向我們透露,3月份的時候,云知聲可能會有搭載這一技術的產品發(fā)布。
在智能電視上,語音脫離了鍵盤、觸屏的輔助,需要獨立使用,對智能性的要求更高,語音交互體驗能不能滿足用戶的需求,能不能在一兩個回合里解決用戶的問題至關重要,因為用戶嘗試的次數(shù)多了還未解決問題,就會放棄語音交互。
李霄寒告訴雷鋒網(wǎng),解決這一問題的關鍵還是知識庫。識別用戶的意圖并不難,但如果受到行業(yè)壁壘的束縛,沒有打通產業(yè)的上下游,導致內容提供方、電視品牌廠商、語音技術提供方之間的數(shù)據(jù)是割裂開的,就沒有辦法實現(xiàn)整合,就沒有豐富的知識庫,那么,語音交互也好,人工智能也罷,就無法繼續(xù)往前走。
電影《Her》是一部講述人機交互的科(ai)幻(qing)電影,片中女主角Samantha(人工智能系統(tǒng))沒有身體,只能發(fā)出聲音。表面上看,這只是一個具有升級版的的語音助手。實際上,Samantha能夠進行對話交互,具備流暢的情感流露,具備高級的搜索、計算、學習本領,營造了非常理想化的人機交互情境,相信也是不少科技宅男的居住樣本。
李霄寒告訴我們,電影《Her》里出現(xiàn)的場景,不僅依托于全語音技術的發(fā)展,而且還需要全模式交互技術的發(fā)展。全語音技術的發(fā)展,就是上文提到的技術、內容、知識庫等要素的全面發(fā)展;而全模式的交互,則是指語音技術與其他交互方式的整合。
在全模式交互這方面,2014年4月份,云知聲牽頭的“全智能交互聯(lián)盟”成立,首批加入聯(lián)盟的企業(yè)包括語義理解技術公司“哦啦”、圖像識別技術公司“亮風臺”、人臉識別技術公司“Face++”等,云知聲CEO黃偉表示,聯(lián)盟可以將語音、圖像、人臉交互方案打包,給硬件廠商和開發(fā)者提供一站式交互技術超市,此項目還在研發(fā)階段,沒有階段性進展。
說到用語音技術連接未來與現(xiàn)在,雷鋒網(wǎng)認為有一款產品十分具有代表性,那就是亞馬遜研發(fā)的家居虛擬助手設備Echo,Echo采用了波束形成技術,在頂部配置了7個麥克風,能夠識別整個房間內各個位置的聲音。并且,Echo有著出色的降噪處理,即使你在用它聽音樂的時候,也能夠識別出你說的話。
無處不在,將會是未來語音界面的核心屬性。如果有多個設備接收到你的聲音,系統(tǒng)軟件會知道你是在跟哪個設備進行交互。
估計會有大量的企業(yè)去開發(fā)那種硬件。冰箱、臺燈、桌子和其它的家居物品將整合揚聲器、麥克風和網(wǎng)絡連接,以便支持虛擬助手。
語音技術,將會無處不在。想必那時,《Her》里的場景,就相距不遠了。
系列回顧:
1、創(chuàng)新大屏交互之——你所不知道的多點觸控技術
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。