4
本文作者: 焱真人 | 2014-12-03 11:00 |
提及語音識別,就不能不說Nuance,就像提到PC處理器不能跨過intel,智能手機(jī)SOC不能忽略高通,Nuance有著輝煌的歷史,曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖,就算現(xiàn)在,仍舊是瘦死的駱駝比馬大,仍舊是全球最大的語音技術(shù)公司,專利數(shù)量和市場份額都遙遙領(lǐng)先。蘋果iPhone手機(jī)的虛擬語音助手Siri(風(fēng)傳放棄)、三星的語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心和虛擬在線語音助手,都采用了Nuance的技術(shù)。Nuance曾經(jīng)很熱門,三星和蘋果都和它傳過緋聞,都要收購它,不知道為什么,都無疾而終。
Nuance的語音技術(shù)是以統(tǒng)計(jì)推斷方法為基礎(chǔ),著眼于音素(音節(jié)的聲音)和語境來識別話語。在識別的方面,在引擎和算法技術(shù)方面Nuance領(lǐng)先一個(gè)層次。畢竟有著多年的積累。
但是,在具體應(yīng)用上,差距就沒有那么大了——語音識別技術(shù)并非高不可攀,好的語音識別系統(tǒng),很大程度上依靠經(jīng)驗(yàn),專利和算法什么的并沒有多重要。所以只要Google們挖到牛人,自主研發(fā)出不遜于Nuance的語音識別技術(shù)并非難事——因?yàn)榇蠹业募冏R別率都在一個(gè)水平線上,差不多都達(dá)到了當(dāng)前技術(shù)(主要是Nuance采用的技術(shù))的極限,差距不再可感,但再往上走,如果基于當(dāng)前的技術(shù),路會越走越窄。如果考慮到周圍環(huán)境的噪音、用戶發(fā)音不準(zhǔn)、方言等等因素,這種技術(shù)的前景并不樂觀。這個(gè)時(shí)候就要從另外一個(gè)角度考慮問題了——語義理解。
舉一個(gè)例子,張飛張翼德在長坂坡嚎了一嗓子,我想,五湖四海出身的曹軍們沒有多少人能辨清楚張三爺?shù)拿恳粋€(gè)字(就不信漢朝沒有方言,就不信張飛說話不方言,就不信有多少人能聽得懂張飛的方言),他們沒有100%聽清楚,但是,他們聽懂了,然后害怕了,于是,撤退了。為張飛的名聲添磚加瓦。
在日常生活當(dāng)中,如果只從語音出發(fā),我們根本沒有可能聽懂XX牌普通話,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流。這就涉及到語義理解。
關(guān)于語義理解,目前一門技術(shù)正火,神經(jīng)網(wǎng)絡(luò)。這是一種十分炫酷的技術(shù),將機(jī)器學(xué)習(xí)的方式模仿人類大腦的神經(jīng)元,當(dāng)處理的語言越來越多時(shí),這種網(wǎng)絡(luò)就可以逐漸理解語言。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這種技術(shù)可使得精確度提升25%以上,這是一個(gè)巨大的飛躍,因?yàn)檫@個(gè)行業(yè)只需要提升5%就具備革命意義。目前,谷歌的Google Now、微軟的Cortana都采用了這種技術(shù)。人工智能大師杰弗里·希爾頓(Geoffrey Hinton)在2013年初加盟谷歌。此外,谷歌還挖走了Nuance的一些職員,其中包括在2004年挖走Nuance聯(lián)合創(chuàng)始人邁克·科恩(Mike Cohen),讓他出任谷歌的語音技術(shù)總監(jiān)。至于微軟,我只有一句話,微軟研究院里的大牛們真的是大牛啊。感興趣的可以查一查微軟在這方面的技術(shù)。
對于Google而言,語音是生死攸關(guān)的大事。想象一下,十年或者五年后的某一天,我想登錄雷鋒網(wǎng),可我一如既往的記不住雷鋒的域名,只需要對著麥說一句:“登錄雷鋒網(wǎng)”,如果我想搜索什么東西,直接說就可以了。如果沒有語音服務(wù),那么,Google如何自處?微軟的bing會不會咸魚翻身?所以,Google有必要自己做。這種涉及生死的技術(shù),還是掌握在自己手里比較踏實(shí)。
Google和微軟都參合了,蘋果當(dāng)然不會落后。來自Wired 的消息,蘋果正在著手更換掉 Nuance,打算用自己研發(fā)的語音識別技術(shù),最快可能在iOS 9中亮相。在過去幾年,蘋果不僅吸納了Siri的語音技術(shù)人才,更是將Nuance公司的多名高級語音研究人員挖角過來,包括了前研發(fā)副總裁Larry Gillick,以及來自微軟語音識別項(xiàng)目高管Alex Acero,后者在微軟工作達(dá) 20 年之久。蘋果打算利用神經(jīng)網(wǎng)絡(luò)來提升語音識別率,微軟研究部門主管 Peter Lee 認(rèn)為,蘋果大約需要花6個(gè)月才能趕上Google 和微軟。2013年,蘋果悄悄收購了一家語音識別技術(shù)公司Novauris Technologies,價(jià)格未知。Novauris公司以語音識別著稱,由其推出的產(chǎn)品和語音識別系統(tǒng)并非簡單的識別單個(gè)的詞句,而是理解上下文。Novauris 也成推出一個(gè)名為 Novasystem 的分布式服務(wù)器語音識別系統(tǒng),可同時(shí)處理多個(gè)并發(fā)語音請求,識別完整的句子,并分析音節(jié)結(jié)構(gòu)。
說完國外,再說說國內(nèi)。
科大訊飛是nuance的國內(nèi)版,同樣的一覽眾山小,當(dāng)然,國內(nèi)的語音識別企業(yè)不只科大訊飛一家,還有中科信利,尚科語音,捷通華聲等等。百度、騰訊都在打造自己的語音團(tuán)隊(duì)。百度看起來最高大上。吳恩達(dá)加盟,擔(dān)任百度的首席科學(xué)家,負(fù)責(zé)百度研究院,他的研究領(lǐng)域就是機(jī)器學(xué)習(xí)和人工智能,研究重點(diǎn)是深度學(xué)習(xí)(deep learning)。深度學(xué)習(xí)被認(rèn)為是當(dāng)前的機(jī)器學(xué)習(xí)算法里最接近人腦思維的一種。吳恩達(dá)也是牛人一枚。
看過國外百舸爭流,再對比國內(nèi)的欣欣向榮,在不入流的算命先生都能得出結(jié)論,語音是個(gè)大熱門,是未來的趨勢。
這個(gè)趨勢是實(shí)實(shí)在在的,不是吹起來的泡沫。
人類打成為人類以來就使用聲音,聲音已經(jīng)融入我們的身體,成為一種本能,它是最優(yōu)的表達(dá)方式,這也就是為什么iPhone4s能夠在普遍看衰的情況下大賣的關(guān)鍵,所有人都低估了siri,低估了人們對人機(jī)交互模式從鍵盤升級到聲音的渴望。
在未來,也許就是不久的未來,智能家居(通過微軟的cortana,已經(jīng)可以實(shí)現(xiàn)語音開燈關(guān)燈拉窗簾。這不是Google now和siri無能,完全是因?yàn)槲④涢_放了API,Google now和siri沒有開放)、駕駛等等領(lǐng)域。人機(jī)交互的領(lǐng)域越來越廣,語音的前景必將大到不敢想象。想象一下,當(dāng)互聯(lián)網(wǎng)發(fā)展到無處不在時(shí),人們隨時(shí)隨地都在互聯(lián)網(wǎng)之中,人機(jī)交互甚至可能會是時(shí)時(shí)刻刻,語音會是一個(gè)多么大的市場。
什么?你說腦波?
我覺得腦波這玩意和幸福、上帝一樣,你相信它存在,它就存在。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。