2
本文作者: 六爺 | 2017-04-25 16:20 |
卸任錘子科技 CTO 之后,錢晨加入數(shù)字家圓,參與了一款視頻通訊設(shè)備——親見 H1 的研發(fā),做的是他老本行——聲學(xué),其中最核心的工作便是遠(yuǎn)場語音識別。
遠(yuǎn)場語音識別也是 Amazon Echo 的核心技術(shù)之一,Echo 的火爆點(diǎn)燃了整個(gè)市場,但錢晨告訴雷鋒網(wǎng),他并不認(rèn)為這是“最好的時(shí)代”。
1998 年,錢晨在中科院順利拿到了水下聲學(xué)博士學(xué)位,很長一段時(shí)間,他在北京摩托羅拉研發(fā)中心擔(dān)任電子與聲學(xué)工程師。
他現(xiàn)在擔(dān)心的是,百家爭鳴背后,“智能音箱”這個(gè)概念會被做臭,就像他玩石頭從來不碰田黃,因?yàn)橐徽f到田黃,他第一反應(yīng)就是贗品。
以下是錢晨自述,由雷鋒網(wǎng)整理。
這么說吧,做前端聲音處理的,國內(nèi)沒有高水平的。因?yàn)槲覀冞@個(gè)專業(yè),一年畢業(yè)不到 50 個(gè)學(xué)生,大家都知道,這個(gè)水平不會太高。但是美國人比較有意思,美國人做物理比咱們深,物理做深了以后,它就能解開一道道題。
麥克風(fēng)這個(gè)行業(yè),有兩個(gè)流派。一個(gè)是說自己有 6 個(gè)、7 個(gè)麥克風(fēng)(Amazon Echo)的那種,叫麥克風(fēng)陣列;第二個(gè)流派就是“兩麥”(Google Home)。從這一點(diǎn)出發(fā),不管廠商怎么講故事,都逃不出這兩個(gè)。
麥克風(fēng)陣列流派的缺點(diǎn)是夾角窄。
展開之前得先談一談“波束形成”。波束形成實(shí)際上 20 年前就有人做了。軍工里的聲納,微波里的智能天線,都是這個(gè)技術(shù)。
當(dāng)時(shí)大家為什么用波束形成?主要是因?yàn)樽鲭娐返臅r(shí)候就是處理各種放大信號,而波束形成本身就是一個(gè)放大信號,我們管這個(gè)放大叫空間增益。對空間場的增益還有一個(gè)公式,根據(jù)它,能做出很多技術(shù)創(chuàng)新來。
亞馬遜做 Echo 的時(shí)候就用了這個(gè)技術(shù)。這個(gè)技術(shù)體現(xiàn)在產(chǎn)品上,就是它能識別聲音傳來的方向,然后把旁邊的聲音濾掉,把需要的聲音增加了空間增益。對比到電路上,就是這個(gè)信號的放大倍數(shù)多,信噪比好,信號被放大以后,很干凈。
麥克風(fēng)陣列就是用這個(gè)陣列形成一個(gè)波束,波束角是 60 度。
“兩麥”沒有夾角窄這個(gè)問題,它也有空間信息,能分辨出來聲音是左邊來的還是右邊來,但它沒有增加放大量。
對比這兩個(gè)流派,時(shí)間差能說明一些問題。亞馬遜 4 年前就在 Echo 上用了波束形成,而“兩麥”是去年開始用的,就是 Google Home。所以這兩個(gè)技術(shù)在應(yīng)用成熟度方面,差了三年到四年。
再往下走就到設(shè)備端了。
設(shè)備首先要解決的問題就是噪聲抵消。比如一個(gè)人跟另一個(gè)人說話,聲音是從四面八方傳到耳朵里的,對設(shè)備來說,情況也一樣。那這就有問題了,有些方向的聲音快一點(diǎn),有些會慢一點(diǎn),疊加在一起就產(chǎn)生了混響,或者說噪音。
所以麥克風(fēng)把聲音識完以后,剩下的事就是做噪聲抵消,讓聲音信息干凈到能讓“對方”聽到,計(jì)算機(jī)才能夠處理。
現(xiàn)在可以看到,科勝訊、云知聲、思必馳,科大訊飛這些公司,它們都說自己有全套解決方案,實(shí)際上,“全套解決方案”就是能解決剛才所說的噪聲抵消和后面的云端處理。
只有設(shè)備里的噪聲抵消解決干凈了,信息才能傳到下一級,去做語音識別。
語音識別國內(nèi)做得最好的就是科大訊飛,他們最喜歡干的就是,每次有人在那兒說話,它給你翻成文字。它這個(gè)做得很漂亮。但這些文字是什么意思?它不管了。因?yàn)檫@已經(jīng)到了語義識別,而在這一塊做得最好的是微軟和亞馬遜。
總之,可以把語音設(shè)備的技術(shù)分成三段:一是噪聲抵消,二是語音識別,三是語義識別。在語義識別這塊,老外比中國人強(qiáng)。
對用戶來說,一定是三段都做好才能有所體會,但語義識別是個(gè)更難的東西,基本上只有大公司能做,小公司做不了。
我現(xiàn)在認(rèn)為“智能音箱”快做壞了,就是設(shè)備端都沒有做好。如果降噪這一塊沒有處理好,科大訊飛算法再好也傻,識別率就下降,語義識別就更別談了。
很少有人注意到一個(gè)信息,國家做了一個(gè)實(shí)驗(yàn)室,希望廠商們把自己的語音設(shè)備放到實(shí)驗(yàn)室去認(rèn)證。
它就跟手機(jī)一樣,手機(jī)廠商都會說自己的產(chǎn)品好,但最后必須得過 3C 標(biāo)準(zhǔn),需要認(rèn)證。所以大家都說自己好的時(shí)候,實(shí)驗(yàn)條件是什么?環(huán)境條件是什么?他們答不上來的。
聲學(xué)測量遠(yuǎn)比電磁場測量復(fù)雜,能不能適應(yīng)復(fù)雜的物理環(huán)境才是體現(xiàn)設(shè)備水平高低的地方,而那些總拿“能識別幾米幾米”說事的,消費(fèi)者都不會買單。
雷鋒網(wǎng)拓展閱讀:《亞馬遜的秘密部隊(duì)和差點(diǎn)成笑話的Amazon Echo》
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。