丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給張棟
發(fā)送

2

加“殺手锏”功能搶奪市場(chǎng)?阿里音箱這步棋怕是走早了

本文作者: 張棟 2017-07-15 07:30
導(dǎo)語:配有聲紋識(shí)別的天貓精靈X1,能成功吸引用戶的注意嗎?

加“殺手锏”功能搶奪市場(chǎng)?阿里音箱這步棋怕是走早了

不出所料,阿里還是發(fā)布了智能音箱。

從亞馬遜三年前的無心插柳到今天阿里的入局,智能音箱市場(chǎng)的爆發(fā)讓人始料未及,但這的確發(fā)生了。

Echo已累計(jì)銷售近2000萬臺(tái),谷歌、微軟、蘋果隨之跟進(jìn),之后的一段時(shí)間里,國內(nèi)的軟件廠商、硬件產(chǎn)商、內(nèi)容廠商爭(zhēng)相進(jìn)入,好不熱鬧。

而直到本月初,阿里才正式發(fā)布智能音箱天貓精靈X1,既出乎意料又在情理之中,使得語音入口的爭(zhēng)奪戰(zhàn)因?yàn)榘⒗锏娜刖肿兊酶佑腥ぁ?/p>

其實(shí),499元的天貓精靈在發(fā)布前一天,雷鋒網(wǎng)就曾寫過一篇題為【為何中國版Echo還未問世,明天阿里的AI新品能帶來驚喜嗎】的文章。

那么,阿里的智能音箱到底帶來了哪些有別于其他同類產(chǎn)品的驚喜?

眼前一亮的“驚喜”

此前有媒體稱,為了這款智能音箱,阿里巴巴甚至將馬云投入上億美元的Pepper機(jī)器人項(xiàng)目中止,把人員隊(duì)伍拆分劃進(jìn)人工智能實(shí)驗(yàn)室。而花了這么大代價(jià)出來的產(chǎn)品好像似乎與Echo等音箱并無本質(zhì)上的差異,所含功能大致包括播音樂、叫外賣、查天氣、設(shè)鬧鐘、智能家電操控等。 

根據(jù)天貓精靈對(duì)外宣傳的賣點(diǎn),其中非常重要一點(diǎn)就是連Echo都不具備的聲紋識(shí)別功能。

阿里稱,通過聲紋識(shí)別技術(shù),音箱可以分辨家里的每一個(gè)人,并且根據(jù)每個(gè)人的喜好而設(shè)定推送不同的內(nèi)容,目前最多可以識(shí)別6個(gè)人的身份;另外,用戶還可通過自己的聲音完成購物支付驗(yàn)證環(huán)節(jié)。而Echo在分辨人的身份上,還需要通過進(jìn)一步操作來獲取用戶的個(gè)人信息。

讓雷鋒網(wǎng)好奇的是,如此酷炫的功能為何亞馬遜至今都還沒用在Echo上。

據(jù)悉,亞馬遜很早就想應(yīng)用這項(xiàng)技術(shù),但據(jù)亞馬遜員工介紹,從聲紋識(shí)別領(lǐng)域的硬件和軟件公司中得到的反饋看來,讓這些語音控制設(shè)備去識(shí)別不同用戶的聲音比想象中要艱難很多。

“由于設(shè)備需要去除噪音,回聲,混響,使得它難以對(duì)聽到的發(fā)聲者的身份進(jìn)行識(shí)別?!盋onexant語音部門副總裁Vineet Ganju說道。

那么擁有聲紋識(shí)別的天貓精靈真的能撐起它所重點(diǎn)訴求的這個(gè)賣點(diǎn)嗎?

我看懸。

聲紋識(shí)別功能為什么懸?

加“殺手锏”功能搶奪市場(chǎng)?阿里音箱這步棋怕是走早了

先從聲紋識(shí)別算法層面講,聲智科技創(chuàng)始人陳孝良博士此前在接受雷鋒網(wǎng)專訪時(shí)表示,聲紋識(shí)別還是一個(gè)比較窄的學(xué)科,應(yīng)用也相對(duì)較少。現(xiàn)在大部分研究都是有關(guān)動(dòng)態(tài)實(shí)時(shí)檢測(cè),動(dòng)態(tài)檢測(cè)的方法自然要利用靜態(tài)檢測(cè)的各種原理方法,同時(shí)也需要增加其他很多算法, 比如VAD、降噪、去混響等。VAD的目的是檢測(cè)是不是人的聲音,降噪和去混響是排除環(huán)境干擾。

VAD常用兩個(gè)方法,基于能量檢測(cè)和LTSD(Long-Term Spectral Divergence),當(dāng)前用的較多是LTSD,另外特征提取方面還需要:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、矢量量化 (VQ)、支持向量機(jī) (SVM),模型方面則需要隱馬爾可夫模型(HMM)和高斯混合模型 (GMM)。

從上面模型不難看出,聲紋識(shí)別還是一種基于數(shù)據(jù)驅(qū)動(dòng)的模式識(shí)別問題,因?yàn)樗心J阶R(shí)別存在的問題聲紋都存在,而且聲紋識(shí)別還有一些不太好解決的物理和計(jì)算問題。

聲紋識(shí)別的唯一性很好,但實(shí)際上現(xiàn)有的設(shè)備和技術(shù)仍然很難做出準(zhǔn)確分辨,特別是人的聲音還具有易變性,易受身體狀況、年齡、情緒等的影響。若在環(huán)境噪音較大和混合說話人的環(huán)境下,聲紋特征也是很難提取和建模的。 現(xiàn)階段,遠(yuǎn)場(chǎng)聲紋識(shí)別理論并不成熟,研究進(jìn)展也不大。

陳孝良認(rèn)為,深度學(xué)習(xí)帶給模式識(shí)別極大的提升,甚至還有開源的相關(guān)算法,但是聲紋識(shí)別的研究進(jìn)展仍然不大,這仍然受制于聲紋的采集和特征的建立。

聲紋識(shí)別提供商SpeakIn資深科學(xué)家陳東鵬博士談到,從聲紋識(shí)別這一單項(xiàng)技術(shù)來講,容易受到真實(shí)環(huán)境下的各種影響,包括:噪音問題、多人說話、身體狀況、情緒影響等,現(xiàn)在確實(shí)很棘手。包括他們?cè)趦?nèi)的一些公司也在大力通過軟、硬件算法去優(yōu)化這些行業(yè)通用問題,在深度學(xué)習(xí)的加持下,整個(gè)行業(yè)的進(jìn)步也比以往更快。陳博士補(bǔ)充到,聲紋識(shí)別只是一個(gè)環(huán)節(jié),效果判斷還需看產(chǎn)品本身和使用場(chǎng)景等因素。

在產(chǎn)品層面,剛剛發(fā)布“小雅”智能音箱的喜馬拉雅表達(dá)了他們的看法。喜馬拉雅副總裁李海波表示,對(duì)于聲紋識(shí)別的應(yīng)用,公司內(nèi)部也攻關(guān)了很久,但無法做到完全準(zhǔn)確,目前還只是實(shí)驗(yàn)階段,效果一般。

在談及阿里天貓精靈時(shí),他講到,遠(yuǎn)場(chǎng)語音識(shí)別通常在三米到五米內(nèi)有效,降噪是在70dB左右,環(huán)境噪音和音響聲音大于這個(gè)標(biāo)準(zhǔn)就很難喚醒。而遠(yuǎn)場(chǎng)聲紋識(shí)別在同等距離下就更加不穩(wěn)定,目前客廳、電視機(jī)、廚房、床頭是智能音箱的四個(gè)常用場(chǎng)景,而除了床頭外,其他三個(gè)常用場(chǎng)景實(shí)際距離通常情況均超過三米,所以阿里音箱聲紋識(shí)別的具體實(shí)用性還不可得知。

至于亞馬遜Echo為何至今還沒用這個(gè)功能,李海波認(rèn)為該技術(shù)還不成熟,雖然很炫但風(fēng)險(xiǎn)很大。

另外,Sensory公司的CEO Todd Mozer也認(rèn)為對(duì)Echo這樣的遠(yuǎn)場(chǎng)語音設(shè)備來說,識(shí)別誰在說話是很困難的。隨著信號(hào)/噪聲比例提高,設(shè)備的表現(xiàn)隨之變差。

“降噪和從噪聲中分離語音的處理對(duì)于用戶身份的識(shí)別有非常大的影響,目前為止,市場(chǎng)上還沒有產(chǎn)品同時(shí)處理好用戶身份識(shí)別,遠(yuǎn)場(chǎng)語音和噪聲處理。”Mozer說道。

再從遠(yuǎn)場(chǎng)聲紋識(shí)別的實(shí)際應(yīng)用情況來看,中科院自動(dòng)化所、極限元資深智能語音算法專家劉斌向雷鋒網(wǎng)談到了他的看法。劉博士表示,遠(yuǎn)場(chǎng)語音識(shí)別受到噪聲、回聲、混響的干擾,無論是語音識(shí)別還是聲紋識(shí)別都很具有挑戰(zhàn)性。

目前遠(yuǎn)場(chǎng)語音識(shí)別可靠的識(shí)別距離大約是3-5米;對(duì)于聲紋識(shí)別還要更難一些。因?yàn)檎Z音識(shí)別的目的是理解語音信號(hào)中的言語內(nèi)容,言語內(nèi)容信息跟共振峰高度相關(guān),共振峰主要集中在低頻帶,語音信號(hào)低頻帶能量較高,受外部干擾相對(duì)較小,而說話人相關(guān)特征更多集中在高頻帶,語音高頻帶能量相對(duì)較低,更容易收到各種干擾的影響,因此遠(yuǎn)距離聲紋識(shí)別更具挑戰(zhàn)。他隨即說到,因?yàn)槊總€(gè)人說話特征會(huì)隨著不同因素而變化,例如感冒時(shí)發(fā)音跟正常時(shí)肯定有所差異,所以近場(chǎng)聲紋識(shí)別還不敢保證特別成熟,遠(yuǎn)場(chǎng)條件下肯定不太容易實(shí)用??傮w來說,對(duì)于大多數(shù)用戶,聲紋識(shí)別應(yīng)用于智能音箱并不是剛需,從技術(shù)角度分析,聲紋識(shí)別尚不成熟。

加“殺手锏”功能搶奪市場(chǎng)?阿里音箱這步棋怕是走早了

那么,相比遠(yuǎn)場(chǎng)語音識(shí)別來說,更加不成熟的遠(yuǎn)場(chǎng)聲紋識(shí)別技術(shù)為何會(huì)被阿里急著應(yīng)用到音箱中呢?

除了用此技術(shù)滿足用戶的個(gè)性化需求尋求差異化搶占市場(chǎng)外,劉博士還提到,介于阿里在電商領(lǐng)域的一些積累和優(yōu)勢(shì),應(yīng)用在電商身份認(rèn)證也是阿里重點(diǎn)推進(jìn)的方向。

阿里基于淘寶、天貓巨大的資源優(yōu)勢(shì)將購物場(chǎng)景引入音箱中聽上去無可厚非,但從之前亞馬遜將此場(chǎng)景應(yīng)用在Echo上來看,用戶用其購物的使用頻率并不高,使用體驗(yàn)也不理想。

科大訊飛執(zhí)行總裁胡郁此前接受雷鋒網(wǎng)采訪就說到,從整個(gè)市場(chǎng)來看,購物場(chǎng)景應(yīng)用于音箱中還非常不成熟。真需求一定是用來滿足用戶剛需行為的功能,雖然Echo現(xiàn)在賣的很好,但調(diào)查后發(fā)現(xiàn),用戶真正用得比較多的工具不過是設(shè)個(gè)提醒、查個(gè)天氣等等。之前亞馬遜大力推的Echo語音購物功能并沒有做起來,當(dāng)用戶用語音交互的形式去買東西時(shí),會(huì)發(fā)現(xiàn)里面各個(gè)環(huán)節(jié)和場(chǎng)景挺麻煩,還不如直接在屏幕操作來的方便。

所以這也是很多企業(yè)一直在強(qiáng)調(diào)語音交互要和視覺呈現(xiàn)的原因,因?yàn)橛脩粼诿鎸?duì)沒有視覺呈現(xiàn)的情況下,你獲得的信息不夠,這時(shí)候很難完成一些復(fù)雜的操作。所以有些功能和場(chǎng)景都是我們自己憑空想出來的,直到真正投入實(shí)際使用時(shí)卻發(fā)現(xiàn)用戶的思維與行為習(xí)慣并不是產(chǎn)品設(shè)計(jì)的那樣。

這里可以看出,如果用戶連使用電商功能的習(xí)慣都尚未養(yǎng)成,且聲紋技術(shù)問題重重,那么在電商中加入聲紋識(shí)別的訴求,目測(cè)也很難以經(jīng)得住市場(chǎng)考驗(yàn)。

總體來看,阿里此次在智能音箱中加入聲紋識(shí)別的出發(fā)點(diǎn)很好:大打Echo和京東叮咚都沒有的功能營銷牌,在同質(zhì)化產(chǎn)品浪潮中,用前沿技術(shù)來提升競(jìng)爭(zhēng)力。

但在整個(gè)技術(shù)和市場(chǎng)尚未成熟之際,阿里在音箱中嫁接聲紋識(shí)別,這步棋怕是走早了一步。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注AI+。(微信號(hào):ZDmatt)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說