丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給camel
發(fā)送

0

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

本文作者: camel 2020-04-21 17:51
導(dǎo)語(yǔ):端到端一體化的技術(shù),再次顯出強(qiáng)大的功能。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新


雷鋒網(wǎng) AI 科技評(píng)論按:端到端一體化的技術(shù),再次顯出強(qiáng)大的功能。

4月20日,百度旗下人工智能品牌小度發(fā)布了新款無(wú)屏智能音箱——小度智能音箱 2 紅外版。據(jù)百度官方介紹,該音箱搭載了百度首款針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互研發(fā)的鴻鵠芯片,性能上有三大提升:

1)在語(yǔ)音識(shí)別上錯(cuò)誤率平均降低30%;2)高噪聲下首次喚醒率提升10%以上,且達(dá)到家居場(chǎng)合使用的超低誤報(bào)要求;3)平均工作功耗僅 100mw左右,待機(jī)功耗下降90%。

這樣的性能提升在業(yè)界可謂首屈一指,值得探索。

AI 科技評(píng)論對(duì)其背后技術(shù)做了詳細(xì)分析,認(rèn)為這主要得益于在他們?cè)谡Z(yǔ)音交互方面提出的兩大「端到端一體化」創(chuàng)新,

1)在軟件層面。目前智能音箱領(lǐng)域流行的語(yǔ)音交互方案為:先語(yǔ)音增強(qiáng),后語(yǔ)音識(shí)別。這種過(guò)程把語(yǔ)音交互分割成了兩個(gè)獨(dú)立的過(guò)程,在優(yōu)化過(guò)程中往往目標(biāo)不一致。而百度直接采用了“基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和聲學(xué)建模一體化端到端建模技術(shù)”(很長(zhǎng)的一段話,關(guān)鍵詞:復(fù)數(shù)卷積、端到端、增強(qiáng)和建模一體化),以字識(shí)別準(zhǔn)確率作為唯一的優(yōu)化目標(biāo)。

2)在硬件層面。傳統(tǒng)上,智能音箱的語(yǔ)音喚醒一般是兩級(jí)喚醒,這需要一顆低功耗喚醒芯片和一顆計(jì)算性能高的主芯片來(lái)配合完成。這種框架導(dǎo)致平均功耗極大(1W以上),且對(duì)主芯片的算力要求極高。百度提出了端到端軟硬一體化框架,將所有語(yǔ)音交互任務(wù)都放到一顆低功耗語(yǔ)音交互芯片(鴻鵠)上,主芯片無(wú)需承載復(fù)雜的語(yǔ)音交互的計(jì)算功能,顯著節(jié)省語(yǔ)音交互部分對(duì)整體系統(tǒng)資源的占用。

這在軟、硬兩個(gè)層面革新,對(duì)整個(gè)(遠(yuǎn)場(chǎng))語(yǔ)音交互都是顛覆性的。


一、軟件層面:語(yǔ)音增強(qiáng)和聲學(xué)建模一體化端到端建模技術(shù)

首先我們來(lái)分析一下,智能音箱的語(yǔ)音交互的軟件層面為什么必須選擇端到端建模的處理方式。

傳統(tǒng)上,為了提升遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的準(zhǔn)確率,一般會(huì)使用麥克風(fēng)陣列作為拾音器,利用多通道語(yǔ)音信號(hào)處理技術(shù),增強(qiáng)目標(biāo)信號(hào),提升語(yǔ)音識(shí)別精度。

目前,絕大多數(shù)在售的智能音箱產(chǎn)品系統(tǒng)所采用的多通道語(yǔ)音識(shí)別系統(tǒng),都是由一個(gè)前端增強(qiáng)模塊和一個(gè)后端語(yǔ)音識(shí)別聲學(xué)建模模塊串聯(lián)而成的:

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于2019年11月,百度語(yǔ)音引擎論壇

前端增強(qiáng)模塊通常包括到達(dá)方向估計(jì)(DOA)和波束生成(BF)。DOA技術(shù)主要用于估計(jì)目標(biāo)聲源的方向,BF技術(shù)則利用目標(biāo)聲源的方位信息,增強(qiáng)目標(biāo)信號(hào),抑制干擾信號(hào)。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于網(wǎng)絡(luò)

后端語(yǔ)音識(shí)別聲學(xué)建模模塊,會(huì)對(duì)這一路增強(qiáng)后的語(yǔ)音信號(hào)進(jìn)行深度學(xué)習(xí)建模。但,

1)波束區(qū)域拾音方法有局限性。上面這一類(lèi)語(yǔ)音增強(qiáng)技術(shù)大都是采用基于MSE的優(yōu)化準(zhǔn)則,從聽(tīng)覺(jué)感知上使得波束內(nèi)語(yǔ)音更加清晰,波束外的背景噪音更小。但是聽(tīng)覺(jué)感知和識(shí)別率并不完全一致。而且這種方法在噪音內(nèi)容也是語(yǔ)音內(nèi)容的時(shí)候(例如電視和人在同一個(gè)方向時(shí)),性能會(huì)急劇下降。

2)增強(qiáng)和識(shí)別模塊優(yōu)化目標(biāo)不一致。前端語(yǔ)音增強(qiáng)模塊的優(yōu)化過(guò)程獨(dú)立于后端識(shí)別模塊。該優(yōu)化目標(biāo)與后端識(shí)別系統(tǒng)的最終目標(biāo)不一致。目標(biāo)的不統(tǒng)一很可能導(dǎo)致前端增強(qiáng)模塊的優(yōu)化結(jié)果在最終目標(biāo)上并非最優(yōu)。

3)真實(shí)產(chǎn)品環(huán)境復(fù)雜,傳統(tǒng)方法會(huì)影響使用體驗(yàn)。基于波束區(qū)域拾音的方法嚴(yán)重依賴于聲源定位的準(zhǔn)確性,但對(duì)于首次喚醒,由于還不知道聲源的位置,所以首次喚醒率往往很低。

對(duì)這些問(wèn)題最好的解決,就是將語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別的建模進(jìn)行端到端一體化,設(shè)計(jì)一套深度學(xué)習(xí)模型,輸入是多路麥克信號(hào),輸出是目標(biāo)語(yǔ)言的文字,模型的優(yōu)化目標(biāo)只有一個(gè),即字準(zhǔn)確率。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于2019年11月,百度語(yǔ)音引擎論壇

2017 年谷歌團(tuán)隊(duì)曾最早提出采用神經(jīng)網(wǎng)絡(luò)來(lái)解決前端語(yǔ)音增強(qiáng)和語(yǔ)音聲學(xué)建模的一體化建模問(wèn)題。

但谷歌提出的FCLP結(jié)構(gòu)(Factored Complex Linear Projection)仍然是以信號(hào)處理方法為出發(fā)點(diǎn),用一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)去模擬和逼近信號(hào)波束,因此也會(huì)受限于信號(hào)處理方法的一些先驗(yàn)假設(shè)。相對(duì)于傳統(tǒng)基于數(shù)字信號(hào)處理的麥克陣列算法,谷歌得到了16%的相對(duì)錯(cuò)誤率降低。

百度采用了類(lèi)似的思想,即做“語(yǔ)音增強(qiáng)和語(yǔ)音聲學(xué)建模一體化”的端到端建模,不過(guò)他們所采用的是“基于復(fù)數(shù)的卷積神經(jīng)網(wǎng)絡(luò)”。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于2019年11月,百度語(yǔ)音引擎論壇

相比于谷歌的方法,該方法徹底拋棄了數(shù)字信號(hào)處理學(xué)科的先驗(yàn)知識(shí),模型結(jié)構(gòu)設(shè)計(jì)和數(shù)字信號(hào)處理學(xué)科完全脫鉤,充分發(fā)揮了CNN網(wǎng)絡(luò)的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢(shì)。

在保留原始特征相位信息的前提下,這個(gè)模型同時(shí)實(shí)現(xiàn)了前端聲源定位、波束形成和增強(qiáng)特征提取。該模型底部CNN抽象出來(lái)的特征,直接送入端到端的流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA)中,從而實(shí)現(xiàn)了從原始多路麥克信號(hào)到識(shí)別目標(biāo)文字的端到端一體化建模。

整個(gè)網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則完全依賴于語(yǔ)音識(shí)別網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則來(lái)做,即完全以識(shí)別率提升為目標(biāo)來(lái)做模型參數(shù)調(diào)優(yōu)。

賈磊曾在去年11月「百度大腦·語(yǔ)音能力引擎論壇」上向雷鋒網(wǎng)AI科技評(píng)論介紹說(shuō):“我們的模型能提取生物的信號(hào)本質(zhì)特征,作為對(duì)比,Google的系統(tǒng)是假設(shè)兩路麥克信號(hào)對(duì)應(yīng)頻帶之間的信息產(chǎn)生關(guān)系,這沒(méi)有挖掘頻帶之間的信息,這也是Google在識(shí)別率上偏低的原因?!?/p>

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于2019年11月,百度語(yǔ)音引擎論壇

如前面提到,相對(duì)于百度智能音箱之前產(chǎn)品所采用的基于傳統(tǒng)“數(shù)字信號(hào)處理的前端增強(qiáng)模塊”+“后端語(yǔ)音識(shí)別聲學(xué)建模過(guò)程”的串聯(lián)方法,這種基于復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和聲學(xué)建模一體化端到端建模技術(shù),獲得了錯(cuò)誤率超過(guò)30%以上的降低。

30%的降低,這也是近期深度學(xué)習(xí)遠(yuǎn)場(chǎng)識(shí)別技術(shù)中,最大幅度的產(chǎn)品性能提升。

同時(shí),由于這種建模方式是端到端一體化,無(wú)需定位聲源,因此就避免了傳統(tǒng)上由于定位出錯(cuò)而導(dǎo)致的識(shí)別準(zhǔn)確率急劇下降。特別是對(duì)于首次喚醒(沒(méi)有定位信息),高噪音下這種技術(shù)的首次喚醒率最大幅度可以提升10%以上,且能保證高精準(zhǔn)喚醒的同時(shí),誤報(bào)率非常低。這是一點(diǎn),是業(yè)內(nèi)傳統(tǒng)技術(shù)無(wú)法做到的事情。

這種方法的成功,說(shuō)明了一點(diǎn):“端到端建模”將成為遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別產(chǎn)業(yè)應(yīng)用的重要發(fā)展方向。

基于這種研究,賈磊在去年曾向記者表示:“三年以內(nèi),遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)的識(shí)別率將達(dá)到近場(chǎng)識(shí)別率,因?yàn)橛辛诉@個(gè)技術(shù),遠(yuǎn)場(chǎng)識(shí)別問(wèn)題基本可以得到解決,這是一個(gè)很大的跨學(xué)科創(chuàng)新。”

需要一提的是,這個(gè)端到端網(wǎng)絡(luò)所占內(nèi)存不到200K,因此非常適合內(nèi)嵌到芯片當(dāng)中。


二、硬件層面:端到端軟硬一體遠(yuǎn)場(chǎng)語(yǔ)音交互方案

百度在智能音箱上的第二個(gè)提升要?dú)w功于他們提出的端到端軟硬一體化遠(yuǎn)場(chǎng)語(yǔ)音交互方案。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于2019年11月,百度語(yǔ)音引擎論壇

我們?nèi)詮膫鹘y(tǒng)方法說(shuō)起。

對(duì)于智能音箱,喚醒是一個(gè)重要的問(wèn)題。目前業(yè)界采用的低功耗喚醒方案常用的方式是兩級(jí)喚醒。第一級(jí)喚醒計(jì)算量很小,主要用于監(jiān)聽(tīng),是全天候運(yùn)轉(zhuǎn)的。第二級(jí)喚醒計(jì)算量很大,是在發(fā)生可能疑似喚醒的時(shí)候來(lái)做決策。通常用的低功耗芯片的遠(yuǎn)場(chǎng)語(yǔ)音交互解決方案,都是低功耗芯片部分只承載第一級(jí)喚醒,這樣全天候的監(jiān)聽(tīng)過(guò)程不會(huì)耗電特別多。如果發(fā)生疑似喚醒,跑在一個(gè)更強(qiáng)計(jì)算力的主芯片上的第二級(jí)喚醒再進(jìn)行第二次檢測(cè),最終確定喚醒是不是發(fā)生。這樣的兩級(jí)機(jī)制,使得主芯片的算力和資源都要向第二級(jí)喚醒傾斜。

需要指出的一點(diǎn)是,智能音箱的上述兩級(jí)芯片都是基于ARM芯片,這種芯片做語(yǔ)音喚醒和識(shí)別,一方面是成本很高(因?yàn)閷?duì)計(jì)算能力要求較高),另一方面功耗也很高。一般來(lái)說(shuō),平均功耗在 1 W 以上。

針對(duì)這樣的問(wèn)題,顯然設(shè)計(jì)出一款專用的語(yǔ)音交互芯片,1)通過(guò)自定義指令集,來(lái)提升算力;2)更重要的是,把所有原來(lái)跑在主芯片上的語(yǔ)音交互全部放在這顆芯片中,從而主芯片無(wú)需再承載復(fù)雜的語(yǔ)音交互的計(jì)算功能,這可以顯著節(jié)省語(yǔ)音交互部分對(duì)整體資源的占用;同時(shí)主芯片也可以選擇比較廉價(jià)的芯片。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

圖片來(lái)源于小度智選商城

百度推出的鴻鵠芯片,據(jù)官方介紹,采用了雙核Hifi4 架構(gòu)自定義指令集,超大內(nèi)存,臺(tái)積電40nm工藝(對(duì)于更高的工藝也沒(méi)有必要),此外100mw左右平均工作功耗,即可同時(shí)支持遠(yuǎn)場(chǎng)語(yǔ)音交互核心的陣列信號(hào)處理和可用于喚醒的深度學(xué)習(xí)計(jì)算能力。芯片架構(gòu)上,鴻鵠內(nèi)嵌了上面提到的端到端一體化的建模算法,在內(nèi)存結(jié)構(gòu)和分級(jí)內(nèi)存加載策略,以及cache、雙核通信等結(jié)構(gòu)上做了定制化的工作,能夠?qū)崿F(xiàn)深度學(xué)習(xí)計(jì)算過(guò)程和數(shù)據(jù)加載的高度并行。

這里需要指出的是,由于鴻鵠芯片可以完成所有語(yǔ)音交互(遠(yuǎn)場(chǎng)拾音、喚醒、定位等)的功能,這就使得,經(jīng)鴻鵠芯片提取的特征可以直接傳遞到云端,在云端進(jìn)行高精準(zhǔn)識(shí)別,而無(wú)需占用主芯片的任何計(jì)算資源。這種軟硬一體的端到端架構(gòu),實(shí)現(xiàn)了高性能語(yǔ)音體驗(yàn)和極低成本智能硬件的統(tǒng)一。

以百度官方的數(shù)據(jù),這次新發(fā)布的智能音箱平均待機(jī)功耗只有100毫瓦左右,這完全滿足 3C 產(chǎn)品的 0.5 瓦的待機(jī)標(biāo)準(zhǔn),這也意味著任何一個(gè)國(guó)家認(rèn)證的節(jié)能、環(huán)保的綠色家電產(chǎn)品,都可以搭載鴻鵠語(yǔ)音芯片。因此可以說(shuō),鴻鵠芯片也是業(yè)界首個(gè)達(dá)到該標(biāo)準(zhǔn)的集成完整遠(yuǎn)場(chǎng)語(yǔ)音交互端側(cè)技術(shù)的語(yǔ)音芯片產(chǎn)品。

這種對(duì)能耗的壓縮,是傳統(tǒng)基于ARM芯片的架構(gòu)所無(wú)法承擔(dān)的使命。

此外,家居場(chǎng)合除了對(duì)喚醒精度有較高要求外,還需要有極低的誤報(bào),否則就會(huì)出現(xiàn)“深更半夜客廳莫名其妙地出現(xiàn)歌聲”的詭異現(xiàn)象。在傳統(tǒng)的低功耗喚醒方案中,是否喚醒取決于放在主芯片中的決策模型,因此喚醒的誤報(bào)水平也取決于它。但如果選用鴻鵠這種端到端的方案,則能避免多級(jí)喚醒所引入的錯(cuò)誤,從而降低誤報(bào)率。


三、語(yǔ)音交互領(lǐng)域,端到端的革新

回過(guò)頭來(lái),我們?nèi)タ窗俣忍岢龅倪@整套技術(shù)所帶來(lái)的識(shí)別錯(cuò)誤率降低,首次喚醒率提升(同時(shí)誤報(bào)率極低)以及待機(jī)功耗下降,顯然還有可提升的空間。這種“可提升”,是由其在軟、硬兩個(gè)層面的革新所帶來(lái)的。

首先他們提出的“端到端建模技術(shù)”,直接將語(yǔ)音增強(qiáng)和聲學(xué)建模兩個(gè)過(guò)程融合為一,避免了在各自過(guò)程中優(yōu)化不統(tǒng)一所帶來(lái)的錯(cuò)誤率下降,全局的優(yōu)化目標(biāo)只有一個(gè),即字準(zhǔn)確率。這種想法徹底拋棄了各種先驗(yàn)知識(shí)(以及所帶來(lái)的錯(cuò)誤),模型結(jié)構(gòu)設(shè)計(jì)和數(shù)字信號(hào)處理學(xué)科完全脫鉤,充分發(fā)揮了CNN網(wǎng)絡(luò)的多層結(jié)構(gòu)和多通道特征提提取的優(yōu)勢(shì),是一個(gè)顛覆性的思想,顯然還有更多可開(kāi)拓的空間。

另一方面,將模型嵌入芯片,用一顆芯片解決所有語(yǔ)音交互問(wèn)題。不但具備較高的喚醒精度還具備超低的誤報(bào)。這種新的軟硬一體化架構(gòu),直接解放了主芯片,大大降低了對(duì)主芯片運(yùn)算性能的要求,從而在價(jià)格和功耗上都能得到大幅度優(yōu)化。這種架構(gòu)的革新,必將成為改變整個(gè)智能音箱(遠(yuǎn)場(chǎng)交互場(chǎng)景)行業(yè)的一次技術(shù)革新。

一顆芯片,即可同時(shí)解決全部的語(yǔ)音交互功能且功耗如此之低,百度鴻鵠無(wú)疑為全球業(yè)界打造出了一個(gè)新的標(biāo)桿。而回歸到智能音箱本身,軟硬一體化的大規(guī)模使用,或許也將對(duì)業(yè)內(nèi)其他廠商帶來(lái)不小的壓力。

雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

一顆芯片解決所有語(yǔ)音交互,百度做了一項(xiàng)改變行業(yè)的技術(shù)革新

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)