0
本文作者: 包永剛 | 2019-12-27 10:08 |
今年3月份,雷鋒網(wǎng)《舍棄馮諾依曼架構(gòu)突破內(nèi)存墻瓶頸的AI芯片,即將轟動市場?》一文介紹了解決AI芯片內(nèi)存墻挑戰(zhàn)的多種路徑以及探境科技采用的創(chuàng)新方法。距離文章發(fā)布不到十個月之后,也是探境首款A(yù)I語音芯片量產(chǎn)不到一年之后,探境科技CEO魯勇本周宣布探境的語音識別方案實現(xiàn)百萬級出貨。
百萬級出貨,只是衡量一款使用成熟制程工藝成功的最小出貨量級,但對于AI芯片來說卻意義重大。此前我們已經(jīng)多次強調(diào),對于AI芯片初創(chuàng)公司而言,設(shè)計出芯片只是成功的開始,能否大規(guī)模落地才更為關(guān)鍵。
如今,無論是巨頭還是初創(chuàng)公司,大都為AI芯片難落地的苦惱。顯然,探境科技量產(chǎn)不到一年的音旋風(Voitist)611 AI語音芯片出貨就達百萬級值得關(guān)注,他們?nèi)〉眠@一成績的策略和方法或許也值得參考和借鑒。
探境科技CEO魯勇
推翻馮諾依曼架構(gòu)
3月份的文章已經(jīng)介紹了探境科技設(shè)計出的非馮諾依曼架構(gòu)的計算架構(gòu)——存儲構(gòu)SFA(Storage First Architecture)。SFA架構(gòu)解決內(nèi)存墻挑戰(zhàn)的方法比較獨特,以存儲調(diào)度為核心的計算架構(gòu),數(shù)據(jù)在存儲之間的搬移過程之中就完成了計算,計算對于數(shù)據(jù)來說只是一種演變。
當時,魯勇對于SFA架構(gòu)進一步的解釋是,存儲是我們SFA架構(gòu)優(yōu)先的出發(fā)點,去考慮數(shù)據(jù)在搬移過程中做計算,也就是由數(shù)據(jù)帶動計算而非由算子帶動數(shù)據(jù)。與通常計算的先有計算指令然后提供數(shù)據(jù)相反,SFA架構(gòu)是先有數(shù)據(jù),然后再把算子交給它。
探境科技SFA架構(gòu)
由于沒有詳盡的說明,SFA也有被誤解為最近幾年討論很多的存內(nèi)計算(In-Memory Computing),魯勇近日再次接受雷鋒網(wǎng)采訪時首先明確,SFA不是存內(nèi)計算。我們說SFA不是馮諾依曼架構(gòu),指的是SFA不是以計算帶動存儲。不過,SFA架構(gòu)采用的是標準單元庫設(shè)計,沒有改變底層的工藝。
SFA架構(gòu)解決內(nèi)存墻挑戰(zhàn)的核心是,既然深度學習算法需要的卷積運算的乘法計算次數(shù)不能減少,那就想辦法把數(shù)據(jù)在存儲器和運算單元之間的搬運次數(shù)降低,達到提升算力、降低功耗和解決內(nèi)存帶寬限制的目的。
“SFA架構(gòu)實現(xiàn)的方法是通過硬件、架構(gòu)調(diào)度、數(shù)據(jù)調(diào)度管理等創(chuàng)新。實驗數(shù)據(jù)表明,SFA架構(gòu)所采用的各種微觀和宏觀調(diào)度算法,比較’類CPU架構(gòu)‘采用的基于總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益?!濒斢卤硎?。
除了高能效比,SFA架構(gòu)還帶來了通用和易用的優(yōu)勢。魯勇說:“我們的芯片是首款通用型AI芯片,可以支持所有已知的神經(jīng)網(wǎng)絡(luò),對數(shù)據(jù)類型也沒有限制,對常見的稀疏數(shù)據(jù)也可以實現(xiàn)自適應(yīng)支持?!?/p>
還有非常重要的一點,將AI模型從云端遷移到終端,使用探境的芯片不需要重新訓(xùn)練。魯勇表示:“我們提供的工具鏈可以給零基礎(chǔ)的客戶使用,不僅在算法從云端到終端遷移的時候不需要重新訓(xùn)練,節(jié)省時間。還能保證模型從浮點到定點進行量化之后,精度幾乎沒有變化?!?/p>
他透露,“我們有一套從特別的量化技術(shù),硬件上提供一些比較冗余的信息,保證即使量化為8比特也不會丟失信息。同時借助AI、非線性的一套算法,通過軟硬結(jié)合的方式,甚至可以做到量化到4比特,模型都不需要重新訓(xùn)練?!?/strong>
魯勇所說的精度幾乎沒有變化,指的是量化后精度有千分之幾的變化。比如從浮點16位時的95.7%的精度量化為定點八位后精度變?yōu)?5.3%。
因此,基于SFA架構(gòu)的探境AI芯片采用28nm的工藝能效就超過4TOPS/W,數(shù)據(jù)訪問降低10倍到100倍,存儲子系統(tǒng)功耗降低10倍以上。
魯勇還透露,SFA架構(gòu)的圖像芯片已經(jīng)成功流片,圖像AI芯片的核心指標IPS/W全球第一,達到了800 IPS/W。
數(shù)據(jù)顯示,目前市面上的AI圖像芯片這一指標大都沒有超過100 IPS/W。
算法挖掘架構(gòu)優(yōu)勢
當然,優(yōu)秀的架構(gòu)必須很好地融合算法,才能最大化硬件的優(yōu)勢。特別是AI時代,越來越多人意識到軟硬一體的重要性。探境在算法上也有其獨特的降噪和識別算法。語音識別大致可以分為四個過程,語音信號采集、語音信號處理、語音識別、獲得結(jié)果。以家居這個AI語音落地較多的場景為例,具有信噪比(信號與噪聲的比例)比較低,會有不可預(yù)見的噪聲以及多個聲源等挑戰(zhàn)。
從語音識別的過程來看,想要獲得滿意的結(jié)果,首先需要的是降噪算法。探境科技聯(lián)合創(chuàng)始人 軟件研發(fā)副總裁李同治介紹:“我們的降噪算法基于深度學習,不僅可以處理常見的穩(wěn)態(tài)噪聲,對一些非穩(wěn)態(tài)的噪聲和突發(fā)性的噪聲也可以很好地處理。為了驗證這套算法識別的有效性,我們將一批信噪比在3dB左右的語音數(shù)據(jù)送到一家知名互聯(lián)網(wǎng)公司的云端識別引擎進行測試,結(jié)果顯示降噪后比降噪前的識別率能夠提升30%以上?!?/p>
30%是個什么概念?根據(jù)李同治播放的音頻,使用探境的AI降噪算法,能夠有效地過濾風聲、雨滴聲這些噪音。
降噪后的下一步是識別,在語音識別中,探境采用的是其稱為HONN的新型高計算強度神經(jīng)網(wǎng)絡(luò)。李同治透露,HONN將計算機視覺中的一些經(jīng)驗遷移到語音識別中。HONN增加了卷積的操作次數(shù),減少了傳統(tǒng)DNN/TDNN算法中全連接的次數(shù)。
對比傳統(tǒng)的DNN算法,HONN特點在于算法的參數(shù)大概是傳統(tǒng)DNN算法的1/5,更少的參數(shù)意味著只需要更少存儲面積,也就相當于更低的芯片成本。雖然參數(shù)更少,但HONN單幀對算力的需求超過幾百兆OPs,DNN僅為個位數(shù)。
最終結(jié)果顯示,在信噪比大于10dB和5-10dB的環(huán)境中,HONN命令詞識別準確率的提升分別為2%和10%。
在實際的場景測試中,HONN使用單麥克風效果也十分顯著。但語音識別的場景還有更加苛刻的場景,比如掃地機器運行中產(chǎn)生的聲音,或者控制客廳或廚房中家電設(shè)備時距離較遠語音信號快速衰減,這時候就需要使用麥克風陣列。
傳統(tǒng)的麥克風陣列有三個缺點,一個是聲源定位依賴單麥克風,遠場時喚醒率低影響使用體驗;另一個是降噪算法和識別模型不適配;還有就是對多個麥克風以及電容等元器件一致性要求非常高,無形提高了整個系統(tǒng)的物料成本;最后,當干擾聲源與目標聲源方向接近時,這套流程也無能為力。
“為了解決這些問題,我們提出了基于FCSP(頻域復(fù)數(shù)子空間投影)的端到端AI雙麥新算法,把增強和識別一體化,進行端到端的識別流程。在這個識別流程中,我們放棄了使用傳統(tǒng)的數(shù)字信號處理算法來做語音增強,而是用一套基礎(chǔ)于深度學習的AI算法做信號增強。處理算法的參數(shù)和神經(jīng)網(wǎng)絡(luò)一起訓(xùn)練,通過整體優(yōu)化降低最后的識別錯誤率?!袄钔芜€進一步指出。
“我們的喚醒識別全部依賴增強后的信號,不會出現(xiàn)信號增強依賴于單麥喚醒的情況。并且在訓(xùn)練的過程中,還加入了注意力模型和注意力機制,這樣干擾源和信號源接近的時候也能處理得很好。”
這是前比較前沿的方法,國外的亞馬遜、谷歌也在采用端到端的方法做增強和識別的一體化處理。根據(jù)探境給出的數(shù)據(jù),亞馬遜采用的是基于可學習的空間濾波方法,在信噪比低于5dB時,單字識別錯誤率相對降低15%。谷歌使用的方法是頻域因子分解模型,單字識別錯誤率相對降低16%。探境的頻域復(fù)數(shù)子空間投影命令詞識別錯誤率相對降低20%。
采用這樣的方法就意味著可以用更少的麥克風實現(xiàn)更好的效果,谷歌表示,使用端到端的處理算法后其雙麥的識別率可以達到了傳統(tǒng)算法7麥克風陣列的識別率。
李同治表示,之所以探境能用更復(fù)雜的算法實現(xiàn)更好的效果,除了我們有強大的算法研究實力,同樣重要的是有高算力的SFA架構(gòu)芯片完美地制程這套算法和框架。
基于升級的雙麥克風算法,探境也對音旋風611進行了升級,推出了音旋風612語音識別方案,對麥克風及配套電路的要求更低,高噪聲環(huán)境的識別率更高。
快速落地的秘密
至此,探境AI芯片能夠快速落地的秘密也就清晰了。最底層,探境進行芯片架構(gòu)進行的創(chuàng)新,打破AI芯片內(nèi)存墻的限制。當然,SFA架構(gòu)除了帶來更高能效比、更低功耗,通用性讓其不僅可以用于AI語音,也適用于AI視覺處理。根據(jù)魯勇的說法,SFA架構(gòu)也能用于云端的訓(xùn)練和推理。
不過,客戶并不關(guān)注芯片的架構(gòu)創(chuàng)新,他們更關(guān)注成本及易用性。探境獨特的量化技術(shù)可以節(jié)省遷移成本,軟件平臺可以降低開發(fā)者的使用門檻,這讓芯片成為了易于使用的方案。
但要最終打動用戶,解決用戶痛點才是決定因素。這方面,探境所做的是在降噪、識別算法中也采用深度學習,基于SFA架構(gòu)帶來的高算力,用模型參數(shù)更少但對算力要求更高的AI模型,實現(xiàn)用兩個麥克風陣列達到4個甚至7個麥克風陣列的效果。
通過軟硬一體的優(yōu)化,用成本、易用性、效果提升、系統(tǒng)易集成帶來的優(yōu)勢,最終打動用戶。
當然,除了技術(shù),市場策略也非常關(guān)鍵。探境的SFA架構(gòu)可以用于AI視覺,并且探境成立之時是AI視覺更火熱的時候,但魯勇并沒有選擇安防市場,而是首先進入更容易落地和產(chǎn)生營收的AI語音市場,用更高的算力融合更更好的算法,讓產(chǎn)品具有更強的競爭力。
同時,針對語音市場還布局了低功耗、主流、旗艦產(chǎn)品,能夠全面滿足市場需求。為滿足客戶不同的需求,既可以單獨提供芯片或者算法,也能夠提供全棧的方案。未來還將推出針對圖像市場的8XX系列芯片。
為進一步拓展市場,探境近日也和國內(nèi)知名電子行業(yè)分銷商世強先進科技有限公司以及致力于智能語音控制與交互技術(shù)研究、創(chuàng)意產(chǎn)品設(shè)計和生產(chǎn)銷售的深圳阿凡達智控有限公司也達成了合作。
那么,接下來的問題是,首款A(yù)I芯片量產(chǎn)不到一年出貨就達到百萬級,已經(jīng)有30個合作伙伴的探境科技,2020年語音方案出貨能否達到千萬級?在AI視覺市場是否也能快速落地?雷鋒網(wǎng)
相關(guān)文章:
舍棄馮諾依曼架構(gòu)突破內(nèi)存墻瓶頸的AI芯片,即將轟動市場?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。