0
本文作者: 包永剛 | 2019-11-13 09:59 |
隨著AI算法的逐步成熟以及芯片算力的提升,歷經(jīng)幾年的熱潮之后,AI技術(shù)只有落地應用才能獲得進一步的發(fā)展。不過,算法需求與芯片算力不匹配的需求成為了AI落地的一大障礙,AI軟硬一體化成為關(guān)鍵。但在軟硬一體化提高效率的同時,如何滿足多樣化的需求也非常關(guān)鍵,定制化成為了趨勢。
AI終端市場的多樣化需求
這一輪AI熱潮,不僅讓越來越多的人認識和了解了AI技術(shù),AI也正在成為每臺智能設(shè)備日常工作的一部分。事實證明,深度神經(jīng)網(wǎng)絡(luò)(DNN)非常有用,但是AI的進一步發(fā)展和落地仍有很多挑戰(zhàn)。比如,如何使得現(xiàn)有解決方案跟上發(fā)展趨勢?如何擴展解決方案?如何以成熟的工具鏈縮短TTM(Time to Market)和降低成本?
面對這些問題,需要整個產(chǎn)業(yè)鏈的協(xié)作,共同滿足市場的需求。根據(jù)市場研究機構(gòu)的報告,到2022年,全球具有計算機視覺/機器視覺相繼的規(guī)模將超過15億個,包括智能手機、安防、消費電子、汽車圖像傳感器、工業(yè)等。
這就意味著,定制化的AI加速器可以更好地滿足市場的不同需求,但與此同時,AI在邊緣端的落地也面臨挑戰(zhàn)。CEVA營銷副總裁Moshe Sheier認為,在邊緣AI中,AI的落地面臨的問題就是數(shù)據(jù)量太大且運算太復雜,芯片的算力非常關(guān)鍵。
CEVA營銷副總裁Moshe Sheier
如何破解AI處理器的帶寬難題?
Moshe Sheier近日接受雷鋒網(wǎng)采訪時表示,AI算法公司在做落地項目的時候,受困于硬件算力不足的問題,可能會犧牲很多特性。所以我們現(xiàn)在希望算法公司能夠向芯片公司提出更多的需求,讓芯片的設(shè)計能夠更好地滿足算法需求。只有算法的效率提高了,AI才能更好的落地。
提到效率,無法避開的問題就是AI到底需要專用還是通用的芯片,通用的芯片能夠更好適應算法的演進,但算力不及專用芯片。Moshe Sheier認為,AI加速器一定是一個趨勢,同時,視頻DSP在AI中非常重要,因為AI算法還有很多不確定性。如今算法公司不會只采用一種神經(jīng)網(wǎng)絡(luò),而是會進行組合。運行多個神經(jīng)網(wǎng)絡(luò)模型就一定會涉及對結(jié)果進行CV的處理,這時候CPU可能會面臨一些瓶頸。我們的XM DSP針對了所有流行的神經(jīng)網(wǎng)絡(luò)都進行了優(yōu)化,能夠更好的滿足多神經(jīng)網(wǎng)絡(luò)的算法。
基于對流行神經(jīng)網(wǎng)絡(luò)特征的理解,CEVA在今年9月推出了第二代面向邊緣設(shè)備的AI推理處理器架構(gòu)NeuPro-S,NeuPro-S系列包括NPS1000、NPS2000和NPS4000,它們是每個周期分別具有1000、2000和4000個8位MAC的預配置處理器。NPS4000具有最高的單核CNN性能,在1.5GHz時可達到12.5 TOPS,并且可完全擴展,最高可達到100 TOPS。
根據(jù)官方的說法,與CEVA第一代AI處理器相比,NeuPro-S的性能平均提升50%,內(nèi)存帶寬和功耗分別降低了40%和30%。
這種性能的提升主要來自硬件還是軟件的優(yōu)化?Moshe Sheier表示主要是來自硬件,因為CEVA在NeuPro-S中增加了離線的權(quán)重壓縮和硬件的權(quán)重解壓縮。
之所以要這么做,是因為神經(jīng)網(wǎng)絡(luò)與視頻編解碼不太一樣,即便很小的圖片,引入卷積后權(quán)重的數(shù)據(jù)量非常大,因此帶寬成為了AI處理器的瓶頸。而CEVA采用的多重權(quán)重壓縮,減少對帶寬的需求。
不僅如此,NeuPro-S還支持多級內(nèi)存系統(tǒng)。具體而言,就是加入了L2內(nèi)存的支持,用戶通過設(shè)置L2的大小,可以盡量把數(shù)據(jù)放在L2的緩存,減少使用外部SDRAM,降低傳輸成本。
Moshe Sheier指出,硬件增加L2并不復雜,CEVA主要的工作是在我們CNDD軟件框架中加入對L2內(nèi)存的支持。
因此,NeuPro-S相比上一代NeuPro非常重要的工作就是進行帶寬的優(yōu)化,這樣才有可能達到理論設(shè)計的利用率。雷鋒網(wǎng)了解到,CEVA設(shè)計神經(jīng)網(wǎng)絡(luò)引擎時最關(guān)注的問題就是乘法利用率,CEVA借助DSP設(shè)計的豐富經(jīng)驗,設(shè)計出的神經(jīng)網(wǎng)絡(luò)引擎理論的乘法利用率在80%-90%、雖然實際利用率會低于理論值,但NeuPro-S帶寬的增大將能夠減少數(shù)據(jù)的等待,能提高乘法利用率。
最終,經(jīng)設(shè)計優(yōu)化NeuPro-S,能夠?qū)吘壴O(shè)備中視頻和圖像中的物品進行分割、檢測和分類神經(jīng)網(wǎng)絡(luò),顯著提高系統(tǒng)感知性能。除了支持多級內(nèi)存系統(tǒng)以減少使用外部SDRAM的高成本傳輸,并支持多重壓縮選項和異構(gòu)可擴展性,提升算力滿足AI算法的需求。
目前,CEVA的NeuPro-S已經(jīng)過了車規(guī)驗證,已授權(quán)許可予汽車和消費產(chǎn)品相機應用領(lǐng)域的領(lǐng)先客戶。
定制AI處理器成為趨勢
更值得一提的是,CEVA可以在單個統(tǒng)一架構(gòu)中實現(xiàn)CEVA-XM6視覺DSP、NeuPro-S內(nèi)核和定制AI引擎的各種組合。這樣的架構(gòu)的意義在于,首先是能夠通過不同的組合滿足市場的需求;其次,通過統(tǒng)一的軟件平臺,能降低AI算法開發(fā)者算法部署難度,據(jù)悉CNDD支持Caffe、TensorFlow和ONNX;另外,還能減少AI加速器開發(fā)者軟件的開發(fā)成本。
“有些網(wǎng)絡(luò)現(xiàn)在還是在演進過程中,CPU要進行其他的控制工作,所以要運行AI加速器不支持網(wǎng)絡(luò),或者加一些新特性時運算單元不夠。我們的方案就既有CEVA的視覺 DSP,對于級連神經(jīng)網(wǎng)絡(luò),視覺DSP可以作為主控,也可以處理一些AI加速器不能處理的網(wǎng)絡(luò),再與客戶的硬件加速器一起,更好地滿足神經(jīng)網(wǎng)絡(luò)計算需求?!癕oshe Sheier表示。
Moshe Sheier同時強調(diào),做一個硬件簡單,但是做上層軟件很復雜。所以我們搭配視覺 DSP也提供了更加開放的CDNN的軟件框架,這個軟件框架可以讓客戶自己的硬件加速器的驅(qū)動集成到軟件框架中。而后,CDNN將會全面優(yōu)化、增強網(wǎng)絡(luò)和層,提升CEVA-XM6視覺DSP、NeuPro-S和定制神經(jīng)網(wǎng)絡(luò)處理器的利用率。
據(jù)介紹,CDNN更偏向于上層,基于CEVA的經(jīng)驗以及了解定制AI加速器的特性,能夠進行任務的分配。AI加速器的開發(fā)者需要做的就是能夠?qū)⑵溆布?qū)動,而CEVA也會給AI加速器開發(fā)者提供底層驅(qū)動參考,其它大量的工作以及優(yōu)化都由CDNN完成。
目前CEVA已經(jīng)向領(lǐng)先客戶提供CDNN-Invite API,將于2019年底進行普遍授權(quán)許可。
雷鋒網(wǎng)小結(jié)
CEVA作為全球重要的無限鏈接和中能傳感器技術(shù)IP公司,采用CEVA技術(shù)的設(shè)備每年大約出貨10億臺設(shè)備。就正在落地的AI來說,CEVA憑借在DSP設(shè)計中多年的經(jīng)驗,以及針對流行神經(jīng)網(wǎng)絡(luò)的優(yōu)化的經(jīng)驗,在今年推出了第二代AI加速器。但正如Moshe Sheier所言,設(shè)計出硬件并不難,如何部署和應用才是關(guān)鍵。這其中軟件非常關(guān)鍵,CEVA以更加開放的心態(tài),可以讓AI加速器開發(fā)者更容易的集成和應用,同時能夠降低成本,這對于AI的進一步發(fā)展意義重大。這是因為,我們看到Arm上月推出了Arm Custom instructions,允許用戶加入自定義指令功能。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。