0
本文作者: 余快 | 2021-05-21 00:39 |
習(xí)慣在針尖上跳舞的合肥君正,在萌芽之時(shí)就認(rèn)識(shí)到AI的重要性。
2014年前后,視頻芯片市場(chǎng)已有眾多廠商,且大多鏖戰(zhàn)成像和傳輸。彼時(shí)的君正意識(shí)到,用模仿的方式硬生生地去打這個(gè)市場(chǎng)難以出頭且毫無(wú)價(jià)值,而AI將成為下一戰(zhàn)場(chǎng)的關(guān)鍵。從那時(shí)起,AI與算法部門(mén)成為君正最早的技術(shù)部門(mén)之一。
7年白駒過(guò)隙,那些或深或淺的腳印現(xiàn)已踏出一條康莊大道:最近,君正正式公開(kāi)了自己的AI硬件加速引擎和AI開(kāi)發(fā)平臺(tái)Magik。
君正視頻事業(yè)部副總經(jīng)理劉遠(yuǎn)表示,這套技術(shù)從開(kāi)始至今,經(jīng)歷了各方面的錘煉:
“從T01到T02再到T31/T40,從computer vision到deep learning再到混合量化,從安防攝像機(jī)到低功耗門(mén)鈴再到立體機(jī)器視覺(jué),從Tensorflow/Caffe到Magik,從第一家客戶(hù)試探性接入到大量產(chǎn)品算法落地,這套技術(shù)已經(jīng)從創(chuàng)新研發(fā)走到普惠應(yīng)用。”劉遠(yuǎn)說(shuō)道。
這歷時(shí)多年的武器,將往視頻行業(yè)投下一枚怎樣的石頭,又怎樣協(xié)助下游客戶(hù)落地更具競(jìng)爭(zhēng)力的產(chǎn)品?
如何為端側(cè)AI應(yīng)用提供一套成本親和,性能出眾,功耗低,又易于落地的基礎(chǔ)技術(shù)組件?這正是合肥君正一直在思考的命題,也是君正AI技術(shù)研發(fā)的核心目標(biāo)。
劉遠(yuǎn)指出,經(jīng)過(guò)多年摸索,這樣一套基礎(chǔ)技術(shù)組件如今包含:
一系列落地芯片:布局完備,覆蓋高中低階,除AI以外具備完整的各方面競(jìng)爭(zhēng)力,成本親和,性能均衡,效果出眾,功耗領(lǐng)先,被市場(chǎng)認(rèn)可并且持續(xù)大量出貨。這就像AI和算法落地生根的土壤,越廣闊越好。
一套先進(jìn)的AI加速硬件:優(yōu)秀的PPA(Performance, Power, Area),兼具高性能和靈活性,并且通過(guò)有效創(chuàng)新,真正突破AI推理在端側(cè)產(chǎn)品中的各種瓶頸,使得高發(fā)熱,高帶寬,成本冗余等在實(shí)際產(chǎn)品中不再是問(wèn)題。
一個(gè)完善的算法開(kāi)發(fā)平臺(tái):敏捷的算法移植過(guò)程,除了提供一鍵式算法部署,還提供最先進(jìn)的量化感知訓(xùn)練方法論,提供典型網(wǎng)絡(luò)的全流程開(kāi)源代碼,讓算法專(zhuān)家專(zhuān)注于挖掘痛點(diǎn)與數(shù)據(jù)的價(jià)值。
君正的整體AI技術(shù)架構(gòu)如下圖:
其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,協(xié)處理器和RAM Pool等多重加速技術(shù)。
主要優(yōu)勢(shì)是“三高三低”:算力高,利用率高,靈活性高;功耗低,外圍成本低,帶寬需求低。
Magik是基于AIE的算法開(kāi)發(fā)平臺(tái),除了基本的工具鏈還包含其他豐富的輔助開(kāi)發(fā)資源。并且支持后量化和更先進(jìn)的量化感知訓(xùn)練(QAT)。
“卷積神經(jīng)網(wǎng)絡(luò)的本質(zhì)是計(jì)算,幸運(yùn)的是,君正一直是國(guó)內(nèi)為數(shù)不多的完整CPU計(jì)算技術(shù)的擁有者,這一點(diǎn),奠定了我們的AI技術(shù)具有較高的發(fā)展起點(diǎn)?!?/p>
劉遠(yuǎn)說(shuō)道,“而Magik融合了我們這幾年在視覺(jué)產(chǎn)品落地上的各種經(jīng)驗(yàn),能夠發(fā)揮AIE獨(dú)特的領(lǐng)先性能。二者搭配,呈現(xiàn)在行業(yè)客戶(hù)面前的就是一整套完整的‘芯片+AI算力+AI開(kāi)發(fā)平臺(tái)’的解決方案,使得應(yīng)用者非常容易落地。”
利用這套平臺(tái),可以帶來(lái)多方面長(zhǎng)遠(yuǎn)的優(yōu)勢(shì):
產(chǎn)品化優(yōu)勢(shì):這套技術(shù)可運(yùn)行于君正當(dāng)前和未來(lái)的各種芯片當(dāng)中,下游產(chǎn)業(yè)鏈條成熟,碎片化風(fēng)險(xiǎn)低,生態(tài)一致性有保障;
商業(yè)化優(yōu)勢(shì):已有大量芯片持續(xù)出貨,品牌背書(shū)充足,能加快算法賦能和變現(xiàn)的節(jié)奏;
成本優(yōu)勢(shì):包括eBOM成本,算法成本,研發(fā)成本等;
性能優(yōu)勢(shì):可獲得更高的物理算力,更高的利用率;
低功耗優(yōu)勢(shì):體現(xiàn)在產(chǎn)品端就是發(fā)熱明顯低,續(xù)航更好,散熱無(wú)憂;
“AIE+Magik是君正原生創(chuàng)新的技術(shù),完全自主。T40作為搭載這套技術(shù)的最新一代芯片,卻并非第一代產(chǎn)品。”劉遠(yuǎn)強(qiáng)調(diào),“在這之前,我們經(jīng)過(guò)了T01/T02/T31等幾代量產(chǎn)芯片的驗(yàn)證,積累了大量寶貴經(jīng)驗(yàn),到T40這里,AIE+Magik已經(jīng)十分成熟”。
AI-Engine(AIE)是君正完全自主創(chuàng)新的一套AI加速硬件組合,廣泛支持各類(lèi)神經(jīng)網(wǎng)絡(luò)加速,如CNN/RNN/GCN等,也支持傳統(tǒng)CV算法和平面運(yùn)算的加速。得益于公司對(duì)CPU技術(shù)的掌握,AIE實(shí)現(xiàn)了其他一般芯片公司難以做到的CPU與NPU的同構(gòu)設(shè)計(jì)。
在全球各種不同的AI加速技術(shù)路線中,DSA(Domain Specific Architecture)尤其適合端側(cè)推理場(chǎng)景。AIE引用了多種DSA的設(shè)計(jì)理念,實(shí)現(xiàn)了一整套滿(mǎn)足復(fù)合算法加速的硬件組成:
支持SMT多核架構(gòu)的XBurst2 CPU,凝聚了君正團(tuán)隊(duì)20多年的CPU技術(shù)精華;
128bit/512bit/1024bit位寬的SIMD指令集,針對(duì)向量運(yùn)算加速;
算力高達(dá)2T - 32T的NN加速陣列,針對(duì)張量計(jì)算加速,支持混合位寬量化
協(xié)處理單元,對(duì)其他運(yùn)算加速;
高效RAM pool,深度優(yōu)化內(nèi)存帶寬吞吐
實(shí)測(cè)運(yùn)行功耗很低,8T算力場(chǎng)景下典型功耗小于500mW,能耗比最低達(dá)到了0.05W/T級(jí)別
“與云上的AI芯片加速不同,在端側(cè)芯片上,4T算力曾經(jīng)是天花板,這并不是因?yàn)橛布o(wú)法將算力繼續(xù)提高,而是因?yàn)槎藗?cè)產(chǎn)品在算力以外有太多的制約因素?!眲⑦h(yuǎn)解釋道,“如果不優(yōu)先把NPU內(nèi)部的PPA、帶寬、功耗等關(guān)鍵障礙解決,即使再提高計(jì)算矩陣的規(guī)模,實(shí)際芯片也大概率發(fā)揮不出來(lái)?!?/p>
歸納起來(lái),端側(cè)算力的瓶頸主要集中在:產(chǎn)品端的資源限制,算法多樣性的挑戰(zhàn)和算法開(kāi)發(fā)環(huán)境。
端級(jí)芯片在計(jì)算資源和成本都面臨限制,無(wú)法像云端服務(wù)器那么豐富和冗余。
在終端售價(jià),RAM內(nèi)存容量,ROM模型存儲(chǔ),發(fā)熱控制,DDR的帶寬等方面都面臨極大挑戰(zhàn)。
所以端級(jí)產(chǎn)品需要與云端不同的AI加速技術(shù)。
君正AIE特別針對(duì)端級(jí)應(yīng)用設(shè)計(jì),采用專(zhuān)用硬件架構(gòu)DSA(Domain Specific Architecture),與常見(jiàn)的NPU相比,有明顯的規(guī)格優(yōu)勢(shì):
MAC利用率提升1到2倍,推理速度提升2到4倍;
算法運(yùn)行的RAM/ROM消耗減少50%~70%;
帶寬降低35%~85%;
發(fā)熱減少40%~80%。
無(wú)論2C還是2B/G市場(chǎng),不同應(yīng)用對(duì)AI算法的要求差異很大,即使是相同功能的算法也難以做到單一模型覆蓋所有場(chǎng)景。
其次人工智能學(xué)術(shù)領(lǐng)域仍然在發(fā)展,雖然變化的速度減緩,但未來(lái)仍然會(huì)不斷出現(xiàn)新的網(wǎng)絡(luò),新的流程,新的算子,新的訓(xùn)練方法等等,這些決定了目前的AI加速硬件還沒(méi)有到達(dá)統(tǒng)一收斂的階段。
端級(jí)算法本身呈現(xiàn)多樣性,碎片化的客觀現(xiàn)狀。
這就要求芯片中硬件的加速能力非常靈活,能夠應(yīng)對(duì)各種未知算子/算法/網(wǎng)絡(luò)/流程的變化,這一點(diǎn)對(duì)AI引擎的設(shè)計(jì)提出巨大挑戰(zhàn)。
君正AIE結(jié)合了多年積累的CPU技術(shù),摸索了一套兼顧高性能和靈活性的創(chuàng)新技術(shù):
算力達(dá)2T ~ 32T的NN加速陣列,實(shí)現(xiàn)千倍加速比;
非標(biāo)計(jì)算協(xié)處理單元,實(shí)現(xiàn)百倍加速比;
128bit到1024bit位寬的SMID指令集,實(shí)現(xiàn)幾十倍加速比;
RAM Pool系統(tǒng),顯著降低帶寬;
高主頻多核多線程XBurst?2 CPU。
“過(guò)去至今各種行業(yè)攝像機(jī)搭載的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪費(fèi)’、‘功能可用但難以普及’等情況,隨著搭載AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且內(nèi)置了DDR,這些痛點(diǎn)會(huì)得到很大改善?!眲⑦h(yuǎn)表示。
硬件是軀體,軟件和算法是靈魂。如果是AIE是軀體,那么Magik就是靈魂。
Magik是一個(gè)面向端側(cè)AI應(yīng)用的全棧式開(kāi)發(fā)平臺(tái)。與一般的AI開(kāi)發(fā)工具鏈相比,Magik包含了更豐富的內(nèi)涵:
全流程,一體化。集模型訓(xùn)練、優(yōu)化轉(zhuǎn)換、部署推理于一體,并提供模型檢查器、調(diào)優(yōu)器、性能分析器等工具;
多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架;
量化感知訓(xùn)練(QAT)。支持2/4/8/16任意精度混合訓(xùn)練及轉(zhuǎn)換優(yōu)化,在保證精度的同時(shí),能充分利用AIE的計(jì)算資源;
靈活性。同時(shí)支持QAT和后量化方案,加速應(yīng)用靈活部署;
開(kāi)放性。開(kāi)放人臉/人形等常見(jiàn)算法的從訓(xùn)練到部署全流程代碼,以及經(jīng)典網(wǎng)絡(luò)的backbones,增強(qiáng)易用性,加速落地。
“Magik不僅僅是一個(gè)AI轉(zhuǎn)換工具鏈,還是一個(gè)豐富的開(kāi)發(fā)平臺(tái),”劉遠(yuǎn)補(bǔ)充道,“有工具鏈,framework插件,Model Zoo,常用的backbones,還包括一般攝像機(jī)非算法的支撐功能,例如成像,編碼,幀數(shù)據(jù)流,內(nèi)存復(fù)用優(yōu)化,存儲(chǔ)降維,多目同步,甚至內(nèi)存泄露防范等都有體現(xiàn)在內(nèi),真的值得用一用”。
Magik的一大特色是支持較為先進(jìn)的QAT方法論。端級(jí)AI應(yīng)用目前大多還停留在后量化方法階段,相比QAT,后量化更像是端級(jí)AI的過(guò)渡階段。后量化過(guò)程相對(duì)簡(jiǎn)單,但精細(xì)度不足,算力容易形成浪費(fèi),功耗成本帶寬等難以解決。QAT方法能夠更精細(xì)地根據(jù)加速硬件的特點(diǎn)調(diào)整訓(xùn)練細(xì)節(jié),從而發(fā)掘端級(jí)AI算力的潛力,達(dá)到提升算力利用率,降低功耗,帶寬和成本的效果。
使用Magik的開(kāi)發(fā)過(guò)程很容易上手,流程示意圖如下:
“Magik就像一把‘云梯’,幫助客戶(hù)快速落地AI算法和視覺(jué)產(chǎn)品,它能給行業(yè)帶來(lái)長(zhǎng)期的助力”。
與AIE的發(fā)展相輔相成,Magik具有未來(lái)小型生態(tài)的潛力,其堅(jiān)實(shí)基礎(chǔ)是君正過(guò)去,目前和未來(lái)所有的算力芯片,只要君正芯片能夠覆蓋到的市場(chǎng)領(lǐng)域,都可以發(fā)揮作用。
“早幾年當(dāng)AI的浪潮滾滾而來(lái),喧囂塵上之時(shí),我們并沒(méi)有太多發(fā)聲,但并不代表我們沒(méi)有行動(dòng)?!眲⑦h(yuǎn)講道,“當(dāng)東西沒(méi)有真正拿得出手時(shí),我們自己心里這一關(guān)就過(guò)不去。而現(xiàn)在,AIE+Magik這一套技術(shù),已經(jīng)服務(wù)了很多客戶(hù),并讓不少人嘗到了甜頭”。
據(jù)了解,AIE+Magik已經(jīng)成功服務(wù)了超過(guò)幾十家客戶(hù),包括一些行業(yè)知名品牌,傳統(tǒng)算法公司,行業(yè)監(jiān)控企業(yè),大型互聯(lián)網(wǎng)品牌,運(yùn)營(yíng)商以及初創(chuàng)極客。
這些服務(wù),遠(yuǎn)超算法開(kāi)發(fā)這個(gè)層面。要實(shí)現(xiàn)設(shè)備承載不同的算法運(yùn)行,首先需要克服算法計(jì)算標(biāo)準(zhǔn)化的困難,但這只是端側(cè)AI落地過(guò)程中挑戰(zhàn)的冰山一角。
除此之外,設(shè)備的產(chǎn)品屬性,可量產(chǎn)屬性,消費(fèi)者體驗(yàn)屬性以及開(kāi)發(fā)周期等方面都需要大量的投入。
君正完成了各種典型視覺(jué)產(chǎn)品的方案積累,例如安防監(jiān)控,物聯(lián)網(wǎng)視覺(jué),低功耗成像,智慧辦公,文字掃描,生物識(shí)別,立體視覺(jué)等領(lǐng)域都能提供完整的解決方案,讓算法賦能只需要做簡(jiǎn)單加法就可以落地。
“這樣做有沒(méi)有社會(huì)價(jià)值,有多大的社會(huì)價(jià)值,是推動(dòng)我們每一項(xiàng)產(chǎn)品和技術(shù)研發(fā)的精神內(nèi)核?!?/p>
北京君正副總經(jīng)理黃磊曾多次強(qiáng)調(diào)。在AIE+Magik的落地過(guò)程中,賦能下的各大下游企業(yè)的產(chǎn)品價(jià)值,都是對(duì)這一說(shuō)法的精準(zhǔn)注腳。
“有一家算法專(zhuān)業(yè)型的客戶(hù),本身有很強(qiáng)的算法開(kāi)發(fā)能力,基于君正芯片和Magik平臺(tái),開(kāi)發(fā)了全新的產(chǎn)品系列。新產(chǎn)品系列比之前的老產(chǎn)品,成本下降了一個(gè)數(shù)量級(jí),實(shí)現(xiàn)小型化??蛻?hù)還獨(dú)立完成了人臉識(shí)別算法的移植,運(yùn)行效果十分良好。”
劉遠(yuǎn)介紹說(shuō),“與此同時(shí),另一家知名的銷(xiāo)售專(zhuān)業(yè)型客戶(hù),本身算法能力不強(qiáng),但是非常清楚消費(fèi)者痛點(diǎn)?;诰酒蚆agik平臺(tái),在君正的輔助下建立了算法團(tuán)隊(duì),利用Magik平臺(tái)的開(kāi)源代碼和網(wǎng)絡(luò),基于自己的數(shù)據(jù)資源訓(xùn)練了人形偵測(cè)算法,客戶(hù)利用消費(fèi)者優(yōu)勢(shì),不斷對(duì)算法進(jìn)行迭代,最終以運(yùn)營(yíng)方式上線算法,消費(fèi)者反饋良好,運(yùn)營(yíng)轉(zhuǎn)化率高于預(yù)期?!?/p>
不知不覺(jué)間,優(yōu)質(zhì)的服務(wù)成為了君正在智能視覺(jué)市場(chǎng)的核心競(jìng)爭(zhēng)力之一。
目前隨著T40芯片到位,很快將有更多搭載AIE+Magik的產(chǎn)品陸續(xù)進(jìn)入市場(chǎng)?;赥40打造的視覺(jué)產(chǎn)品,能做到4T/8T算力,能耗比最低達(dá)到0.05W/T級(jí)別,外圍BOM很簡(jiǎn)單,芯片售價(jià)做到幾個(gè)美金。配合Magik和各種成熟方案資源,T40有望成為AI視覺(jué)大市場(chǎng)的細(xì)雨春風(fēng)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。