1
“如果再買不到海思芯片,我們這個月至少虧掉600萬!”
前不久,雷鋒網(wǎng)AI掘金志撰文《海思「缺貨」,安防「缺芯」》提到:在9月15日多家供應(yīng)商斷供華為之前,安防市場已芯荒意亂。
有人痛罵囤貨漲價無理,也有人感慨后繼無人凄愴。
文章發(fā)布后,不少媒體相繼跟進(jìn),大多談到了安防市場缺芯現(xiàn)狀及可能的替代方案。
今天,我們沿著該話題進(jìn)一步聊聊:
安防為何缺芯?畢竟這并非一個高門檻應(yīng)用行業(yè),無需苛刻的芯片工藝選擇。
海思缺貨之前,AI安防芯片混戰(zhàn)常被提及,彎道超車之論屢被談起。
如今,身臨海思難產(chǎn)之際,市場緣何又頓入無芯可選之境?制約AI安防芯片規(guī)?;瘧?yīng)用的核心技術(shù)問題究竟是什么?
作為計算機(jī)視覺落地較快的領(lǐng)域之一,安防賽道有一個基本封印的現(xiàn)實需要承認(rèn):
海思之外,尚無一款足夠優(yōu)秀且合適的安防前端通用芯片,也尚無一款足夠適用安防后端的AI芯片出現(xiàn)。
那么,做一款比肩海思產(chǎn)品線的芯片難在哪兒?換句話說,一款「成功」安防芯片的自我修養(yǎng)是什么?
首先,從應(yīng)用角度出發(fā)看看這個問題。
眼下,不同玩家們大多都會基于自身資源及優(yōu)勢,選取業(yè)務(wù)、性能、生態(tài)等方向作為突破點。
但,造芯之難,除了考察紙面理論、戰(zhàn)略打法外,還需解決一道又一道的實際挑戰(zhàn)。
一、安防市場極度碎片化,且做到500萬片以上的出貨數(shù)量才有成本優(yōu)勢;
二、前端、存儲、產(chǎn)品開發(fā)、組織建設(shè),都需要相應(yīng)時間做充足積累。
一款好的芯片,一定需在實際場景中打磨迭代而出,缺乏經(jīng)年累月的正向打磨,很難沉淀AI工程化交付能力。
衡量一款芯片是否達(dá)到AI工程化交付能力,考察最明顯的算力之外,還需從端側(cè)、云側(cè)分開驗證幾個重要指標(biāo)。
誠然,算力實為衡量AI芯片指標(biāo)的重要因素之一。
時間撥回2014年,人工智能落地剛剛興起,端側(cè)AI芯片算力僅有0.2Tops,云側(cè)AI芯片算力僅有5Tops;如今端側(cè)AI芯片算力已經(jīng)達(dá)到4Tops以上,云側(cè)AI芯片算力也已達(dá)到256Tops以上。
但僅看算力指數(shù)顯然遠(yuǎn)遠(yuǎn)不夠。于端側(cè),安防芯片考察本身競爭力、集成方式、開發(fā)工具成熟度與易用性、功耗與價格等。
一是安防芯片本身競爭力。
安防端側(cè)一直用得是安防專用芯片,并不存在通用芯片。即使AI時代,端側(cè)芯片首先需要的是有競爭力的安防芯片,其次才是在這基礎(chǔ)上疊加AI算力。
譬如,OS、安防SDK、ISP、編碼皆重要非常,這對芯片廠商提出的綜合要求明顯提高,需要具備完整能力的芯片。
端側(cè)芯片,雖然體積小、價格低,但系統(tǒng)復(fù)雜度、技術(shù)難度絲毫也不低。
二是AI芯片與安防芯片的集成方式。
前些年,AI落地端側(cè),采用的是在主芯片邊上加一顆AI協(xié)處理器,即兩顆芯片的方式。
如今,合二為一的方案已是主流,在系統(tǒng)復(fù)雜度、成本、功耗上都更有競爭力,實現(xiàn)過程也更加復(fù)雜。
三是開發(fā)工具成熟度與易用性。
芯片的軟件開發(fā)工具非常重要。譬如,是否支持Caffe、Tensorflow、Pytorch等主流深度學(xué)習(xí)框架,相關(guān)工具是不是易用、穩(wěn)定,對于AI應(yīng)用開發(fā)者來說都非常重要。
如果開發(fā)工具不成熟或不易用,很容易就會被開發(fā)者拋棄。
四是功耗與價格。
端側(cè)設(shè)備,對功耗和價格都非常敏感。
云側(cè)芯片則對解碼能力、大數(shù)據(jù)并發(fā)效率、開發(fā)工具成熟度與易用性、功耗以及價格要求較高。
一是解碼能力。
云側(cè)芯片處理的是經(jīng)過編碼的圖片或視頻,需要持續(xù)解碼。
在芯片設(shè)計上,需要內(nèi)嵌專門的硬解碼模塊,不占用AI算力;另外,解碼能力上必須不能低于AI處理能力,不然解碼就會成為瓶頸。
二是大數(shù)據(jù)并發(fā)效率。
現(xiàn)在云側(cè)芯片的AI處理能力非常強(qiáng),所以大數(shù)據(jù)并發(fā)交互的效率非常重要,大數(shù)據(jù)并發(fā)效率決定了AI算力實際能發(fā)揮多少。
三是功耗與價格。
云側(cè)芯片在這方面雖然沒有端側(cè)芯片那么敏感,但低功耗與低價格永遠(yuǎn)都是用戶的訴求。
其次,從技術(shù)角度看看這個問題。
安防領(lǐng)域存有大量的算法需要前置,而目前的算法訓(xùn)練基本還是基于后端的深度學(xué)習(xí)模型。
此外,安防行業(yè)還需實時處理大量連續(xù)圖像數(shù)據(jù)流,數(shù)據(jù)處理在于兩大維度:一、每秒處理幀率要越來越高;二、圖像分辨率要越來越高。
兩大維度之下,安防對于端側(cè)芯片提出了一些要求。
針對已經(jīng)入場的大小玩家,分析他們的產(chǎn)品形態(tài),大致可以分為兩種:一是針對特定應(yīng)用的SoC;二是通用加速器做獨(dú)立芯片。
應(yīng)用安防市場,SoC面向?qū)S檬袌?,在芯片中深度學(xué)習(xí)加速計算事實上只是一部分,而其他大部分芯片面積則交給了主控處理器、視頻解碼等模塊。
終端通用深度學(xué)習(xí)加速器芯片市場的應(yīng)用則剛起步,大多公司的市場布局主要在試錯的同時,培養(yǎng)開發(fā)者生態(tài)。
同時,從業(yè)者們也逐漸發(fā)現(xiàn),芯片中最為關(guān)鍵的其實并不是單純提升算力,如果不進(jìn)行存儲優(yōu)化,那么芯片實際提供的計算力會大大降低。
若想突破AI芯片的瓶頸,并不能只是簡單的增加計算算力,而是一定要把數(shù)據(jù)存儲管理做好。對于存儲問題的解決,仍是一個探索中的新方向。
AI芯片對于傳統(tǒng)芯片帶來的挑戰(zhàn),并不只是計算架構(gòu)上的,更多是在存儲架構(gòu)間的。
傳統(tǒng)芯片采用的是馮·諾依曼架構(gòu),其核心架構(gòu)中計算模塊和存儲單元是分離的。CPU和內(nèi)存條并不集成在一起,只在CPU中設(shè)置了容量極小的高速緩存。
也就是說,CPU在執(zhí)行命令時必須先從存儲單元中讀取數(shù)據(jù)。每一項任務(wù),如果有十個步驟,那么CPU會依次進(jìn)行十次讀取,執(zhí)行,再讀取,再執(zhí)行…
這就造成了延時,以及大量功耗花費(fèi)在數(shù)據(jù)讀取上,這一問題也被稱為傳統(tǒng)芯片的內(nèi)存墻問題。
而在AI應(yīng)用中,馮·諾伊曼瓶頸問題顯得愈發(fā)嚴(yán)重。
AI依賴的算法是一個龐大和復(fù)雜的網(wǎng)絡(luò),包含很多參數(shù)需要存儲,也需要完成大量的計算,這些計算中又會產(chǎn)生大量數(shù)據(jù)。
在完成大量計算的過程中,一般芯片的設(shè)計思路是大量增加并行的運(yùn)算單元,例如上千個卷積單元,需要調(diào)用的存儲資源也在增大。
不夸張地說,AI初創(chuàng)芯片公司雖然采用不同的路徑打造芯片,但事實上都在努力對這一問題予以解決。大部分針對 AI,尤其是加速神經(jīng)網(wǎng)絡(luò)處理而提出的硬件架構(gòu)創(chuàng)新,都是在與這個問題做斗爭。
如何解決這一問題呢?目前解決方法有以下幾種:
較為常見的方法是加大存儲帶寬,采用高帶寬的外部存儲;二是從算法入手,設(shè)計低比特權(quán)重的神經(jīng)網(wǎng)絡(luò)。
除此之外,存算一體化也被看做是未來的發(fā)展方向,在實現(xiàn)上也分為不同的路徑。
其一是SSD中植入計算芯片或者邏輯計算單元,可以被叫做存內(nèi)處理或者近數(shù)據(jù)計算,這其實是深度學(xué)習(xí)的一種應(yīng)用場景,并非是AI芯片架構(gòu)的創(chuàng)新。
另一種就是存儲和計算完全結(jié)合在一起,使用存儲的器件單元直接完成計算,比較適合神經(jīng)網(wǎng)絡(luò)推理類應(yīng)用。
也有人不太認(rèn)同存算一體的處理方式,探境CEO魯勇認(rèn)為,這樣做的成本太高,并不符合市場需求。
“存算一體的處理方式,其實違反了芯片中的成本結(jié)構(gòu)。芯片中,之所以設(shè)計和區(qū)分片上的緩存SRAM,及片外的DRAM,就是因為如果所有存儲都放入芯片內(nèi)部,成本就大幅上升,會上升幾十倍到上百倍?!?/p>
就此,他們提出了SFA(Storage First Architecture,簡稱SFA),即存儲優(yōu)先架構(gòu)。
與通常計算的先有計算指令然后提供數(shù)據(jù)相反,SFA架構(gòu)考慮數(shù)據(jù)在搬移過程中做計算,也就是由數(shù)據(jù)帶動計算而非由算子帶動數(shù)據(jù)。
這一點與AI大神Lecun所宣稱的所有的神經(jīng)網(wǎng)絡(luò)都是圖計算問題不謀而合。那么打破傳統(tǒng)馮·諾依曼架構(gòu),自研存算一體架構(gòu)的依據(jù)是什么?
這可以談到人類大腦的存儲和計算方式。從生物角度講,大腦存儲大量的知識,能夠快速提取并訪問,而大腦的內(nèi)存和計算并不是分開的,更多的是存在一定的相容性。
因此,未來的計算機(jī)可能不是基于計算的存儲,而是基于存儲的計算,更多做到融合。不過,因為當(dāng)前芯片領(lǐng)域?qū)τ贏I算法的關(guān)注還較多,針對AI的結(jié)構(gòu)改進(jìn)嘗試還偏少。
過去幾年,不少企業(yè)針對安防領(lǐng)域紛紛宣布流片之喜,但似乎還未出現(xiàn)強(qiáng)勢的對傳統(tǒng)芯片的替代或繼任者。
從大環(huán)境來看,國內(nèi)雖有不少公司關(guān)注對AI芯片的底層架構(gòu)的研發(fā),但更多只追求有、不追求好,用拼湊的方式做芯片。
甚至于,不少玩家為了順應(yīng)市場形勢,將自己包裝成一個AI芯片公司,給市場徒增泡沫。
同時,國內(nèi)AI芯片企業(yè),眼下普遍缺乏后端設(shè)計人才,后端設(shè)計相對于前端邏輯設(shè)計,更多涉及到芯片的工藝,也相對更需要豐富的經(jīng)驗。
由此,很多廠商會通過外包的方式做后端服務(wù),來完成生產(chǎn)。這對芯片廠商來說,其實是一個很大的競爭劣勢。
針對安防缺芯之話題,此前AI掘金志也采訪了多家有著不同創(chuàng)新路徑的芯片企業(yè),他們或從優(yōu)化芯片的計算、存儲架構(gòu)入手,或選擇做軟硬一體,或著眼于攝像頭中的ISP、編解碼芯片。
對于AI安防芯片要解決的主要問題和創(chuàng)新路徑,企業(yè)家們有著共識,也有各自不同的選擇和看法。
觸景無限副總裁陳勇:做芯,軟硬件耦合是關(guān)鍵
做一款A(yù)I安防芯片要從全棧解決方案出發(fā),不僅僅只有芯片,還要有比較完善的軟件生態(tài)來耦合這個芯片,這樣用戶才比較容易、也能動態(tài)部署符合他們需求的方案。
另一個點是芯片的算力能效,芯片不能只單單提供算力,還要在滿足應(yīng)用算力要求的前提下消耗最少能量。
我覺得,這兩個方面對于AI安防芯片來說最重要。
觸景無限做芯片就是為了讓自己的算法和工程經(jīng)驗找到一個更好耦合的練兵場,達(dá)成軟硬件的協(xié)同優(yōu)化,更好地實現(xiàn)前端感知。
以前,我們發(fā)現(xiàn)AI加速只是前端落地應(yīng)用需求的一個點,打磨很長時間的AI加速芯片產(chǎn)品,用在前端的效果還是不夠好。
就像一條公路,AI芯片的集成像是鋪上了柏油,但車輛通行時除了對于路面的高要求,還有對于路牌、路標(biāo)、服務(wù)區(qū)的需求,而這些在實際過程中,都沒法得到很好的滿足。
在芯片具體研究中,我認(rèn)為,對AI 安防芯片來說,由于多層神經(jīng)網(wǎng)絡(luò)的應(yīng)用,如何做到各種神經(jīng)層中間的高效數(shù)據(jù)傳輸是一個難點。
另外,我們認(rèn)為雖然在攝像頭內(nèi),主控芯片很強(qiáng)勢。但AI協(xié)處理器有它獨(dú)有的靈活性和高效性,并不能簡單地被主控芯片集成。這種通用性和專用性的取舍會一直存在,而這也是AI協(xié)處理器存在的機(jī)會。
探境科技CEO魯勇:芯片的數(shù)據(jù)存儲管理要做好
安防領(lǐng)域的數(shù)據(jù)特點,其實主要在于需要實時的處理大量連續(xù)的圖像數(shù)據(jù)流。
第一是每秒處理幀率要越來越高,第二是圖像分辨率上要高。在這兩個維度上,安防對邊緣芯片提出了要求。
原先很多安防廠商采用Movidius的芯片實現(xiàn)前端智能,但我們認(rèn)為它并不是非常適用于安防前端。不過Movidius的火爆,恰好說明了市場對邊緣端芯片的強(qiáng)大需求。
我的看法是,要突破AI安防芯片的瓶頸,并不能只是簡單的增加計算算力,而是一定要把數(shù)據(jù)存儲管理做好。
傳統(tǒng)芯片中,采用的是馮·諾伊曼架構(gòu),計算模塊和存儲單元是分開的,“內(nèi)存墻”問題很嚴(yán)重。而AI依賴的算法是一個龐大和復(fù)雜的網(wǎng)絡(luò),有很多參數(shù)要存儲,也需要完成大量的計算,需要巨大存儲容量,高帶寬、低延時的訪存能力。很多AI初創(chuàng)芯片公司,實際上都在努力解決這個問題。
而我們的思考是,不能采取通常的先有計算指令然后提供數(shù)據(jù)的方式,應(yīng)該從存儲子系統(tǒng)的優(yōu)化入手,讓數(shù)據(jù)在存儲之間的搬移過程之中完成計算。
這也可以叫做“基于memory的計算”,而不是“基于計算的memory”。
當(dāng)前芯片領(lǐng)域?qū)τ贏I算法的關(guān)注還較多,針對AI的結(jié)構(gòu)改進(jìn)嘗試還比較少。之后,memory與computing結(jié)合的嘗試,我相信會是一個好的方向。
華夏芯CEO李科奕:提升AI芯片的易用性
現(xiàn)在的安防市場上,已經(jīng)出現(xiàn)了很多前端的AI加速器,但實際它們在應(yīng)用上,還存在一些問題。
第一是價格太高。第二是可編程性不足。原先的通用芯片CPU很容易能實現(xiàn)編程,但AI加速模塊中并沒有指令集,無法編程,需要手工去調(diào)整。
在安防領(lǐng)域也是一樣,廠商普遍反映的,不是AI芯片的性能,而是無論AI初創(chuàng)企業(yè),還是傳統(tǒng)大廠設(shè)計的加速器都很復(fù)雜,AI加速器很難被用起來。
一般來說,通用芯片難以負(fù)荷對計算的高要求,AI專用芯片則在可編程性、靈活性上有所欠缺。目前應(yīng)用較多的集成度高的Soc,將不同計算架構(gòu)芯片集成在一起,需要多套編程程序,運(yùn)行就容易帶來問題。這也是安防芯片廠商們,尤其是在安防前端應(yīng)用上面臨的難題。
而業(yè)內(nèi)目前看好的一種方式,就是將不同的芯片架構(gòu)結(jié)合在一起,這就是“異構(gòu)計算”。
異構(gòu)計算的長處在于,能實現(xiàn)比較好的適應(yīng)性和靈活性,在通用性和專用性上達(dá)成一個折衷。既能高效的處理數(shù)據(jù),又能相對保證算法的及時更新和迭代。這也是我們在探索的一個方向。
現(xiàn)在在安防、自動駕駛等這些邊緣端的市場,對芯片的綜合要求非常高。芯片需要處理的數(shù)據(jù)量很大,同時對于性能、性價比、性能功耗比要求也很高。
但我們看好這些新興市場,因為邊緣端的需求量很大,而且相對于手機(jī)、云計算、PC端等這些已經(jīng)很成熟的市場,給了芯片廠商更多創(chuàng)新,和在新市場中占據(jù)位置的機(jī)會。
欣博電子CEO梁敏學(xué):很多AI安防芯片是同質(zhì)化的
對于AI安防芯片來說,我認(rèn)為“芯片+算法”的整合是最重要的。而對于具體一款芯片,最主要的指標(biāo)應(yīng)該是價格和穩(wěn)定性。
芯片是“硬”的,算法是“軟”的,如何能將兩者更好的結(jié)合起來,這就需要加強(qiáng)芯片對底層運(yùn)算加速算法的適應(yīng)性。
現(xiàn)有芯片的問題,從技術(shù)角度來說,對前端的AI芯片算力的要求,對存儲問題的解決,都很重要,都需要靠算法和芯片架構(gòu)一起來改善,比如說現(xiàn)在的算法就還比較耗帶寬。
再具體應(yīng)用上,我認(rèn)為AI安防芯片在安防攝像頭中作為協(xié)處理器,目前已經(jīng)被主控芯片集成了,所以單純提供AI加速器并不占優(yōu)勢。
而我們所做的,是開發(fā)編解碼能力、加密及AI能力三合一的芯片,為攝像頭提供安全加密。這也是我們相對于其他芯片廠商不同的一點。
從行業(yè)角度來說,現(xiàn)有AI芯片在安防行業(yè)應(yīng)用落地上的主要問題,其實是同質(zhì)化。
很多AI芯片廠商產(chǎn)出的芯片并沒有太大差別,一方面很多芯片達(dá)不到現(xiàn)有安防行業(yè)對前端AI芯片的要求,一方面又容易陷入芯片同質(zhì)化競爭。
現(xiàn)在的安防芯片格局下,其實已經(jīng)存在壟斷的生態(tài),有大的行業(yè)玩家存在,那么做AI安防芯片如何找到自己的價值點,并做到差異化還是最難的。
人人智能CEO王海增:芯片行業(yè)很殘酷,遵循二元法則
AI芯片前兩年很熱,“熱”的同時,也讓市場很浮躁,去年一年,業(yè)內(nèi)就推出了十幾款A(yù)I芯片。
但在安防和芯片領(lǐng)域摸爬滾打多年,我們的看法是不去做純碎的單一芯片,而是做融合芯片、算法和系統(tǒng)的FaceOS視覺中間件,用在人證比對等。
在我看來,市場上可能只需要一款主流產(chǎn)品。芯片行業(yè)是很殘酷的,有個二元法則,就是老大吃肉,老二喝湯。老三、老四可能找不到名字。
綜合來說,我還是比較看好華為海思。在安防視頻芯片的領(lǐng)域,有華為海思這樣的對手存在,做視覺智能芯片幾乎沒有太多機(jī)會,這一事實很難改變。
之前,我們對比過這些芯片,發(fā)現(xiàn)芯片從高端到低端系列,海思的芯片布局很完整,渠道健全,而且功能幾乎比現(xiàn)有的幾個AI芯片廠商都更加領(lǐng)先,優(yōu)勢很明顯。兩三年前,我們能看到這個市場很大,但不知道誰能跑出來,現(xiàn)在回過頭來再看,我們依然覺得海思跑的更靠前了。
另外,AI芯片領(lǐng)域雖然一直在談創(chuàng)新,但實際上,真正的創(chuàng)新還尚未到來。
算法的底層架構(gòu),如TensorFlow、Caffee等方面幾乎都是采用國外的架構(gòu)。
底層的算法上面,國內(nèi)幾乎還處于空白。這涉及很多基礎(chǔ)數(shù)學(xué)的問題。就像谷歌談張量計算芯片,是發(fā)覺了卷積使用的張量計算的模型和傳統(tǒng)模型不同,所以需要設(shè)計芯片設(shè)備,適應(yīng)它的模型,這是算法型的創(chuàng)新。而且谷歌還發(fā)明了TensorFlow這樣的主要架構(gòu)。
這些在國內(nèi)還都是空白。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。