0
本文作者: 包永剛 | 2019-10-30 14:32 |
上周,Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤為值得關(guān)注,不僅因為NPU系列同時發(fā)布了N57和N37兩款新品,還因為Arm的ML處理器(Machine Learning Processor)系列名稱Ethos也正式公布。全新AI系列產(chǎn)品的亮相,意味著Arm的AI策略更加明晰。
不過,2017年開始,手機市場就開啟了AI處理器的競爭,華為、蘋果、三星、聯(lián)發(fā)科、高通都相繼推出集成NPU的手機處理器。為什么Arm直到2019年才推出NPU?Arm的NPU能否獲得成功?
首款NPU發(fā)布時間略有推后
實際上,Arm原計劃在2019年第一季度發(fā)布首款ML處理器。之所以選擇這個時間點,Arm ML事業(yè)群商業(yè)與營銷副總裁Dennis Laudick去年11月接受雷鋒網(wǎng)專訪時表示:“最近我們已經(jīng)看到機器學(xué)習(xí)技術(shù)正在穩(wěn)定和成熟,市場需求也正在不斷增加,我們認為現(xiàn)在是進入市場的最佳時機?!?/p>
不過,Arm首款ML處理器的發(fā)布時間是在今年5月,比計劃略晚一些。Dennis上周再次接受雷鋒網(wǎng)專訪時表示,發(fā)布推遲有很多原因,產(chǎn)品開發(fā)是主要的問題。ML處理器開發(fā)的過程中面臨很多挑戰(zhàn),其中一個很大的挑戰(zhàn)就是數(shù)據(jù)移動處理不好就會消耗大量的電,另一個大的挑戰(zhàn)就是如何權(quán)衡效率和靈活性。
Arm ML事業(yè)群商業(yè)與營銷副總裁Dennis Laudick
雖然產(chǎn)品的開發(fā)影響了首款ML處理器發(fā)布的時間,但Arm并沒有在首款ML產(chǎn)品發(fā)布時就公布其系列名稱和型號。而是直到面向主流市場,提供性能、成本以及功耗均衡的N57和對成本極端敏感的N37發(fā)布,Arm才正式公布ML系列處理器的的名稱——Ethos(中文可翻譯為精神)。此時,外界也才清楚5月發(fā)布的首款ML處理器型號為Ethos-N77,定位高端,面向高性能需求的市場。
這是為什么?Dennis解釋稱,其實有很多原因,Arm內(nèi)部也在重新思考命名系統(tǒng),如果推出第一款機器學(xué)習(xí)產(chǎn)品就立刻發(fā)布新的產(chǎn)品系列名稱,可能大家會把對這個系列品牌的印象和認知捆綁在這一款產(chǎn)品身上,我們不希望造成這樣的效果。我們希望大家看到Ethos這個產(chǎn)品名下面的產(chǎn)品系列是廣泛而豐富的,這就是為什么要等到有針對三個不同市場,三個不同檔次的產(chǎn)品都出來了,才正式的對外公布產(chǎn)品系列的名稱的主要原因。
但更為關(guān)鍵的是,市場上已經(jīng)有眾多競爭者,此時推出Ethos還有競爭力嗎?Dennis表示,Arm的成功一直以來都得益于生態(tài)系統(tǒng),對于NPU來說挑戰(zhàn)并不是能夠做出自己的NPU,而是NPU在市場上是不是真的好用。我們已經(jīng)聽到合作伙伴反饋說,希望在硬件上能夠標準化,他們不想支持15種不同的硬件,所以,他們期待有一個標準化的軟件平臺能夠支持。
Ethos解決兩大技術(shù)挑戰(zhàn)的獨到方法
因此,如果Arm想要獲得市場的認可,除了需要解決硬件和軟件上的挑戰(zhàn),讓產(chǎn)品具有足夠的吸引力之外,生態(tài)對于Ethos成功也非常重要。
數(shù)據(jù)管理的三個定制化技術(shù)
首先明確,Arm Ethos-N77、N57和N37有相同的核心架構(gòu),提供1-4TOP/s的算力,并且,三款NPU都獨立于制程節(jié)點的技術(shù)之外,可以選擇使用不同的制程。
Arm NPU核心架構(gòu)有什么獨特性?Dennis表示,首先還是數(shù)據(jù)方面的優(yōu)勢。在解決數(shù)據(jù)搬運問題時,我們有三大特性,第一,壓縮的定制化,不同數(shù)據(jù)類型需要不同的壓縮方法,所以我們專門針對機器學(xué)習(xí)類型的數(shù)據(jù)做出了定制化的壓縮技術(shù)。第二,盡量把數(shù)據(jù)承載最小化,這非常類似內(nèi)存的緩存,我們專門把機器學(xué)習(xí)、數(shù)據(jù)處理做了重新排列,確保當把一個數(shù)據(jù)載入的時候就盡量把需要訪問這個數(shù)據(jù)的工作都完成了,盡量不承載這個數(shù)據(jù)。第三,我們還采用了其他的技術(shù)手段,比如專門開發(fā)了獨一無二的剪枝技術(shù),正常的剪枝技術(shù)存在準確率的問題,我們特殊開發(fā)的剪枝技術(shù)提高了效率,當然還使用到了許多的稀疏技術(shù)。
另外,就是效率和靈活性的權(quán)衡,讓硬件本身能夠有兩到三年的生命周期。
以具體的產(chǎn)品看,Ethos-N57與Ethos-N37的設(shè)計理念包括一些基本原則,例如:針對Int8與Int16數(shù)據(jù)類型的支持性進行優(yōu)化;先進的數(shù)據(jù)管理技術(shù),以減少數(shù)據(jù)的移動與相關(guān)的耗電;通過Winograd技術(shù)的落地,使性能比其他NPU提升超過200%。
AI處理器支持的數(shù)據(jù)類型非常關(guān)鍵,隨著算法和模型的逐步成熟,邊緣端的AI芯片很多都只支持Int8的數(shù)據(jù)類型,但Arm還選擇支持Int16。對此,Dennis表示,機器學(xué)習(xí)支持Int8數(shù)據(jù)類型基本就足夠了,我們之所以選擇也支持INT16是為了更好的應(yīng)對涉及到圖像處理的工作,因為通常來說像素是10到12位,牽扯到顏色,支持INT16就省略了很多的數(shù)據(jù)轉(zhuǎn)換的工作,非常適合圖像處理。
但為何又沒有支持更高精度的FP16?“因為FP16對帶寬的需求相當高,這就意味著處理器的整個處理量和功耗就會提升。但消耗這么多的功耗和帶寬,準確率與INT8比較卻沒有多少提升。” Dennis如此解釋。
雖然機器學(xué)習(xí)讓處理器的設(shè)計面臨著新的挑戰(zhàn),不過Dennis認為機器學(xué)習(xí)本身并沒有改變最為根本的處理器的設(shè)計原則,只不過針對機器學(xué)習(xí)的處理器設(shè)計的重點可能和通用處理器有所不同。Arm一直強調(diào)的數(shù)據(jù)管理是我們的重點,還有并行計算、矩陣乘法都是我們關(guān)注的重點。
軟硬結(jié)合的權(quán)衡
硬件的獨特性之外,軟件也同樣重要,特別是在AI時代,軟硬一體化的重要性更加突顯。要實現(xiàn)理想的軟硬結(jié)合,Dennis認為有兩大挑戰(zhàn),一個還是權(quán)衡的問題,也就是多少工作讓硬件完成以及多少工作給軟件完成。另一個是ML框架的支持,因為這個領(lǐng)域還很新,還會出現(xiàn)不同的框架。
Arm方面,Dennis表示,我們研發(fā)ML硬件的時候,我們首先考慮的是軟件需要什么,然后再設(shè)計硬件,其實是軟件需求推動了硬件設(shè)計。Arm花了很多精力在底層的軟件方面,機器學(xué)習(xí)的工程師團隊有另外一半以上都是做軟件的,我們已經(jīng)做了三年,但仍然還有很大的改善空間。
除了軟硬一體化提升AI性能,在先進半導(dǎo)體制程越來越昂貴的背景下,通過異構(gòu)系統(tǒng)提升處理器性能也受到了很大的關(guān)注。但異構(gòu)的系統(tǒng)給軟件帶來的更大的挑戰(zhàn),此時,到底是用統(tǒng)一的軟件API去分配硬件資源實現(xiàn)易用性,還是對每個硬件單獨編程讓系統(tǒng)更加高效?
Arm采用的在硬件之上有特別優(yōu)化的Compute Library,它會把底層的硬件和驅(qū)動進行充分優(yōu)化,根據(jù)算子的不同需求驅(qū)動硬件,可以提升幾倍到十幾倍的效率。再上一層是Arm nn,可以將TensorFlow、Caffe等神經(jīng)網(wǎng)絡(luò)框架轉(zhuǎn)換成Compute Library可以執(zhí)行的任務(wù),讓開發(fā)者不用關(guān)心底層的硬件,只需要使用標準架構(gòu)進行開發(fā)就可以。
因此,Dennis表示Arm采用的方式是更加底層的方式,軟件直接與CPU、GPU或NPU進行溝通,做最佳匹配。這其中最大的挑戰(zhàn)還是平衡的問題,軟件的架構(gòu)要做到根據(jù)具體的應(yīng)用,分配專用和通用的處理器,這個百分比還可以不斷調(diào)整,這是最難做的。
在框架的支持上,Arm是希望其硬件可以讓開發(fā)者不需要去特別選擇需要用哪一個框架。
生態(tài)才是NPU成功的關(guān)鍵
NPU軟硬件的獨特性和優(yōu)勢只有獲得市場的認可才能成功,那么首先得滿足不同場景的算力需求。Ethos系列現(xiàn)有的三款ML處理器性能從1-4 TOP/s不等,但是即便是在邊緣端,也會有更高的性能需求,更不用說高性能計算的場景。
Dennis表示,針對高性能的場景,Arm可以提供的ML產(chǎn)品是一個結(jié)構(gòu)單元,可以把它組裝起來增加處理器的結(jié)構(gòu),如果把多個能夠提供4TOP/S的單元按照需求組裝起來就能夠滿足更高性能的需求。
但是,隨著系統(tǒng)的復(fù)雜性增加,計算單元的增加并不意味著一直能夠帶來線性的性能提升。Arm如何應(yīng)對?Dennis表示,這種組裝確實有其局限性,到達某個性能后可能性能的提升就消失了,但Arm在GPU和CPU多處理器架構(gòu)上有很好的架構(gòu)設(shè)計,能夠盡量實現(xiàn)比較長的線性性能提升。
“這也是我們?yōu)槭裁磸娬{(diào)Ethos系列將是一個非常長和非常廣的產(chǎn)品線,我們會去延展這個產(chǎn)品系列,找到不同的做機器學(xué)習(xí)的途徑?!盌ennis進一步表示。
前面已經(jīng)提到Arm成功的關(guān)鍵是生態(tài),而擁有多款的專用和通用芯片也是Arm在AI和IoT時代的優(yōu)勢,與NPU同時發(fā)布的還有采用最新Valhall 架構(gòu)的Mali-G57,以及Arm單位面積效率最高的Mali-D37。
Dennis依舊認為未來市場需要的是通用加專用芯片,并且適用范圍更廣。他表示:“我們有很多機器學(xué)習(xí)的應(yīng)用無需特別高的性能,CPU完全可以滿足。而且Arm的CPU性能不斷的提升,現(xiàn)在性能累計提升了400倍。同時,像Ethos這樣的專用芯片系列也可以滿足更加多元化的需求?!?/strong>
不僅如此,Arm還開源了Arm NN,可以與第三方可配置的IP進行連接,這也能夠適應(yīng)更多應(yīng)用場景。
為應(yīng)對AIoT時代更激烈的競爭,特別是RISC-V的競爭,我們也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions,允許客戶在特定的 CPU 內(nèi)核中加入自定義指令功能,能夠加速特定的用例、嵌入式和物聯(lián)網(wǎng)應(yīng)用程序。
Dennis表示,我們會認真的看待RISC-V在市場上的進展和動作,就像我們認真看待其他架構(gòu)一樣。Arm的優(yōu)勢在于我們能夠提供最全面的、擁有靈活性、普遍性的解決方案和產(chǎn)品,與此同時,我們還擁有強大豐富的生態(tài),能夠更好的滿足市場的需求。
雷鋒網(wǎng)小結(jié)
對于Arm而言,AI和IoT市場一定都不能錯過,對于手機AI市場,作為提供通用IP的Arm顯然不適合在AI算法迅速迭代的兩年前就推出一款NPU產(chǎn)品,這將無法保證NPU對于今天的AI算法依舊高效。從這一角度看,Arm選擇在2019年才推出NPU也可以理解,并且Arm此時推出的NPU也有望在一定程度上解決開發(fā)者需要適配多種NPU硬件的苦惱。
從技術(shù)的角度看,數(shù)據(jù)的存取帶來的高能耗以及如何平衡靈活性和效率是所有AI處理器設(shè)計者都需要面對的問題,Arm的優(yōu)勢在于其豐富的架構(gòu)設(shè)計經(jīng)驗,以及一直以來的軟件以及生態(tài)的優(yōu)勢,用其獨特的方式解決了面對的挑戰(zhàn)。
當然,Arm NPU的推出,很重要的目標市場除了手機還有IoT。只是,在IoT市場,Arm應(yīng)該更加認真的看待RISC-V這個競爭者。
相關(guān)文章:
重磅!Arm 出貨超過 1500 億,殺入自定義指令集,劍指 RISC-V
CUDA支持Arm是實現(xiàn)百萬兆級超算的新途徑,還是Nvidia和Arm的好機會?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。