獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

本文作者：包永剛

2019-10-30 14:32

導(dǎo)語：上周，Arm推出了一系列全新的IP，包括NPU、GPU以及DPU，NPU尤為值得關(guān)注。

上周，Arm推出了一系列全新的IP，包括NPU、GPU以及DPU。NPU尤為值得關(guān)注，不僅因?yàn)镹PU系列同時(shí)發(fā)布了N57和N37兩款新品，還因?yàn)锳rm的ML處理器（Machine Learning Processor）系列名稱Ethos也正式公布。全新AI系列產(chǎn)品的亮相，意味著Arm的AI策略更加明晰。

不過，2017年開始，手機(jī)市場(chǎng)就開啟了AI處理器的競(jìng)爭(zhēng)，華為、蘋果、三星、聯(lián)發(fā)科、高通都相繼推出集成NPU的手機(jī)處理器。為什么Arm直到2019年才推出NPU？Arm的NPU能否獲得成功？

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

首款NPU發(fā)布時(shí)間略有推后

實(shí)際上，Arm原計(jì)劃在2019年第一季度發(fā)布首款ML處理器。之所以選擇這個(gè)時(shí)間點(diǎn)，Arm ML事業(yè)群商業(yè)與營銷副總裁Dennis Laudick去年11月接受雷鋒網(wǎng)專訪時(shí)表示：“最近我們已經(jīng)看到機(jī)器學(xué)習(xí)技術(shù)正在穩(wěn)定和成熟，市場(chǎng)需求也正在不斷增加，我們認(rèn)為現(xiàn)在是進(jìn)入市場(chǎng)的最佳時(shí)機(jī)。”

不過，Arm首款ML處理器的發(fā)布時(shí)間是在今年5月，比計(jì)劃略晚一些。Dennis上周再次接受雷鋒網(wǎng)專訪時(shí)表示，發(fā)布推遲有很多原因，產(chǎn)品開發(fā)是主要的問題。ML處理器開發(fā)的過程中面臨很多挑戰(zhàn)，其中一個(gè)很大的挑戰(zhàn)就是數(shù)據(jù)移動(dòng)處理不好就會(huì)消耗大量的電，另一個(gè)大的挑戰(zhàn)就是如何權(quán)衡效率和靈活性。

Arm ML事業(yè)群商業(yè)與營銷副總裁Dennis Laudick

雖然產(chǎn)品的開發(fā)影響了首款ML處理器發(fā)布的時(shí)間，但Arm并沒有在首款ML產(chǎn)品發(fā)布時(shí)就公布其系列名稱和型號(hào)。而是直到面向主流市場(chǎng)，提供性能、成本以及功耗均衡的N57和對(duì)成本極端敏感的N37發(fā)布，Arm才正式公布ML系列處理器的的名稱——Ethos（中文可翻譯為精神）。此時(shí)，外界也才清楚5月發(fā)布的首款ML處理器型號(hào)為Ethos-N77，定位高端，面向高性能需求的市場(chǎng)。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

這是為什么？Dennis解釋稱，其實(shí)有很多原因，Arm內(nèi)部也在重新思考命名系統(tǒng)，如果推出第一款機(jī)器學(xué)習(xí)產(chǎn)品就立刻發(fā)布新的產(chǎn)品系列名稱，可能大家會(huì)把對(duì)這個(gè)系列品牌的印象和認(rèn)知捆綁在這一款產(chǎn)品身上，我們不希望造成這樣的效果。我們希望大家看到Ethos這個(gè)產(chǎn)品名下面的產(chǎn)品系列是廣泛而豐富的，這就是為什么要等到有針對(duì)三個(gè)不同市場(chǎng)，三個(gè)不同檔次的產(chǎn)品都出來了，才正式的對(duì)外公布產(chǎn)品系列的名稱的主要原因。

但更為關(guān)鍵的是，市場(chǎng)上已經(jīng)有眾多競(jìng)爭(zhēng)者，此時(shí)推出Ethos還有競(jìng)爭(zhēng)力嗎？Dennis表示，Arm的成功一直以來都得益于生態(tài)系統(tǒng)，對(duì)于NPU來說挑戰(zhàn)并不是能夠做出自己的NPU，而是NPU在市場(chǎng)上是不是真的好用。我們已經(jīng)聽到合作伙伴反饋說，希望在硬件上能夠標(biāo)準(zhǔn)化，他們不想支持15種不同的硬件，所以，他們期待有一個(gè)標(biāo)準(zhǔn)化的軟件平臺(tái)能夠支持。

Ethos解決兩大技術(shù)挑戰(zhàn)的獨(dú)到方法

因此，如果Arm想要獲得市場(chǎng)的認(rèn)可，除了需要解決硬件和軟件上的挑戰(zhàn)，讓產(chǎn)品具有足夠的吸引力之外，生態(tài)對(duì)于Ethos成功也非常重要。

數(shù)據(jù)管理的三個(gè)定制化技術(shù)

首先明確，Arm Ethos-N77、N57和N37有相同的核心架構(gòu)，提供1-4TOP/s的算力，并且，三款NPU都獨(dú)立于制程節(jié)點(diǎn)的技術(shù)之外，可以選擇使用不同的制程。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

Arm NPU核心架構(gòu)有什么獨(dú)特性？Dennis表示，首先還是數(shù)據(jù)方面的優(yōu)勢(shì)。在解決數(shù)據(jù)搬運(yùn)問題時(shí)，我們有三大特性，第一，壓縮的定制化，不同數(shù)據(jù)類型需要不同的壓縮方法，所以我們專門針對(duì)機(jī)器學(xué)習(xí)類型的數(shù)據(jù)做出了定制化的壓縮技術(shù)。第二，盡量把數(shù)據(jù)承載最小化，這非常類似內(nèi)存的緩存，我們專門把機(jī)器學(xué)習(xí)、數(shù)據(jù)處理做了重新排列，確保當(dāng)把一個(gè)數(shù)據(jù)載入的時(shí)候就盡量把需要訪問這個(gè)數(shù)據(jù)的工作都完成了，盡量不承載這個(gè)數(shù)據(jù)。第三，我們還采用了其他的技術(shù)手段，比如專門開發(fā)了獨(dú)一無二的剪枝技術(shù)，正常的剪枝技術(shù)存在準(zhǔn)確率的問題，我們特殊開發(fā)的剪枝技術(shù)提高了效率，當(dāng)然還使用到了許多的稀疏技術(shù)。

另外，就是效率和靈活性的權(quán)衡，讓硬件本身能夠有兩到三年的生命周期。

以具體的產(chǎn)品看，Ethos-N57與Ethos-N37的設(shè)計(jì)理念包括一些基本原則，例如：針對(duì)Int8與Int16數(shù)據(jù)類型的支持性進(jìn)行優(yōu)化；先進(jìn)的數(shù)據(jù)管理技術(shù)，以減少數(shù)據(jù)的移動(dòng)與相關(guān)的耗電；通過Winograd技術(shù)的落地，使性能比其他NPU提升超過200%。

AI處理器支持的數(shù)據(jù)類型非常關(guān)鍵，隨著算法和模型的逐步成熟，邊緣端的AI芯片很多都只支持Int8的數(shù)據(jù)類型，但Arm還選擇支持Int16。對(duì)此，Dennis表示，機(jī)器學(xué)習(xí)支持Int8數(shù)據(jù)類型基本就足夠了，我們之所以選擇也支持INT16是為了更好的應(yīng)對(duì)涉及到圖像處理的工作，因?yàn)橥ǔ碚f像素是10到12位，牽扯到顏色，支持INT16就省略了很多的數(shù)據(jù)轉(zhuǎn)換的工作，非常適合圖像處理。

但為何又沒有支持更高精度的FP16？“因?yàn)镕P16對(duì)帶寬的需求相當(dāng)高，這就意味著處理器的整個(gè)處理量和功耗就會(huì)提升。但消耗這么多的功耗和帶寬，準(zhǔn)確率與INT8比較卻沒有多少提升?！?Dennis如此解釋。

雖然機(jī)器學(xué)習(xí)讓處理器的設(shè)計(jì)面臨著新的挑戰(zhàn)，不過Dennis認(rèn)為機(jī)器學(xué)習(xí)本身并沒有改變最為根本的處理器的設(shè)計(jì)原則，只不過針對(duì)機(jī)器學(xué)習(xí)的處理器設(shè)計(jì)的重點(diǎn)可能和通用處理器有所不同。Arm一直強(qiáng)調(diào)的數(shù)據(jù)管理是我們的重點(diǎn)，還有并行計(jì)算、矩陣乘法都是我們關(guān)注的重點(diǎn)。

軟硬結(jié)合的權(quán)衡

硬件的獨(dú)特性之外，軟件也同樣重要，特別是在AI時(shí)代，軟硬一體化的重要性更加突顯。要實(shí)現(xiàn)理想的軟硬結(jié)合，Dennis認(rèn)為有兩大挑戰(zhàn)，一個(gè)還是權(quán)衡的問題，也就是多少工作讓硬件完成以及多少工作給軟件完成。另一個(gè)是ML框架的支持，因?yàn)檫@個(gè)領(lǐng)域還很新，還會(huì)出現(xiàn)不同的框架。

Arm方面，Dennis表示，我們研發(fā)ML硬件的時(shí)候，我們首先考慮的是軟件需要什么，然后再設(shè)計(jì)硬件，其實(shí)是軟件需求推動(dòng)了硬件設(shè)計(jì)。Arm花了很多精力在底層的軟件方面，機(jī)器學(xué)習(xí)的工程師團(tuán)隊(duì)有另外一半以上都是做軟件的，我們已經(jīng)做了三年，但仍然還有很大的改善空間。

除了軟硬一體化提升AI性能，在先進(jìn)半導(dǎo)體制程越來越昂貴的背景下，通過異構(gòu)系統(tǒng)提升處理器性能也受到了很大的關(guān)注。但異構(gòu)的系統(tǒng)給軟件帶來的更大的挑戰(zhàn)，此時(shí)，到底是用統(tǒng)一的軟件API去分配硬件資源實(shí)現(xiàn)易用性，還是對(duì)每個(gè)硬件單獨(dú)編程讓系統(tǒng)更加高效？

Arm采用的在硬件之上有特別優(yōu)化的Compute Library，它會(huì)把底層的硬件和驅(qū)動(dòng)進(jìn)行充分優(yōu)化，根據(jù)算子的不同需求驅(qū)動(dòng)硬件，可以提升幾倍到十幾倍的效率。再上一層是Arm nn，可以將TensorFlow、Caffe等神經(jīng)網(wǎng)絡(luò)框架轉(zhuǎn)換成Compute Library可以執(zhí)行的任務(wù)，讓開發(fā)者不用關(guān)心底層的硬件，只需要使用標(biāo)準(zhǔn)架構(gòu)進(jìn)行開發(fā)就可以。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

因此，Dennis表示Arm采用的方式是更加底層的方式，軟件直接與CPU、GPU或NPU進(jìn)行溝通，做最佳匹配。這其中最大的挑戰(zhàn)還是平衡的問題，軟件的架構(gòu)要做到根據(jù)具體的應(yīng)用，分配專用和通用的處理器，這個(gè)百分比還可以不斷調(diào)整，這是最難做的。

在框架的支持上，Arm是希望其硬件可以讓開發(fā)者不需要去特別選擇需要用哪一個(gè)框架。

生態(tài)才是NPU成功的關(guān)鍵

NPU軟硬件的獨(dú)特性和優(yōu)勢(shì)只有獲得市場(chǎng)的認(rèn)可才能成功，那么首先得滿足不同場(chǎng)景的算力需求。Ethos系列現(xiàn)有的三款ML處理器性能從1-4 TOP/s不等，但是即便是在邊緣端，也會(huì)有更高的性能需求，更不用說高性能計(jì)算的場(chǎng)景。

Dennis表示，針對(duì)高性能的場(chǎng)景，Arm可以提供的ML產(chǎn)品是一個(gè)結(jié)構(gòu)單元，可以把它組裝起來增加處理器的結(jié)構(gòu)，如果把多個(gè)能夠提供4TOP/S的單元按照需求組裝起來就能夠滿足更高性能的需求。

但是，隨著系統(tǒng)的復(fù)雜性增加，計(jì)算單元的增加并不意味著一直能夠帶來線性的性能提升。Arm如何應(yīng)對(duì)？Dennis表示，這種組裝確實(shí)有其局限性，到達(dá)某個(gè)性能后可能性能的提升就消失了，但Arm在GPU和CPU多處理器架構(gòu)上有很好的架構(gòu)設(shè)計(jì)，能夠盡量實(shí)現(xiàn)比較長的線性性能提升。

“這也是我們?yōu)槭裁磸?qiáng)調(diào)Ethos系列將是一個(gè)非常長和非常廣的產(chǎn)品線，我們會(huì)去延展這個(gè)產(chǎn)品系列，找到不同的做機(jī)器學(xué)習(xí)的途徑?！盌ennis進(jìn)一步表示。

前面已經(jīng)提到Arm成功的關(guān)鍵是生態(tài)，而擁有多款的專用和通用芯片也是Arm在AI和IoT時(shí)代的優(yōu)勢(shì)，與NPU同時(shí)發(fā)布的還有采用最新Valhall 架構(gòu)的Mali-G57，以及Arm單位面積效率最高的Mali-D37。

Dennis依舊認(rèn)為未來市場(chǎng)需要的是通用加專用芯片，并且適用范圍更廣。他表示：“我們有很多機(jī)器學(xué)習(xí)的應(yīng)用無需特別高的性能，CPU完全可以滿足。而且Arm的CPU性能不斷的提升，現(xiàn)在性能累計(jì)提升了400倍。同時(shí)，像Ethos這樣的專用芯片系列也可以滿足更加多元化的需求?！?/strong>

不僅如此，Arm還開源了Arm NN，可以與第三方可配置的IP進(jìn)行連接，這也能夠適應(yīng)更多應(yīng)用場(chǎng)景。

為應(yīng)對(duì)AIoT時(shí)代更激烈的競(jìng)爭(zhēng)，特別是RISC-V的競(jìng)爭(zhēng)，我們也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions，允許客戶在特定的 CPU 內(nèi)核中加入自定義指令功能，能夠加速特定的用例、嵌入式和物聯(lián)網(wǎng)應(yīng)用程序。

Dennis表示，我們會(huì)認(rèn)真的看待RISC-V在市場(chǎng)上的進(jìn)展和動(dòng)作，就像我們認(rèn)真看待其他架構(gòu)一樣。Arm的優(yōu)勢(shì)在于我們能夠提供最全面的、擁有靈活性、普遍性的解決方案和產(chǎn)品，與此同時(shí)，我們還擁有強(qiáng)大豐富的生態(tài)，能夠更好的滿足市場(chǎng)的需求。

雷鋒網(wǎng)小結(jié)

對(duì)于Arm而言，AI和IoT市場(chǎng)一定都不能錯(cuò)過，對(duì)于手機(jī)AI市場(chǎng)，作為提供通用IP的Arm顯然不適合在AI算法迅速迭代的兩年前就推出一款NPU產(chǎn)品，這將無法保證NPU對(duì)于今天的AI算法依舊高效。從這一角度看，Arm選擇在2019年才推出NPU也可以理解，并且Arm此時(shí)推出的NPU也有望在一定程度上解決開發(fā)者需要適配多種NPU硬件的苦惱。

從技術(shù)的角度看，數(shù)據(jù)的存取帶來的高能耗以及如何平衡靈活性和效率是所有AI處理器設(shè)計(jì)者都需要面對(duì)的問題，Arm的優(yōu)勢(shì)在于其豐富的架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)，以及一直以來的軟件以及生態(tài)的優(yōu)勢(shì)，用其獨(dú)特的方式解決了面對(duì)的挑戰(zhàn)。

當(dāng)然，Arm NPU的推出，很重要的目標(biāo)市場(chǎng)除了手機(jī)還有IoT。只是，在IoT市場(chǎng)，Arm應(yīng)該更加認(rèn)真的看待RISC-V這個(gè)競(jìng)爭(zhēng)者。

CUDA支持Arm是實(shí)現(xiàn)百萬兆級(jí)超算的新途徑，還是Nvidia和Arm的好機(jī)會(huì)？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

分享：

相關(guān)文章

arm npu ai處理器 arm nn

華為新任云與計(jì)算BG總裁侯金龍首次亮相，鯤鵬開發(fā)者 ...

一款便攜智能音箱，一塊AI芯片和一副AR眼鏡，四年才 ...

黃仁勛強(qiáng)推「最劃算」生成式AI處理器，預(yù)言未來「 ...

高通驍龍X70實(shí)現(xiàn)全新里程碑，5G進(jìn)入創(chuàng)新時(shí)代的重要信 ...

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

熱鬧的存算一體芯片賽道里，后摩的競(jìng)爭(zhēng)壁壘是什么？｜WAIC 2025

Arm罕見地提前發(fā)布GPU新技術(shù)，2026年將在手機(jī)上實(shí)現(xiàn)桌面級(jí)神經(jīng)技術(shù)

生產(chǎn)先進(jìn)模型的「AI工廠」，有哪五大核心要素？｜WAIC 2025

AI PC進(jìn)入全民創(chuàng)新時(shí)代？英特爾人工智能創(chuàng)新應(yīng)用大賽給出答案

最新文章

AI PC進(jìn)入全民創(chuàng)新時(shí)代？英特爾人工智能創(chuàng)新應(yīng)用大賽給出答案

Arm罕見地提前發(fā)布GPU新技術(shù)，2026年將在手機(jī)上實(shí)現(xiàn)桌面級(jí)神經(jīng)技術(shù)

超20%的年均復(fù)合增長率，移動(dòng)游戲硬件進(jìn)入「第二曲線」｜ChinaJoy 2025

十載磨「芯」：云天勵(lì)飛沖擊港股AI推理芯片第一股

蓮花紫星算力項(xiàng)目縮水超9成；某國產(chǎn)全功能GPU性能對(duì)標(biāo)H100；芯片公司40億建智算中心；華東大廠購入GB200丨算力情報(bào)局

H20限時(shí)返場(chǎng)，降價(jià)出售已成必然

熱門搜索

阿里巴巴人臉識(shí)別直播 4G 語音識(shí)別隱私數(shù)字化轉(zhuǎn)型海爾大華 LIDAR 軟硬結(jié)合

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了，Arm才推出全新NPU系列？