丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

本文作者: 包永剛 2019-10-30 14:32
導(dǎo)語(yǔ):上周,Arm推出了一系列全新的IP,包括NPU、GPU以及DPU,NPU尤為值得關(guān)注。

上周,Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤為值得關(guān)注,不僅因?yàn)镹PU系列同時(shí)發(fā)布了N57和N37兩款新品,還因?yàn)锳rm的ML處理器(Machine Learning Processor)系列名稱Ethos也正式公布。全新AI系列產(chǎn)品的亮相,意味著Arm的AI策略更加明晰。

不過(guò),2017年開始,手機(jī)市場(chǎng)就開啟了AI處理器的競(jìng)爭(zhēng),華為、蘋果、三星、聯(lián)發(fā)科、高通都相繼推出集成NPU的手機(jī)處理器。為什么Arm直到2019年才推出NPU?Arm的NPU能否獲得成功?

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

首款NPU發(fā)布時(shí)間略有推后

實(shí)際上,Arm原計(jì)劃在2019年第一季度發(fā)布首款ML處理器。之所以選擇這個(gè)時(shí)間點(diǎn),Arm ML事業(yè)群商業(yè)與營(yíng)銷副總裁Dennis Laudick去年11月接受雷鋒網(wǎng)專訪時(shí)表示:“最近我們已經(jīng)看到機(jī)器學(xué)習(xí)技術(shù)正在穩(wěn)定和成熟,市場(chǎng)需求也正在不斷增加,我們認(rèn)為現(xiàn)在是進(jìn)入市場(chǎng)的最佳時(shí)機(jī)?!?/p>

不過(guò),Arm首款ML處理器的發(fā)布時(shí)間是在今年5月,比計(jì)劃略晚一些。Dennis上周再次接受雷鋒網(wǎng)專訪時(shí)表示,發(fā)布推遲有很多原因,產(chǎn)品開發(fā)是主要的問(wèn)題。ML處理器開發(fā)的過(guò)程中面臨很多挑戰(zhàn),其中一個(gè)很大的挑戰(zhàn)就是數(shù)據(jù)移動(dòng)處理不好就會(huì)消耗大量的電,另一個(gè)大的挑戰(zhàn)就是如何權(quán)衡效率和靈活性。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

Arm ML事業(yè)群商業(yè)與營(yíng)銷副總裁Dennis Laudick

雖然產(chǎn)品的開發(fā)影響了首款ML處理器發(fā)布的時(shí)間,但Arm并沒有在首款ML產(chǎn)品發(fā)布時(shí)就公布其系列名稱和型號(hào)。而是直到面向主流市場(chǎng),提供性能、成本以及功耗均衡的N57和對(duì)成本極端敏感的N37發(fā)布,Arm才正式公布ML系列處理器的的名稱——Ethos(中文可翻譯為精神)。此時(shí),外界也才清楚5月發(fā)布的首款ML處理器型號(hào)為Ethos-N77,定位高端,面向高性能需求的市場(chǎng)。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

這是為什么?Dennis解釋稱,其實(shí)有很多原因,Arm內(nèi)部也在重新思考命名系統(tǒng),如果推出第一款機(jī)器學(xué)習(xí)產(chǎn)品就立刻發(fā)布新的產(chǎn)品系列名稱,可能大家會(huì)把對(duì)這個(gè)系列品牌的印象和認(rèn)知捆綁在這一款產(chǎn)品身上,我們不希望造成這樣的效果。我們希望大家看到Ethos這個(gè)產(chǎn)品名下面的產(chǎn)品系列是廣泛而豐富的,這就是為什么要等到有針對(duì)三個(gè)不同市場(chǎng),三個(gè)不同檔次的產(chǎn)品都出來(lái)了,才正式的對(duì)外公布產(chǎn)品系列的名稱的主要原因。

但更為關(guān)鍵的是,市場(chǎng)上已經(jīng)有眾多競(jìng)爭(zhēng)者,此時(shí)推出Ethos還有競(jìng)爭(zhēng)力嗎?Dennis表示,Arm的成功一直以來(lái)都得益于生態(tài)系統(tǒng),對(duì)于NPU來(lái)說(shuō)挑戰(zhàn)并不是能夠做出自己的NPU,而是NPU在市場(chǎng)上是不是真的好用。我們已經(jīng)聽到合作伙伴反饋說(shuō),希望在硬件上能夠標(biāo)準(zhǔn)化,他們不想支持15種不同的硬件,所以,他們期待有一個(gè)標(biāo)準(zhǔn)化的軟件平臺(tái)能夠支持。

Ethos解決兩大技術(shù)挑戰(zhàn)的獨(dú)到方法

因此,如果Arm想要獲得市場(chǎng)的認(rèn)可,除了需要解決硬件和軟件上的挑戰(zhàn),讓產(chǎn)品具有足夠的吸引力之外,生態(tài)對(duì)于Ethos成功也非常重要。

數(shù)據(jù)管理的三個(gè)定制化技術(shù)

首先明確,Arm Ethos-N77、N57和N37有相同的核心架構(gòu),提供1-4TOP/s的算力,并且,三款NPU都獨(dú)立于制程節(jié)點(diǎn)的技術(shù)之外,可以選擇使用不同的制程。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

Arm NPU核心架構(gòu)有什么獨(dú)特性?Dennis表示,首先還是數(shù)據(jù)方面的優(yōu)勢(shì)。在解決數(shù)據(jù)搬運(yùn)問(wèn)題時(shí),我們有三大特性,第一,壓縮的定制化,不同數(shù)據(jù)類型需要不同的壓縮方法,所以我們專門針對(duì)機(jī)器學(xué)習(xí)類型的數(shù)據(jù)做出了定制化的壓縮技術(shù)。第二,盡量把數(shù)據(jù)承載最小化,這非常類似內(nèi)存的緩存,我們專門把機(jī)器學(xué)習(xí)、數(shù)據(jù)處理做了重新排列,確保當(dāng)把一個(gè)數(shù)據(jù)載入的時(shí)候就盡量把需要訪問(wèn)這個(gè)數(shù)據(jù)的工作都完成了,盡量不承載這個(gè)數(shù)據(jù)。第三,我們還采用了其他的技術(shù)手段,比如專門開發(fā)了獨(dú)一無(wú)二的剪枝技術(shù),正常的剪枝技術(shù)存在準(zhǔn)確率的問(wèn)題,我們特殊開發(fā)的剪枝技術(shù)提高了效率,當(dāng)然還使用到了許多的稀疏技術(shù)。

另外,就是效率和靈活性的權(quán)衡,讓硬件本身能夠有兩到三年的生命周期。

以具體的產(chǎn)品看,Ethos-N57與Ethos-N37的設(shè)計(jì)理念包括一些基本原則,例如:針對(duì)Int8與Int16數(shù)據(jù)類型的支持性進(jìn)行優(yōu)化;先進(jìn)的數(shù)據(jù)管理技術(shù),以減少數(shù)據(jù)的移動(dòng)與相關(guān)的耗電;通過(guò)Winograd技術(shù)的落地,使性能比其他NPU提升超過(guò)200%。

AI處理器支持的數(shù)據(jù)類型非常關(guān)鍵,隨著算法和模型的逐步成熟,邊緣端的AI芯片很多都只支持Int8的數(shù)據(jù)類型,但Arm還選擇支持Int16。對(duì)此,Dennis表示,機(jī)器學(xué)習(xí)支持Int8數(shù)據(jù)類型基本就足夠了,我們之所以選擇也支持INT16是為了更好的應(yīng)對(duì)涉及到圖像處理的工作,因?yàn)橥ǔ?lái)說(shuō)像素是10到12位,牽扯到顏色,支持INT16就省略了很多的數(shù)據(jù)轉(zhuǎn)換的工作,非常適合圖像處理。

但為何又沒有支持更高精度的FP16?“因?yàn)镕P16對(duì)帶寬的需求相當(dāng)高,這就意味著處理器的整個(gè)處理量和功耗就會(huì)提升。但消耗這么多的功耗和帶寬,準(zhǔn)確率與INT8比較卻沒有多少提升?!?Dennis如此解釋。

雖然機(jī)器學(xué)習(xí)讓處理器的設(shè)計(jì)面臨著新的挑戰(zhàn),不過(guò)Dennis認(rèn)為機(jī)器學(xué)習(xí)本身并沒有改變最為根本的處理器的設(shè)計(jì)原則,只不過(guò)針對(duì)機(jī)器學(xué)習(xí)的處理器設(shè)計(jì)的重點(diǎn)可能和通用處理器有所不同。Arm一直強(qiáng)調(diào)的數(shù)據(jù)管理是我們的重點(diǎn),還有并行計(jì)算、矩陣乘法都是我們關(guān)注的重點(diǎn)。

軟硬結(jié)合的權(quán)衡

硬件的獨(dú)特性之外,軟件也同樣重要,特別是在AI時(shí)代,軟硬一體化的重要性更加突顯。要實(shí)現(xiàn)理想的軟硬結(jié)合,Dennis認(rèn)為有兩大挑戰(zhàn),一個(gè)還是權(quán)衡的問(wèn)題,也就是多少工作讓硬件完成以及多少工作給軟件完成。另一個(gè)是ML框架的支持,因?yàn)檫@個(gè)領(lǐng)域還很新,還會(huì)出現(xiàn)不同的框架。

Arm方面,Dennis表示,我們研發(fā)ML硬件的時(shí)候,我們首先考慮的是軟件需要什么,然后再設(shè)計(jì)硬件,其實(shí)是軟件需求推動(dòng)了硬件設(shè)計(jì)。Arm花了很多精力在底層的軟件方面,機(jī)器學(xué)習(xí)的工程師團(tuán)隊(duì)有另外一半以上都是做軟件的,我們已經(jīng)做了三年,但仍然還有很大的改善空間。

除了軟硬一體化提升AI性能,在先進(jìn)半導(dǎo)體制程越來(lái)越昂貴的背景下,通過(guò)異構(gòu)系統(tǒng)提升處理器性能也受到了很大的關(guān)注。但異構(gòu)的系統(tǒng)給軟件帶來(lái)的更大的挑戰(zhàn),此時(shí),到底是用統(tǒng)一的軟件API去分配硬件資源實(shí)現(xiàn)易用性,還是對(duì)每個(gè)硬件單獨(dú)編程讓系統(tǒng)更加高效?

Arm采用的在硬件之上有特別優(yōu)化的Compute Library,它會(huì)把底層的硬件和驅(qū)動(dòng)進(jìn)行充分優(yōu)化,根據(jù)算子的不同需求驅(qū)動(dòng)硬件,可以提升幾倍到十幾倍的效率。再上一層是Arm nn,可以將TensorFlow、Caffe等神經(jīng)網(wǎng)絡(luò)框架轉(zhuǎn)換成Compute Library可以執(zhí)行的任務(wù),讓開發(fā)者不用關(guān)心底層的硬件,只需要使用標(biāo)準(zhǔn)架構(gòu)進(jìn)行開發(fā)就可以。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

因此,Dennis表示Arm采用的方式是更加底層的方式,軟件直接與CPU、GPU或NPU進(jìn)行溝通,做最佳匹配。這其中最大的挑戰(zhàn)還是平衡的問(wèn)題,軟件的架構(gòu)要做到根據(jù)具體的應(yīng)用,分配專用和通用的處理器,這個(gè)百分比還可以不斷調(diào)整,這是最難做的。

在框架的支持上,Arm是希望其硬件可以讓開發(fā)者不需要去特別選擇需要用哪一個(gè)框架。

生態(tài)才是NPU成功的關(guān)鍵

NPU軟硬件的獨(dú)特性和優(yōu)勢(shì)只有獲得市場(chǎng)的認(rèn)可才能成功,那么首先得滿足不同場(chǎng)景的算力需求。Ethos系列現(xiàn)有的三款ML處理器性能從1-4 TOP/s不等,但是即便是在邊緣端,也會(huì)有更高的性能需求,更不用說(shuō)高性能計(jì)算的場(chǎng)景。

Dennis表示,針對(duì)高性能的場(chǎng)景,Arm可以提供的ML產(chǎn)品是一個(gè)結(jié)構(gòu)單元,可以把它組裝起來(lái)增加處理器的結(jié)構(gòu),如果把多個(gè)能夠提供4TOP/S的單元按照需求組裝起來(lái)就能夠滿足更高性能的需求。

但是,隨著系統(tǒng)的復(fù)雜性增加,計(jì)算單元的增加并不意味著一直能夠帶來(lái)線性的性能提升。Arm如何應(yīng)對(duì)?Dennis表示,這種組裝確實(shí)有其局限性,到達(dá)某個(gè)性能后可能性能的提升就消失了,但Arm在GPU和CPU多處理器架構(gòu)上有很好的架構(gòu)設(shè)計(jì),能夠盡量實(shí)現(xiàn)比較長(zhǎng)的線性性能提升。

“這也是我們?yōu)槭裁磸?qiáng)調(diào)Ethos系列將是一個(gè)非常長(zhǎng)和非常廣的產(chǎn)品線,我們會(huì)去延展這個(gè)產(chǎn)品系列,找到不同的做機(jī)器學(xué)習(xí)的途徑?!盌ennis進(jìn)一步表示。

前面已經(jīng)提到Arm成功的關(guān)鍵是生態(tài),而擁有多款的專用和通用芯片也是Arm在AI和IoT時(shí)代的優(yōu)勢(shì),與NPU同時(shí)發(fā)布的還有采用最新Valhall 架構(gòu)的Mali-G57,以及Arm單位面積效率最高的Mali-D37。

Dennis依舊認(rèn)為未來(lái)市場(chǎng)需要的是通用加專用芯片,并且適用范圍更廣。他表示:“我們有很多機(jī)器學(xué)習(xí)的應(yīng)用無(wú)需特別高的性能,CPU完全可以滿足。而且Arm的CPU性能不斷的提升,現(xiàn)在性能累計(jì)提升了400倍。同時(shí),像Ethos這樣的專用芯片系列也可以滿足更加多元化的需求?!?/strong>

不僅如此,Arm還開源了Arm NN,可以與第三方可配置的IP進(jìn)行連接,這也能夠適應(yīng)更多應(yīng)用場(chǎng)景。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

為應(yīng)對(duì)AIoT時(shí)代更激烈的競(jìng)爭(zhēng),特別是RISC-V的競(jìng)爭(zhēng),我們也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions,允許客戶在特定的 CPU 內(nèi)核中加入自定義指令功能,能夠加速特定的用例、嵌入式和物聯(lián)網(wǎng)應(yīng)用程序。

獨(dú)家深度 | 為何手機(jī)AI處理器都快普及了,Arm才推出全新NPU系列?

Dennis表示,我們會(huì)認(rèn)真的看待RISC-V在市場(chǎng)上的進(jìn)展和動(dòng)作,就像我們認(rèn)真看待其他架構(gòu)一樣。Arm的優(yōu)勢(shì)在于我們能夠提供最全面的、擁有靈活性、普遍性的解決方案和產(chǎn)品,與此同時(shí),我們還擁有強(qiáng)大豐富的生態(tài),能夠更好的滿足市場(chǎng)的需求。

雷鋒網(wǎng)小結(jié)

對(duì)于Arm而言,AI和IoT市場(chǎng)一定都不能錯(cuò)過(guò),對(duì)于手機(jī)AI市場(chǎng),作為提供通用IP的Arm顯然不適合在AI算法迅速迭代的兩年前就推出一款NPU產(chǎn)品,這將無(wú)法保證NPU對(duì)于今天的AI算法依舊高效。從這一角度看,Arm選擇在2019年才推出NPU也可以理解,并且Arm此時(shí)推出的NPU也有望在一定程度上解決開發(fā)者需要適配多種NPU硬件的苦惱。

從技術(shù)的角度看,數(shù)據(jù)的存取帶來(lái)的高能耗以及如何平衡靈活性和效率是所有AI處理器設(shè)計(jì)者都需要面對(duì)的問(wèn)題,Arm的優(yōu)勢(shì)在于其豐富的架構(gòu)設(shè)計(jì)經(jīng)驗(yàn),以及一直以來(lái)的軟件以及生態(tài)的優(yōu)勢(shì),用其獨(dú)特的方式解決了面對(duì)的挑戰(zhàn)。

當(dāng)然,Arm NPU的推出,很重要的目標(biāo)市場(chǎng)除了手機(jī)還有IoT。只是,在IoT市場(chǎng),Arm應(yīng)該更加認(rèn)真的看待RISC-V這個(gè)競(jìng)爭(zhēng)者。

相關(guān)文章:

重磅!Arm 出貨超過(guò) 1500 億,殺入自定義指令集,劍指 RISC-V

CUDA支持Arm是實(shí)現(xiàn)百萬(wàn)兆級(jí)超算的新途徑,還是Nvidia和Arm的好機(jī)會(huì)?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄