0
本文作者: 肖漫 | 2019-05-28 18:40 |
【 圖片來源:Arm Community 所有者:Arm Community 】
雷鋒網(wǎng)按:Arm 社區(qū)近期發(fā)表文章,深入地介紹了一個機(jī)器學(xué)習(xí)處理器(Machine Learning Processor),據(jù)了解,這個處理器能夠在邊緣設(shè)備上加速計算過程;這是 Arm 第一次專門推出類似于 NPU 的 AI 專用處理器。雷鋒網(wǎng)將全文編譯如下。
想一下,你有多少個互聯(lián)設(shè)備?
無論你是一個電子產(chǎn)品成癮者,還是只是一個普通電子產(chǎn)品擁有者,你現(xiàn)在擁有的電子產(chǎn)品很有可能會比五年前的多。從智能手機(jī)、平板電腦到個人健康追蹤器、智能哮喘吸入器和智能門鈴,我們年復(fù)一年都忙著加強(qiáng)互聯(lián)互通,這讓個人數(shù)據(jù)呈現(xiàn)爆炸式增長。根據(jù)最近的一份報告,在近十年里,全球人均聯(lián)網(wǎng)設(shè)備的數(shù)量不足 2 臺,到 2020 年,這個數(shù)據(jù)將躍升至 6.58 ——大量的設(shè)備制造了大量的數(shù)據(jù)。
一直以來,這些數(shù)據(jù)會發(fā)送到云端進(jìn)行處理;但隨著數(shù)據(jù)和設(shè)備的數(shù)量呈指數(shù)型增長,要想不斷地來回移動數(shù)據(jù)都不太實際,更不用說安全和成本效益。幸運的是,機(jī)器學(xué)習(xí)(Machine Learning,以下簡稱 ML)的最新進(jìn)展意味著現(xiàn)在比以往任何時候可以在設(shè)備上完成更多的處理和預(yù)處理。這帶來了一些好處,數(shù)據(jù)泄露的風(fēng)險降低從而提高了安全性,節(jié)約了成本和電力。將數(shù)據(jù)在云端和設(shè)備之間來回傳輸?shù)幕A(chǔ)設(shè)施并不便宜,因此在設(shè)備上可以完成的處理越多越好。
設(shè)備上的機(jī)器學(xué)習(xí)是從 CPU 開始的, CPU 充當(dāng)一個熟練的“流量控制器”,要么單獨管理整個機(jī)器學(xué)習(xí)工作量,要么將選定的任務(wù)分配給特定的機(jī)器學(xué)習(xí)處理器。
Arm CPU 和 GPU 已經(jīng)跨過性能曲線,為成千上萬的 ML 用例提供動力,尤其是在移動端,邊緣機(jī)器學(xué)習(xí)已經(jīng)驅(qū)動了消費者所期望的標(biāo)準(zhǔn)特性。
隨著這些處理器變得越來越強(qiáng)大,越來越高效,它們能夠驅(qū)動更高的性能,從而為邊緣的安全 ML 提供更多的設(shè)備上計算能力。(例如,可以在不影響電池壽命的情況下,管理計算密集型任務(wù)的第三代 DynamIQ 大核心 Arm Cortex-A77 CPU,以及為 ML 提供了 60% 的性能改進(jìn)的 Arm Mali-G77 GPU。)
但是,盡管 CPU 和 GPU 本身就是 ML 的動力源,但是在最密集、最高效的性能需求下,它們自身可能很難滿足這個需求。在這些任務(wù)中,專用神經(jīng)處理單元( NPU )的強(qiáng)大功能 (如 Arm ML 處理器)將派上用場,為邊緣的 ML 推理提供最高的吞吐量和最高效的處理。
是什么讓 ML 處理器變得如此特別?
它的特別之處在于,它以全新的體系結(jié)構(gòu)為基礎(chǔ),以連接設(shè)備為目標(biāo),例如智能手機(jī),智能相機(jī),增強(qiáng)現(xiàn)實與虛擬現(xiàn)實設(shè)備(AR/VR)、無人機(jī),還有醫(yī)療電子和消費電子產(chǎn)品。它的運算性能多達(dá) 4 TOP/s,從而能夠啟動以前由于電池壽命或熱量限制而無法實現(xiàn)的新用例——這讓開發(fā)人員能夠創(chuàng)建出新的用戶體驗,比如說 3D 人臉解鎖,或是具有深度控制或人像照明功能的高級人像模式等。
當(dāng)然,性能優(yōu)越是件好事。但是,如果它需要你每隔幾個小時就得給你的設(shè)備充電,或者到哪都要帶著你的充電寶,這就沒那么好了。為了將用戶從充電電纜的“暴政”中解放出來,這個 ML 處理器擁有業(yè)界領(lǐng)先 5TOPs/W 的電源效率,這是通過最先進(jìn)的優(yōu)化(例如重量壓縮、活化壓縮,Winograd )來實現(xiàn)的。
Winograd 使關(guān)鍵卷積濾波器的性能比其他 NPU 高出 225% ,占用的空間更小,還能在減少任何給定設(shè)計所需組件數(shù)量的同時提高效率。這進(jìn)而降低了成本和電力需求,同時又不影響用戶體驗。
該體系結(jié)構(gòu)由固定函數(shù)引擎和可編程層引擎組成,前者用于高效執(zhí)行卷積層,后者用于執(zhí)行非卷積層和實現(xiàn)選定的原語和運算符。這些本地支持的功能與常見的神經(jīng)框架緊密結(jié)合,減少了網(wǎng)絡(luò)部署成本,從而加快了上市時間。
【 圖片來源:Arm Community 所有者:Arm Community 】
我們再來看一下這款處理器的參數(shù):
效能:CPUs, GPUs, DSPs 提供巨大提升力,多達(dá) 5 TOPs/W 的加速器;
網(wǎng)絡(luò)支持:處理各種流行的神經(jīng)網(wǎng)絡(luò),包括卷積層(CNNs)和遞歸(RNNs),用于分類、物體探測、圖像增強(qiáng)、語音識別以及自然語言理解;
安全性:使用 Arm TrustZone 體系結(jié)構(gòu)的基礎(chǔ),以最小攻擊面執(zhí)行;
可擴(kuò)展性:通過多核擴(kuò)展,單個集群中最多有 8 個 NPUs 和 32 個 TOPs,網(wǎng)格配置中最多有 64 個NPUs;
神經(jīng)框架支持:與現(xiàn)有框架緊密集成:TensorFlow , TensorFlow Lite , Caffe , Caffe 2 以及其他通過 ONNX 實現(xiàn)的框架;
Winograd 卷積:與其他 NPUs 相比,普通過濾器的速度提高了 225%,能夠在更小的區(qū)域內(nèi)獲得更高的性能;
內(nèi)存壓縮:通過各種壓縮技術(shù),將系統(tǒng)內(nèi)存帶寬最小化;
異構(gòu) ML 計算:優(yōu)化使用 Arm Cortex-A CPUs 和 Arm Mali GPUs;
開源軟件功能:通過 Arm NN 的支持去減少成本和避免鎖定;
為了讓開發(fā)人員輕松一些,這個 ML 處理器有一個集成的網(wǎng)絡(luò)控制單元和 DMA(Direct Memory Access,直接內(nèi)存存?。@個 DMA 能夠管理整個網(wǎng)絡(luò)的執(zhí)行和遍歷,還能在后臺將數(shù)據(jù)移入和移出主內(nèi)存。
同時,板載存儲器允許中央存儲權(quán)重和特征圖,減少了外部儲存器的通信,延長了電池的壽命,這是對消費者所期望的標(biāo)準(zhǔn)用戶體驗的又一次認(rèn)可。
至關(guān)重要的是,這個 ML 處理器足夠靈活,可以支持具有更高需求的用例,運行更多且更大的并發(fā)特性:在單個集群中可配置 8 個內(nèi)核,達(dá)到 32 TOP/s 的性能;或是在網(wǎng)格配置中達(dá)到 64 NPUs。
最終,這個 ML 處理器增強(qiáng)了性能,提高了效率,減少了網(wǎng)絡(luò)部署成本,并且,通過固定功能和可編程引擎的緊密耦合,讓固件隨著新功能的開發(fā)而更新,從而使得這個設(shè)計不會過時。
總而言之,通過能力、效率、靈活性三者的結(jié)合,這個 ML 處理器在邊緣定義了 ML 推理的未來,讓開發(fā)者在創(chuàng)建今天最佳用戶體驗的同時,滿足未來的用例需求。
雷鋒網(wǎng)注:本文編譯自 Arm Community,雷鋒網(wǎng)編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。