丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給肖漫
發(fā)送

0

解讀 | Arm 機器學習處理器的獨特之處

本文作者: 肖漫 2019-05-28 18:40
導語:機器學習的最新進展意味著現(xiàn)在比以往任何時候可以在設備上完成更多的處理和預處理。

解讀 | Arm 機器學習處理器的獨特之處

【 圖片來源:Arm Community  所有者:Arm Community 】

雷鋒網(wǎng)按:Arm 社區(qū)近期發(fā)表文章,深入地介紹了一個機器學習處理器(Machine Learning Processor),據(jù)了解,這個處理器能夠在邊緣設備上加速計算過程;這是 Arm 第一次專門推出類似于 NPU 的 AI 專用處理器。雷鋒網(wǎng)將全文編譯如下。

想一下,你有多少個互聯(lián)設備?

無論你是一個電子產(chǎn)品成癮者,還是只是一個普通電子產(chǎn)品擁有者,你現(xiàn)在擁有的電子產(chǎn)品很有可能會比五年前的多。從智能手機、平板電腦到個人健康追蹤器、智能哮喘吸入器和智能門鈴,我們年復一年都忙著加強互聯(lián)互通,這讓個人數(shù)據(jù)呈現(xiàn)爆炸式增長。根據(jù)最近的一份報告,在近十年里,全球人均聯(lián)網(wǎng)設備的數(shù)量不足 2 臺,到 2020 年,這個數(shù)據(jù)將躍升至 6.58 ——大量的設備制造了大量的數(shù)據(jù)。

一直以來,這些數(shù)據(jù)會發(fā)送到云端進行處理;但隨著數(shù)據(jù)和設備的數(shù)量呈指數(shù)型增長,要想不斷地來回移動數(shù)據(jù)都不太實際,更不用說安全和成本效益。幸運的是,機器學習(Machine Learning,以下簡稱 ML)的最新進展意味著現(xiàn)在比以往任何時候可以在設備上完成更多的處理和預處理。這帶來了一些好處,數(shù)據(jù)泄露的風險降低從而提高了安全性,節(jié)約了成本和電力。將數(shù)據(jù)在云端和設備之間來回傳輸?shù)幕A設施并不便宜,因此在設備上可以完成的處理越多越好。

性能曲線上的功率和效率

設備上的機器學習是從 CPU 開始的, CPU 充當一個熟練的“流量控制器”,要么單獨管理整個機器學習工作量,要么將選定的任務分配給特定的機器學習處理器。

Arm CPU 和 GPU 已經(jīng)跨過性能曲線,為成千上萬的 ML 用例提供動力,尤其是在移動端,邊緣機器學習已經(jīng)驅(qū)動了消費者所期望的標準特性。

隨著這些處理器變得越來越強大,越來越高效,它們能夠驅(qū)動更高的性能,從而為邊緣的安全 ML 提供更多的設備上計算能力。(例如,可以在不影響電池壽命的情況下,管理計算密集型任務的第三代 DynamIQ 大核心 Arm Cortex-A77 CPU,以及為 ML 提供了 60% 的性能改進的 Arm Mali-G77 GPU。)

但是,盡管 CPU 和 GPU 本身就是 ML 的動力源,但是在最密集、最高效的性能需求下,它們自身可能很難滿足這個需求。在這些任務中,專用神經(jīng)處理單元( NPU )的強大功能 (如 Arm ML 處理器)將派上用場,為邊緣的 ML 推理提供最高的吞吐量和最高效的處理。

在性能和功耗之間做平衡

是什么讓 ML 處理器變得如此特別?

它的特別之處在于,它以全新的體系結構為基礎,以連接設備為目標,例如智能手機,智能相機,增強現(xiàn)實與虛擬現(xiàn)實設備(AR/VR)、無人機,還有醫(yī)療電子和消費電子產(chǎn)品。它的運算性能多達 4 TOP/s,從而能夠啟動以前由于電池壽命或熱量限制而無法實現(xiàn)的新用例——這讓開發(fā)人員能夠創(chuàng)建出新的用戶體驗,比如說 3D 人臉解鎖,或是具有深度控制或人像照明功能的高級人像模式等。

當然,性能優(yōu)越是件好事。但是,如果它需要你每隔幾個小時就得給你的設備充電,或者到哪都要帶著你的充電寶,這就沒那么好了。為了將用戶從充電電纜的“暴政”中解放出來,這個 ML 處理器擁有業(yè)界領先 5TOPs/W 的電源效率,這是通過最先進的優(yōu)化(例如重量壓縮、活化壓縮,Winograd )來實現(xiàn)的。

Winograd 使關鍵卷積濾波器的性能比其他 NPU 高出 225% ,占用的空間更小,還能在減少任何給定設計所需組件數(shù)量的同時提高效率。這進而降低了成本和電力需求,同時又不影響用戶體驗。

該體系結構由固定函數(shù)引擎和可編程層引擎組成,前者用于高效執(zhí)行卷積層,后者用于執(zhí)行非卷積層和實現(xiàn)選定的原語和運算符。這些本地支持的功能與常見的神經(jīng)框架緊密結合,減少了網(wǎng)絡部署成本,從而加快了上市時間。

解讀 | Arm 機器學習處理器的獨特之處

【 圖片來源:Arm Community  所有者:Arm Community 】

我們再來看一下這款處理器的參數(shù):

  • 效能:CPUs, GPUs, DSPs 提供巨大提升力,多達 5 TOPs/W 的加速器;

  • 網(wǎng)絡支持:處理各種流行的神經(jīng)網(wǎng)絡,包括卷積層(CNNs)和遞歸(RNNs),用于分類、物體探測、圖像增強、語音識別以及自然語言理解;

  • 安全性:使用 Arm TrustZone 體系結構的基礎,以最小攻擊面執(zhí)行;

  • 可擴展性:通過多核擴展,單個集群中最多有 8 個 NPUs 和 32 個 TOPs,網(wǎng)格配置中最多有 64 個NPUs;

  • 神經(jīng)框架支持:與現(xiàn)有框架緊密集成:TensorFlow , TensorFlow Lite , Caffe , Caffe 2 以及其他通過 ONNX 實現(xiàn)的框架;

  • Winograd 卷積:與其他 NPUs 相比,普通過濾器的速度提高了 225%,能夠在更小的區(qū)域內(nèi)獲得更高的性能;

  • 內(nèi)存壓縮:通過各種壓縮技術,將系統(tǒng)內(nèi)存帶寬最小化;

  • 異構 ML 計算:優(yōu)化使用 Arm Cortex-A CPUs 和 Arm Mali GPUs;

  • 開源軟件功能:通過 Arm NN 的支持去減少成本和避免鎖定;

面向開發(fā)人員和未來

為了讓開發(fā)人員輕松一些,這個 ML 處理器有一個集成的網(wǎng)絡控制單元和 DMA(Direct Memory Access,直接內(nèi)存存?。?,這個 DMA 能夠管理整個網(wǎng)絡的執(zhí)行和遍歷,還能在后臺將數(shù)據(jù)移入和移出主內(nèi)存。

同時,板載存儲器允許中央存儲權重和特征圖,減少了外部儲存器的通信,延長了電池的壽命,這是對消費者所期望的標準用戶體驗的又一次認可。

至關重要的是,這個 ML 處理器足夠靈活,可以支持具有更高需求的用例,運行更多且更大的并發(fā)特性:在單個集群中可配置 8 個內(nèi)核,達到 32 TOP/s 的性能;或是在網(wǎng)格配置中達到 64 NPUs。

最終,這個 ML 處理器增強了性能,提高了效率,減少了網(wǎng)絡部署成本,并且,通過固定功能和可編程引擎的緊密耦合,讓固件隨著新功能的開發(fā)而更新,從而使得這個設計不會過時。

總而言之,通過能力、效率、靈活性三者的結合,這個 ML 處理器在邊緣定義了 ML 推理的未來,讓開發(fā)者在創(chuàng)建今天最佳用戶體驗的同時,滿足未來的用例需求。

雷鋒網(wǎng)注:本文編譯自 Arm Community,雷鋒網(wǎng)編譯。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章

資深編輯

關注智能硬件、IoT、機器人 | 微信:Elena_Xiao1025
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說