丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

本文作者: 包永剛   2025-11-07 11:52
導(dǎo)語:Arm移動計算平臺的性能連續(xù)6年實現(xiàn)兩位數(shù)增長。

生成式AI的浪潮,正從云端走向端側(cè),而端側(cè)AI是生成式AI普及的關(guān)鍵。

然而,端側(cè)設(shè)備普遍對功耗更為敏感,如何在提供足夠AI性能的同時保證低功耗?

Arm的妙招是將專用的矩陣加速單元直接嵌入CPU。Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven說,“它使端側(cè)AI推理可以直接在CPU上完成,從而大幅減少數(shù)據(jù)在 CPU、NPU或GPU之間的傳輸延遲?!?/strong>

今年9月,Arm發(fā)布了集成第二代Arm可伸縮矩陣擴展 (SME2) 新技術(shù)的 Arm Lumex CSS 平臺,相比前代CPU AI性能提升高達(dá)五倍,能效也優(yōu)化了三倍。

在近日舉行的Arm Unlocked 2025 AI 技術(shù)峰會深圳站,Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven進(jìn)一步解析了Arm全新的Lumex CSS 平臺,集成了基于 Armv9.3 架構(gòu)的 CPU 集群、搭載第二代可伸縮矩陣擴展 (SME2) 技術(shù)的處理器、Mali G1-Ultra GPU、先進(jìn)的系統(tǒng) IP,以及針對 3 納米工藝節(jié)點優(yōu)化的量產(chǎn)級物理實現(xiàn)方案。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

可以看到,Arm全新平臺的升級都是為了加速端側(cè)AI的爆發(fā)??梢灶A(yù)見,憑借著Arm正在推進(jìn)的“平臺優(yōu)先”戰(zhàn)略,Arm依舊會是生成式AI浪潮里,消費電子、汽車及基礎(chǔ)設(shè)施等關(guān)鍵領(lǐng)域的領(lǐng)導(dǎo)者。

Arm啟用全新命名體系Lumex,CPU用「妙招」大幅提升AI性能

Arm今年發(fā)布新一代產(chǎn)品不再延續(xù)此前的命名方式,而是啟用了Arm Lumex的新命名方式。

“Lumex源自拉丁語,意為世界之光,象征著引領(lǐng)人們前行,促進(jìn)光與人之間更深層的互動,與移動終端作為我們生活中關(guān)鍵且主要的互動設(shè)備概念相似?!盝ames McNiven告訴雷峰網(wǎng),“我們也廣泛聽取了包括來自中國市場的生態(tài)伙伴反饋,其中包括過往的命名方式確實較為復(fù)雜,產(chǎn)品迭代的辨識度不高。因此,我們希望通過此次更名,讓品牌體系更加清晰易懂?!?/p>

James強調(diào),Arm Lumex CSS 平臺再次實現(xiàn)了兩位數(shù)的每時鐘周期指令數(shù) (IPC) 性能提升,這是Arm連續(xù)第六年實現(xiàn)兩位數(shù)增長,意味著在相同功耗下可獲得顯著的性能提升。

與連續(xù)六年實現(xiàn)IPC兩位數(shù)同樣值得關(guān)注的是,在CPU中直接嵌入了專用的矩陣加速單元第二代可伸縮矩陣擴展 (SME2),在進(jìn)一步解析SME2之前,先介紹全新的CPU。

新一代計算平臺更名為Lumex之后,CPU也不再延續(xù)此前Cortex的命名方式,而是采用更簡明的C1 命名體系。C1 CPU 集群均基于 Armv9.3 架構(gòu)而設(shè)計,根據(jù)不同客戶、市場需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四個層級。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm C1-Ultra能提供最高的旗艦級設(shè)備峰值性能,可實現(xiàn)最高 25% 的單線程性能提升;Arm C1-Premium專為次旗艦市場打造,它的性能在接近C1-Ultra 的同時,整體面積縮減約 35%。

“當(dāng)任一設(shè)備采用了C1-Ultra或者是C1-Premium,該設(shè)備就可以被稱為Lumex設(shè)備?!盝ames表示。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm C1-Pro是新一代的Cortex-A700 系列,Arm C1-Nano是新一代的Cortex-A500系列。

雖然Arm C1 CPU的性能層級不同,但都深度集成了SME2,這是專為加速矩陣運算和相關(guān)負(fù)載而設(shè)計,非常適合移動設(shè)備等對功耗和響應(yīng)速度要求極高的場景。

相比SME1,SME2的性能提升達(dá)5倍,能效提升3倍,在低延遲、高實時性應(yīng)用場景中展現(xiàn)出獨特優(yōu)勢。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

為什么在CPU中增加矩陣加速是一個在端側(cè)滿足AI計算需求的“妙招”?James對雷峰網(wǎng)(公眾號:雷峰網(wǎng))說,“首先,對延遲極為敏感的場景而言,在CPU內(nèi)實現(xiàn)矩陣加速,可以顯著提升應(yīng)用的計算效率,特別是在快速 AI 推理場景中,無需再將任務(wù)回傳至NPU,避免了可能導(dǎo)致的內(nèi)存訪問延遲。其次,幾乎所有設(shè)備都會搭載CPU,且Arm CPU 被廣泛采用在絕大多數(shù)的移動設(shè)備上,這為開發(fā)者帶來了極大的便利性。他們無需針對不同的 NPU 架構(gòu)進(jìn)行適配,也無需為不同設(shè)備重新設(shè)計計算邏輯(因為某些終端甚至并不具備 NPU),更可免除考慮安全模型等其他因素?!?/p>

當(dāng)然,為CPU增加矩陣加速的能力大幅提升其AI性能,目的并非要替代GPU或者NPU在處理AI負(fù)載時的作用,而是可以根據(jù)負(fù)載的類型選擇最合適的計算單元,為用戶提供最佳的AI體驗。

語音識別就非常適合使用SME2進(jìn)行加速,這類任務(wù)對響應(yīng)速度要求極高、數(shù)據(jù)量相對較小,在 CPU 上直接執(zhí)行不僅能顯著提升流暢度。

目前,Arm已經(jīng)與包括支付寶、淘寶等移動應(yīng)用伙伴合作,基于SME2的集成,優(yōu)化用戶體驗。vivo與OPPO也推出支持SME2的設(shè)備。Arm也與騰訊GiiNEX針對SME2展開游戲方面的合作。騰訊的初步測試結(jié)果顯示,啟用SME2后性能提升達(dá)2.5倍。Google也確認(rèn)未來將在Android 系統(tǒng)版本中支持 SME2。

不過,為CPU增加矩陣加速能力并非Arm獨有的妙招,RISC-V也在采用這樣的方式滿足生成式AI的需求,那Arm的優(yōu)勢是什么?

James表示,“Arm 的最大優(yōu)勢在于,我們的CPU架構(gòu)已應(yīng)用于全球約99%的智能手機之中。對于開發(fā)人員來說非常容易統(tǒng)一目標(biāo),直接可以部署?!?/p>

GPU性能雙位數(shù)提升,神經(jīng)技術(shù)明年商用

與CPU性能持續(xù)兩位數(shù)提升一樣,Arm的GPU也已經(jīng)連續(xù)四年實現(xiàn)了雙位數(shù)的性能與能效提升。與C1 GPU命名體系對應(yīng),Arm GPU的命名為“Mali G1”。

Mali G1-Ultra是旗艦級GPU,能夠在更低功耗下完成包括照片、視頻在內(nèi)的大多數(shù)推理任務(wù)。在各類圖形基準(zhǔn)測試中,Mali G1-Ultra 較前代產(chǎn)品實現(xiàn)了20%的性能提升,并引入第二代光線追蹤單元,在跨平臺光線追蹤性能測試 Solar Bay Extreme 上,Arm最新的光線追蹤單元將實現(xiàn)兩倍性能提升。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

Arm將光線追蹤性能實現(xiàn)兩倍提升的最終目標(biāo),是能夠在游戲中實現(xiàn)更加全面、自然的光照效果——從局部光照逐步邁向全場景光照。這將為游戲團(tuán)隊帶來更大的創(chuàng)作空間,使他們能夠在同一款游戲中整合更多的光線追蹤組件,從而實現(xiàn)更高質(zhì)量、更具沉浸感的照明表現(xiàn)。

在GPU層面更值得期待的是Arm在今年8月發(fā)布的“神經(jīng)技術(shù)”,這一新技術(shù)將被用于明年面世的終端設(shè)備。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

James介紹,神經(jīng)技術(shù)是Arm未來的重要發(fā)展方向。這項技術(shù)能幫助開發(fā)者更充分地將 AI 能力應(yīng)用于圖形處理,無論是圖像放大、去噪還是新內(nèi)容生成,都將帶來更加真實與沉浸的視覺體驗。目前,已有多個開發(fā)者社區(qū)和游戲工作室在與Arm共同推進(jìn)這一方向。

當(dāng)然,Arm面向Vulkan的開放Arm ML擴展能讓開發(fā)者更輕易地將AI作為圖形管線的原生部分整合到移動端渲染。

加速端側(cè)AI爆發(fā)的關(guān)鍵——開發(fā)者友好

Arm全新的Lumex CSS 平臺在CPU與GPU層面都實現(xiàn)了兩位數(shù)性能提升,也帶來了顯著的AI性能增強。

要讓這些性能被充分釋放,開發(fā)者友好的生態(tài)至關(guān)重要,Arm對此投入巨大。

“為了讓開發(fā)者更好地發(fā)揮 SME2 的潛能,自去年起,我們在 KleidiAI 軟件庫的基礎(chǔ)上,進(jìn)一步擴大其功能范圍。KleidiAI專為加速AI應(yīng)用而設(shè)計,已與業(yè)界主流的AI框架實現(xiàn)深度集成。這意味著無論是舊架構(gòu)還是最新支持 SME2 的架構(gòu),開發(fā)者都能獲得一致的性能加速體驗?!盝ames表示。

Arm加速端側(cè)AI普及的「妙招」,把Lumex CPU的AI性能提升5倍

面向GPU,Arm推出了全球首個全面開放的神經(jīng)圖形開發(fā)套件,旨在將AI渲染集成到現(xiàn)有的工作流程中,使得開發(fā)者能夠在硬件面世前一年就能著手進(jìn)行開發(fā)。這一開發(fā)套件在今年八月的發(fā)布時就已得到六家主要游戲工作室的支持,最近又有一家新的游戲工作室完成了集成測試。

除了更好的性能和開發(fā)者友好的生態(tài),端側(cè)AI的爆發(fā)也面臨其它技術(shù)挑戰(zhàn)。James認(rèn)為,在系統(tǒng)級 IT 設(shè)計中,必須確保 CPU 與 GPU 之間,以及它們與存儲系統(tǒng)之間的高效互連。優(yōu)化數(shù)據(jù)互連以實現(xiàn)更高效的數(shù)據(jù)流,是當(dāng)前面臨的主要挑戰(zhàn)之一。Arm通過優(yōu)化互連架構(gòu),進(jìn)一步降低數(shù)據(jù)傳輸過程中的延遲,實現(xiàn)更快速的內(nèi)部內(nèi)存訪問。

另一個突出的挑戰(zhàn)在于,AI應(yīng)用幾乎每隔數(shù)月甚至是數(shù)周就會出現(xiàn)新的應(yīng)用形態(tài),涉及不同的數(shù)據(jù)類型、運算符與指令集。Arm新推出的C1 CPU提供了高度靈活的計算引擎,可以生成并執(zhí)行幾乎任意類型的運算符,處理各種類型的數(shù)據(jù)。

另外,和所有AI參與者一樣,Arm也要面對各種不同的場景。Arm的策略是通過微架構(gòu)來實現(xiàn)不同細(xì)分市場的差異化需求。比如Arm C1 CPU的四個層級的產(chǎn)品,既能為客戶提供豐富的選擇,也能讓他們更方便地為目標(biāo)市場“定制”適配方案。

在消費電子領(lǐng)域之外,Arm還有面向汽車行業(yè)的 Arm Zena CSS 計算平臺、面向基礎(chǔ)設(shè)施的Arm Neoverse CSS計算平臺,還有即將發(fā)布的面向PC市場的Arm Niva平臺。

Arm正通過從云端到邊緣再到端側(cè)的全線計算平臺,加速生成式AI的普及。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄