Arm加速端側(cè)AI普及的「妙招」，把Lumex CPU的AI性能提升5倍

本文作者：包永剛

2025-11-07 11:52

導(dǎo)語：Arm移動計算平臺的性能連續(xù)6年實現(xiàn)兩位數(shù)增長。

生成式AI的浪潮，正從云端走向端側(cè)，而端側(cè)AI是生成式AI普及的關(guān)鍵。

然而，端側(cè)設(shè)備普遍對功耗更為敏感，如何在提供足夠AI性能的同時保證低功耗？

Arm的妙招是將專用的矩陣加速單元直接嵌入CPU。Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven說，“它使端側(cè)AI推理可以直接在CPU上完成，從而大幅減少數(shù)據(jù)在 CPU、NPU或GPU之間的傳輸延遲?！?/strong>

今年9月，Arm發(fā)布了集成第二代Arm可伸縮矩陣擴展 (SME2) 新技術(shù)的 Arm Lumex CSS 平臺，相比前代CPU AI性能提升高達(dá)五倍，能效也優(yōu)化了三倍。

在近日舉行的Arm Unlocked 2025 AI 技術(shù)峰會深圳站，Arm終端事業(yè)部產(chǎn)品管理副總裁 James McNiven進(jìn)一步解析了Arm全新的Lumex CSS 平臺，集成了基于 Armv9.3 架構(gòu)的 CPU 集群、搭載第二代可伸縮矩陣擴展 (SME2) 技術(shù)的處理器、Mali G1-Ultra GPU、先進(jìn)的系統(tǒng) IP，以及針對 3 納米工藝節(jié)點優(yōu)化的量產(chǎn)級物理實現(xiàn)方案。

可以看到，Arm全新平臺的升級都是為了加速端側(cè)AI的爆發(fā)?？梢灶A(yù)見，憑借著Arm正在推進(jìn)的“平臺優(yōu)先”戰(zhàn)略，Arm依舊會是生成式AI浪潮里，消費電子、汽車及基礎(chǔ)設(shè)施等關(guān)鍵領(lǐng)域的領(lǐng)導(dǎo)者。

Arm啟用全新命名體系Lumex，CPU用「妙招」大幅提升AI性能

Arm今年發(fā)布新一代產(chǎn)品不再延續(xù)此前的命名方式，而是啟用了Arm Lumex的新命名方式。

“Lumex源自拉丁語，意為世界之光，象征著引領(lǐng)人們前行，促進(jìn)光與人之間更深層的互動，與移動終端作為我們生活中關(guān)鍵且主要的互動設(shè)備概念相似?！盝ames McNiven告訴雷峰網(wǎng)，“我們也廣泛聽取了包括來自中國市場的生態(tài)伙伴反饋，其中包括過往的命名方式確實較為復(fù)雜，產(chǎn)品迭代的辨識度不高。因此，我們希望通過此次更名，讓品牌體系更加清晰易懂?！?/p>

James強調(diào)，Arm Lumex CSS 平臺再次實現(xiàn)了兩位數(shù)的每時鐘周期指令數(shù) (IPC) 性能提升，這是Arm連續(xù)第六年實現(xiàn)兩位數(shù)增長，意味著在相同功耗下可獲得顯著的性能提升。

與連續(xù)六年實現(xiàn)IPC兩位數(shù)同樣值得關(guān)注的是，在CPU中直接嵌入了專用的矩陣加速單元第二代可伸縮矩陣擴展 (SME2)，在進(jìn)一步解析SME2之前，先介紹全新的CPU。

新一代計算平臺更名為Lumex之后，CPU也不再延續(xù)此前Cortex的命名方式，而是采用更簡明的C1 命名體系。C1 CPU 集群均基于 Armv9.3 架構(gòu)而設(shè)計，根據(jù)不同客戶、市場需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四個層級。

Arm C1-Ultra能提供最高的旗艦級設(shè)備峰值性能，可實現(xiàn)最高 25% 的單線程性能提升；Arm C1-Premium專為次旗艦市場打造，它的性能在接近C1-Ultra 的同時，整體面積縮減約 35%。

“當(dāng)任一設(shè)備采用了C1-Ultra或者是C1-Premium，該設(shè)備就可以被稱為Lumex設(shè)備?！盝ames表示。

Arm C1-Pro是新一代的Cortex-A700 系列，Arm C1-Nano是新一代的Cortex-A500系列。

雖然Arm C1 CPU的性能層級不同，但都深度集成了SME2，這是專為加速矩陣運算和相關(guān)負(fù)載而設(shè)計，非常適合移動設(shè)備等對功耗和響應(yīng)速度要求極高的場景。

相比SME1，SME2的性能提升達(dá)5倍，能效提升3倍，在低延遲、高實時性應(yīng)用場景中展現(xiàn)出獨特優(yōu)勢。

那為什么在CPU中增加矩陣加速是一個在端側(cè)滿足AI計算需求的“妙招”？James對雷峰網(wǎng)(公眾號：雷峰網(wǎng))說，“首先，對延遲極為敏感的場景而言，在CPU內(nèi)實現(xiàn)矩陣加速，可以顯著提升應(yīng)用的計算效率，特別是在快速 AI 推理場景中，無需再將任務(wù)回傳至NPU，避免了可能導(dǎo)致的內(nèi)存訪問延遲。其次，幾乎所有設(shè)備都會搭載CPU，且Arm CPU 被廣泛采用在絕大多數(shù)的移動設(shè)備上，這為開發(fā)者帶來了極大的便利性。他們無需針對不同的 NPU 架構(gòu)進(jìn)行適配，也無需為不同設(shè)備重新設(shè)計計算邏輯（因為某些終端甚至并不具備 NPU），更可免除考慮安全模型等其他因素?！?/p>

當(dāng)然，為CPU增加矩陣加速的能力大幅提升其AI性能，目的并非要替代GPU或者NPU在處理AI負(fù)載時的作用，而是可以根據(jù)負(fù)載的類型選擇最合適的計算單元，為用戶提供最佳的AI體驗。

語音識別就非常適合使用SME2進(jìn)行加速，這類任務(wù)對響應(yīng)速度要求極高、數(shù)據(jù)量相對較小，在 CPU 上直接執(zhí)行不僅能顯著提升流暢度。

目前，Arm已經(jīng)與包括支付寶、淘寶等移動應(yīng)用伙伴合作，基于SME2的集成，優(yōu)化用戶體驗。vivo與OPPO也推出支持SME2的設(shè)備。Arm也與騰訊GiiNEX針對SME2展開游戲方面的合作。騰訊的初步測試結(jié)果顯示，啟用SME2后性能提升達(dá)2.5倍。Google也確認(rèn)未來將在Android 系統(tǒng)版本中支持 SME2。

不過，為CPU增加矩陣加速能力并非Arm獨有的妙招，RISC-V也在采用這樣的方式滿足生成式AI的需求，那Arm的優(yōu)勢是什么？

James表示，“Arm 的最大優(yōu)勢在于，我們的CPU架構(gòu)已應(yīng)用于全球約99%的智能手機之中。對于開發(fā)人員來說非常容易統(tǒng)一目標(biāo)，直接可以部署?！?/p>

GPU性能雙位數(shù)提升，神經(jīng)技術(shù)明年商用

與CPU性能持續(xù)兩位數(shù)提升一樣，Arm的GPU也已經(jīng)連續(xù)四年實現(xiàn)了雙位數(shù)的性能與能效提升。與C1 GPU命名體系對應(yīng)，Arm GPU的命名為“Mali G1”。

Mali G1-Ultra是旗艦級GPU，能夠在更低功耗下完成包括照片、視頻在內(nèi)的大多數(shù)推理任務(wù)。在各類圖形基準(zhǔn)測試中，Mali G1-Ultra 較前代產(chǎn)品實現(xiàn)了20%的性能提升，并引入第二代光線追蹤單元，在跨平臺光線追蹤性能測試 Solar Bay Extreme 上，Arm最新的光線追蹤單元將實現(xiàn)兩倍性能提升。

Arm將光線追蹤性能實現(xiàn)兩倍提升的最終目標(biāo)，是能夠在游戲中實現(xiàn)更加全面、自然的光照效果——從局部光照逐步邁向全場景光照。這將為游戲團(tuán)隊帶來更大的創(chuàng)作空間，使他們能夠在同一款游戲中整合更多的光線追蹤組件，從而實現(xiàn)更高質(zhì)量、更具沉浸感的照明表現(xiàn)。

在GPU層面更值得期待的是Arm在今年8月發(fā)布的“神經(jīng)技術(shù)”，這一新技術(shù)將被用于明年面世的終端設(shè)備。

James介紹，神經(jīng)技術(shù)是Arm未來的重要發(fā)展方向。這項技術(shù)能幫助開發(fā)者更充分地將 AI 能力應(yīng)用于圖形處理，無論是圖像放大、去噪還是新內(nèi)容生成，都將帶來更加真實與沉浸的視覺體驗。目前，已有多個開發(fā)者社區(qū)和游戲工作室在與Arm共同推進(jìn)這一方向。

當(dāng)然，Arm面向Vulkan的開放Arm ML擴展能讓開發(fā)者更輕易地將AI作為圖形管線的原生部分整合到移動端渲染。

加速端側(cè)AI爆發(fā)的關(guān)鍵——開發(fā)者友好

Arm全新的Lumex CSS 平臺在CPU與GPU層面都實現(xiàn)了兩位數(shù)性能提升，也帶來了顯著的AI性能增強。

要讓這些性能被充分釋放，開發(fā)者友好的生態(tài)至關(guān)重要，Arm對此投入巨大。

“為了讓開發(fā)者更好地發(fā)揮 SME2 的潛能，自去年起，我們在 KleidiAI 軟件庫的基礎(chǔ)上，進(jìn)一步擴大其功能范圍。KleidiAI專為加速AI應(yīng)用而設(shè)計，已與業(yè)界主流的AI框架實現(xiàn)深度集成。這意味著無論是舊架構(gòu)還是最新支持 SME2 的架構(gòu)，開發(fā)者都能獲得一致的性能加速體驗?！盝ames表示。

面向GPU，Arm推出了全球首個全面開放的神經(jīng)圖形開發(fā)套件，旨在將AI渲染集成到現(xiàn)有的工作流程中，使得開發(fā)者能夠在硬件面世前一年就能著手進(jìn)行開發(fā)。這一開發(fā)套件在今年八月的發(fā)布時就已得到六家主要游戲工作室的支持，最近又有一家新的游戲工作室完成了集成測試。

除了更好的性能和開發(fā)者友好的生態(tài)，端側(cè)AI的爆發(fā)也面臨其它技術(shù)挑戰(zhàn)。James認(rèn)為，在系統(tǒng)級 IT 設(shè)計中，必須確保 CPU 與 GPU 之間，以及它們與存儲系統(tǒng)之間的高效互連。優(yōu)化數(shù)據(jù)互連以實現(xiàn)更高效的數(shù)據(jù)流，是當(dāng)前面臨的主要挑戰(zhàn)之一。Arm通過優(yōu)化互連架構(gòu)，進(jìn)一步降低數(shù)據(jù)傳輸過程中的延遲，實現(xiàn)更快速的內(nèi)部內(nèi)存訪問。

另一個突出的挑戰(zhàn)在于，AI應(yīng)用幾乎每隔數(shù)月甚至是數(shù)周就會出現(xiàn)新的應(yīng)用形態(tài)，涉及不同的數(shù)據(jù)類型、運算符與指令集。Arm新推出的C1 CPU提供了高度靈活的計算引擎，可以生成并執(zhí)行幾乎任意類型的運算符，處理各種類型的數(shù)據(jù)。

另外，和所有AI參與者一樣，Arm也要面對各種不同的場景。Arm的策略是通過微架構(gòu)來實現(xiàn)不同細(xì)分市場的差異化需求。比如Arm C1 CPU的四個層級的產(chǎn)品，既能為客戶提供豐富的選擇，也能讓他們更方便地為目標(biāo)市場“定制”適配方案。

在消費電子領(lǐng)域之外，Arm還有面向汽車行業(yè)的 Arm Zena CSS 計算平臺、面向基礎(chǔ)設(shè)施的Arm Neoverse CSS計算平臺，還有即將發(fā)布的面向PC市場的Arm Niva平臺。

Arm正通過從云端到邊緣再到端側(cè)的全線計算平臺，加速生成式AI的普及。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

Arm Unlocked 2025 Arm Lumex CSS 平臺端側(cè)AI

獲頭部手機廠青睞，艾聆科技端側(cè)AI駛?cè)雰|級航道丨鯨 ...

OPPO 亮相 2025 世界人工智能大會：行業(yè)首發(fā)AI健康檔 ...

廣和通發(fā)布Fibocom AI Stack，助力客戶快速實現(xiàn)跨平 ...

從云到端：離客戶更近的端側(cè)AI「涌現(xiàn)」而至

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

創(chuàng)紀(jì)錄的288核至強服務(wù)器CPU，為什么離不開Intel 18A？

Arm加速端側(cè)AI普及的「妙招」，把Lumex CPU的AI性能提升5倍

最新文章

存儲成本暴漲數(shù)萬元，AI服務(wù)器客戶不怕漲價怕沒貨

嘉立創(chuàng)挑戰(zhàn)64層PCB：AI熱潮下，PCB的“隱形戰(zhàn)場”

10倍帶寬突破、市值暴漲200億美元，高通能否「分食」千億級AI推理市場？

新窗口指導(dǎo)大范圍取消補貼；智算中心建設(shè)先算虧多少；已過會GPU公司成立新業(yè)務(wù)組；頭部大廠收縮服務(wù)器供應(yīng)商丨算力情報局

并行科技COO喬楠：英偉達(dá)并非斷崖式領(lǐng)先，國產(chǎn)芯片突圍需摒棄對「峰值性能」的過度追求丨智算想象力十人談

高性能+高能效，英特爾Panther Lake「均衡設(shè)計」的絕招

熱門搜索

區(qū)塊鏈財報 Windows 10 Google Glass LeiPhone Oculus ?？低?/a> surface 通用蘋果公司語音助手