0
本文作者: 包永剛 | 2024-11-22 16:27 |
所有人的目光聚焦在生成式AI時(shí),Arm同樣如此,還提出了非常具體的目標(biāo)。
一年一度的 Arm Tech Symposia 年度技術(shù)大會(huì)深圳站,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven表示,“預(yù)計(jì)到2025年底,全球?qū)⒂谐^(guò)1000億臺(tái)Arm設(shè)備具備 AI 能力。”
對(duì)于Arm架構(gòu)芯片出貨量已經(jīng)超過(guò)3000億顆的Arm來(lái)說(shuō),這是一個(gè)可以輕松達(dá)成的目標(biāo)嗎?
“我不會(huì)說(shuō)這是一個(gè)非常輕松就能達(dá)成的目標(biāo)?!?/strong>James McNiven對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))表示,“我們與生態(tài)合作伙伴一起能夠達(dá)成這個(gè)目標(biāo)。”
為了達(dá)成這個(gè)目標(biāo),Arm有一些列動(dòng)作,包括為生成式AI計(jì)算進(jìn)行的持續(xù)的架構(gòu)演進(jìn),提供易于使用的軟件工具,以及特定面向行業(yè)的整體解決方案,還有更廣泛的合作。
為生成式AI演進(jìn)的架構(gòu)
Arm一直在根據(jù)市場(chǎng)需求持續(xù)演進(jìn)其架構(gòu)保持其領(lǐng)導(dǎo)地位。
比如2011年Armv7-A中引入了Neon,Neon是高級(jí)單指令多數(shù)據(jù)(SIMD)指令的一種實(shí)現(xiàn)方案。
2016年Armv8-A 中引入了 SVE,2021 年 Armv9-A 中引入了 SVE2,它們提供可變長(zhǎng)度寄存器。
2021年Armv9-A中引入了SME和SME2。SME引入了兩個(gè)關(guān)鍵的新架構(gòu)特性:Streaming SVE模式和ZA存儲(chǔ),新特性使SME 和 SME2 能夠高效地處理矩陣和基于向量的工作負(fù)載。
SVE2和SEM的架構(gòu)擴(kuò)展也是Arm未來(lái)十年架構(gòu)演進(jìn)的重要方向。
Armv9 CPU中的SVE2對(duì)于加速視頻解碼和圖像處理有顯著作用。
聯(lián)發(fā)科最新的旗艦芯片天璣9400,就是借助SVE2讓聯(lián)發(fā)科的芯片協(xié)助開(kāi)發(fā)者和終端提升視頻和圖像處理,提供更好的照片質(zhì)量,并為用戶(hù)在觀看流媒體視頻和瀏覽社交媒體應(yīng)用程序時(shí)提供了更好的續(xù)航能力。
SME建立在SVE2的基礎(chǔ)之上,新增了高效處理矩陣的能力,是一個(gè)增強(qiáng)矩陣操作的架構(gòu)擴(kuò)展。
Arm SME能夠顯著提升Arm CPU上處理現(xiàn)有AI和ML應(yīng)用的能力,加速很多利用矩陣運(yùn)算的應(yīng)用,例如 AR、VR 和圖像處理。
這也意味著,從2015年使用Armv8(NEON)架構(gòu)的Cortex-A73 CPU開(kāi)始,Arm在AI領(lǐng)域的投入就已經(jīng)轉(zhuǎn)化為產(chǎn)品。Arm將實(shí)現(xiàn)的1000億臺(tái)設(shè)備具備AI能力的目標(biāo),也覆蓋從Armv8(NEON)到Armv9(SVE2/SME)的所有產(chǎn)品。
可擴(kuò)展的計(jì)算平臺(tái)只是Arm滿(mǎn)足生成式AI時(shí)代需求的技術(shù)底層。對(duì)于芯片設(shè)計(jì)公司來(lái)說(shuō),關(guān)注可擴(kuò)展能力的同時(shí),也關(guān)注性能和產(chǎn)品上市時(shí)間。
面向不同行業(yè)推出計(jì)算子系統(tǒng),加速產(chǎn)品上市
芯片行業(yè)不變的追求就是以更小芯片面積和更低功耗實(shí)現(xiàn)更高性能,性能總是會(huì)成為首先被關(guān)注的焦點(diǎn)。
基于Armv9.2架構(gòu)的Arm Cortex-X925在Geekbench 6.2基準(zhǔn)測(cè)試中創(chuàng)下新高,實(shí)現(xiàn)了15% 的每時(shí)鐘周期指令數(shù) (IPC) 提升。
Arm Cortex-X925顯著的性能提升得益于L2緩存從2MB增加到3MB,增強(qiáng)了整體性能和能效。再結(jié)合Cortex-X925 在更快速、更高效預(yù)取數(shù)據(jù)和復(fù)雜指令的能力后,效果更佳明顯。
除此之外,Cortex-X925也充分利用3納米工藝的優(yōu)勢(shì),在需要時(shí)以更高的頻率運(yùn)行 CPU,從而提高響應(yīng)速度、應(yīng)用啟動(dòng)速度和瀏覽器性能并且保持能效優(yōu)勢(shì)。
Cortex-X925中矢量管線50%的Integer8 TOPS 提升,可加快智能手機(jī)上的AI應(yīng)用響應(yīng)速度。
即便Arm的設(shè)計(jì)足夠優(yōu)秀,想要加速產(chǎn)品上市進(jìn)程,還需要整體解決方案。為此,Arm推出了Arm 終端計(jì)算子系統(tǒng) (CSS),CSS具備最新的 Armv9 CPU、Arm Immortalis GPU、基于3納米工藝生產(chǎn)就緒的CPU和GPU物理實(shí)現(xiàn),以及最新的 CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元 (SMMU)。
Arm終端CSS提升了30% 以上的計(jì)算和圖形性能,AI推理速度也提高了59%,以應(yīng)對(duì)各種嚴(yán)苛的工作負(fù)載,適用于廣泛的AI應(yīng)用。
“Arm終端CSS的關(guān)鍵在于Arm目前性能最強(qiáng)、效率最高、功能最廣泛的CPU集群,帶來(lái)最佳的性能和能效?!盝ames表示。
不止是CSS,面向更高性能的云端Neoverse CPU,Arm也已經(jīng)推出了Arm Neoverse CSS。雷峰網(wǎng)了解到,Arm接下來(lái)還將推出面向汽車(chē)市場(chǎng)的Arm CSS for Auto。
加速實(shí)現(xiàn)AI目標(biāo),Arm Kleidi 軟件庫(kù)是關(guān)鍵
Arm的計(jì)算子系統(tǒng)性能要被充分發(fā)揮,軟件非常關(guān)鍵。
“開(kāi)發(fā)者需要統(tǒng)一的開(kāi)發(fā)平臺(tái),換言之,我們要讓開(kāi)發(fā)者不需要關(guān)心底層硬件,讓他們完成一次代碼編寫(xiě)后就可以部署到不同的解決方案中。”James 同時(shí)表示,“基于Arm平臺(tái)超過(guò)2000萬(wàn)的開(kāi)發(fā)者對(duì)于軟件平臺(tái)也有易于使用的要求。”
面向生成式AI的時(shí)代,Arm推出面向熱門(mén)AI框架的Arm Kleidi軟件庫(kù)。
KleidiAI的命名來(lái)自于希臘語(yǔ)“kleidi”,意為“鑰匙”,象征其在提升Arm CPU上AI性能方面發(fā)揮著關(guān)鍵作用。
Kleidi 軟件庫(kù)包含面向AI工作負(fù)載的KleidiAI,和面向計(jì)算機(jī)視覺(jué)工作負(fù)載的 KleidiCV。
KleidiAI的明顯優(yōu)勢(shì)在于,Arm直接與領(lǐng)先的AI框架合作,Kleidi軟件庫(kù)直接嵌入在包括 MediaPipe、LLAMA.cpp、PyTorch和 TensorFlow Lite的 AI 框架中,開(kāi)發(fā)者無(wú)需進(jìn)行任何操作,不會(huì)增加額外工作量。
Arm近日也宣布成功將Arm KleidiAI軟件庫(kù)集成到騰訊混元自研的Angel機(jī)器學(xué)習(xí)框架,能夠持續(xù)為跨操作系統(tǒng)的不同基于 Arm 的設(shè)備帶來(lái)顯著的性能提升。
與不包含優(yōu)化的實(shí)現(xiàn)方案相比,在Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3和微軟 Phi-3 大語(yǔ)言模型 (LLM) 的詞元 (Token) 首次響應(yīng)時(shí)間加快了190%。
Arm的工程團(tuán)隊(duì)只用不到24小時(shí)就測(cè)出了Llama 3的優(yōu)化性能,充分體現(xiàn)了KleidiAI易于集成的特性。
軟件庫(kù)中的KleidiCV,能夠加速許多攝像頭用例中的計(jì)算機(jī)視覺(jué)管線?;贙leidiCV集成,全球最的的計(jì)算機(jī)視覺(jué)庫(kù)OpenCV發(fā)現(xiàn)各種圖像處理任務(wù)的典型性能提升高達(dá)75%。
值得注意的是,Arm Kleidi 軟件庫(kù)適用于從終端到云端的各種應(yīng)用場(chǎng)景。
更廣泛的生態(tài)合作
“AI比歷史上其他計(jì)算技術(shù)都更耗電和內(nèi)存?!?/strong>James表示,“先進(jìn)封裝作為解決AI計(jì)算挑戰(zhàn)的新方法,我們要驅(qū)動(dòng)基于Arm的小芯片生態(tài)的繁榮。”
這就離不開(kāi)Arm全面設(shè)計(jì) (Arm Total Design)生態(tài)的壯大,這個(gè)生態(tài)中除了Arm的軟件和固件,還有先進(jìn)的代工廠、芯片設(shè)計(jì)公司、EDA、內(nèi)存、第三方IP等公司。
對(duì)于Arm,只有不斷拓展自己的邊界,成為平臺(tái)公司,更有利于加速實(shí)現(xiàn)明年底1000億臺(tái)Arm設(shè)備具備運(yùn)行AI能力目標(biāo)的實(shí)現(xiàn),這也將幫助Arm在生成式AI時(shí)代保持領(lǐng)先優(yōu)勢(shì)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。