丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

安謀科技的第六代NPU IP,為什么是通用NPU IP?

本文作者: 包永剛   2025-11-28 17:12
導(dǎo)語:周易X3 NPU聚焦基礎(chǔ)設(shè)施、智能汽車、移動終端、智能物聯(lián)網(wǎng)四大核心領(lǐng)域,定義了8-80 FP8 TFLOPS的AI算力

近日,安謀科技(Arm China)發(fā)布了全新的中高算力NPU“周易”X3,作為安謀科技自研的第六代NPU IP,“周易”X3一個很顯著的特點是采用了專為大模型而生的最新DSP+DSA架構(gòu),即通用NPU(GPNPU)架構(gòu),旨在兼顧AI加速器對性能與通用性的需求。

安謀科技的第六代NPU IP,為什么是通用NPU IP?

從初代“周易”Z1 NPU到第五代“周易”X3 NPU,產(chǎn)品迭代大幅提升了性能、計算效率,也進行了架構(gòu)的演進?!爸芤住盢PU X3針對Transformer及當(dāng)下主流大模型進行了架構(gòu)升級,成為一款單Cluster支持8-80 FP8 TFLOPS算力且可靈活配置、單Core帶寬高達(dá)256GB/s的新一代邊端側(cè)AI NPU IP產(chǎn)品。

安謀科技的第六代NPU IP,為什么是通用NPU IP?

“周易”X3 NPU的推出,一方面體現(xiàn)AI技術(shù)日新月異,展現(xiàn)安謀科技始終站在邊緣和端側(cè)AI的最前沿不斷更新迭代。另一方面,也代表著AI加速器的競爭正處于“混亂”階段,CPU、GPU、NPU都在大幅提升其AI性能。

安謀科技Arm China NPU產(chǎn)品線負(fù)責(zé)人兼首席架構(gòu)師舒浩博士對雷峰網(wǎng)表示,“AI計算架構(gòu)現(xiàn)在處于‘混亂發(fā)展期,大家在從不同維度探索,最終一定會收斂到一個相對最優(yōu)的解決方案,這是任何技術(shù)發(fā)展都必經(jīng)的過程。當(dāng)下是一個‘百花齊放、百家爭鳴’的時代。安謀科技會站在技術(shù)演進的潮頭不斷創(chuàng)新、持續(xù)演進,當(dāng)好中國智能計算的生態(tài)領(lǐng)航者?!?/p>

為什么定義8-80 FP8 TFLOPS的NPU算力? 

在芯片定義的早期,最關(guān)鍵也是最難的問題是到底要定義一款多大算力的芯片?!懊鎸@一問題,我們首先要思考兩點:第一,我們要瞄準(zhǔn)哪些領(lǐng)域和應(yīng)用場景?第二,這些場景下產(chǎn)品對于NPU的系統(tǒng)約束是什么?”舒浩說,“針對邊端側(cè)的主流場景和產(chǎn)品形態(tài),我們進行了系統(tǒng)的分析和調(diào)研,定義了8-80 FP8 TFLOPS的產(chǎn)品算力規(guī)格。進而,針對不同領(lǐng)域和場景的需求,我們規(guī)劃了靈活可配的產(chǎn)品特性,可以靈活、快速地適配不同場景對于NPU算力的差異化需求。此外,針對當(dāng)下主流大模型對于FP8數(shù)據(jù)格式的需求,我們也及時進行了算力規(guī)格的支持?!?/p>

安謀科技的第六代NPU IP,為什么是通用NPU IP?

可以看到,“周易”X3 NPU聚焦基礎(chǔ)設(shè)施、智能汽車、移動終端、智能物聯(lián)網(wǎng)四大核心領(lǐng)域,定義了8-80 FP8 TFLOPS的AI算力,可應(yīng)用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網(wǎng)關(guān)、智能IPC等AI設(shè)備。

安謀科技的第六代NPU IP,為什么是通用NPU IP?

全新的“周易”X3 NPU,相較于前代“周易”X2,CNN模型性能提升30%~50%,多核算力線性度達(dá)到70%~80%。在同算力規(guī)格下,AIGC大模型能力提升10倍,這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬,以及超10倍的Softmax和LayerNorm性能提升共同驅(qū)動。

安謀科技產(chǎn)品戰(zhàn)略總監(jiān)張冰表示,“‘周易’X3的8-80 FP8 TFLOPS的算力在邊端側(cè)是面向中大AI算力場景,和Arm的Ethos的小算力形成了互補,Arm+Arm China的產(chǎn)品組合可以覆蓋整個邊端側(cè)的AI算力需求。

為什么是DSP+DSA的通用NPU架構(gòu)?

明確了芯片面向的場景以及所需的算力之后,下一步我們需要確定這些領(lǐng)域所需的AI算法和網(wǎng)絡(luò)。通過系統(tǒng)地分析AI算法和網(wǎng)絡(luò)的成熟度、發(fā)展?fàn)顟B(tài)以及在不同領(lǐng)域中的應(yīng)用狀態(tài),這樣我們就可以進一步確定合適的技術(shù)路線?!爸芤住盭3 NPU選擇的是DSP+DSA的架構(gòu),這使得“周易”X3可以同時滿足傳統(tǒng)CNN模型,以及最新的Transformer模型的需求,在計算效率、互連帶寬、精度適配、任務(wù)調(diào)度四大維度實現(xiàn)升級。

安謀科技的第六代NPU IP,為什么是通用NPU IP?

不過在數(shù)據(jù)類型的支持上,這款通用NPU呈現(xiàn)出一種看似“矛盾”的特性:一方面積極采用低比特量化以節(jié)省資源,另一方面又不吝資源地支持高精度的浮點數(shù)據(jù)格式。

“周易”X3 NPU新增端側(cè)大模型運行必備的W4A8/W4A16計算加速模式,新的計算加速模式對模型權(quán)重進行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側(cè)的高效遷移。

而與此同時,“周易”X3 NPU支持全面的矩陣計算數(shù)據(jù)格式:int4/int8/int16/ fp4/fp8/fp16/bf16以及混合精度計算,增強了浮點運算FLOPS,可以實現(xiàn)從定點到浮點計算的轉(zhuǎn)換和兼容,同時滿足了傳統(tǒng)模型和大模型的計算需求。

對于端邊側(cè)的NPU來說,資源有限的情況下,業(yè)界在努力探索通過量化的方式在端側(cè)實現(xiàn)更好的AI體驗,“周易”X3 NPU為什么強調(diào)浮點數(shù)據(jù)格式的支持?

舒浩解釋道:“對于傳統(tǒng)模型來說,模型的能力已經(jīng)滿足了實際需求,這個時候大家的關(guān)注點會集中在模型效率和硬件計算效率上。針對這一類型的模型,業(yè)界會花更多的精力在量化等相關(guān)技術(shù)上,同時硬件層面也只要支持整形計算就可以滿足模型的要求,進而獲取更好的計算效率。但是,在大模型時代,目前整形數(shù)據(jù)格式還不能比較好地滿足模型對精度的要求,業(yè)界的趨勢是使用低精度的浮點數(shù)據(jù)格式和混合精度計算來做一個精度和效率之間權(quán)衡。同時,大模型網(wǎng)絡(luò)仍在快速發(fā)展和不斷演進之中,這個時候如何能夠更快速地進行網(wǎng)絡(luò)適配和端側(cè)部署是更為重要的一件事。因此,”周易” X3 NPU著重強調(diào)了對浮點數(shù)據(jù)格式以及混合精度計算的支持,其中包括了Deepseek率先使用的fp8數(shù)據(jù)格式?!?/p>

他補充道,“另外,針對大模型算法,單從技術(shù)上來講,我覺得現(xiàn)在業(yè)界沒有一個足夠高效和強大的網(wǎng)絡(luò)滿足應(yīng)用的需求。無論是模型還是量化算法都還有很多的不確定性。在這個過渡期,量化數(shù)據(jù)格式并不知道最終會收斂于浮點還是定點,所以各種手段都要上,‘周易’X3就同時支持定點和浮點。

支持浮點還有一個顯著的優(yōu)勢,通過剪枝、蒸餾、量化等一系列方式進行模型等輕量化,在端側(cè)部署時,會面臨模型精度下降帶來的體驗下降,浮點計算能帶來更高精度。

從系統(tǒng)層面上來說,這涉及到從模型、輕量化到硬件多個層面的復(fù)雜問題,“周易” X3 NPU的策略是提供相對全面的全棧優(yōu)化能力,將更多的優(yōu)化空間留給客戶。

舒浩也指出,“如果客戶是傳統(tǒng)領(lǐng)域,不需要全部的浮點類型,或者有的客戶只需要浮點計算,‘周易’X3 NPU都可以靈活配置,針對不同領(lǐng)域配置出相對最優(yōu)的NPU方案?!?/p>

安謀科技的第六代NPU IP,為什么是通用NPU IP?

同時支持更低比特的量化和浮點計算正是DSP+DSA架構(gòu)的通用NPU的優(yōu)勢。舒浩博士分享,在計算架構(gòu)的演進上, “周易” X3 NPU還將繼續(xù)沿著混合架構(gòu)這個方向前進,在NPU中吸納更多CPU和GPU的思想,讓AI的應(yīng)用可以更高效地運行在NPU上,最終衍生出真正面向AI的NPU計算架構(gòu)。

“但這并不意味著NPU會替代CPU,CPU可以和NPU異構(gòu)計算,承擔(dān)更復(fù)雜的任務(wù)和功能?!笔婧茝娬{(diào)。

除了DSP+DSA的架構(gòu),“周易”X3 NPU在架構(gòu)層面還有其他創(chuàng)新,包括集成自研解壓硬件WDC,這使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。

還有,“周易”X3 NPU集成AI專屬硬件引擎AIFF(AI Fixed-Function)與專用硬化調(diào)度器,能夠?qū)崿F(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲,靈活支持端側(cè)多任務(wù)場景和任意優(yōu)先級調(diào)度場景,確保高優(yōu)先級任務(wù)的即時響應(yīng)。

借助新特性,“周易”X3 NPU讓大模型的推理更加高效,在Llama2 7B大模型實測中,“周易”X3 NPU在Prefill階段算力利用率高達(dá)72%,并在安謀科技自研的解壓硬件WDC的加持下,實現(xiàn)Decode階段有效帶寬利用率超100%,遠(yuǎn)超行業(yè)平均水平,滿足大模型解碼階段的高吞吐需求。 

為什么提供完備的軟件平臺?

“周易”X3 NPU計算效率的大幅提升和新特性的實現(xiàn),離不開軟硬件充分協(xié)同。

安謀科技Arm China產(chǎn)品總監(jiān)鮑敏祺指出:“‘周易’X3 NPU遵循‘軟硬協(xié)同、全周期服務(wù)與成就客戶’的產(chǎn)品準(zhǔn)則,提供從硬件、軟件到售后服務(wù)的全鏈路支持?!?/p>

安謀科技的第六代NPU IP,為什么是通用NPU IP?

與“周易”X3 NPU配套的軟件平臺是“周易”Compass AI,這一完備的軟件平臺提供覆蓋開發(fā)全流程的工具鏈,平臺中的NN Compiler(神經(jīng)網(wǎng)絡(luò)編譯器)集成Parser(模型解析)、Optimizer(優(yōu)化器)、GBuilder(生成器)及AIPULLM(大模型運行工具),可實現(xiàn)主流模型的高效轉(zhuǎn)化、自動化優(yōu)化與部署配置生成,并且具備五大核心能力,包括:

  • 廣泛的框架與模型支持:支持超160種算子與270種模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供開箱即用的Model Zoo。

  • 創(chuàng)新的Hugging Face模型“一鍵部署”:通過AIPULLM工具鏈,直接支持Hugging Face格式模型,實現(xiàn)“一站式”轉(zhuǎn)化與部署,極大降低開發(fā)門檻。

  • 先進的模型推理優(yōu)化:實現(xiàn)業(yè)界領(lǐng)先的大模型動態(tài)shape支持,高效處理任意長度輸入序列;同時提供包括Tensor/Channel/Token Level多樣量化方式,以及GPTQ等大模型主流量化方案,并增加對LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并實現(xiàn)云到端快速遷移。

  • 靈活的開發(fā)者賦能:提供多種開放接口,支持用戶模型與自定義算子的開發(fā)與調(diào)試;配備豐富的調(diào)試工具與Bit精度軟件仿真平臺,支持多層次白盒開發(fā)與性能調(diào)優(yōu),極大簡化算法移植與部署。

  • 全面的系統(tǒng)與異構(gòu)兼容:支持Android、Linux、RTOS、QNX等多種操作系統(tǒng),并通過TVM/ONNX實現(xiàn)SoC異構(gòu)計算,高效調(diào)度CPU、GPU、NPU等計算資源。

作為IP提供商,安謀科技為何要提供完備的軟件平臺?舒浩表示:“邊端側(cè)AI落地過程中,客戶需要投入大量的人力、物力進行模型適配、調(diào)優(yōu)和部署。如果沒有完備軟件平臺的支持,這會極大地增加客戶業(yè)務(wù)落地的難度和工作量?!芤住?X3 NPU提供了完備的軟件棧支持和豐富的工具,可以有效幫助客戶加速AI業(yè)務(wù)的端側(cè)部署工作?!芤住?X3 Compass端到端軟件平臺正是我們作為AI智能計算領(lǐng)航者一個很好的體現(xiàn)。作為一個開放的AI軟件生態(tài),‘周易’ X3 Compass軟件平臺可以幫助客戶降低工作量,提升開發(fā)效率,在此基礎(chǔ)上我們也開放了很多的軟件接口,客戶可以構(gòu)建其差異化的AI系統(tǒng)解決方案,進而構(gòu)建差異化的產(chǎn)品競爭力?!?/p>

安謀科技的第六代NPU IP,為什么是通用NPU IP?

這是否意味著對于使用“周易”X3 NPU開發(fā)芯片產(chǎn)品的芯片公司來說,甚至不用在軟件棧方面投入就可以給開發(fā)者使用?

舒浩解釋,如果是與AI強相關(guān)的軟件棧及標(biāo)準(zhǔn)模型,基本上客戶不需再投入,使用“周易” X3 Compass軟件棧就可以完成模型適配、調(diào)優(yōu)等各種工作。“我們的目標(biāo)就是避免客戶對于這些組件的重復(fù)投入與開發(fā)。同時,這種情況下我們也不建議客戶進行額外的投入:因為NPU的軟硬件耦合非常緊密,只在軟件層面投入研發(fā),在對硬件沒有足夠的了解的情況下,很難獲取系統(tǒng)性有效的提升,這種投入可能是一個‘災(zāi)難’。

“另一方面,我們的‘周易’ X3 Compass AI軟件平臺在runtime(運行時)層面提供了更多的自定義接口,包括:自定義算子接口、自定義圖優(yōu)化接口、NPU驅(qū)動接口等,使用這些接口客戶可以根據(jù)SoC架構(gòu)和軟件系統(tǒng)構(gòu)建適合于自己的NPU軟件方案?!笔婧蒲a充道。

由此可見,“周易”Compass AI軟件平臺完備的組件和工具,既可以滿足開發(fā)者白盒部署需求,支持更易用的DSL算子編程語言,開發(fā)者也可以在深度開發(fā)模式下,使用平臺中的Compiler、Debugge和DSL語言開發(fā)自定義算子,也可通過Parser、Optimizer等工具打造專屬的模型編譯器,極大提升開發(fā)效率。

一個能充分體現(xiàn)“周易”X3 NPU卓越硬件融合的例證是前面提到的AIFF模塊軟硬件設(shè)計中,硬件端充分結(jié)合軟件使用場景,通過增大總線帶寬、增加數(shù)據(jù)流水線并行及復(fù)雜算子加速等方式提升數(shù)據(jù)搬運、數(shù)據(jù)并行效率,軟件端則針對硬件特性設(shè)計專屬使用模式,如對模型進行合理切分以充分發(fā)揮多核并行優(yōu)勢。

All in AI戰(zhàn)略,安謀科技保持AI領(lǐng)導(dǎo)力 

“周易”X3 NPU是安謀科技Arm China“All in AI”產(chǎn)品戰(zhàn)略下誕生的首款重磅產(chǎn)品,也是“AI Arm CHINA”戰(zhàn)略發(fā)展方向的關(guān)鍵實踐。

在這一戰(zhàn)略之下,安謀科技會大力投入NPU IP,保持業(yè)界領(lǐng)先地位,并以開放合作的態(tài)度積極適配主流模型和OS,致力于為客戶提供涵蓋硬件、軟件、技術(shù)服務(wù)的完整解決方案。

安謀科技的第六代NPU IP,為什么是通用NPU IP?

其實從過去五代“周易”NPU就能看出其領(lǐng)先性,接下來安謀科技的團隊還會關(guān)注PD分離在端側(cè)的衍生應(yīng)用,存算一體以及3D IC等前沿半導(dǎo)體技術(shù),保持在AI方面的持續(xù)投入和領(lǐng)先地位。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說