0
本文作者: 包永剛 | 2024-03-08 17:34 |
在感受了ChatGPT和文生視頻模型Sora接連帶來震撼之后,所有人都會好奇,生成式AI與普通人的生活有什么關(guān)系?
手機廠商已經(jīng)展示了生成式AI帶來的全新體驗,比如小米14系列的圖像擴充,OPPO Find X7 Ultra的一鍵AI路人消除,榮耀Magic6的智慧成片和智慧創(chuàng)建日程。
如果說云端的生成式AI展示了AI的強大,那端側(cè)AI的普及就是激發(fā)生成式AI創(chuàng)新的動力。
想要在端側(cè)普及生成式AI,需要先解決算力、內(nèi)存和生態(tài)三大難題。
異構(gòu)計算和NPU解決算力瓶頸
生成式AI模型參數(shù)量大,算力是一個核心限制因素。
但大算力往往意味著高能耗,對于使用電池供電的AI手機和AI PC,想要兼顧高性能和低功耗,異構(gòu)架構(gòu)的價值十分明顯。
異構(gòu)架構(gòu),就是一個處理器當(dāng)中包含多種不同類型的處理單元。
手機SoC就是典型的異構(gòu)架構(gòu),包含擅長順序控制,適用于需要低時延的應(yīng)用場景的CPU;擅長高精度格式圖像和視頻并行處理的GPU;還有擅長標(biāo)量、向量和張量數(shù)學(xué)運算,可用于核心AI工作負(fù)載的NPU。
異構(gòu)計算的優(yōu)勢在于,可以根據(jù)應(yīng)用的類型調(diào)用合適的處理器以達(dá)到最佳的能耗比,比如用GPU來完成重負(fù)荷游戲,用CPU執(zhí)行多網(wǎng)頁瀏覽,用NPU提升AI體驗。
對于生成式AI,異構(gòu)計算的優(yōu)勢更加明顯,因為生成式AI有多種用例,比如只需要短暫運行的按需型用例;需要長時間運行的持續(xù)型用例,如AI視頻處理;以及始終開啟的泛在型用例,如PC需要持續(xù)監(jiān)測用戶的設(shè)備使用情況,不同的用例對處理器的需求不同。
以在高通驍龍平臺上實現(xiàn)虛擬AI助手與用戶語音互動交流來解釋異構(gòu)計算的重要性。
用于給虛擬AI助手下達(dá)指令,需要通過自動語音識別(ASR)模型轉(zhuǎn)化為文本,這一步主要在高通傳感器中樞運行。
然后需要通過Llama 2或百川大語言模型生成文本回復(fù),這一模型在Hexagon NPU上運行
接下來要通過開源TTS(Text to Speech)模型將文本轉(zhuǎn)為語音,這一過程需要CPU。
輸出語音的同時,需要使用融合變形動畫(Blendshape)技術(shù)讓語音與虛擬化身的嘴型匹配,實現(xiàn)音話同步。此后,通過虛幻引擎MetaHuman進(jìn)行虛擬化身渲染,渲染工作在Adreno GPU上完成。
最終通過協(xié)同使用高通AI引擎上所有的多樣化處理模塊,實現(xiàn)出色的交互體驗。
高通自2015年推出第一代AI引擎,就采用的異構(gòu)計算的架構(gòu),包含Kryo CPU、Adreno GPU、Hexagon DSP,這是高通保持在端側(cè)AI領(lǐng)域領(lǐng)先的關(guān)鍵。
異構(gòu)計算對于生成式AI的普及非常重要,其中的NPU又是關(guān)鍵。
比如在持續(xù)型用例中,需要以低功耗實現(xiàn)持續(xù)穩(wěn)定的高峰值性能,NPU可以發(fā)揮其最大優(yōu)勢。在基于LLM和大視覺模型(LVM)的不同用例,例如Stable Diffusion或其他擴散模型中,NPU的每瓦特性能表現(xiàn)十分出色。
“高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。通過定制設(shè)計NPU并控制指令集架構(gòu)(ISA),高通能夠快速進(jìn)行設(shè)計演進(jìn)和擴展,以解決瓶頸問題并優(yōu)化性能?!备咄夹g(shù)公司產(chǎn)品管理高級副總裁 Ziad Asghar表示。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,高通對NPU的研究也是跟隨需求的變化而演進(jìn),以Hexagon DSP為基礎(chǔ),進(jìn)化為Hexagon NPU。
“從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于AI處理的標(biāo)量、向量和張量運算。高通優(yōu)化標(biāo)量、向量和張量加速的的設(shè)計方案結(jié)合本地共享大內(nèi)存、專用供電系統(tǒng)和其他硬件加速,讓我們的方案獨樹一幟?!盳iad Asgha說。
Hexagon NPU從2015年時面向音頻和語音處理的的簡單CNN,到2016-2022年之間面向AI影像和視頻處理,以實現(xiàn)增強的影像能力的Transformer、LSTM、RNN、CNN。
2023年,高通在Hexagon NPU中增加了Transformer支持。能夠在終端側(cè)運行高達(dá)100億參數(shù)的模型,無論是首個token的生成速度還是每秒生成token的速率都處在業(yè)界領(lǐng)先水平。
測試數(shù)據(jù)顯示,第三代驍龍8和三款A(yù)ndroid以及iOS平臺競品的對比,在MLCommon MLPerf推理的不同子項中,例如圖像分類、語言理解以及超級分辨率等,第三代高通驍龍8都保持領(lǐng)先。
同樣集成了高通AI引擎的驍龍X Elite,在面向Windows的UL Procyon AI推理基準(zhǔn)測試中,ResNet-50、DeeplabV3等測試中,基準(zhǔn)測試總分分別為X86架構(gòu)競品A的3.4倍和競品B的8.6倍。
如何解決內(nèi)存瓶頸?
限制生成式AI普及的不僅有計算能力的限制,內(nèi)存限制也是大語言模型token生成的瓶頸,這要解決的是CPU、GPU、NPU的內(nèi)存效率問題。
內(nèi)存瓶頸來源于AI計算數(shù)據(jù)的讀取和搬移。
例如,一個NxN矩陣和另一個NxN矩陣相乘,需要讀取2N2個值并進(jìn)行2N3次運算(單個乘法和加法)。在張量加速器中,每次內(nèi)存訪問的計算操作比率為N:1,而對于標(biāo)量和向量加速器,這一比率要小得多。
解決內(nèi)存瓶頸的挑戰(zhàn),高通有微切片和量化等關(guān)鍵技術(shù)。
2022年發(fā)布的第二代驍龍8,微切片推理利用HexagonNPU的標(biāo)量加速能力,將神經(jīng)網(wǎng)絡(luò)分割成多個能夠獨立執(zhí)行的微切片,消除了高達(dá)10余層的內(nèi)存占用,市面上的其他AI引擎則必須要逐層進(jìn)行推理。
量化技術(shù)也是解決內(nèi)存挑戰(zhàn)的關(guān)鍵。高通Hexagon NPU原生支持4位整數(shù)(INT4)運算,能夠提升能效和內(nèi)存帶寬效率,同時將INT4層和神經(jīng)網(wǎng)絡(luò)的張量加速吞吐量量提高一倍。
在最新的第三代驍龍8中,Hexagon NPU微架構(gòu)升級,微切片推理進(jìn)一步升級,支持更高效的生成式Al處理,并降低內(nèi)存帶寬占用。
此外,Hexagon張量加速器增加了獨立的電源傳輸軌道,讓需要不同標(biāo)量、向量和張量處理規(guī)模的AI模型能夠?qū)崿F(xiàn)最高性能和效率。共享內(nèi)存的帶寬也增加了一倍。
還有一個非常關(guān)鍵的升級,第三代驍龍8支持業(yè)界最快的內(nèi)存配置之一:4.8GHzLPDDR5x,支持77GB/s帶寬,能夠滿足生成式AI用例日益增長的內(nèi)存需求。
更高性能的內(nèi)存結(jié)合升級的微切片和量化技術(shù),能最大程度消除端側(cè)AI普及內(nèi)存的瓶頸。當(dāng)然,生成式AI模型也在變化。
“高通AI引擎中集成了模型壓縮等更多技術(shù),以確保模型能夠在DRAM上順利運行?!盳iad Asghar說,“在模型端,我們看到MoE(Mixture of Experts)模型興起的趨勢,這一類型的模型能夠?qū)⑻囟ú糠址旁趦?nèi)存中運行,其他的放在內(nèi)存外,對模型進(jìn)行優(yōu)化?!?/p>
計算和內(nèi)存限制的問題之后,是更具挑戰(zhàn)性的生態(tài)問題。
如何降低AI開發(fā)門檻?
AI潛力的爆發(fā)需要生態(tài)的繁榮,生態(tài)的繁榮需要足夠多的開發(fā)者,最終這就變成了一個AI開發(fā)門檻的問題。
對于硬件平臺的提供者來說,可以最大化降低開發(fā)者的使用門檻,能夠讓開發(fā)者用高級語言開發(fā)的程序簡單高效地運行在AI引擎上。
高通做了非常多的工作,高通AI軟件棧(Qualcomm AI Stack),支持目前所有的主流AI框架,包括TensorFlow、PyTorch、ONNX、Keras;它還支持所有主流的AI runtime,包括DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的編譯器、數(shù)學(xué)庫等AI工具。
“我們還推出了Qualcomm AI studio,為開發(fā)者提供開發(fā)過程中需要用到的相關(guān)工具,其中包括支持模型量化和壓縮的高通AI模型增效工具包(AIMET),能夠讓模型運行更加高效?!盳iad Asgha進(jìn)一步表示,“基于高通AI軟件棧和核心硬件IP,我們能夠跨高通所有不同產(chǎn)品線,將應(yīng)用規(guī)?;瘮U展到不同類型的終端,從智能手機到PC、物聯(lián)網(wǎng)終端、汽車等?!?/p>
AI生態(tài)的繁榮,還需要多方的共同努力,高通支持Transformer的Hexagon NPU,以及異構(gòu)的高通AI引擎,已經(jīng)提供了很好的基礎(chǔ)。
還需要看到的是,終端側(cè)AI處理有成本、能效、可靠性、性能時延、個性化方面的諸多優(yōu)勢。了解更多終端側(cè)生成式AI的資料可以查閱《通過NPU和異構(gòu)計算開啟終端生成式AI》白皮書。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。