解決AI手機和AI PC落地端側大模型的三大難題

本文作者：包永剛

2024-03-08 17:34

導語：算力、內存和生態(tài)，端側生成式AI落地的關鍵。

在感受了ChatGPT和文生視頻模型Sora接連帶來震撼之后，所有人都會好奇，生成式AI與普通人的生活有什么關系？

手機廠商已經展示了生成式AI帶來的全新體驗，比如小米14系列的圖像擴充，OPPO Find X7 Ultra的一鍵AI路人消除，榮耀Magic6的智慧成片和智慧創(chuàng)建日程。

如果說云端的生成式AI展示了AI的強大，那端側AI的普及就是激發(fā)生成式AI創(chuàng)新的動力。

想要在端側普及生成式AI，需要先解決算力、內存和生態(tài)三大難題。

異構計算和NPU解決算力瓶頸

生成式AI模型參數(shù)量大，算力是一個核心限制因素。

但大算力往往意味著高能耗，對于使用電池供電的AI手機和AI PC，想要兼顧高性能和低功耗，異構架構的價值十分明顯。

異構架構，就是一個處理器當中包含多種不同類型的處理單元。

手機SoC就是典型的異構架構，包含擅長順序控制，適用于需要低時延的應用場景的CPU；擅長高精度格式圖像和視頻并行處理的GPU；還有擅長標量、向量和張量數(shù)學運算，可用于核心AI工作負載的NPU。

異構計算的優(yōu)勢在于，可以根據(jù)應用的類型調用合適的處理器以達到最佳的能耗比，比如用GPU來完成重負荷游戲，用CPU執(zhí)行多網頁瀏覽，用NPU提升AI體驗。

解決AI手機和AI PC落地端側大模型的三大難題

對于生成式AI，異構計算的優(yōu)勢更加明顯，因為生成式AI有多種用例，比如只需要短暫運行的按需型用例；需要長時間運行的持續(xù)型用例，如AI視頻處理；以及始終開啟的泛在型用例，如PC需要持續(xù)監(jiān)測用戶的設備使用情況，不同的用例對處理器的需求不同。

以在高通驍龍平臺上實現(xiàn)虛擬AI助手與用戶語音互動交流來解釋異構計算的重要性。

解決AI手機和AI PC落地端側大模型的三大難題

用于給虛擬AI助手下達指令，需要通過自動語音識別（ASR）模型轉化為文本，這一步主要在高通傳感器中樞運行。
然后需要通過Llama 2或百川大語言模型生成文本回復，這一模型在Hexagon NPU上運行
接下來要通過開源TTS（Text to Speech）模型將文本轉為語音，這一過程需要CPU。
輸出語音的同時，需要使用融合變形動畫（Blendshape）技術讓語音與虛擬化身的嘴型匹配，實現(xiàn)音話同步。此后，通過虛幻引擎MetaHuman進行虛擬化身渲染，渲染工作在Adreno GPU上完成。
最終通過協(xié)同使用高通AI引擎上所有的多樣化處理模塊，實現(xiàn)出色的交互體驗。

高通自2015年推出第一代AI引擎，就采用的異構計算的架構，包含Kryo CPU、Adreno GPU、Hexagon DSP，這是高通保持在端側AI領域領先的關鍵。

異構計算對于生成式AI的普及非常重要，其中的NPU又是關鍵。

比如在持續(xù)型用例中，需要以低功耗實現(xiàn)持續(xù)穩(wěn)定的高峰值性能，NPU可以發(fā)揮其最大優(yōu)勢。在基于LLM和大視覺模型（LVM）的不同用例，例如Stable Diffusion或其他擴散模型中，NPU的每瓦特性能表現(xiàn)十分出色。

“高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設計和快速創(chuàng)新。通過定制設計NPU并控制指令集架構(ISA)，高通能夠快速進行設計演進和擴展，以解決瓶頸問題并優(yōu)化性能。”高通技術公司產品管理高級副總裁 Ziad Asghar表示。

雷峰網(公眾號：雷峰網)了解到，高通對NPU的研究也是跟隨需求的變化而演進，以Hexagon DSP為基礎，進化為Hexagon NPU。

“從DSP架構入手打造NPU是正確的選擇，可以改善可編程性，并能夠緊密控制用于AI處理的標量、向量和張量運算。高通優(yōu)化標量、向量和張量加速的的設計方案結合本地共享大內存、專用供電系統(tǒng)和其他硬件加速，讓我們的方案獨樹一幟?！盳iad Asgha說。

解決AI手機和AI PC落地端側大模型的三大難題

Hexagon NPU從2015年時面向音頻和語音處理的的簡單CNN，到2016-2022年之間面向AI影像和視頻處理，以實現(xiàn)增強的影像能力的Transformer、LSTM、RNN、CNN。

2023年，高通在Hexagon NPU中增加了Transformer支持。能夠在終端側運行高達100億參數(shù)的模型，無論是首個token的生成速度還是每秒生成token的速率都處在業(yè)界領先水平。

測試數(shù)據(jù)顯示，第三代驍龍8和三款Android以及iOS平臺競品的對比，在MLCommon MLPerf推理的不同子項中，例如圖像分類、語言理解以及超級分辨率等，第三代高通驍龍8都保持領先。

解決AI手機和AI PC落地端側大模型的三大難題

同樣集成了高通AI引擎的驍龍X Elite，在面向Windows的UL Procyon AI推理基準測試中，ResNet-50、DeeplabV3等測試中，基準測試總分分別為X86架構競品A的3.4倍和競品B的8.6倍。

解決AI手機和AI PC落地端側大模型的三大難題

如何解決內存瓶頸？

限制生成式AI普及的不僅有計算能力的限制，內存限制也是大語言模型token生成的瓶頸，這要解決的是CPU、GPU、NPU的內存效率問題。

內存瓶頸來源于AI計算數(shù)據(jù)的讀取和搬移。

例如，一個NxN矩陣和另一個NxN矩陣相乘，需要讀取2N2個值并進行2N3次運算(單個乘法和加法)。在張量加速器中，每次內存訪問的計算操作比率為N:1，而對于標量和向量加速器，這一比率要小得多。

解決內存瓶頸的挑戰(zhàn)，高通有微切片和量化等關鍵技術。

2022年發(fā)布的第二代驍龍8，微切片推理利用HexagonNPU的標量加速能力,將神經網絡分割成多個能夠獨立執(zhí)行的微切片，消除了高達10余層的內存占用，市面上的其他AI引擎則必須要逐層進行推理。

量化技術也是解決內存挑戰(zhàn)的關鍵。高通Hexagon NPU原生支持4位整數(shù)(INT4)運算，能夠提升能效和內存帶寬效率，同時將INT4層和神經網絡的張量加速吞吐量量提高一倍。

在最新的第三代驍龍8中，Hexagon NPU微架構升級，微切片推理進一步升級，支持更高效的生成式Al處理，并降低內存帶寬占用。

此外，Hexagon張量加速器增加了獨立的電源傳輸軌道，讓需要不同標量、向量和張量處理規(guī)模的AI模型能夠實現(xiàn)最高性能和效率。共享內存的帶寬也增加了一倍。

還有一個非常關鍵的升級，第三代驍龍8支持業(yè)界最快的內存配置之一：4.8GHzLPDDR5x，支持77GB/s帶寬，能夠滿足生成式AI用例日益增長的內存需求。

更高性能的內存結合升級的微切片和量化技術，能最大程度消除端側AI普及內存的瓶頸。當然，生成式AI模型也在變化。

“高通AI引擎中集成了模型壓縮等更多技術，以確保模型能夠在DRAM上順利運行?！盳iad Asghar說，“在模型端，我們看到MoE（Mixture of Experts）模型興起的趨勢，這一類型的模型能夠將特定部分放在內存中運行，其他的放在內存外，對模型進行優(yōu)化。”

計算和內存限制的問題之后，是更具挑戰(zhàn)性的生態(tài)問題。

如何降低AI開發(fā)門檻？

AI潛力的爆發(fā)需要生態(tài)的繁榮，生態(tài)的繁榮需要足夠多的開發(fā)者，最終這就變成了一個AI開發(fā)門檻的問題。

對于硬件平臺的提供者來說，可以最大化降低開發(fā)者的使用門檻，能夠讓開發(fā)者用高級語言開發(fā)的程序簡單高效地運行在AI引擎上。

解決AI手機和AI PC落地端側大模型的三大難題

高通做了非常多的工作，高通AI軟件棧（Qualcomm AI Stack），支持目前所有的主流AI框架，包括TensorFlow、PyTorch、ONNX、Keras；它還支持所有主流的AI runtime，包括DirectML、TFLite、ONNX Runtime、ExecuTorch，以及支持不同的編譯器、數(shù)學庫等AI工具。

“我們還推出了Qualcomm AI studio，為開發(fā)者提供開發(fā)過程中需要用到的相關工具，其中包括支持模型量化和壓縮的高通AI模型增效工具包（AIMET），能夠讓模型運行更加高效?！盳iad Asgha進一步表示，“基于高通AI軟件棧和核心硬件IP，我們能夠跨高通所有不同產品線，將應用規(guī)?；瘮U展到不同類型的終端，從智能手機到PC、物聯(lián)網終端、汽車等?！?/p>

AI生態(tài)的繁榮，還需要多方的共同努力，高通支持Transformer的Hexagon NPU，以及異構的高通AI引擎，已經提供了很好的基礎。

還需要看到的是，終端側AI處理有成本、能效、可靠性、性能時延、個性化方面的諸多優(yōu)勢。了解更多終端側生成式AI的資料可以查閱《通過NPU和異構計算開啟終端生成式AI》白皮書。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

包永剛

編輯

發(fā)私信

當月熱門文章