終端側(cè)生成式AI時(shí)代已經(jīng)到來(lái)，高通以領(lǐng)先AI軟硬件技術(shù)賦能AIGC應(yīng)用創(chuàng)新

本文作者： nebula

2024-04-18 13:52

導(dǎo)語(yǔ)：在中國(guó)AIGC產(chǎn)業(yè)峰會(huì)上，高通公司的AI產(chǎn)品技術(shù)中國(guó)區(qū)負(fù)責(zé)人萬(wàn)衛(wèi)星發(fā)表了關(guān)于“推動(dòng)終端側(cè)生成式AI時(shí)代到來(lái)”的主題演講。

4月17日，中國(guó)AIGC產(chǎn)業(yè)峰會(huì)在北京召開。本次峰會(huì)以“你好，新應(yīng)用”為主題，邀請(qǐng)到生成式AI應(yīng)用、AI基礎(chǔ)設(shè)施和模型層的代表企業(yè)，一同分享對(duì)最新生成式AI現(xiàn)狀與趨勢(shì)的見(jiàn)解。在本次峰會(huì)上，高通公司的AI產(chǎn)品技術(shù)中國(guó)區(qū)負(fù)責(zé)人萬(wàn)衛(wèi)星發(fā)表了關(guān)于“推動(dòng)終端側(cè)生成式AI時(shí)代到來(lái)”的主題演講。他強(qiáng)調(diào)了終端側(cè)生成式AI時(shí)代的到來(lái)，并提到高通發(fā)布的第三代驍龍8和驍龍X Elite平臺(tái)已經(jīng)或即將賦能眾多AI手機(jī)和AI PC產(chǎn)品。萬(wàn)衛(wèi)星詳細(xì)介紹了高通AI引擎及其組成部分，還展示了高通異構(gòu)計(jì)算能力的端到端用例。此外，萬(wàn)衛(wèi)星也介紹了高通AI軟件棧和AI Hub，這些將極大地提升開發(fā)者在模型開發(fā)、優(yōu)化和部署方面的效率，進(jìn)而有助于創(chuàng)造出更多創(chuàng)新的AI應(yīng)用。

演講全文如下：

早上好，非常高興能夠參加本次中國(guó)AIGC產(chǎn)業(yè)峰會(huì)，與各位嘉賓朋友一起迎接生成式AI時(shí)代的到來(lái)，為大家分享高通作為芯片廠商提供的產(chǎn)品和解決方案，能夠如何推動(dòng)AIGC相關(guān)產(chǎn)業(yè)的規(guī)?；瘮U(kuò)展。

我們認(rèn)為終端側(cè)生成式AI時(shí)代已經(jīng)到來(lái)，高通在2023年10月發(fā)布的第三代驍龍8和驍龍X Elite這兩款產(chǎn)品上，已經(jīng)實(shí)現(xiàn)了將大語(yǔ)言模型完整的搬到了端側(cè)運(yùn)行，且已經(jīng)或即將賦能眾多的AI手機(jī)和AI PC。在手機(jī)方面，去年年底和今年年初眾多OEM廠商發(fā)布的Android旗艦產(chǎn)品，包括三星、小米、榮耀、OPPO和vivo等，都已經(jīng)具備了在端側(cè)運(yùn)行生成式AI的能力。

基于圖像語(yǔ)義理解的多模態(tài)大模型發(fā)展是當(dāng)下的重要趨勢(shì)，在今年2月的MWC巴塞羅那期間，高通也展示了全球首個(gè)在Android手機(jī)上運(yùn)行的多模態(tài)大模型（LMM）。具體來(lái)說(shuō)，我們?cè)诖钶d第三代驍龍8的參考設(shè)計(jì)上運(yùn)行了基于圖像和文本輸入、超過(guò)70億參數(shù)的大語(yǔ)言和視覺(jué)助理大模型（LLaVa），可基于圖像輸入生成多輪對(duì)話。具有語(yǔ)言理解和視覺(jué)理解能力的多模態(tài)大模型能夠賦能諸多用例，例如識(shí)別和討論復(fù)雜的視覺(jué)圖案、物體和場(chǎng)景。設(shè)想一下，有視覺(jué)障礙的用戶就可以在終端側(cè)利用這一技術(shù)，實(shí)現(xiàn)在城市內(nèi)的導(dǎo)航。同時(shí)，高通在驍龍X Elite上也演示了全球首個(gè)在Windows PC上運(yùn)行的音頻推理多模態(tài)大模型。

接下來(lái)看看高通作為芯片廠商，如何滿足生成式AI多樣化的要求。不同領(lǐng)域的生成式AI用例具有多樣化的要求，包括按需型、持續(xù)型和泛在型用例，其背后所需的AI模型也是千差萬(wàn)別，很難有一種可以完美適用所有生成式AI用例或非生成式AI用例。比如，有些用例需要進(jìn)行順序控制，對(duì)時(shí)延比較敏感；有些用例是持續(xù)型的，對(duì)算力和功耗比較敏感；有些用例需要始終在線，對(duì)功耗尤其敏感。

高通公司推出的高通AI引擎就是領(lǐng)先的異構(gòu)計(jì)算系統(tǒng)，它包含多個(gè)處理器組件，包括通用硬件加速單元CPU和GPU、專門面向高算力需求的NPU，以及高通傳感器中樞，它們?cè)贏I推理過(guò)程中扮演不同角色。前面提到的順序執(zhí)行的按需型任務(wù)，可以運(yùn)行在CPU或GPU上；對(duì)AI算力要求比較高的持續(xù)型任務(wù)，例如影像處理、生成式AI等，都可以運(yùn)行在NPU上；對(duì)于需要始終在線、對(duì)功耗尤其敏感的任務(wù)，可以運(yùn)行在高通傳感器中樞上。

我來(lái)為大家簡(jiǎn)單介紹一下高通NPU的演進(jìn)路線，這是非常典型的由上層用例驅(qū)動(dòng)底層硬件設(shè)計(jì)的案例。2015年及更早之前，AI主要用于一些比較簡(jiǎn)單的圖像識(shí)別、圖像分類用例，所以我們給NPU配置了標(biāo)量和向量加速器。到2016—2022年間，計(jì)算攝影概念開始流行，我們把研究方向從圖像分類轉(zhuǎn)移到了AI計(jì)算、AI視頻等等，包括對(duì)自然語(yǔ)言理解和處理的支持，以及對(duì)Transformer模型的支持，我們給NPU硬件在標(biāo)量和向量加速器的基礎(chǔ)之上，增加了張量加速器。2023年，大模型熱度很高，我們?cè)跇I(yè)內(nèi)率先完成了端側(cè)的大模型支持，給NPU配置了專門的Transformer加速模塊。2024年，我們會(huì)重點(diǎn)支持多模態(tài)模型的端側(cè)化，以及支持更高參數(shù)量的大語(yǔ)言模型在端側(cè)的部署。

終端側(cè)生成式AI時(shí)代已經(jīng)到來(lái)，高通以領(lǐng)先AI軟硬件技術(shù)賦能AIGC應(yīng)用創(chuàng)新

接下來(lái)為大家更深入的介紹高通Hexagon NPU。第三代驍龍8上的Hexagon NPU不僅進(jìn)行了微架構(gòu)升級(jí)，還專門配置了獨(dú)立的供電軌道，以實(shí)現(xiàn)最佳的能效。我們還通過(guò)微切片推理技術(shù)支持網(wǎng)絡(luò)深度融合，獲取更極致的性能。此外Hexagon NPU還集成了專門為生成式AI打造的Transformer加速模塊，更高的DDR傳輸帶寬，更高的IP主頻等先進(jìn)技術(shù)。所有這些技術(shù)相結(jié)合，使得Hexagon NPU成為面向終端側(cè)生成式AI的行業(yè)領(lǐng)先NPU。

接下來(lái)看一個(gè)具體案例，虛擬化身AI助手——這是非常典型的充分利用高通異構(gòu)計(jì)算能力的端到端用例。它包括眾多復(fù)雜AI工作負(fù)載，首先需要自動(dòng)語(yǔ)音識(shí)別（ASR）模型負(fù)責(zé)將語(yǔ)音信號(hào)轉(zhuǎn)成文本，這部分工作負(fù)載可以跑在高通傳感器中樞上；接下來(lái)會(huì)由大語(yǔ)言模型負(fù)責(zé)處理文本輸入，生成回復(fù)和對(duì)話，這部分工作負(fù)載可以跑在NPU上；再通過(guò)文本生成語(yǔ)音（TTS）模型把文本輸出轉(zhuǎn)變成語(yǔ)音信號(hào)，這部分負(fù)載可以跑在CPU；最后由GPU模塊負(fù)責(zé)基于語(yǔ)音輸出同步完成虛擬化身渲染，這樣就能得到一個(gè)端到端的用語(yǔ)音來(lái)交互的虛擬化身助手用例。

前面介紹了硬件技術(shù)，接下來(lái)分享一下高通平臺(tái)的AI性能。在智能手機(jī)領(lǐng)域，第三代驍龍8不管是在魯大師AIMark V4.3、安兔兔AITuTu這些AI基準(zhǔn)測(cè)試的總分方面，還是在MLCommon MLPerf推理：Mobile V3.1的具體模型推理性能測(cè)試方面，表現(xiàn)都遠(yuǎn)超于競(jìng)品。在PC方面，驍龍X Elite在面向Windows的UL Procyon AI推理基準(zhǔn)測(cè)試中，表現(xiàn)也超過(guò)了基于X86架構(gòu)的競(jìng)品。

高通除了提供領(lǐng)先的硬件平臺(tái)設(shè)計(jì)之外，也推出了一個(gè)跨平臺(tái)、跨終端、跨操作系統(tǒng)的統(tǒng)一軟件棧，叫做高通AI軟件棧（Qualcomm AI Stack）。高通AI軟件棧支持所有目前主流的訓(xùn)練框架和執(zhí)行環(huán)境，我們還為開發(fā)者提供不同級(jí)別、不同層次的優(yōu)化接口，以及完整的編譯工具鏈，讓開發(fā)者可以在驍龍平臺(tái)上更加高效的完成模型的開發(fā)、優(yōu)化和部署。值得強(qiáng)調(diào)的是，高通AI軟件棧是一個(gè)跨平臺(tái)、跨終端的統(tǒng)一解決方案，所以開發(fā)者只要在高通和驍龍的一個(gè)平臺(tái)上完成模型的優(yōu)化部署工作，便可以非常方便的將這部分工作遷移到高通和驍龍的其他所有產(chǎn)品上。

終端側(cè)生成式AI時(shí)代已經(jīng)到來(lái)，高通以領(lǐng)先AI軟硬件技術(shù)賦能AIGC應(yīng)用創(chuàng)新

今年MWC巴塞羅那期間，高通發(fā)布了非常重量級(jí)的產(chǎn)品，高通AI Hub（Qualcomm AI Hub）。該產(chǎn)品面向第三方開發(fā)者和合作伙伴，可以幫助開發(fā)者更加充分的利用高通和驍龍底層芯片的硬件算力，開發(fā)出自己的創(chuàng)新AI應(yīng)用。利用高通AI Hub進(jìn)行應(yīng)用開發(fā)的過(guò)程就像“把大象塞進(jìn)冰箱”一樣簡(jiǎn)單。第一步，根據(jù)用例選擇所需模型；第二步，選擇需要部署的高通或驍龍平臺(tái)；第三步，只需要寫幾行腳本代碼，就可以完成整個(gè)模型部署，在終端側(cè)看到應(yīng)用或算法的運(yùn)行效果。

目前，高通AI Hub已經(jīng)支持超過(guò)100個(gè)模型，其中有大家比較關(guān)心的生成式AI模型，包括語(yǔ)言、文本和圖像生成，也包括傳統(tǒng)AI模型，例如圖像識(shí)別、圖像分割，自然語(yǔ)言理解、自然語(yǔ)言處理等等。具體的模型信息，歡迎大家訪問(wèn)高通AI Hub網(wǎng)站（AIHUB.QUALCOMM.COM）進(jìn)行查詢。

最后總結(jié)一下高通的AI領(lǐng)先優(yōu)勢(shì)。第一，高通具備無(wú)與倫比的終端側(cè)AI性能；第二，高通具備頂尖的異構(gòu)計(jì)算能力，使AI能力能夠貫穿整個(gè)SoC，將CPU、GPU、NPU和高通傳感器中樞的能力都充分釋放給應(yīng)用開發(fā)者；第三，我們提供可擴(kuò)展的AI軟件工具，即前面提到的高通AI軟件棧等；最后，我們可以支持廣泛的生態(tài)系統(tǒng)和AI模型。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章