「iPhone時刻」后，大模型跑進終端

本文作者：姚勇喆

2023-06-25 11:36

導語：把ChatGPT塞進手機分幾步？

在過去的一年里，生成式AI大模型成為了全世界范圍內(nèi)絕對的熱點。

ChatGPT一聲炮響，給全世界帶來了AI革命的震撼。

從畫師、模特和程序員失業(yè)危機的討論，到大模型密集發(fā)布引爆廠商之間的“千模之戰(zhàn)”。人工智能從未像如今這樣深刻的影響著人們的生活。

自2022年11月ChatGPT推出后，短短兩個月時間，活躍用戶就已沖上一億，不僅超越了Tik Tok成為有史以來增長速度最快的消費類應用，也是以人工智能為核心賣點的第一個殺手級應用。

在GPT類應用的風起云涌下，人們關于未來的暢想也如同野馬脫韁。

生成式的AI模型能夠基于關鍵詞和簡單的提示創(chuàng)造出包括文字、視頻甚至程序在內(nèi)的原創(chuàng)內(nèi)容。不論是在娛樂性還是生產(chǎn)力方面，在人們的暢想中都毫無疑問是繼移動互聯(lián)網(wǎng)興起之后下一波爆點，甚至是下一次技術革命的開端。

在打響了第一槍之后，大模型正在努力完成從云端走向終端，完成從技術到應用的蛻變。

大模型的普及之困

英偉達CEO黃仁勛今年3月時就高呼AI迎來了“iPhone時刻”，但實際上，生成式大模型要成AI界的“iPhone”，還要跨過從云端到終端的高墻。

熟練使用大模型的能力，已然和世紀初的“會使用電腦”、“會打字”一樣，成為步入下一個科技世代的門票，甚至出現(xiàn)在了一些公司的招聘要求中。

ChatGPT能夠出圈，除去生成式人工智能帶來的新奇體驗和生產(chǎn)力上的跨越升級，還與其簡單、符合常識認知的操作有關:ChatGPT的界面與人們早已熟悉的社交軟件聊天界面幾乎相同，對使用者來說幾乎可以從社交軟件的使用經(jīng)驗得到的直覺中掌握用法。

但形式上的簡單并不代表技術上的坦途，事實上，GPT敲出的每一行字的背后，都存在著大模型繁復的訓練和推理。

與傳統(tǒng)的搜索方法相比，生成式大模型的搜索成本高出十倍。

在鍵盤上敲下一次問題，等待GPT回復的短短數(shù)秒內(nèi)，牽扯到云端背后數(shù)以千億級的參數(shù)。

而受到模型本身參數(shù)規(guī)模的要求，要完成一個生成式AI模型的部署對計算設備基礎設施建設提出了極高的要求。

為了滿足動輒擁有數(shù)十億參數(shù)模型的計算需求，在當前的條件下，無論是優(yōu)化模型的AI訓練過程還是執(zhí)行模型命令的AI推理過程，目前幾乎都部署在云端。

云端的強大算力固然能夠滿足大模型的胃口，但同時也帶來了問題。

一方面，完全依賴云基礎設施進行運算會帶來更高的計算成本，據(jù)統(tǒng)計，即使基于大語言模型的搜索只占一小部分，也會在同樣的搜索操作中給企業(yè)帶來每年數(shù)十億美元的增量成本。

另一方面，查詢需求達到高峰時，往往會出現(xiàn)高延時或排隊等待的情況。

事實上，由于ChatGPT的火爆，在高峰期時已經(jīng)發(fā)生過擁堵。此外，要使用云端算力，需要有良好的網(wǎng)絡環(huán)境，一旦用戶在沒有網(wǎng)絡或網(wǎng)絡環(huán)境不佳時，往往出現(xiàn)延時較高甚至無法連接到服務的問題。

作為廠商，要想保證用戶在高峰期的使用體驗就必須在云端配置足夠強大的算力，這不僅帶來了巨大的成本壓力，也會在非高峰期造成相當?shù)馁Y源浪費。

而作為用戶，一個可能隨時請假撂挑子的不穩(wěn)定因素也與期待想去甚遠。

要想真正做到“無處不在”，大模型需要放下云端的高大全，走向本地終端的小而美。

AI革命燒向終端

人工智能從云端走向邊緣的趨勢早已不是新聞。在過去幾年物聯(lián)網(wǎng)和5G等技術的發(fā)展為AI走向邊緣提供了強烈的需求。大型任務對應云端，小型任務對應邊緣終端的AI部署模式已經(jīng)相當成熟。

但與物聯(lián)網(wǎng)普遍的輕載要求不同，部署在終端的大模型依然需要相當?shù)乃懔?。如何把龐大的大模型塞進手機、XR等終端設備中，是廠商要面對的第一大難題。

將原生的大模型直接“塞”進手機，顯然是移動設備相較于云端孱弱的算力不可承受之重。

在云端服務器上訓練的模型一般采用32位浮點運算，這種選擇帶來較高精確度的同時，也帶來了較高的負載。在高通第二代驍龍8的Hexagon處理器中，就采用INT8進度實現(xiàn)了模型從云端到終端的遷移。

由此帶來的另一個問題是，在降低數(shù)據(jù)精度之后，如何保證生成式AI的體驗？

為了適應新的需求，一種為大模型設計的工作負載分級處理機制正在應運而生。

在這種分級機制中，終端將取代云端成為大模型工作的核心。在任務真正被大模型響應前，會進行預先分類。根據(jù)提示詞的長度、需要調(diào)用模型的大小以及任務本身的復雜度，推理任務會被分配到不同目的地。

如果模型大小、提示詞的長度和復雜度小于某個限定值，任務將會被分配在終端而不是云端進行。部署在終端的模型也許沒有云端聰明，但已經(jīng)足夠處理這些輕度任務，向用戶提供可接受精確度下的答案。

只有更為復雜的任務才會被上傳至云端處理，這不僅大大解放了云端的算力，降低了部署大模型應用的成本，也為用戶帶來了更好的體驗。在大多數(shù)情況下，用戶甚至不需要聯(lián)網(wǎng)，只需要通過部署在本地的模型就能得到想要的答案。

終端和云端也能夠協(xié)作。在某些情況下，用戶可以利用終端算力進行一些初步工作，在交由部署在云端的大算力進一步處理。

「iPhone時刻」后，大模型跑進終端

比如在使用語音和大模型對話的流程中，可以通過終端部署的本地模型完成語音識別，將語音轉(zhuǎn)為文字后再上傳云端，云端的大模型則用于生成對應的答案并將文本發(fā)送回終端。最后，終端再將文字答案轉(zhuǎn)化成語音，與用戶完成對話。

與將所有的工作負載放在云端上相比，這種工作流程能夠大大節(jié)省計算和連接所需的帶寬。而用戶在使用過程中則幾乎感受不到流程變化產(chǎn)生的影響。

值得興奮的是，這并不是一種理論上的可能，而是已經(jīng)投入現(xiàn)實中的應用。

在使用驍龍芯片的驍龍本上，生成式AI就能通過邊緣與云端的協(xié)作，實現(xiàn)視頻會議語音轉(zhuǎn)錄、制定任務清單、生成完整演示文稿等操作。

在老黃激動宣布“iPhone 時刻”的到來后，從云端到終端的“降維”正在讓大模型真正實現(xiàn)的普及。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

姚勇喆

編輯

關注芯片領域，微信號：Soldier7887

發(fā)私信

當月熱門文章

「iPhone時刻」后，大模型跑進終端

「iPhone時刻」后，大模型跑進終端