國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

本文作者：陳彩嫻

2024-05-20 16:10

導(dǎo)語：端側(cè)大模型的解耦難題：是模型適配終端，還是終端適配模型？

在剛剛過去的機(jī)器人學(xué)術(shù)頂會 ICRA 2024 上，「具身智能」成為熱議，其中圍繞具身智能的一個普遍疑問是：若將 AI 大模型應(yīng)用到消費(fèi)級機(jī)器人領(lǐng)域，首先是模型適配終端，還是終端適配模型？

過去一年，由于 6B、7B 等小模型的成果井噴，以及 MoE 訓(xùn)練技術(shù)的越發(fā)成熟，將模型跑在手機(jī)、學(xué)習(xí)機(jī)、平板電腦、機(jī)器人甚至汽車等等終端應(yīng)用上的想象力開始變大，無論算法層還是硬件層都「蠢蠢欲動」。誠然，這已經(jīng)成為一個明朗的行業(yè)方向，但在系統(tǒng)整合上卻要面臨不同話語體系之間的博弈。

以機(jī)器人為例。從算法層看，將模型做小是關(guān)鍵，但硬件廠商關(guān)心的卻是模型能否適配自身的產(chǎn)品：

首先，消費(fèi)機(jī)器人有固定的產(chǎn)品周期，從研發(fā)到投入市場往往要經(jīng)歷大半年到一年半左右的時間。因此，盡管 ChatGPT 破圈后已經(jīng)過去一年多，但目前已經(jīng)上市的掃地機(jī)中卻沒有已經(jīng)部署大模型的產(chǎn)品；

其次，硬件底層的芯片有上限，芯片設(shè)計(jì)完后就是一個性能參數(shù)限定的「物理」產(chǎn)品，其中帶寬能跑多少、內(nèi)存能用多大都已經(jīng)是已知數(shù)，這就直接了應(yīng)用在硬件上的 AI 模型能用多大參數(shù)、跑多快速度。

因此，機(jī)器人廠商普遍關(guān)注兩個問題：一是如何將目標(biāo)尺寸的大模型跑在固有的芯片上，二是如何使大模型服務(wù)好已有的場景，如掃地、語音交互等。

同樣的問題也出現(xiàn)在其他的終端應(yīng)用領(lǐng)域，如手機(jī)、平板、學(xué)習(xí)機(jī)等。此外，由于視覺是上一代 AI 與終端應(yīng)用結(jié)合的主流，如智能手機(jī)中的人臉識別、語音交互，多模態(tài)也成為端側(cè)大模型的性能首選。

這意味著，接下來的端側(cè)大模型爆發(fā)將離不開三個要素：一，滿足產(chǎn)品形態(tài)與適配芯片的需求；二，具備多模態(tài)模型能力；三，能夠在長周期的產(chǎn)品研發(fā)投入中保持具有競爭力的價格優(yōu)勢。

但目前，國內(nèi)外大模型廠商能聚焦、兼顧三者的團(tuán)隊(duì)寥寥無幾。這意味著，在未來的 2024 年乃至 2025 年，能夠在適配、性能與價格上率先拔得頭籌的算法團(tuán)隊(duì)，將能贏得端側(cè) AI 領(lǐng)域的最終話語權(quán)。

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

圖注：OpenCompass 榜單變化顯示，小參數(shù)、高性能模型逐漸成為 AI 技術(shù)趨勢

據(jù) AI 科技評論觀察，國內(nèi)的大模型團(tuán)隊(duì)在端側(cè)上也發(fā)力迅猛。以多模態(tài)能力為例，國外 OpenAI、谷歌，國內(nèi)阿里、面壁智能等均在 20B 以內(nèi)參數(shù)規(guī)模的小模型上有布局。而據(jù)了解，20 億幾乎是目前國內(nèi)芯片廠商正在研發(fā)的終端芯片主流支持的參數(shù)規(guī)模，而面壁正是這一參數(shù)量級的代表性玩家。

而近日，主打「小鋼炮」的面壁智能所發(fā)布的新成果更尤為值得關(guān)注！繼被吳恩達(dá)大力推廣的 ChatDev 后，面壁在端側(cè)模型上頻出奇招，再次推出端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5，直接干翻 GPT-4V 與多模態(tài)巨無霸 Gemini Pro，引起了海內(nèi)外的廣泛關(guān)注。

1、端側(cè)小模型 SOTA 誕生？

據(jù)了解，面壁智能最新發(fā)布的多模態(tài)模型 MiniCPM-Llama3-V 2.5 性能飛躍，今非昔比：

多模態(tài)能力飛升：參數(shù)規(guī)模僅 8B，綜合性能卻超越谷歌的多模態(tài)巨無霸 Gemini Pro 與 OpenAI 的 GPT-4V；
OCR 能力 SOTA：能夠精準(zhǔn)識別長圖、難圖與長文本，9 倍像素更清晰，同時具備識別與推理能力；雷峰網(wǎng)
手機(jī)端突破：首次整合 NPU 和 CPU 加速框架，對手機(jī)端多模態(tài)大模型進(jìn)行系系統(tǒng)級加速，速度提升 150 倍；
多語種能力：支持 30 多種語言，除了中英雙語，還包括法語、德語、西班牙語等等主流語言，基本覆蓋了一帶一路的所有國家；
……雷峰網(wǎng)

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

圖注：面壁新模型 MiniCPM-Llama3-V2.5 綜合能力水平指數(shù)

筆者看了表示大為震撼。我們知道面壁在今年 1 月發(fā)布的 MiniCPM 是專攻「以小博大」的端側(cè)模型，但沒想到短短3個月，從 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5，面壁智能的端側(cè)模型不斷迭代，在多模態(tài)各項(xiàng)能力上竟取得了如此迅速、耀眼的突破！

在綜合評測權(quán)威平臺 OpenCompass 上，面壁 MiniCPM-Llama3-V2.5 以小博大，以 8B 量級綜合性能超越多模態(tài)巨無霸 GPT-4V 和 Gemini Pro，是目前端側(cè)最強(qiáng)的模型：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

多模態(tài)能力是當(dāng)前大模型最核心的競爭力之一，手機(jī)、PC 等智能終端設(shè)備因其高頻的影像視覺處理需求，對在端側(cè)部署 AI 模型提出了更高的多模態(tài)識別與推理能力要求。

具體從 OCR 識別、模型幻覺能力與空間理解能力來看的話，面壁的最新 MiniCPM-Llama3-V2.5 實(shí)現(xiàn)了開源模型的性能 SOTA。展開來看：

OCR 識別中，在 OCR 綜合能?權(quán)威榜單 OCRBench 上，面壁「多模態(tài)小鋼炮」超越了Claude 3V Opus、GeminiPro 等標(biāo)桿模型，也超過了原先排名第一的上海人工智能實(shí)驗(yàn)室 InternVL-Chat-V1.5、最新霸榜第一！

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

排名第二的 InternVL-Chat-V1.5 雖然沒有比面壁 MiniCPM-Llama3-V2.5 落后太多，但前者參數(shù)是后者的 3 倍。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

幻覺能力上，MiniCPM-Llama3-V 2.5 在Object HalBench 榜單上超越了 GPT-4V 等眾多模型（注：目標(biāo)幻覺率應(yīng)為0）：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

空間理解能力上，在專注于評估多模態(tài)模型基本現(xiàn)實(shí)世界空間理解能力的 RealWorldQA 榜單上，MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

面壁智能 CTO 曾國洋在數(shù)月前告訴過 AI 科技評論，他一直認(rèn)為模型的空間理解能力是實(shí)現(xiàn) AGI 的幾個重要組成能力之一。要實(shí)現(xiàn) AGI，現(xiàn)有的長文本長序列架構(gòu)還不能滿足，AGI 還需要一個更好的框架來解決模型的記憶與學(xué)習(xí)問題，一塊是空間記憶，另一塊則是經(jīng)驗(yàn)學(xué)習(xí)。

從這個思路看，面壁智能 MiniCPM-Llama3-V2.5 的發(fā)布，或者不只表明了面壁在端側(cè)模型上的突破，還有更宏大的 AGI 愿景。

2、「識別」、「推理」比翼雙飛

關(guān)于多模態(tài)，過去行業(yè)的標(biāo)桿成果往往以物體精準(zhǔn)識別為主，但大規(guī)模預(yù)訓(xùn)練語言模型誕生后，AI 模型的常識與推理能力愈發(fā)成為考量多模態(tài)模型的關(guān)鍵維度。

能同時兼顧「識別」與「推理」能力的多模態(tài)模型鳳毛麟角，此次面壁發(fā)布的 8B 多模態(tài)小模型成為了其中之一。多個案例展示了面壁多模態(tài)小鋼炮的識別-推理能力：

1）《三體》相關(guān)建筑圖識別推理——

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出這些建筑是為了紀(jì)念《三體》及其對中國科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì)：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

但 GPT-4V 則答非所問：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

2）手機(jī)圖片識別與信息提取、結(jié)構(gòu)化輸出——

輸入一張手機(jī)拍攝的火車票，MiniCPM-Llama3-V 2.5 能準(zhǔn)確提取信息，給出無誤的「json」格式輸出：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

3）高精尖行業(yè)學(xué)術(shù)論文圖表分析——

給 MiniCPM-Llama3-V 2.5 一張包含復(fù)雜邏輯的流程圖：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

MiniCPM-Llama3-V 2.5 不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系，還能給出清晰易懂的解釋說明：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

4）長圖長文本識別與信息推理——

輸入一張包含稠密信息的長文長圖：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

向 MiniCPM-Llama3-V 2.5 提問，其能直接根據(jù)長圖信息進(jìn)行推理問答：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

復(fù)雜推理能力對多模態(tài)大模型至關(guān)重要，它使得模型不僅能理解單一的文本或圖像等模態(tài)信息，還能跨越不同模態(tài)間的綜合信息，做出更加準(zhǔn)確和深入的分析。MiniCPM-Llama3-V 2.5 進(jìn)一步升級，可深入洞察圖像，在更復(fù)雜、更接近人類的水平上進(jìn)行思考和解決問題，無疑是 AI 大模型中的「小福爾摩斯」。

此外，在視覺一塊，面壁 MiniCPM-V 系列模型也實(shí)現(xiàn)了識別圖像像素的飛升。

據(jù)面壁智能透露，有別于傳統(tǒng)技術(shù)僅能識別20萬像素小圖，MiniCPM-V 系列可以高效編碼及無損識別180萬高清像素圖片，并且支持任意長寬比圖像識別、甚至「有點(diǎn)變態(tài)」的 1:9 極限寬高比。

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

3、多語種能力增強(qiáng)，端側(cè)部署迎來春天

具體在手機(jī)、學(xué)習(xí)機(jī)等等端側(cè)的部署應(yīng)用上，除了識別與推理的能力一體化，面壁 MiniCPM-Llama3-V2.5 的另外兩項(xiàng)優(yōu)勢體現(xiàn)在多語種能力與端側(cè)部署加速上。

多語種能力

得益于 VisCPM 的跨語言泛化技術(shù)，在中英雙語多模態(tài)能力的基礎(chǔ)上，MiniCPM-Llama3-V2.5 僅通過少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào)，高效泛化支持了德語、法語、西班牙語、意大利語、俄語等 30+ 種語言的多模態(tài)能力，幾乎覆蓋了所有一帶一路的國家，意味著全球上百個國家的數(shù)十億人口，都能與 MiniCPM-Llama3-V2.5 絲滑交互。

在對話中，MiniCPM-Llama3-V2.5 表現(xiàn)出了良好的多語言多模態(tài)對話性能。與目前國內(nèi)較為領(lǐng)先的零一萬物多模態(tài)模型 Yi-VL 34B 為參照，多語言版本 LLaVABench 評測結(jié)果顯示，MiniCPM-Llama3-V2.5 對話能力更勝一籌：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

需要注意的是，并非所有基于 Llama3 微調(diào)的模型都有出色的能力，這中間依然涉及到高門檻的訓(xùn)練技巧。例如，Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鑒 Llama3，但在綜合能力上卻遠(yuǎn)遠(yuǎn)落后于 MiniCPM-Llama3-V2.5：

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

端側(cè)部署

如前所述，由于終端硬件產(chǎn)品的物理限制，部署到端側(cè)的 AI 模型既要滿足硬件的端側(cè)要求，并在成本可控的情況下實(shí)現(xiàn)同等參數(shù)性能最佳、同等性能參數(shù)最小。

在圖像編碼方面，面壁首次整合 NPU 和 CPU 加速框架，在 MiniCPM-Llama3-V 2.5 圖像編碼方面實(shí)現(xiàn)了 150 倍加速提升。

在語言模型推理方面，目前開源社區(qū)的報告結(jié)果中，Llama 3 語言模型在手機(jī)端側(cè)的解碼速度在 0.5 token/s 上下，相比之下，多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn)，經(jīng)過 CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式，面壁將 MiniCPM-Llama3-V 2.5 在手機(jī)端的語言解碼速度提升到 3-4 token/s。目前，語言模型的圖像編碼加速也在進(jìn)行中，更靈敏互動體驗(yàn)即將到來。

總的來說，面壁最新取得的端側(cè)多模態(tài)模型成果 MiniCPM-Llama3-V 2.5 是國產(chǎn)端側(cè)之光，加速了國產(chǎn)大模型部署在端側(cè)的節(jié)奏，也給端側(cè) AI 行業(yè)提供了多方位的參考。

換言之，在大模型時代，「讓終端硬件變得更智能」不再是一個概念性的說法，而是一個正在發(fā)生的現(xiàn)實(shí)。面壁之后，期待更多國產(chǎn)大模型團(tuán)隊(duì)帶來更多振奮人心的端側(cè) AI 創(chuàng)新成果！

MiniCPM-Llama3-V 2.5開源地址：?https://github.com/OpenBMB/MiniCPM-V

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升

國產(chǎn)端側(cè)小模型超越 GPT-4V，「多模態(tài)」能力飛升