丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

本文作者: 陳彩嫻 2024-05-20 16:10
導(dǎo)語:端側(cè)大模型的解耦難題:是模型適配終端,還是終端適配模型?

在剛剛過去的機器人學(xué)術(shù)頂會 ICRA 2024 上,「具身智能」成為熱議,其中圍繞具身智能的一個普遍疑問是:若將 AI 大模型應(yīng)用到消費級機器人領(lǐng)域,首先是模型適配終端,還是終端適配模型?

過去一年,由于 6B、7B 等小模型的成果井噴,以及 MoE 訓(xùn)練技術(shù)的越發(fā)成熟,將模型跑在手機、學(xué)習機、平板電腦、機器人甚至汽車等等終端應(yīng)用上的想象力開始變大,無論算法層還是硬件層都「蠢蠢欲動」。誠然,這已經(jīng)成為一個明朗的行業(yè)方向,但在系統(tǒng)整合上卻要面臨不同話語體系之間的博弈。

以機器人為例。從算法層看,將模型做小是關(guān)鍵,但硬件廠商關(guān)心的卻是模型能否適配自身的產(chǎn)品:

首先,消費機器人有固定的產(chǎn)品周期,從研發(fā)到投入市場往往要經(jīng)歷大半年到一年半左右的時間。因此,盡管 ChatGPT 破圈后已經(jīng)過去一年多,但目前已經(jīng)上市的掃地機中卻沒有已經(jīng)部署大模型的產(chǎn)品;

其次,硬件底層的芯片有上限,芯片設(shè)計完后就是一個性能參數(shù)限定的「物理」產(chǎn)品,其中帶寬能跑多少、內(nèi)存能用多大都已經(jīng)是已知數(shù),這就直接了應(yīng)用在硬件上的 AI 模型能用多大參數(shù)、跑多快速度。

因此,機器人廠商普遍關(guān)注兩個問題:一是如何將目標尺寸的大模型跑在固有的芯片上,二是如何使大模型服務(wù)好已有的場景,如掃地、語音交互等。

同樣的問題也出現(xiàn)在其他的終端應(yīng)用領(lǐng)域,如手機、平板、學(xué)習機等。此外,由于視覺是上一代 AI 與終端應(yīng)用結(jié)合的主流,如智能手機中的人臉識別、語音交互,多模態(tài)也成為端側(cè)大模型的性能首選。

這意味著,接下來的端側(cè)大模型爆發(fā)將離不開三個要素:一,滿足產(chǎn)品形態(tài)與適配芯片的需求;二,具備多模態(tài)模型能力;三,能夠在長周期的產(chǎn)品研發(fā)投入中保持具有競爭力的價格優(yōu)勢。

但目前,國內(nèi)外大模型廠商能聚焦、兼顧三者的團隊寥寥無幾。這意味著,在未來的 2024 年乃至 2025 年,能夠在適配、性能與價格上率先拔得頭籌的算法團隊,將能贏得端側(cè) AI 領(lǐng)域的最終話語權(quán)。

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

圖注:OpenCompass 榜單變化顯示,小參數(shù)、高性能模型逐漸成為 AI 技術(shù)趨勢

據(jù) AI 科技評論觀察,國內(nèi)的大模型團隊在端側(cè)上也發(fā)力迅猛。以多模態(tài)能力為例,國外 OpenAI、谷歌,國內(nèi)阿里、面壁智能等均在 20B 以內(nèi)參數(shù)規(guī)模的小模型上有布局。而據(jù)了解,20 億幾乎是目前國內(nèi)芯片廠商正在研發(fā)的終端芯片主流支持的參數(shù)規(guī)模,而面壁正是這一參數(shù)量級的代表性玩家。

而近日,主打「小鋼炮」的面壁智能所發(fā)布的新成果更尤為值得關(guān)注!繼被吳恩達大力推廣的 ChatDev 后,面壁在端側(cè)模型上頻出奇招,再次推出端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 與多模態(tài)巨無霸 Gemini Pro,引起了海內(nèi)外的廣泛關(guān)注。


1、端側(cè)小模型 SOTA 誕生?

據(jù)了解,面壁智能最新發(fā)布的多模態(tài)模型 MiniCPM-Llama3-V 2.5 性能飛躍,今非昔比:

  • 多模態(tài)能力飛升:參數(shù)規(guī)模僅 8B,綜合性能卻超越谷歌的多模態(tài)巨無霸 Gemini Pro 與 OpenAI 的 GPT-4V;

  • OCR 能力 SOTA:能夠精準識別長圖、難圖與長文本,9 倍像素更清晰,同時具備識別與推理能力;雷峰網(wǎng)(公眾號:雷峰網(wǎng))

  • 手機端突破:首次整合 NPU 和 CPU 加速框架, 對手機端多模態(tài)大模型進行系系統(tǒng)級加速,速度提升 150 倍;

  • 多語種能力:支持 30 多種語言,除了中英雙語,還包括法語、德語、西班牙語等等主流語言,基本覆蓋了一帶一路的所有國家;

  • ……雷峰網(wǎng)

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

圖注:面壁新模型 MiniCPM-Llama3-V2.5 綜合能力水平指數(shù)

筆者看了表示大為震撼。我們知道面壁在今年 1 月發(fā)布的 MiniCPM 是專攻「以小博大」的端側(cè)模型,但沒想到短短3個月,從 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端側(cè)模型不斷迭代,在多模態(tài)各項能力上竟取得了如此迅速、耀眼的突破!

在綜合評測權(quán)威平臺 OpenCompass 上,面壁 MiniCPM-Llama3-V2.5 以小博大,以 8B 量級綜合性能超越多模態(tài)巨無霸 GPT-4V 和 Gemini Pro,是目前端側(cè)最強的模型:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

多模態(tài)能力是當前大模型最核心的競爭力之一,手機、PC 等智能終端設(shè)備因其高頻的影像視覺處理需求,對在端側(cè)部署 AI 模型提出了更高的多模態(tài)識別與推理能力要求。

具體從 OCR 識別、模型幻覺能力與空間理解能力來看的話,面壁的最新 MiniCPM-Llama3-V2.5 實現(xiàn)了開源模型的性能 SOTA。展開來看:

OCR 識別中,在 OCR 綜合能?權(quán)威榜單 OCRBench 上,面壁「多模態(tài)小鋼炮」超越了Claude 3V Opus、GeminiPro 等標桿模型,也超過了原先排名第一的上海人工智能實驗室 InternVL-Chat-V1.5、最新霸榜第一!

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

排名第二的 InternVL-Chat-V1.5 雖然沒有比面壁 MiniCPM-Llama3-V2.5 落后太多,但前者參數(shù)是后者的 3 倍。雷峰網(wǎng)

幻覺能力上,MiniCPM-Llama3-V 2.5 在Object HalBench 榜單上超越了 GPT-4V 等眾多模型(注:目標幻覺率應(yīng)為0):

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

空間理解能力上,在專注于評估多模態(tài)模型基本現(xiàn)實世界空間理解能力的 RealWorldQA 榜單上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

面壁智能 CTO 曾國洋在數(shù)月前告訴過 AI 科技評論,他一直認為模型的空間理解能力是實現(xiàn) AGI 的幾個重要組成能力之一。要實現(xiàn) AGI,現(xiàn)有的長文本長序列架構(gòu)還不能滿足,AGI 還需要一個更好的框架來解決模型的記憶與學(xué)習問題,一塊是空間記憶,另一塊則是經(jīng)驗學(xué)習。

從這個思路看,面壁智能 MiniCPM-Llama3-V2.5 的發(fā)布,或者不只表明了面壁在端側(cè)模型上的突破,還有更宏大的 AGI 愿景。


2、「識別」、「推理」比翼雙飛

關(guān)于多模態(tài),過去行業(yè)的標桿成果往往以物體精準識別為主,但大規(guī)模預(yù)訓(xùn)練語言模型誕生后,AI 模型的常識與推理能力愈發(fā)成為考量多模態(tài)模型的關(guān)鍵維度。

能同時兼顧「識別」與「推理」能力的多模態(tài)模型鳳毛麟角,此次面壁發(fā)布的 8B 多模態(tài)小模型成為了其中之一。多個案例展示了面壁多模態(tài)小鋼炮的識別-推理能力:

1)《三體》相關(guān)建筑圖識別推理——

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出這些建筑是為了紀念《三體》及其對中國科幻文學(xué)的貢獻而設(shè)計:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

但 GPT-4V 則答非所問:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

2)手機圖片識別與信息提取、結(jié)構(gòu)化輸出——

輸入一張手機拍攝的火車票,MiniCPM-Llama3-V 2.5 能準確提取信息,給出無誤的「json」格式輸出:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

3)高精尖行業(yè)學(xué)術(shù)論文圖表分析——

給 MiniCPM-Llama3-V 2.5 一張包含復(fù)雜邏輯的流程圖:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

MiniCPM-Llama3-V 2.5 不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系 ,還能給出清晰易懂的解釋說明:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

4)長圖長文本識別與信息推理——

輸入一張包含稠密信息的長文長圖:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

向 MiniCPM-Llama3-V 2.5 提問,其能直接根據(jù)長圖信息進行推理問答:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

復(fù)雜推理能力對多模態(tài)大模型至關(guān)重要,它使得模型不僅能理解單一的文本或圖像等模態(tài)信息,還能跨越不同模態(tài)間的綜合信息,做出更加準確和深入的分析。MiniCPM-Llama3-V 2.5 進一步升級,可深入洞察圖像,在更復(fù)雜、更接近人類的水平上進行思考和解決問題,無疑是 AI 大模型中的「小福爾摩斯」。

此外,在視覺一塊,面壁 MiniCPM-V 系列模型也實現(xiàn)了識別圖像像素的飛升。

據(jù)面壁智能透露,有別于傳統(tǒng)技術(shù)僅能識別20萬像素小圖,MiniCPM-V 系列可以高效編碼及無損識別180萬高清像素圖片,并且支持任意長寬比圖像識別、甚至「有點變態(tài)」的 1:9 極限寬高比。

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升


3、多語種能力增強,端側(cè)部署迎來春天

具體在手機、學(xué)習機等等端側(cè)的部署應(yīng)用上,除了識別與推理的能力一體化,面壁 MiniCPM-Llama3-V2.5 的另外兩項優(yōu)勢體現(xiàn)在多語種能力與端側(cè)部署加速上。

多語種能力

得益于 VisCPM 的跨語言泛化技術(shù),在中英雙語多模態(tài)能力的基礎(chǔ)上,MiniCPM-Llama3-V2.5 僅通過少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào),高效泛化支持了德語、法語、西班牙語、意大利語、俄語等 30+ 種語言的多模態(tài)能力,幾乎覆蓋了所有一帶一路的國家,意味著全球上百個國家的數(shù)十億人口,都能與 MiniCPM-Llama3-V2.5 絲滑交互。

在對話中,MiniCPM-Llama3-V2.5 表現(xiàn)出了良好的多語言多模態(tài)對話性能。與目前國內(nèi)較為領(lǐng)先的零一萬物多模態(tài)模型 Yi-VL 34B 為參照,多語言版本 LLaVABench 評測結(jié)果顯示,MiniCPM-Llama3-V2.5 對話能力更勝一籌:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

需要注意的是,并非所有基于 Llama3 微調(diào)的模型都有出色的能力,這中間依然涉及到高門檻的訓(xùn)練技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鑒 Llama3,但在綜合能力上卻遠遠落后于 MiniCPM-Llama3-V2.5:

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

端側(cè)部署

如前所述,由于終端硬件產(chǎn)品的物理限制,部署到端側(cè)的 AI 模型既要滿足硬件的端側(cè)要求,并在成本可控的情況下實現(xiàn)同等參數(shù)性能最佳、同等性能參數(shù)最小。

在圖像編碼方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5 圖像編碼方面實現(xiàn)了 150 倍加速提升。

在語言模型推理方面,目前開源社區(qū)的報告結(jié)果中,Llama 3 語言模型在手機端側(cè)的解碼速度在 0.5 token/s 上下,相比之下,多模態(tài)大模型的端側(cè)運行面臨著更大的效率挑戰(zhàn),經(jīng)過 CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式,面壁將 MiniCPM-Llama3-V 2.5 在手機端的語言解碼速度提升到 3-4 token/s。目前,語言模型的圖像編碼加速也在進行中,更靈敏互動體驗即將到來。

總的來說,面壁最新取得的端側(cè)多模態(tài)模型成果 MiniCPM-Llama3-V 2.5 是國產(chǎn)端側(cè)之光,加速了國產(chǎn)大模型部署在端側(cè)的節(jié)奏,也給端側(cè) AI 行業(yè)提供了多方位的參考。

換言之,在大模型時代,「讓終端硬件變得更智能」不再是一個概念性的說法,而是一個正在發(fā)生的現(xiàn)實。面壁之后,期待更多國產(chǎn)大模型團隊帶來更多振奮人心的端側(cè) AI 創(chuàng)新成果!

MiniCPM-Llama3-V 2.5開源地址:?https://github.com/OpenBMB/MiniCPM-V


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

國產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說