丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

本文作者: 陳彩嫻 2024-05-20 16:10
導(dǎo)語(yǔ):端側(cè)大模型的解耦難題:是模型適配終端,還是終端適配模型?

在剛剛過(guò)去的機(jī)器人學(xué)術(shù)頂會(huì) ICRA 2024 上,「具身智能」成為熱議,其中圍繞具身智能的一個(gè)普遍疑問(wèn)是:若將 AI 大模型應(yīng)用到消費(fèi)級(jí)機(jī)器人領(lǐng)域,首先是模型適配終端,還是終端適配模型?

過(guò)去一年,由于 6B、7B 等小模型的成果井噴,以及 MoE 訓(xùn)練技術(shù)的越發(fā)成熟,將模型跑在手機(jī)、學(xué)習(xí)機(jī)、平板電腦、機(jī)器人甚至汽車等等終端應(yīng)用上的想象力開(kāi)始變大,無(wú)論算法層還是硬件層都「蠢蠢欲動(dòng)」。誠(chéng)然,這已經(jīng)成為一個(gè)明朗的行業(yè)方向,但在系統(tǒng)整合上卻要面臨不同話語(yǔ)體系之間的博弈。

以機(jī)器人為例。從算法層看,將模型做小是關(guān)鍵,但硬件廠商關(guān)心的卻是模型能否適配自身的產(chǎn)品:

首先,消費(fèi)機(jī)器人有固定的產(chǎn)品周期,從研發(fā)到投入市場(chǎng)往往要經(jīng)歷大半年到一年半左右的時(shí)間。因此,盡管 ChatGPT 破圈后已經(jīng)過(guò)去一年多,但目前已經(jīng)上市的掃地機(jī)中卻沒(méi)有已經(jīng)部署大模型的產(chǎn)品;

其次,硬件底層的芯片有上限,芯片設(shè)計(jì)完后就是一個(gè)性能參數(shù)限定的「物理」產(chǎn)品,其中帶寬能跑多少、內(nèi)存能用多大都已經(jīng)是已知數(shù),這就直接了應(yīng)用在硬件上的 AI 模型能用多大參數(shù)、跑多快速度。

因此,機(jī)器人廠商普遍關(guān)注兩個(gè)問(wèn)題:一是如何將目標(biāo)尺寸的大模型跑在固有的芯片上,二是如何使大模型服務(wù)好已有的場(chǎng)景,如掃地、語(yǔ)音交互等。

同樣的問(wèn)題也出現(xiàn)在其他的終端應(yīng)用領(lǐng)域,如手機(jī)、平板、學(xué)習(xí)機(jī)等。此外,由于視覺(jué)是上一代 AI 與終端應(yīng)用結(jié)合的主流,如智能手機(jī)中的人臉識(shí)別、語(yǔ)音交互,多模態(tài)也成為端側(cè)大模型的性能首選。

這意味著,接下來(lái)的端側(cè)大模型爆發(fā)將離不開(kāi)三個(gè)要素:一,滿足產(chǎn)品形態(tài)與適配芯片的需求;二,具備多模態(tài)模型能力;三,能夠在長(zhǎng)周期的產(chǎn)品研發(fā)投入中保持具有競(jìng)爭(zhēng)力的價(jià)格優(yōu)勢(shì)。

但目前,國(guó)內(nèi)外大模型廠商能聚焦、兼顧三者的團(tuán)隊(duì)寥寥無(wú)幾。這意味著,在未來(lái)的 2024 年乃至 2025 年,能夠在適配、性能與價(jià)格上率先拔得頭籌的算法團(tuán)隊(duì),將能贏得端側(cè) AI 領(lǐng)域的最終話語(yǔ)權(quán)。

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

圖注:OpenCompass 榜單變化顯示,小參數(shù)、高性能模型逐漸成為 AI 技術(shù)趨勢(shì)

據(jù) AI 科技評(píng)論觀察,國(guó)內(nèi)的大模型團(tuán)隊(duì)在端側(cè)上也發(fā)力迅猛。以多模態(tài)能力為例,國(guó)外 OpenAI、谷歌,國(guó)內(nèi)阿里、面壁智能等均在 20B 以內(nèi)參數(shù)規(guī)模的小模型上有布局。而據(jù)了解,20 億幾乎是目前國(guó)內(nèi)芯片廠商正在研發(fā)的終端芯片主流支持的參數(shù)規(guī)模,而面壁正是這一參數(shù)量級(jí)的代表性玩家。

而近日,主打「小鋼炮」的面壁智能所發(fā)布的新成果更尤為值得關(guān)注!繼被吳恩達(dá)大力推廣的 ChatDev 后,面壁在端側(cè)模型上頻出奇招,再次推出端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 與多模態(tài)巨無(wú)霸 Gemini Pro,引起了海內(nèi)外的廣泛關(guān)注。


1、端側(cè)小模型 SOTA 誕生?

據(jù)了解,面壁智能最新發(fā)布的多模態(tài)模型 MiniCPM-Llama3-V 2.5 性能飛躍,今非昔比:

  • 多模態(tài)能力飛升:參數(shù)規(guī)模僅 8B,綜合性能卻超越谷歌的多模態(tài)巨無(wú)霸 Gemini Pro 與 OpenAI 的 GPT-4V;

  • OCR 能力 SOTA:能夠精準(zhǔn)識(shí)別長(zhǎng)圖、難圖與長(zhǎng)文本,9 倍像素更清晰,同時(shí)具備識(shí)別與推理能力;雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

  • 手機(jī)端突破:首次整合 NPU 和 CPU 加速框架, 對(duì)手機(jī)端多模態(tài)大模型進(jìn)行系系統(tǒng)級(jí)加速,速度提升 150 倍;

  • 多語(yǔ)種能力:支持 30 多種語(yǔ)言,除了中英雙語(yǔ),還包括法語(yǔ)、德語(yǔ)、西班牙語(yǔ)等等主流語(yǔ)言,基本覆蓋了一帶一路的所有國(guó)家;

  • ……雷峰網(wǎng)

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

圖注:面壁新模型 MiniCPM-Llama3-V2.5 綜合能力水平指數(shù)

筆者看了表示大為震撼。我們知道面壁在今年 1 月發(fā)布的 MiniCPM 是專攻「以小博大」的端側(cè)模型,但沒(méi)想到短短3個(gè)月,從 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端側(cè)模型不斷迭代,在多模態(tài)各項(xiàng)能力上竟取得了如此迅速、耀眼的突破!

在綜合評(píng)測(cè)權(quán)威平臺(tái) OpenCompass 上,面壁 MiniCPM-Llama3-V2.5 以小博大,以 8B 量級(jí)綜合性能超越多模態(tài)巨無(wú)霸 GPT-4V 和 Gemini Pro,是目前端側(cè)最強(qiáng)的模型:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

多模態(tài)能力是當(dāng)前大模型最核心的競(jìng)爭(zhēng)力之一,手機(jī)、PC 等智能終端設(shè)備因其高頻的影像視覺(jué)處理需求,對(duì)在端側(cè)部署 AI 模型提出了更高的多模態(tài)識(shí)別與推理能力要求。

具體從 OCR 識(shí)別、模型幻覺(jué)能力與空間理解能力來(lái)看的話,面壁的最新 MiniCPM-Llama3-V2.5 實(shí)現(xiàn)了開(kāi)源模型的性能 SOTA。展開(kāi)來(lái)看:

OCR 識(shí)別中,在 OCR 綜合能?權(quán)威榜單 OCRBench 上,面壁「多模態(tài)小鋼炮」超越了Claude 3V Opus、GeminiPro 等標(biāo)桿模型,也超過(guò)了原先排名第一的上海人工智能實(shí)驗(yàn)室 InternVL-Chat-V1.5、最新霸榜第一!

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

排名第二的 InternVL-Chat-V1.5 雖然沒(méi)有比面壁 MiniCPM-Llama3-V2.5 落后太多,但前者參數(shù)是后者的 3 倍。雷峰網(wǎng)

幻覺(jué)能力上,MiniCPM-Llama3-V 2.5 在Object HalBench 榜單上超越了 GPT-4V 等眾多模型(注:目標(biāo)幻覺(jué)率應(yīng)為0):

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

空間理解能力上,在專注于評(píng)估多模態(tài)模型基本現(xiàn)實(shí)世界空間理解能力的 RealWorldQA 榜單上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

面壁智能 CTO 曾國(guó)洋在數(shù)月前告訴過(guò) AI 科技評(píng)論,他一直認(rèn)為模型的空間理解能力是實(shí)現(xiàn) AGI 的幾個(gè)重要組成能力之一。要實(shí)現(xiàn) AGI,現(xiàn)有的長(zhǎng)文本長(zhǎng)序列架構(gòu)還不能滿足,AGI 還需要一個(gè)更好的框架來(lái)解決模型的記憶與學(xué)習(xí)問(wèn)題,一塊是空間記憶,另一塊則是經(jīng)驗(yàn)學(xué)習(xí)。

從這個(gè)思路看,面壁智能 MiniCPM-Llama3-V2.5 的發(fā)布,或者不只表明了面壁在端側(cè)模型上的突破,還有更宏大的 AGI 愿景。


2、「識(shí)別」、「推理」比翼雙飛

關(guān)于多模態(tài),過(guò)去行業(yè)的標(biāo)桿成果往往以物體精準(zhǔn)識(shí)別為主,但大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型誕生后,AI 模型的常識(shí)與推理能力愈發(fā)成為考量多模態(tài)模型的關(guān)鍵維度。

能同時(shí)兼顧「識(shí)別」與「推理」能力的多模態(tài)模型鳳毛麟角,此次面壁發(fā)布的 8B 多模態(tài)小模型成為了其中之一。多個(gè)案例展示了面壁多模態(tài)小鋼炮的識(shí)別-推理能力:

1)《三體》相關(guān)建筑圖識(shí)別推理——

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出這些建筑是為了紀(jì)念《三體》及其對(duì)中國(guó)科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì):

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

但 GPT-4V 則答非所問(wèn):

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

2)手機(jī)圖片識(shí)別與信息提取、結(jié)構(gòu)化輸出——

輸入一張手機(jī)拍攝的火車票,MiniCPM-Llama3-V 2.5 能準(zhǔn)確提取信息,給出無(wú)誤的「json」格式輸出:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

3)高精尖行業(yè)學(xué)術(shù)論文圖表分析——

給 MiniCPM-Llama3-V 2.5 一張包含復(fù)雜邏輯的流程圖:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

MiniCPM-Llama3-V 2.5 不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系 ,還能給出清晰易懂的解釋說(shuō)明:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

4)長(zhǎng)圖長(zhǎng)文本識(shí)別與信息推理——

輸入一張包含稠密信息的長(zhǎng)文長(zhǎng)圖:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

向 MiniCPM-Llama3-V 2.5 提問(wèn),其能直接根據(jù)長(zhǎng)圖信息進(jìn)行推理問(wèn)答:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

復(fù)雜推理能力對(duì)多模態(tài)大模型至關(guān)重要,它使得模型不僅能理解單一的文本或圖像等模態(tài)信息,還能跨越不同模態(tài)間的綜合信息,做出更加準(zhǔn)確和深入的分析。MiniCPM-Llama3-V 2.5 進(jìn)一步升級(jí),可深入洞察圖像,在更復(fù)雜、更接近人類的水平上進(jìn)行思考和解決問(wèn)題,無(wú)疑是 AI 大模型中的「小福爾摩斯」。

此外,在視覺(jué)一塊,面壁 MiniCPM-V 系列模型也實(shí)現(xiàn)了識(shí)別圖像像素的飛升。

據(jù)面壁智能透露,有別于傳統(tǒng)技術(shù)僅能識(shí)別20萬(wàn)像素小圖,MiniCPM-V 系列可以高效編碼及無(wú)損識(shí)別180萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比圖像識(shí)別、甚至「有點(diǎn)變態(tài)」的 1:9 極限寬高比。

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升


3、多語(yǔ)種能力增強(qiáng),端側(cè)部署迎來(lái)春天

具體在手機(jī)、學(xué)習(xí)機(jī)等等端側(cè)的部署應(yīng)用上,除了識(shí)別與推理的能力一體化,面壁 MiniCPM-Llama3-V2.5 的另外兩項(xiàng)優(yōu)勢(shì)體現(xiàn)在多語(yǔ)種能力與端側(cè)部署加速上。

多語(yǔ)種能力

得益于 VisCPM 的跨語(yǔ)言泛化技術(shù),在中英雙語(yǔ)多模態(tài)能力的基礎(chǔ)上,MiniCPM-Llama3-V2.5 僅通過(guò)少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào),高效泛化支持了德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、俄語(yǔ)等 30+ 種語(yǔ)言的多模態(tài)能力,幾乎覆蓋了所有一帶一路的國(guó)家,意味著全球上百個(gè)國(guó)家的數(shù)十億人口,都能與 MiniCPM-Llama3-V2.5 絲滑交互。

在對(duì)話中,MiniCPM-Llama3-V2.5 表現(xiàn)出了良好的多語(yǔ)言多模態(tài)對(duì)話性能。與目前國(guó)內(nèi)較為領(lǐng)先的零一萬(wàn)物多模態(tài)模型 Yi-VL 34B 為參照,多語(yǔ)言版本 LLaVABench 評(píng)測(cè)結(jié)果顯示,MiniCPM-Llama3-V2.5 對(duì)話能力更勝一籌:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

需要注意的是,并非所有基于 Llama3 微調(diào)的模型都有出色的能力,這中間依然涉及到高門檻的訓(xùn)練技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鑒 Llama3,但在綜合能力上卻遠(yuǎn)遠(yuǎn)落后于 MiniCPM-Llama3-V2.5:

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

端側(cè)部署

如前所述,由于終端硬件產(chǎn)品的物理限制,部署到端側(cè)的 AI 模型既要滿足硬件的端側(cè)要求,并在成本可控的情況下實(shí)現(xiàn)同等參數(shù)性能最佳、同等性能參數(shù)最小。

在圖像編碼方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5 圖像編碼方面實(shí)現(xiàn)了 150 倍加速提升。

在語(yǔ)言模型推理方面,目前開(kāi)源社區(qū)的報(bào)告結(jié)果中,Llama 3 語(yǔ)言模型在手機(jī)端側(cè)的解碼速度在 0.5 token/s 上下,相比之下,多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn),經(jīng)過(guò) CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式,面壁將 MiniCPM-Llama3-V 2.5 在手機(jī)端的語(yǔ)言解碼速度提升到 3-4 token/s。目前,語(yǔ)言模型的圖像編碼加速也在進(jìn)行中,更靈敏互動(dòng)體驗(yàn)即將到來(lái)。

總的來(lái)說(shuō),面壁最新取得的端側(cè)多模態(tài)模型成果 MiniCPM-Llama3-V 2.5 是國(guó)產(chǎn)端側(cè)之光,加速了國(guó)產(chǎn)大模型部署在端側(cè)的節(jié)奏,也給端側(cè) AI 行業(yè)提供了多方位的參考。

換言之,在大模型時(shí)代,「讓終端硬件變得更智能」不再是一個(gè)概念性的說(shuō)法,而是一個(gè)正在發(fā)生的現(xiàn)實(shí)。面壁之后,期待更多國(guó)產(chǎn)大模型團(tuán)隊(duì)帶來(lái)更多振奮人心的端側(cè) AI 創(chuàng)新成果!

MiniCPM-Llama3-V 2.5開(kāi)源地址:?https://github.com/OpenBMB/MiniCPM-V


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

國(guó)產(chǎn)端側(cè)小模型超越 GPT-4V,「多模態(tài)」能力飛升

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)