0
本文作者: 陳彩嫻 | 2024-05-20 16:10 |
在剛剛過(guò)去的機(jī)器人學(xué)術(shù)頂會(huì) ICRA 2024 上,「具身智能」成為熱議,其中圍繞具身智能的一個(gè)普遍疑問(wèn)是:若將 AI 大模型應(yīng)用到消費(fèi)級(jí)機(jī)器人領(lǐng)域,首先是模型適配終端,還是終端適配模型?
過(guò)去一年,由于 6B、7B 等小模型的成果井噴,以及 MoE 訓(xùn)練技術(shù)的越發(fā)成熟,將模型跑在手機(jī)、學(xué)習(xí)機(jī)、平板電腦、機(jī)器人甚至汽車等等終端應(yīng)用上的想象力開(kāi)始變大,無(wú)論算法層還是硬件層都「蠢蠢欲動(dòng)」。誠(chéng)然,這已經(jīng)成為一個(gè)明朗的行業(yè)方向,但在系統(tǒng)整合上卻要面臨不同話語(yǔ)體系之間的博弈。
以機(jī)器人為例。從算法層看,將模型做小是關(guān)鍵,但硬件廠商關(guān)心的卻是模型能否適配自身的產(chǎn)品:
首先,消費(fèi)機(jī)器人有固定的產(chǎn)品周期,從研發(fā)到投入市場(chǎng)往往要經(jīng)歷大半年到一年半左右的時(shí)間。因此,盡管 ChatGPT 破圈后已經(jīng)過(guò)去一年多,但目前已經(jīng)上市的掃地機(jī)中卻沒(méi)有已經(jīng)部署大模型的產(chǎn)品;
其次,硬件底層的芯片有上限,芯片設(shè)計(jì)完后就是一個(gè)性能參數(shù)限定的「物理」產(chǎn)品,其中帶寬能跑多少、內(nèi)存能用多大都已經(jīng)是已知數(shù),這就直接了應(yīng)用在硬件上的 AI 模型能用多大參數(shù)、跑多快速度。
因此,機(jī)器人廠商普遍關(guān)注兩個(gè)問(wèn)題:一是如何將目標(biāo)尺寸的大模型跑在固有的芯片上,二是如何使大模型服務(wù)好已有的場(chǎng)景,如掃地、語(yǔ)音交互等。
同樣的問(wèn)題也出現(xiàn)在其他的終端應(yīng)用領(lǐng)域,如手機(jī)、平板、學(xué)習(xí)機(jī)等。此外,由于視覺(jué)是上一代 AI 與終端應(yīng)用結(jié)合的主流,如智能手機(jī)中的人臉識(shí)別、語(yǔ)音交互,多模態(tài)也成為端側(cè)大模型的性能首選。
這意味著,接下來(lái)的端側(cè)大模型爆發(fā)將離不開(kāi)三個(gè)要素:一,滿足產(chǎn)品形態(tài)與適配芯片的需求;二,具備多模態(tài)模型能力;三,能夠在長(zhǎng)周期的產(chǎn)品研發(fā)投入中保持具有競(jìng)爭(zhēng)力的價(jià)格優(yōu)勢(shì)。
但目前,國(guó)內(nèi)外大模型廠商能聚焦、兼顧三者的團(tuán)隊(duì)寥寥無(wú)幾。這意味著,在未來(lái)的 2024 年乃至 2025 年,能夠在適配、性能與價(jià)格上率先拔得頭籌的算法團(tuán)隊(duì),將能贏得端側(cè) AI 領(lǐng)域的最終話語(yǔ)權(quán)。
圖注:OpenCompass 榜單變化顯示,小參數(shù)、高性能模型逐漸成為 AI 技術(shù)趨勢(shì)
據(jù) AI 科技評(píng)論觀察,國(guó)內(nèi)的大模型團(tuán)隊(duì)在端側(cè)上也發(fā)力迅猛。以多模態(tài)能力為例,國(guó)外 OpenAI、谷歌,國(guó)內(nèi)阿里、面壁智能等均在 20B 以內(nèi)參數(shù)規(guī)模的小模型上有布局。而據(jù)了解,20 億幾乎是目前國(guó)內(nèi)芯片廠商正在研發(fā)的終端芯片主流支持的參數(shù)規(guī)模,而面壁正是這一參數(shù)量級(jí)的代表性玩家。
而近日,主打「小鋼炮」的面壁智能所發(fā)布的新成果更尤為值得關(guān)注!繼被吳恩達(dá)大力推廣的 ChatDev 后,面壁在端側(cè)模型上頻出奇招,再次推出端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5,直接干翻 GPT-4V 與多模態(tài)巨無(wú)霸 Gemini Pro,引起了海內(nèi)外的廣泛關(guān)注。
1、端側(cè)小模型 SOTA 誕生?
據(jù)了解,面壁智能最新發(fā)布的多模態(tài)模型 MiniCPM-Llama3-V 2.5 性能飛躍,今非昔比:
多模態(tài)能力飛升:參數(shù)規(guī)模僅 8B,綜合性能卻超越谷歌的多模態(tài)巨無(wú)霸 Gemini Pro 與 OpenAI 的 GPT-4V;
OCR 能力 SOTA:能夠精準(zhǔn)識(shí)別長(zhǎng)圖、難圖與長(zhǎng)文本,9 倍像素更清晰,同時(shí)具備識(shí)別與推理能力;雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
手機(jī)端突破:首次整合 NPU 和 CPU 加速框架, 對(duì)手機(jī)端多模態(tài)大模型進(jìn)行系系統(tǒng)級(jí)加速,速度提升 150 倍;
多語(yǔ)種能力:支持 30 多種語(yǔ)言,除了中英雙語(yǔ),還包括法語(yǔ)、德語(yǔ)、西班牙語(yǔ)等等主流語(yǔ)言,基本覆蓋了一帶一路的所有國(guó)家;
……雷峰網(wǎng)
圖注:面壁新模型 MiniCPM-Llama3-V2.5 綜合能力水平指數(shù)
筆者看了表示大為震撼。我們知道面壁在今年 1 月發(fā)布的 MiniCPM 是專攻「以小博大」的端側(cè)模型,但沒(méi)想到短短3個(gè)月,從 MiniCPM-V 到 MiniCPM-V 2.0、再到 MiniCPM-Llama3-V2.5,面壁智能的端側(cè)模型不斷迭代,在多模態(tài)各項(xiàng)能力上竟取得了如此迅速、耀眼的突破!
在綜合評(píng)測(cè)權(quán)威平臺(tái) OpenCompass 上,面壁 MiniCPM-Llama3-V2.5 以小博大,以 8B 量級(jí)綜合性能超越多模態(tài)巨無(wú)霸 GPT-4V 和 Gemini Pro,是目前端側(cè)最強(qiáng)的模型:
多模態(tài)能力是當(dāng)前大模型最核心的競(jìng)爭(zhēng)力之一,手機(jī)、PC 等智能終端設(shè)備因其高頻的影像視覺(jué)處理需求,對(duì)在端側(cè)部署 AI 模型提出了更高的多模態(tài)識(shí)別與推理能力要求。
具體從 OCR 識(shí)別、模型幻覺(jué)能力與空間理解能力來(lái)看的話,面壁的最新 MiniCPM-Llama3-V2.5 實(shí)現(xiàn)了開(kāi)源模型的性能 SOTA。展開(kāi)來(lái)看:
OCR 識(shí)別中,在 OCR 綜合能?權(quán)威榜單 OCRBench 上,面壁「多模態(tài)小鋼炮」超越了Claude 3V Opus、GeminiPro 等標(biāo)桿模型,也超過(guò)了原先排名第一的上海人工智能實(shí)驗(yàn)室 InternVL-Chat-V1.5、最新霸榜第一!
排名第二的 InternVL-Chat-V1.5 雖然沒(méi)有比面壁 MiniCPM-Llama3-V2.5 落后太多,但前者參數(shù)是后者的 3 倍。雷峰網(wǎng)
幻覺(jué)能力上,MiniCPM-Llama3-V 2.5 在Object HalBench 榜單上超越了 GPT-4V 等眾多模型(注:目標(biāo)幻覺(jué)率應(yīng)為0):
空間理解能力上,在專注于評(píng)估多模態(tài)模型基本現(xiàn)實(shí)世界空間理解能力的 RealWorldQA 榜單上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro:
面壁智能 CTO 曾國(guó)洋在數(shù)月前告訴過(guò) AI 科技評(píng)論,他一直認(rèn)為模型的空間理解能力是實(shí)現(xiàn) AGI 的幾個(gè)重要組成能力之一。要實(shí)現(xiàn) AGI,現(xiàn)有的長(zhǎng)文本長(zhǎng)序列架構(gòu)還不能滿足,AGI 還需要一個(gè)更好的框架來(lái)解決模型的記憶與學(xué)習(xí)問(wèn)題,一塊是空間記憶,另一塊則是經(jīng)驗(yàn)學(xué)習(xí)。
從這個(gè)思路看,面壁智能 MiniCPM-Llama3-V2.5 的發(fā)布,或者不只表明了面壁在端側(cè)模型上的突破,還有更宏大的 AGI 愿景。
2、「識(shí)別」、「推理」比翼雙飛
關(guān)于多模態(tài),過(guò)去行業(yè)的標(biāo)桿成果往往以物體精準(zhǔn)識(shí)別為主,但大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型誕生后,AI 模型的常識(shí)與推理能力愈發(fā)成為考量多模態(tài)模型的關(guān)鍵維度。
能同時(shí)兼顧「識(shí)別」與「推理」能力的多模態(tài)模型鳳毛麟角,此次面壁發(fā)布的 8B 多模態(tài)小模型成為了其中之一。多個(gè)案例展示了面壁多模態(tài)小鋼炮的識(shí)別-推理能力:
1)《三體》相關(guān)建筑圖識(shí)別推理——
面壁智能 MiniCPM-Llama3-V 2.5 很快就能推理出這些建筑是為了紀(jì)念《三體》及其對(duì)中國(guó)科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì):
但 GPT-4V 則答非所問(wèn):
2)手機(jī)圖片識(shí)別與信息提取、結(jié)構(gòu)化輸出——
輸入一張手機(jī)拍攝的火車票,MiniCPM-Llama3-V 2.5 能準(zhǔn)確提取信息,給出無(wú)誤的「json」格式輸出:
3)高精尖行業(yè)學(xué)術(shù)論文圖表分析——
給 MiniCPM-Llama3-V 2.5 一張包含復(fù)雜邏輯的流程圖:
MiniCPM-Llama3-V 2.5 不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系 ,還能給出清晰易懂的解釋說(shuō)明:
4)長(zhǎng)圖長(zhǎng)文本識(shí)別與信息推理——
輸入一張包含稠密信息的長(zhǎng)文長(zhǎng)圖:
向 MiniCPM-Llama3-V 2.5 提問(wèn),其能直接根據(jù)長(zhǎng)圖信息進(jìn)行推理問(wèn)答:
復(fù)雜推理能力對(duì)多模態(tài)大模型至關(guān)重要,它使得模型不僅能理解單一的文本或圖像等模態(tài)信息,還能跨越不同模態(tài)間的綜合信息,做出更加準(zhǔn)確和深入的分析。MiniCPM-Llama3-V 2.5 進(jìn)一步升級(jí),可深入洞察圖像,在更復(fù)雜、更接近人類的水平上進(jìn)行思考和解決問(wèn)題,無(wú)疑是 AI 大模型中的「小福爾摩斯」。
此外,在視覺(jué)一塊,面壁 MiniCPM-V 系列模型也實(shí)現(xiàn)了識(shí)別圖像像素的飛升。
據(jù)面壁智能透露,有別于傳統(tǒng)技術(shù)僅能識(shí)別20萬(wàn)像素小圖,MiniCPM-V 系列可以高效編碼及無(wú)損識(shí)別180萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比圖像識(shí)別、甚至「有點(diǎn)變態(tài)」的 1:9 極限寬高比。
3、多語(yǔ)種能力增強(qiáng),端側(cè)部署迎來(lái)春天
具體在手機(jī)、學(xué)習(xí)機(jī)等等端側(cè)的部署應(yīng)用上,除了識(shí)別與推理的能力一體化,面壁 MiniCPM-Llama3-V2.5 的另外兩項(xiàng)優(yōu)勢(shì)體現(xiàn)在多語(yǔ)種能力與端側(cè)部署加速上。
多語(yǔ)種能力
得益于 VisCPM 的跨語(yǔ)言泛化技術(shù),在中英雙語(yǔ)多模態(tài)能力的基礎(chǔ)上,MiniCPM-Llama3-V2.5 僅通過(guò)少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào),高效泛化支持了德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、俄語(yǔ)等 30+ 種語(yǔ)言的多模態(tài)能力,幾乎覆蓋了所有一帶一路的國(guó)家,意味著全球上百個(gè)國(guó)家的數(shù)十億人口,都能與 MiniCPM-Llama3-V2.5 絲滑交互。
在對(duì)話中,MiniCPM-Llama3-V2.5 表現(xiàn)出了良好的多語(yǔ)言多模態(tài)對(duì)話性能。與目前國(guó)內(nèi)較為領(lǐng)先的零一萬(wàn)物多模態(tài)模型 Yi-VL 34B 為參照,多語(yǔ)言版本 LLaVABench 評(píng)測(cè)結(jié)果顯示,MiniCPM-Llama3-V2.5 對(duì)話能力更勝一籌:
需要注意的是,并非所有基于 Llama3 微調(diào)的模型都有出色的能力,這中間依然涉及到高門檻的訓(xùn)練技巧。例如,Bunny-Llama-3-8B、XTuner-Llama3-8B-v1.1、LLaVA-NeXT Llama-3-8B 等模型均是借鑒 Llama3,但在綜合能力上卻遠(yuǎn)遠(yuǎn)落后于 MiniCPM-Llama3-V2.5:
端側(cè)部署
如前所述,由于終端硬件產(chǎn)品的物理限制,部署到端側(cè)的 AI 模型既要滿足硬件的端側(cè)要求,并在成本可控的情況下實(shí)現(xiàn)同等參數(shù)性能最佳、同等性能參數(shù)最小。
在圖像編碼方面,面壁首次整合 NPU 和 CPU 加速框架,在 MiniCPM-Llama3-V 2.5 圖像編碼方面實(shí)現(xiàn)了 150 倍加速提升。
在語(yǔ)言模型推理方面,目前開(kāi)源社區(qū)的報(bào)告結(jié)果中,Llama 3 語(yǔ)言模型在手機(jī)端側(cè)的解碼速度在 0.5 token/s 上下,相比之下,多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn),經(jīng)過(guò) CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式,面壁將 MiniCPM-Llama3-V 2.5 在手機(jī)端的語(yǔ)言解碼速度提升到 3-4 token/s。目前,語(yǔ)言模型的圖像編碼加速也在進(jìn)行中,更靈敏互動(dòng)體驗(yàn)即將到來(lái)。
總的來(lái)說(shuō),面壁最新取得的端側(cè)多模態(tài)模型成果 MiniCPM-Llama3-V 2.5 是國(guó)產(chǎn)端側(cè)之光,加速了國(guó)產(chǎn)大模型部署在端側(cè)的節(jié)奏,也給端側(cè) AI 行業(yè)提供了多方位的參考。
換言之,在大模型時(shí)代,「讓終端硬件變得更智能」不再是一個(gè)概念性的說(shuō)法,而是一個(gè)正在發(fā)生的現(xiàn)實(shí)。面壁之后,期待更多國(guó)產(chǎn)大模型團(tuán)隊(duì)帶來(lái)更多振奮人心的端側(cè) AI 創(chuàng)新成果!
MiniCPM-Llama3-V 2.5開(kāi)源地址:?https://github.com/OpenBMB/MiniCPM-V
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。