0
本文作者: 朱可軒 | 2024-08-07 09:42 |
真實(shí)世界的視覺(jué)信息是流動(dòng)的,而在處理流動(dòng)性的視覺(jué)信息上,端側(cè)視頻理解具有天然優(yōu)勢(shì),手機(jī)、PC、AR、機(jī)器人、智能座駕等端側(cè)設(shè)備自帶的攝像頭,具有天然的多模態(tài)輸入能力。
與云端相比,端側(cè)離用戶(hù)更近,鏈路更短,效率更高,同時(shí)具有更強(qiáng)的信息安全優(yōu)勢(shì)。
今日,面壁正式發(fā)布了 MiniCPM-V 2.6,在端側(cè)性能實(shí)現(xiàn)全面對(duì)標(biāo) GPT-4V——
據(jù)介紹,MiniCPM-V 2.6 首次在端側(cè)實(shí)現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V,三項(xiàng)能力均取得 20B 以下 SOTA 成績(jī),單圖理解越級(jí)比肩 Gemini 1.5 Pro 和 GPT-4o mini 。
而類(lèi)比知識(shí)密度來(lái)看,得益于視覺(jué) token 相比上一代下降 30% ,比同類(lèi)模型低 75%,MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)。
值得一提的是,面壁還將“實(shí)時(shí)”視頻理解、多圖聯(lián)合理解、多圖 ICL等能力首次搬上了端側(cè)。
量化后端側(cè)內(nèi)存僅占 6 GB,端側(cè)推理速度達(dá) 18 tokens/s,相比上代模型快 33%。并且發(fā)布即支持 llama.cpp、ollama、vllm 推理,且支持多種語(yǔ)言。
實(shí)時(shí)視頻、多圖聯(lián)合理解,首次上端
有了實(shí)時(shí)視頻理解功能,大模型猶如擁有一雙“眼睛”,能夠?qū)崟r(shí)看到真實(shí)世界,這是多模態(tài)大模型走向具身智能等更多實(shí)際領(lǐng)域,實(shí)現(xiàn) AGI 的必要條件之一,此外實(shí)時(shí)視頻理解功能提升人機(jī)交互的自然度。
此次,面壁新發(fā)布的 MiniCPM-V 2.6 讓實(shí)時(shí)視頻理解功能首次運(yùn)行在了端側(cè)。
此外,對(duì)于「太長(zhǎng)不看」的視頻,現(xiàn)在可以直接把文件拖進(jìn)來(lái),讓模型為你總結(jié)重點(diǎn)信息,不用看完、不用倍速、也不用快進(jìn)。
這段 1 分鐘左右的天氣預(yù)報(bào)視頻,MiniCPM-V 2.6 能在沒(méi)有聽(tīng)到任何語(yǔ)音的情況下,發(fā)揮強(qiáng)大的視頻OCR功能,識(shí)別出視頻畫(huà)面里密集的文字,給出不同視頻段落中不同城市的詳細(xì)天氣描述:
MiniCPM-V 2.6 的回答(注:該結(jié)果為代碼環(huán)境中復(fù)現(xiàn))
除視頻多模態(tài)外,在多圖理解方面,最新發(fā)布的 MiniCPM-V 2.6 還首次將多圖聯(lián)合理解、多圖ICL(上下文少樣本學(xué)習(xí) )功能集成在端側(cè)模型,這也是此前 GPT-4V 引以為傲的能力。
在多圖聯(lián)合理解方面,面壁例舉了如下場(chǎng)景——記賬或報(bào)銷(xiāo)難題令人頭疼,小票上密密麻麻的數(shù)字難以辨別,更別提進(jìn)行繁瑣的總賬計(jì)算。
此時(shí),可以拍照全部甩給 MiniCPM-V 2.6,在 OCR 能力+CoT (思維鏈)能力的加持下,MiniCPM-V 2.6 可以找出每張小票的金額,并計(jì)算總賬。
不僅如此,在端側(cè)多模態(tài)推理能力方面,MiniCPM-V 2.6 也順利追趕 GPT-4V。
比如這道 GPT-4V 官方演示經(jīng)典命題:調(diào)整自行車(chē)車(chē)座。這個(gè)對(duì)人很簡(jiǎn)單的問(wèn)題對(duì)模型卻非常困難,它非??简?yàn)多模態(tài)模型的復(fù)雜推理能力和對(duì)物理常識(shí)的掌握能力。
僅 8B 的 MiniCPM-V 2.6 展現(xiàn)出順利完成這項(xiàng)挑戰(zhàn)的潛力,通過(guò)和模型進(jìn)行多圖多輪對(duì)話(huà),它清晰地告知完成調(diào)低自行車(chē)車(chē)座的每一個(gè)詳細(xì)步驟,還能根據(jù)說(shuō)明書(shū)和工具箱幫你找到合適的工具。
MiniCPM-V 2.6 的“調(diào)整自行車(chē)車(chē)座”測(cè)試
值得一提的是,MiniCPM-V 2.6 的理解能力還不止步于表面,對(duì)于梗圖背后的槽點(diǎn)也能展開(kāi)理解。
比如,讓 MiniCPM-V 2.6 解釋下面兩張圖背后的故事:
MiniCPM-V 2.6 能夠通過(guò)OCR識(shí)別到兩張圖片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,并進(jìn)一步推理出“WFH”居家辦公狀態(tài)。
隨后,結(jié)合兩張圖片的視覺(jué)信息聯(lián)合推理出“工作在家時(shí),8:59還在床上睡覺(jué),9點(diǎn)立馬出現(xiàn)在視頻會(huì)議上”的居家辦公的“抓狂”狀態(tài)。
當(dāng)然,MiniCPM-V 2.6 的單圖理解能力也較為理想,其也能揣測(cè)出梗圖中很多未明顯露出的潛臺(tái)詞。
而就多圖 ICL 理解而言,上下文少樣本學(xué)習(xí)能讓模型無(wú)需 fine-tune,即可快速適配到特定領(lǐng)域和任務(wù),提高模型的輸出穩(wěn)定性。對(duì)此,MiniCPM-V 2.6 也交出“答卷”:
提供給 MiniCPM-V 2.6 兩組神轉(zhuǎn)折畫(huà)面,以及對(duì)畫(huà)面中的“梗”給出示意文字描述,例如一個(gè)戴著手套、重視衛(wèi)生的廚師,下一秒?yún)s用戴手套的手直接去拿實(shí)際有些骯臟的紙幣;一個(gè)看似熱衷環(huán)保的人,卻把塑料瓶裝水打開(kāi)裝進(jìn)環(huán)保水壺……
MiniCPM-V 2.6 能夠自動(dòng)從前面兩組圖文關(guān)系,揣摩出題人的意圖,并自動(dòng)學(xué)會(huì)“答題模版”,給出神轉(zhuǎn)折答案—— 一個(gè)人手握大量加密數(shù)字貨幣,可你猜怎么著,他出門(mén)購(gòu)物,可是商店卻竟然只收現(xiàn)金!
性能全面對(duì)標(biāo) GPT-4V
以小博大,是端側(cè)模型的核心競(jìng)爭(zhēng)力。
而面壁 MiniCPM-V 2.6 以 8B 參數(shù),在綜合性能上追趕上 GPT-4V 的同時(shí),首次作為端側(cè)模型,掀開(kāi)單圖、多圖、視頻理解三項(xiàng)多模態(tài)核心能力全面趕超 GPT-4V 的新格局,且均實(shí)現(xiàn) 20B 參數(shù)以下模型性能 SOTA。
在 MiniCPM-V 2.6 的知識(shí)壓縮率方面,我們發(fā)現(xiàn),MiniCPM-V 2.6 體現(xiàn)出極致的高效,取得了兩倍于 GPT-4o 的最高多模態(tài)大模型像素密度(Token Density) 。
Token Density = 編碼像素?cái)?shù)量 / 視覺(jué) token 數(shù)量,是指單個(gè) token 承載的像素密度即圖像信息密度,直接決定了多模態(tài)模型實(shí)際的運(yùn)行效率,數(shù)值越大,模型運(yùn)行效率越高。
在面壁的測(cè)試中,閉源模型的 Token Density 由 API 收費(fèi)方式估算得到。結(jié)果表明,MiniCPM-V 2.6 是所有多模態(tài)模型中 Token Density 最高的。
Token Density 比較結(jié)果
單圖方面,在綜合評(píng)測(cè)權(quán)威平臺(tái) OpenCompass 上,MiniCPM-V 2.6 的單圖理解能力越級(jí)超越 Gemini 1.5 Pro 和 GPT-4o mini ;多圖方面,在多圖評(píng)測(cè)權(quán)威平臺(tái) Mantis-Eval 榜單上,MiniCPM-V 2.6 多圖聯(lián)合理解能力實(shí)現(xiàn)開(kāi)源模型 SOTA ,且超越 GPT-4V;而在視頻方面,在視頻評(píng)測(cè)權(quán)威平臺(tái) Video-MME 榜單上,MiniCPM-V 2.6 的視頻理解能力達(dá)到端側(cè) SOTA,超越GPT-4V。
從左往右依次為 OpenCompass | Mantis-Eval | Video-MME
此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能實(shí)現(xiàn)開(kāi)源+閉源模型 SOTA,而在幻覺(jué)評(píng)測(cè)榜單 Object HalBench 上,MiniCPM-V 2.6 的幻覺(jué)水平(幻覺(jué)率越低越好)也優(yōu)于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等眾多商用模型。
Obiect HalBench(左) OCRBench(右)
面壁認(rèn)為,MiniCPM-V 2.6 之所以能實(shí)現(xiàn)從單一到全面的優(yōu)勢(shì)躍進(jìn),除了 Qwen2-7B 基座模型的性能加持之外,也歸功于采用了統(tǒng)一高清視覺(jué)架構(gòu),讓傳統(tǒng)單圖的多模態(tài)優(yōu)勢(shì)功能得以繼承,并實(shí)現(xiàn)了一通百通。
統(tǒng)一高清視覺(jué)架構(gòu)
以 OCR SOTA 能力為例,它能夠?qū)?MiniCPM-V 單圖場(chǎng)景的“180萬(wàn)高清圖像解析”進(jìn)行能力遷移和知識(shí)共享,無(wú)縫拓展至多圖場(chǎng)景和視頻場(chǎng)景,并將這三種視覺(jué)理解場(chǎng)景統(tǒng)一形式化為圖文交替的語(yǔ)義建模問(wèn)題,共享底層視覺(jué)表示機(jī)制,實(shí)現(xiàn)相比同類(lèi)型模型,視覺(jué) token 數(shù)量節(jié)省超過(guò) 75% 。
而在 OCR 信息提取的基礎(chǔ)上,MiniCPM-V 2.6 還能進(jìn)一步對(duì)表格信息進(jìn)行類(lèi)似 CoT(思維鏈)的復(fù)雜推理。比如讓模型計(jì)算 2008 年奧運(yùn)會(huì)獲得金牌數(shù)最多的 3 個(gè)國(guó)家一共獲得了多少枚金牌,CoT 的過(guò)程為,首先利用 OCR 能力識(shí)別并提取出獎(jiǎng)牌榜中金牌數(shù)量的前三名國(guó)家;再將前三名國(guó)家的金牌總數(shù)相加。
8.2%的超低幻覺(jué)率,亦是發(fā)揮了小鋼炮系列AI可信方面的傳統(tǒng)優(yōu)勢(shì)。
此外,面壁還通過(guò) Ultra 系列對(duì)齊技術(shù),增強(qiáng)了MiniCPM-V 2.6 的復(fù)雜推理能力和通用域多圖聯(lián)合理解能力:
在多模態(tài)復(fù)雜推理能力對(duì)齊方面,MiniCPM-V 2.6 通過(guò)復(fù)雜題目的 CoT 解答數(shù)據(jù),構(gòu)造高效對(duì)齊種子數(shù)據(jù),并通過(guò)模型自迭代完成數(shù)據(jù)凈化和知識(shí)學(xué)習(xí)。
在多圖聯(lián)合理解方面,MiniCPM-V 2.6 從通用域自然網(wǎng)頁(yè)中結(jié)合文本線索挖掘多圖關(guān)聯(lián)語(yǔ)義,實(shí)現(xiàn)多圖聯(lián)合理解數(shù)據(jù)的高效構(gòu)造。
除面壁外,近來(lái),國(guó)內(nèi)其他大模型團(tuán)隊(duì)也都在多模態(tài)方面卯足全力。
7月,上海人工智能實(shí)驗(yàn)室發(fā)布書(shū)生·浦語(yǔ)靈筆(InternLM-XComposer)多模態(tài)大模型的 2.5 版本,規(guī)模為7B。
官方介紹稱(chēng),IXC-2.5 可以支持 24K 多模態(tài)圖文上下文,超過(guò) 20 輪圖文交互,具備圖像視頻理解、網(wǎng)頁(yè)創(chuàng)作、圖文寫(xiě)作等多項(xiàng)功能。
與前一版相比,IXC-2.5 在視覺(jué)語(yǔ)言理解方面主要進(jìn)行了包括超過(guò) 4K 分辨率的圖像理解、多輪多圖超長(zhǎng)對(duì)話(huà)、精細(xì)視頻內(nèi)容分析在內(nèi)的三項(xiàng)升級(jí)。
剛剛過(guò)去的世界人工智能大會(huì)(WAIC)期間,聯(lián)匯科技也帶來(lái)了第二代多模態(tài)智能體 OmAgent,相較于去年發(fā)布的第一代,OmChat V2 在感知模塊、思考決策能力等方面進(jìn)行了提升,可以看準(zhǔn)時(shí)序關(guān)系、多圖關(guān)系。
同樣在 WAIC 期間帶來(lái)多模態(tài)大模型最新升級(jí)產(chǎn)品的還有商湯科技,商湯將流式交互融入大模型,發(fā)布了國(guó)內(nèi)首個(gè)具備流式原生多模態(tài)交互能力大模型“日日新SenseNova 5.5”,綜合性能較 5.0 版本提升了 30%,交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)對(duì)標(biāo) GPT-4o。
此外,商湯升級(jí)版的端側(cè)模型“日日新 5.5 Lite”,相比 4 月的 5.0 版模型精度提升10%,推理效率提升15%,首包延遲降低40%。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。