丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

本文作者: 朱可軒 2024-08-07 09:42
導(dǎo)語:對(duì)標(biāo) GPT-4V,面壁讓實(shí)時(shí)視頻理解成功“跑”在端側(cè)。

真實(shí)世界的視覺信息是流動(dòng)的,而在處理流動(dòng)性的視覺信息上,端側(cè)視頻理解具有天然優(yōu)勢,手機(jī)、PC、AR、機(jī)器人、智能座駕等端側(cè)設(shè)備自帶的攝像頭,具有天然的多模態(tài)輸入能力。

與云端相比,端側(cè)離用戶更近,鏈路更短,效率更高,同時(shí)具有更強(qiáng)的信息安全優(yōu)勢。

今日,面壁正式發(fā)布了 MiniCPM-V 2.6,在端側(cè)性能實(shí)現(xiàn)全面對(duì)標(biāo) GPT-4V——

據(jù)介紹,MiniCPM-V 2.6 首次在端側(cè)實(shí)現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V,三項(xiàng)能力均取得 20B 以下 SOTA 成績,單圖理解越級(jí)比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而類比知識(shí)密度來看,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%,MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)。

值得一提的是,面壁還將“實(shí)時(shí)”視頻理解、多圖聯(lián)合理解、多圖 ICL等能力首次搬上了端側(cè)。

量化后端側(cè)內(nèi)存僅占 6 GB,端側(cè)推理速度達(dá) 18 tokens/s,相比上代模型快 33%。并且發(fā)布即支持 llama.cpp、ollama、vllm 推理,且支持多種語言。

實(shí)時(shí)視頻、多圖聯(lián)合理解,首次上端

有了實(shí)時(shí)視頻理解功能,大模型猶如擁有一雙“眼睛”,能夠?qū)崟r(shí)看到真實(shí)世界,這是多模態(tài)大模型走向具身智能等更多實(shí)際領(lǐng)域,實(shí)現(xiàn) AGI 的必要條件之一,此外實(shí)時(shí)視頻理解功能提升人機(jī)交互的自然度。

此次,面壁新發(fā)布的 MiniCPM-V 2.6 讓實(shí)時(shí)視頻理解功能首次運(yùn)行在了端側(cè)。

此外,對(duì)于「太長不看」的視頻,現(xiàn)在可以直接把文件拖進(jìn)來,讓模型為你總結(jié)重點(diǎn)信息,不用看完、不用倍速、也不用快進(jìn)。

這段 1 分鐘左右的天氣預(yù)報(bào)視頻,MiniCPM-V 2.6 能在沒有聽到任何語音的情況下,發(fā)揮強(qiáng)大的視頻OCR功能,識(shí)別出視頻畫面里密集的文字,給出不同視頻段落中不同城市的詳細(xì)天氣描述:

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

MiniCPM-V 2.6 的回答(注:該結(jié)果為代碼環(huán)境中復(fù)現(xiàn))

除視頻多模態(tài)外,在多圖理解方面,最新發(fā)布的 MiniCPM-V 2.6 還首次將多圖聯(lián)合理解、多圖ICL(上下文少樣本學(xué)習(xí) )功能集成在端側(cè)模型,這也是此前 GPT-4V 引以為傲的能力。

在多圖聯(lián)合理解方面,面壁例舉了如下場景——記賬或報(bào)銷難題令人頭疼,小票上密密麻麻的數(shù)字難以辨別,更別提進(jìn)行繁瑣的總賬計(jì)算。

此時(shí),可以拍照全部甩給 MiniCPM-V 2.6,在 OCR 能力+CoT (思維鏈)能力的加持下,MiniCPM-V 2.6 可以找出每張小票的金額,并計(jì)算總賬。

不僅如此,在端側(cè)多模態(tài)推理能力方面,MiniCPM-V 2.6 也順利追趕 GPT-4V。

比如這道 GPT-4V 官方演示經(jīng)典命題:調(diào)整自行車車座。這個(gè)對(duì)人很簡單的問題對(duì)模型卻非常困難,它非??简?yàn)多模態(tài)模型的復(fù)雜推理能力和對(duì)物理常識(shí)的掌握能力。

僅 8B 的 MiniCPM-V 2.6 展現(xiàn)出順利完成這項(xiàng)挑戰(zhàn)的潛力,通過和模型進(jìn)行多圖多輪對(duì)話,它清晰地告知完成調(diào)低自行車車座的每一個(gè)詳細(xì)步驟,還能根據(jù)說明書和工具箱幫你找到合適的工具。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

MiniCPM-V 2.6 的“調(diào)整自行車車座”測試

值得一提的是,MiniCPM-V 2.6 的理解能力還不止步于表面,對(duì)于梗圖背后的槽點(diǎn)也能展開理解。

比如,讓 MiniCPM-V 2.6 解釋下面兩張圖背后的故事:

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

MiniCPM-V 2.6 能夠通過OCR識(shí)別到兩張圖片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,并進(jìn)一步推理出“WFH”居家辦公狀態(tài)。

隨后,結(jié)合兩張圖片的視覺信息聯(lián)合推理出“工作在家時(shí),8:59還在床上睡覺,9點(diǎn)立馬出現(xiàn)在視頻會(huì)議上”的居家辦公的“抓狂”狀態(tài)。

當(dāng)然,MiniCPM-V 2.6 的單圖理解能力也較為理想,其也能揣測出梗圖中很多未明顯露出的潛臺(tái)詞。

而就多圖 ICL 理解而言,上下文少樣本學(xué)習(xí)能讓模型無需 fine-tune,即可快速適配到特定領(lǐng)域和任務(wù),提高模型的輸出穩(wěn)定性。對(duì)此,MiniCPM-V 2.6 也交出“答卷”:

提供給 MiniCPM-V 2.6 兩組神轉(zhuǎn)折畫面,以及對(duì)畫面中的“?!苯o出示意文字描述,例如一個(gè)戴著手套、重視衛(wèi)生的廚師,下一秒?yún)s用戴手套的手直接去拿實(shí)際有些骯臟的紙幣;一個(gè)看似熱衷環(huán)保的人,卻把塑料瓶裝水打開裝進(jìn)環(huán)保水壺……

MiniCPM-V 2.6 能夠自動(dòng)從前面兩組圖文關(guān)系,揣摩出題人的意圖,并自動(dòng)學(xué)會(huì)“答題模版”,給出神轉(zhuǎn)折答案—— 一個(gè)人手握大量加密數(shù)字貨幣,可你猜怎么著,他出門購物,可是商店卻竟然只收現(xiàn)金!

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

性能全面對(duì)標(biāo) GPT-4V 

以小博大,是端側(cè)模型的核心競爭力。

而面壁 MiniCPM-V 2.6 以 8B 參數(shù),在綜合性能上追趕上 GPT-4V 的同時(shí),首次作為端側(cè)模型,掀開單圖、多圖、視頻理解三項(xiàng)多模態(tài)核心能力全面趕超 GPT-4V 的新格局,且均實(shí)現(xiàn) 20B 參數(shù)以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知識(shí)壓縮率方面,我們發(fā)現(xiàn),MiniCPM-V 2.6 體現(xiàn)出極致的高效,取得了兩倍于 GPT-4o 的最高多模態(tài)大模型像素密度(Token Density) 。

Token Density = 編碼像素?cái)?shù)量 / 視覺 token 數(shù)量,是指單個(gè) token 承載的像素密度即圖像信息密度,直接決定了多模態(tài)模型實(shí)際的運(yùn)行效率,數(shù)值越大,模型運(yùn)行效率越高。

在面壁的測試中,閉源模型的 Token Density 由 API 收費(fèi)方式估算得到。結(jié)果表明,MiniCPM-V 2.6 是所有多模態(tài)模型中 Token Density 最高的。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

Token Density 比較結(jié)果

單圖方面,在綜合評(píng)測權(quán)威平臺(tái) OpenCompass 上,MiniCPM-V 2.6 的單圖理解能力越級(jí)超越 Gemini 1.5 Pro 和 GPT-4o mini ;多圖方面,在多圖評(píng)測權(quán)威平臺(tái) Mantis-Eval 榜單上,MiniCPM-V 2.6 多圖聯(lián)合理解能力實(shí)現(xiàn)開源模型 SOTA ,且超越 GPT-4V;而在視頻方面,在視頻評(píng)測權(quán)威平臺(tái) Video-MME 榜單上,MiniCPM-V 2.6 的視頻理解能力達(dá)到端側(cè) SOTA,超越GPT-4V。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

從左往右依次為 OpenCompass | Mantis-Eval | Video-MME 

此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能實(shí)現(xiàn)開源+閉源模型 SOTA,而在幻覺評(píng)測榜單 Object HalBench 上,MiniCPM-V 2.6 的幻覺水平(幻覺率越低越好)也優(yōu)于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等眾多商用模型。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

Obiect HalBench(左) OCRBench(右)

面壁認(rèn)為,MiniCPM-V 2.6 之所以能實(shí)現(xiàn)從單一到全面的優(yōu)勢躍進(jìn),除了 Qwen2-7B 基座模型的性能加持之外,也歸功于采用了統(tǒng)一高清視覺架構(gòu),讓傳統(tǒng)單圖的多模態(tài)優(yōu)勢功能得以繼承,并實(shí)現(xiàn)了一通百通。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

統(tǒng)一高清視覺架構(gòu)

以 OCR SOTA 能力為例,它能夠?qū)?MiniCPM-V 單圖場景的“180萬高清圖像解析”進(jìn)行能力遷移和知識(shí)共享,無縫拓展至多圖場景和視頻場景,并將這三種視覺理解場景統(tǒng)一形式化為圖文交替的語義建模問題,共享底層視覺表示機(jī)制,實(shí)現(xiàn)相比同類型模型,視覺 token 數(shù)量節(jié)省超過 75% 。

而在 OCR 信息提取的基礎(chǔ)上,MiniCPM-V 2.6 還能進(jìn)一步對(duì)表格信息進(jìn)行類似 CoT(思維鏈)的復(fù)雜推理。比如讓模型計(jì)算 2008 年奧運(yùn)會(huì)獲得金牌數(shù)最多的 3 個(gè)國家一共獲得了多少枚金牌,CoT 的過程為,首先利用 OCR 能力識(shí)別并提取出獎(jiǎng)牌榜中金牌數(shù)量的前三名國家;再將前三名國家的金牌總數(shù)相加。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

8.2%的超低幻覺率,亦是發(fā)揮了小鋼炮系列AI可信方面的傳統(tǒng)優(yōu)勢。

此外,面壁還通過 Ultra 系列對(duì)齊技術(shù),增強(qiáng)了MiniCPM-V 2.6 的復(fù)雜推理能力和通用域多圖聯(lián)合理解能力:

在多模態(tài)復(fù)雜推理能力對(duì)齊方面,MiniCPM-V 2.6 通過復(fù)雜題目的 CoT 解答數(shù)據(jù),構(gòu)造高效對(duì)齊種子數(shù)據(jù),并通過模型自迭代完成數(shù)據(jù)凈化和知識(shí)學(xué)習(xí)。

在多圖聯(lián)合理解方面,MiniCPM-V 2.6 從通用域自然網(wǎng)頁中結(jié)合文本線索挖掘多圖關(guān)聯(lián)語義,實(shí)現(xiàn)多圖聯(lián)合理解數(shù)據(jù)的高效構(gòu)造。

除面壁外,近來,國內(nèi)其他大模型團(tuán)隊(duì)也都在多模態(tài)方面卯足全力。

7月,上海人工智能實(shí)驗(yàn)室發(fā)布書生·浦語靈筆(InternLM-XComposer)多模態(tài)大模型的 2.5 版本,規(guī)模為7B。

官方介紹稱,IXC-2.5 可以支持 24K 多模態(tài)圖文上下文,超過 20 輪圖文交互,具備圖像視頻理解、網(wǎng)頁創(chuàng)作、圖文寫作等多項(xiàng)功能。

與前一版相比,IXC-2.5 在視覺語言理解方面主要進(jìn)行了包括超過 4K 分辨率的圖像理解、多輪多圖超長對(duì)話、精細(xì)視頻內(nèi)容分析在內(nèi)的三項(xiàng)升級(jí)。

剛剛過去的世界人工智能大會(huì)(WAIC)期間,聯(lián)匯科技也帶來了第二代多模態(tài)智能體 OmAgent,相較于去年發(fā)布的第一代,OmChat V2 在感知模塊、思考決策能力等方面進(jìn)行了提升,可以看準(zhǔn)時(shí)序關(guān)系、多圖關(guān)系。

同樣在 WAIC 期間帶來多模態(tài)大模型最新升級(jí)產(chǎn)品的還有商湯科技,商湯將流式交互融入大模型,發(fā)布了國內(nèi)首個(gè)具備流式原生多模態(tài)交互能力大模型“日日新SenseNova 5.5”,綜合性能較 5.0 版本提升了 30%,交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)對(duì)標(biāo) GPT-4o。

此外,商湯升級(jí)版的端側(cè)模型“日日新 5.5 Lite”,相比 4 月的 5.0 版模型精度提升10%,推理效率提升15%,首包延遲降低40%。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

讓「GPT-4V」跑在手機(jī)上,這家中國大模型公司做到了

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說