0
本文作者: 我在思考中 | 2024-04-28 12:09 |
人類獲取的信息83%來(lái)自視覺(jué),圖文多模態(tài)大模型能感知更豐富和精確的真實(shí)世界信息,構(gòu)建更全面的認(rèn)知智能,從而向AGI(通用人工智能)邁出更大步伐。
元象今日發(fā)布多模態(tài)大模型 XVERSE-V ,支持任意寬高比圖像輸入,在主流評(píng)測(cè)中效果領(lǐng)先。
XVERSE-V 性能優(yōu)異,在多項(xiàng)權(quán)威多模態(tài)評(píng)測(cè)中超過(guò)零一萬(wàn)物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開(kāi)源模型,在綜合能力測(cè)評(píng)MMBench中超過(guò)了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
傳統(tǒng)的多模態(tài)模型的圖像表示只有整體,XVERSE-V 創(chuàng)新性地采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
注:
這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域,包括全景圖識(shí)別、衛(wèi)星圖像、古文物掃描分析等。
示例- 高清全景圖識(shí)別 、圖片細(xì)節(jié)文字識(shí)別
免費(fèi)下載大模型
Hugging Face:
ModelScope魔搭:
Github:
問(wèn)詢發(fā)送:
商業(yè)合作
微信添加:
元象持續(xù)打造國(guó)內(nèi)開(kāi)源標(biāo)桿,在國(guó)內(nèi)最早開(kāi)源最大參數(shù)65B 、全球最早開(kāi)源最長(zhǎng)上下文256K 以及 國(guó)際前沿的MoE模型, 并在SuperCLUE測(cè)評(píng)全國(guó)領(lǐng)跑。
商業(yè)應(yīng)用上,元象大模型是 廣東最早獲得國(guó)家備案的模型之一 ,可向全社會(huì)提供服務(wù)。
模型不僅在基礎(chǔ)能力上表現(xiàn)出色,在實(shí)際的應(yīng)用場(chǎng)景中也有著出色的表現(xiàn)。
圖表理解
不論是復(fù)雜圖文結(jié)合的信息圖理解,還是單一圖表的分析與計(jì)算,模型都能夠自如應(yīng)對(duì)。
視障真實(shí)場(chǎng)景
在真實(shí)視障場(chǎng)景測(cè)試集VizWiz中,XVERSE-V 表現(xiàn)出色,超過(guò)了InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開(kāi)源多模態(tài)大模型。
VizWiz測(cè)試示例
看圖內(nèi)容創(chuàng)作
XVERSE-V 具備多模態(tài)能力的同時(shí)保持強(qiáng)大的文本生成能力,能夠很好勝任理解圖像后創(chuàng)造性文本生成的任務(wù)。
教育解題
模型具備了廣泛的知識(shí)儲(chǔ)備和邏輯推理能力,能夠識(shí)別圖像解答不同學(xué)科的問(wèn)題。
百科解答
模型儲(chǔ)備了歷史、文化、科技、安全等各類主題的知識(shí)。
代碼撰寫(xiě)
自動(dòng)駕駛
情感理解與識(shí)別
一元復(fù)始,萬(wàn)象更新。
元象創(chuàng)始人姚星是前騰訊副總裁和騰訊 AI Lab 創(chuàng)始人、國(guó)家科技部新一代人工智能戰(zhàn)略咨詢委員會(huì)成員。
元象獲國(guó)家“專精特新”、“高新技術(shù)企業(yè)”認(rèn)證,團(tuán)隊(duì)目前有75%為研發(fā)人員(60%為碩博學(xué)歷)。
元象已經(jīng)為多家龍頭企業(yè)提供一站式技術(shù)與服務(wù),包括:
公司注冊(cè)名:
官網(wǎng):
官微:
Logo下載
鏈接: https://pan.baidu.com/s/1fB-zoITVJZ7Znv5IVe-fZg
提取碼: rav0
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。