智源評(píng)測(cè)出爐：豆包大語(yǔ)言模型排名第一，多模態(tài)能力獲得三項(xiàng)第二

本文作者： Nemo

2024-12-20 18:12

導(dǎo)語(yǔ)：豆包視覺(jué)理解模型現(xiàn)已對(duì)企業(yè)客戶開(kāi)放使用。

12月19日，智源研究院發(fā)布最新一期大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果。在覆蓋國(guó)內(nèi)外100余個(gè)開(kāi)源和商業(yè)閉源大模型的評(píng)測(cè)中，豆包通用模型pro獲得大語(yǔ)言模型主觀評(píng)測(cè)最高分；在多模態(tài)模型評(píng)測(cè)中，豆包視覺(jué)理解模型排名視覺(jué)語(yǔ)言模型第二，成績(jī)僅次于GPT-4o；豆包文生圖模型、豆包視頻生成模型（即夢(mèng)P2.0 pro）也分別在相應(yīng)測(cè)試中獲得全球第二。

據(jù)智源研究院介紹，大模型評(píng)測(cè)平臺(tái)FlagEval聯(lián)合了全國(guó)10余家高校和機(jī)構(gòu)合作共建。此次公布的榜單中，大語(yǔ)言模型主觀評(píng)測(cè)重點(diǎn)考察的是模型的中文能力，多模態(tài)模型評(píng)測(cè)榜單中，視覺(jué)語(yǔ)言模型主要考察的是模型在圖文理解、長(zhǎng)尾視覺(jué)知識(shí)、文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析能力。FlagEval大模型角斗場(chǎng)則是向用戶開(kāi)放的模型對(duì)戰(zhàn)評(píng)測(cè)服務(wù)，反映了用戶對(duì)模型的偏好。

在大語(yǔ)言模型主觀評(píng)測(cè)中，豆包通用模型pro的知識(shí)運(yùn)用和推理能力均獲得最高分，簡(jiǎn)單理解、數(shù)學(xué)能力、安全等項(xiàng)目也排名前三，最終綜合成績(jī)排名第一。在FlagEval大模型角斗場(chǎng)榜單中，基于模型對(duì)戰(zhàn)的用戶投票結(jié)果，豆包通用模型pro得分排名第二，僅次于OpenAI的o1-mini。

在多模態(tài)模型評(píng)測(cè)榜單中，GPT-4o在視覺(jué)語(yǔ)言模型中排名第一，豆包視覺(jué)理解模型獲第二。在中文的通用知識(shí)、文字識(shí)別中，豆包表現(xiàn)突出，相比國(guó)外模型有較大優(yōu)勢(shì)。在文生圖測(cè)試中，混元和豆包排名前兩位；在文生視頻測(cè)試中，國(guó)產(chǎn)模型更是優(yōu)勢(shì)顯著，可靈1.5高品質(zhì)版、即夢(mèng)P2.0 pro、愛(ài)詩(shī)科技PixVerse v3和海螺AI排名前列。

據(jù)悉，豆包視覺(jué)理解模型在不久前的火山引擎Force大會(huì)上首次發(fā)布，現(xiàn)已對(duì)企業(yè)客戶開(kāi)放使用?；鹕揭娣矫姹硎荆拱竽Ｐ屯ㄟ^(guò)算法、工程、軟硬件結(jié)合的技術(shù)創(chuàng)新，大幅優(yōu)化使用成本，讓每一家企業(yè)都能用得起，推動(dòng)AI技術(shù)普惠和應(yīng)用發(fā)展。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

Nemo

編輯

發(fā)私信

當(dāng)月熱門文章

智源評(píng)測(cè)出爐：豆包大語(yǔ)言模型排名第一，多模態(tài)能力獲得三項(xiàng)第二

智源評(píng)測(cè)出爐：豆包大語(yǔ)言模型排名第一，多模態(tài)能力獲得三項(xiàng)第二