智源更新大模型排行榜：豆包大模型“客觀評(píng)測(cè)”排名國(guó)產(chǎn)第一

本文作者： nebula

2024-06-19 13:59

導(dǎo)語(yǔ)：豆包大模型首次公開評(píng)測(cè)：綜合成績(jī)排第二，知識(shí)運(yùn)用和數(shù)學(xué)獲最高分。

6月中旬，智源研究院旗下的 FlagEval 大模型評(píng)測(cè)平臺(tái)發(fā)布最新榜單：在有標(biāo)準(zhǔn)答案的“客觀評(píng)測(cè)”中，GPT-4 以76.11分在閉源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同時(shí)也是得分最高的國(guó)產(chǎn)大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在開放問答等“主觀評(píng)測(cè)”中，Doubao-Pro 同樣排名第二，得分超過 GPT-4o 和 GPT-4。

圖：豆包大模型在 FlagEval 客觀評(píng)測(cè)中獲綜合評(píng)分第二（2024年6月）

FlagEval 大模型評(píng)測(cè)平臺(tái)由智源研究院與多個(gè)高校團(tuán)隊(duì)共建，以人類認(rèn)知能力的發(fā)展階梯為基準(zhǔn)，對(duì)齊大模型所能達(dá)到的認(rèn)知水平。FlagEval 構(gòu)建了大量原創(chuàng)的非公開評(píng)測(cè)集，確保評(píng)測(cè)質(zhì)量和公正性。自2023年6月上線以來(lái)，F(xiàn)lagEval 已完成了1000多次覆蓋全球大模型的評(píng)測(cè)。

Doubao-Pro 是由字節(jié)跳動(dòng)自主研發(fā)的大語(yǔ)言模型，于5月15日正式發(fā)布。本期 FlagEval 大模型排行榜，是豆包大模型在公開評(píng)測(cè)中的首次亮相。

測(cè)試成績(jī)顯示，豆包大模型的數(shù)學(xué)能力、知識(shí)運(yùn)用、任務(wù)解決等多項(xiàng)能力在客觀評(píng)測(cè)和主觀評(píng)測(cè)中都有著出色表現(xiàn)。其中，知識(shí)運(yùn)用和數(shù)學(xué)能力得分排名客觀評(píng)測(cè)第一、主觀評(píng)測(cè)前三，任務(wù)解決測(cè)試得分在主客觀評(píng)測(cè)中均排名前三。

數(shù)學(xué)能力是評(píng)估大模型是否“聰明”的一個(gè)重要維度。此前，復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室就2024 年高考數(shù)學(xué)題對(duì)13家主流大模型產(chǎn)品進(jìn)行評(píng)測(cè)，豆包的數(shù)學(xué)高考新課標(biāo) II 卷答題獲得最高分，客觀題正確率達(dá)到 74.66%，成績(jī)優(yōu)于GPT-4o及國(guó)內(nèi)多款大模型產(chǎn)品。

智源更新大模型排行榜：豆包大模型“客觀評(píng)測(cè)”排名國(guó)產(chǎn)第一

圖片來(lái)源：復(fù)旦NLP實(shí)驗(yàn)室公眾號(hào)

據(jù)悉，豆包大模型是國(guó)內(nèi)使用量最大、應(yīng)用場(chǎng)景最豐富的大模型之一，日均處理 token 達(dá)到千億級(jí)。其同名AI對(duì)話助手“豆包”，在蘋果APP Store和各大安卓應(yīng)用市場(chǎng)的AIGC類應(yīng)用中下載量排名第一。目前，豆包大模型正在通過字節(jié)跳動(dòng)旗下的火山引擎向企業(yè)市場(chǎng)開放服務(wù)，已經(jīng)與OPPO、榮耀、小米、三星、華碩等智能終端廠商建立合作。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章