丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

智源更新大模型排行榜:豆包大模型“客觀評測”排名國產(chǎn)第一

本文作者: nebula 2024-06-19 13:59
導(dǎo)語:豆包大模型首次公開評測:綜合成績排第二,知識運用和數(shù)學(xué)獲最高分。

6月中旬,智源研究院旗下的 FlagEval 大模型評測平臺發(fā)布最新榜單:在有標(biāo)準(zhǔn)答案的“客觀評測”中,GPT-4 以76.11分在閉源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同時也是得分最高的國產(chǎn)大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在開放問答等“主觀評測”中,Doubao-Pro 同樣排名第二,得分超過 GPT-4o 和 GPT-4。

智源更新大模型排行榜:豆包大模型“客觀評測”排名國產(chǎn)第一 

圖:豆包大模型在 FlagEval 客觀評測中獲綜合評分第二(2024年6月)

FlagEval 大模型評測平臺由智源研究院與多個高校團(tuán)隊共建,以人類認(rèn)知能力的發(fā)展階梯為基準(zhǔn),對齊大模型所能達(dá)到的認(rèn)知水平。FlagEval 構(gòu)建了大量原創(chuàng)的非公開評測集,確保評測質(zhì)量和公正性。自2023年6月上線以來,F(xiàn)lagEval 已完成了1000多次覆蓋全球大模型的評測。

Doubao-Pro 是由字節(jié)跳動自主研發(fā)的大語言模型,于5月15日正式發(fā)布。本期 FlagEval 大模型排行榜,是豆包大模型在公開評測中的首次亮相。

測試成績顯示,豆包大模型的數(shù)學(xué)能力、知識運用、任務(wù)解決等多項能力在客觀評測和主觀評測中都有著出色表現(xiàn)。其中,知識運用和數(shù)學(xué)能力得分排名客觀評測第一、主觀評測前三,任務(wù)解決測試得分在主客觀評測中均排名前三。

數(shù)學(xué)能力是評估大模型是否“聰明”的一個重要維度。此前,復(fù)旦大學(xué)自然語言處理實驗室就2024 年高考數(shù)學(xué)題對13家主流大模型產(chǎn)品進(jìn)行評測,豆包的數(shù)學(xué)高考新課標(biāo) II 卷答題獲得最高分,客觀題正確率達(dá)到 74.66%,成績優(yōu)于GPT-4o及國內(nèi)多款大模型產(chǎn)品。

智源更新大模型排行榜:豆包大模型“客觀評測”排名國產(chǎn)第一 

圖片來源:復(fù)旦NLP實驗室公眾號

據(jù)悉,豆包大模型是國內(nèi)使用量最大、應(yīng)用場景最豐富的大模型之一,日均處理 token 達(dá)到千億級。其同名AI對話助手“豆包”,在蘋果APP Store和各大安卓應(yīng)用市場的AIGC類應(yīng)用中下載量排名第一。目前,豆包大模型正在通過字節(jié)跳動旗下的火山引擎向企業(yè)市場開放服務(wù),已經(jīng)與OPPO、榮耀、小米、三星、華碩等智能終端廠商建立合作。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說