超越Claude 3.5、GPT-4o等頂尖閉源模型，阿里通義開(kāi)源模型Qwen2.5斬獲OpenCompass評(píng)測(cè)榜冠軍

本文作者： nebula

2024-10-18 11:47

導(dǎo)語(yǔ)：司南 OpenCompass評(píng)測(cè)榜首個(gè)開(kāi)源模型冠軍！阿里通義Qwen2.5力壓Claude 3.5、GPT-4o等閉源模型。

10月17日記者獲悉，司南 OpenCompass大語(yǔ)言模型評(píng)測(cè)榜9月榜單公布，阿里通義千問(wèn)開(kāi)源模型Qwen2.5-72B-Instruct 擊敗Claude 3.5、GPT-4o等閉源模型，成為該評(píng)測(cè)榜首個(gè)開(kāi)源模型冠軍。據(jù)了解，9月底通義千問(wèn)開(kāi)源模型Qwen系列的衍生模型數(shù)量首次超越Llama，成為全球最大的開(kāi)源模型群。

司南 OpenCompass 是由上海人工智能實(shí)驗(yàn)室研發(fā)的大模型評(píng)測(cè)體系平臺(tái)，OpenAI、阿里巴巴、智譜AI、Meta、零一萬(wàn)物等百余個(gè)最主流的大模型均已加入評(píng)測(cè)，是最具國(guó)際影響力的中國(guó)權(quán)威第三方評(píng)測(cè)榜單。司南 OpenCompass 自建評(píng)測(cè)榜單每月一更，從語(yǔ)言、推理、知識(shí)、代碼、數(shù)學(xué)、指令跟隨、智能體等七大能力維度、十余項(xiàng)細(xì)分任務(wù)，對(duì)近期主流模型進(jìn)行全面評(píng)測(cè)分析。

在2024年9月的司南 OpenCompass 榜單中，開(kāi)源的Qwen2.5-72B以70.3分奪冠，首次超越Claude 3.5和GPT-4o等頂尖閉源模型。Qwen2.5-72B-Instruct在此次榜單的多項(xiàng)能力測(cè)評(píng)中均名列前茅。在代碼能力方面，Qwen2.5-72B-Instruct以74.2分奪冠，不僅能準(zhǔn)確完成代碼編寫(xiě)，還能詳細(xì)解釋代碼的功能和邏輯；在數(shù)學(xué)能力方面，Claude 3.5得分72.1，GPT-4o得分70.6，遠(yuǎn)不及Qwen2.5-72B-Instruct獲得的77分成績(jī)。

超越Claude 3.5、GPT-4o等頂尖閉源模型，阿里通義開(kāi)源模型Qwen2.5斬獲OpenCompass評(píng)測(cè)榜冠軍

司南 OpenCompass 評(píng)價(jià)稱，Qwen2.5的登頂，標(biāo)志著開(kāi)源社區(qū)在模型領(lǐng)域取得快速進(jìn)展，以 Qwen 2.5等為代表的國(guó)產(chǎn)主流廠商模型，在經(jīng)歷最新一輪技術(shù)迭代后，其性能有了顯著提升，與國(guó)際頂尖模型之間的差距正在快速縮小，展現(xiàn)了國(guó)產(chǎn)模型的強(qiáng)大競(jìng)爭(zhēng)力。

早在9月底，Qwen2.5-72B-Instruct就沖進(jìn)Chatbot Arena大模型盲測(cè)榜單前十，是前十中唯一的中國(guó)大模型。Qwen系列開(kāi)原模型涵蓋多尺寸的大語(yǔ)言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型，幾乎所有尺寸的模型都實(shí)現(xiàn)了同等規(guī)模的最佳性能。截至9月底，全球開(kāi)發(fā)者基于Qwen系列二次開(kāi)發(fā)的衍生模型數(shù)量也已突破7.43萬(wàn)，超越Llama的7.28萬(wàn)，成為全球最大的開(kāi)源模型群。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門(mén)文章

超越Claude 3.5、GPT-4o等頂尖閉源模型，阿里通義開(kāi)源模型Qwen2.5斬獲OpenCompass評(píng)測(cè)榜冠軍

超越Claude 3.5、GPT-4o等頂尖閉源模型，阿里通義開(kāi)源模型Qwen2.5斬獲OpenCompass評(píng)測(cè)榜冠軍