丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

超越Claude 3.5、GPT-4o等頂尖閉源模型,阿里通義開源模型Qwen2.5斬獲OpenCompass評測榜冠軍

本文作者: nebula 2024-10-18 11:47
導語:司南 OpenCompass評測榜首個開源模型冠軍!阿里通義Qwen2.5力壓Claude 3.5、GPT-4o等閉源模型。

10月17日記者獲悉,司南 OpenCompass大語言模型評測榜9月榜單公布,阿里通義千問開源模型Qwen2.5-72B-Instruct 擊敗Claude 3.5、GPT-4o等閉源模型,成為該評測榜首個開源模型冠軍。據(jù)了解,9月底通義千問開源模型Qwen系列的衍生模型數(shù)量首次超越Llama,成為全球最大的開源模型群。

超越Claude 3.5、GPT-4o等頂尖閉源模型,阿里通義開源模型Qwen2.5斬獲OpenCompass評測榜冠軍

司南 OpenCompass 是由上海人工智能實驗室研發(fā)的大模型評測體系平臺,OpenAI、阿里巴巴、智譜AI、Meta、零一萬物等百余個最主流的大模型均已加入評測,是最具國際影響力的中國權(quán)威第三方評測榜單。司南 OpenCompass 自建評測榜單每月一更,從語言、推理、知識、代碼、數(shù)學、指令跟隨、智能體等七大能力維度、十余項細分任務,對近期主流模型進行全面評測分析。

在2024年9月的司南 OpenCompass 榜單中,開源的Qwen2.5-72B以70.3分奪冠,首次超越Claude 3.5和GPT-4o等頂尖閉源模型。Qwen2.5-72B-Instruct在此次榜單的多項能力測評中均名列前茅。在代碼能力方面,Qwen2.5-72B-Instruct以74.2分奪冠,不僅能準確完成代碼編寫,還能詳細解釋代碼的功能和邏輯;在數(shù)學能力方面,Claude 3.5得分72.1,GPT-4o得分70.6,遠不及Qwen2.5-72B-Instruct獲得的77分成績。

超越Claude 3.5、GPT-4o等頂尖閉源模型,阿里通義開源模型Qwen2.5斬獲OpenCompass評測榜冠軍

司南 OpenCompass 評價稱,Qwen2.5的登頂,標志著開源社區(qū)在模型領(lǐng)域取得快速進展,以 Qwen 2.5等為代表的國產(chǎn)主流廠商模型,在經(jīng)歷最新一輪技術(shù)迭代后,其性能有了顯著提升,與國際頂尖模型之間的差距正在快速縮小,展現(xiàn)了國產(chǎn)模型的強大競爭力。

早在9月底,Qwen2.5-72B-Instruct就沖進Chatbot Arena大模型盲測榜單前十,是前十中唯一的中國大模型。Qwen系列開原模型涵蓋多尺寸的大語言模型、多模態(tài)模型、數(shù)學模型和代碼模型,幾乎所有尺寸的模型都實現(xiàn)了同等規(guī)模的最佳性能。截至9月底,全球開發(fā)者基于Qwen系列二次開發(fā)的衍生模型數(shù)量也已突破7.43萬,超越Llama的7.28萬,成為全球最大的開源模型群。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說