丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

通義千問開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o

本文作者: nebula 2024-08-09 14:03
導(dǎo)語:通義千問開源Qwen2-Math,成為最先進(jìn)的數(shù)學(xué)專項模型。

8月9日消息,阿里通義團(tuán)隊開源新一代數(shù)學(xué)模型Qwen2-Math,包含1.5B、7B、72B三個參數(shù)的基礎(chǔ)模型和指令微調(diào)模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發(fā),旗艦?zāi)P?Qwen2-Math-72B-Instruct在權(quán)威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的準(zhǔn)確率處理了代數(shù)、幾何、計數(shù)與概率、數(shù)論等多種數(shù)學(xué)問題,成為最先進(jìn)的數(shù)學(xué)專項模型。

通義千問開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o 

注:在MATH基準(zhǔn)測評中,通義千問數(shù)學(xué)模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準(zhǔn)確率,超過GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等開閉源模型。

Qwen2-Math 基礎(chǔ)模型使用 Qwen2大語言模型進(jìn)行初始化,并在精心設(shè)計的數(shù)學(xué)專用語料庫上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含大規(guī)模高質(zhì)量的數(shù)學(xué)網(wǎng)絡(luò)文本、書籍、代碼、考試題目,以及由 Qwen2 模型合成的數(shù)學(xué)預(yù)訓(xùn)練數(shù)據(jù)。所有預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集都進(jìn)行了去污染處理。

隨后,研發(fā)團(tuán)隊訓(xùn)練了指令微調(diào)版本模型:首先,基于Qwen2-Math-72B 訓(xùn)練一個數(shù)學(xué)專用的獎勵模型;接著,將密集的獎勵信號與指示模型是否正確回答問題的二元信號結(jié)合,用作學(xué)習(xí)標(biāo)簽,再通過拒絕采樣構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù);最后在SFT模型基礎(chǔ)上使用 GRPO 方法優(yōu)化模型。

據(jù)悉,Qwen2-Math系列模型目前主要支持英文,通義團(tuán)隊很快就將推出中英雙語版本,多語言版本也在開發(fā)中。

通義團(tuán)隊在多個中英文數(shù)學(xué)基準(zhǔn)測評集對指令微調(diào)模型作了性能評估,除了 GSM8K 和 MATH等常見的測評基準(zhǔn) ,還引入了更具挑戰(zhàn)性的考試競賽類測試,如奧林匹克級別的基準(zhǔn)測評OlympiadBench、大學(xué)數(shù)學(xué)級別的基準(zhǔn)測評CollegeMath、高考(GaoKao)、美國數(shù)學(xué)邀請賽(AIME)2024 賽題、美國數(shù)學(xué)競賽( AMC)2023賽題,中文測評則有CMATH測評集、2024年中國高考和中考數(shù)學(xué)題。最終,Qwen2-Math-72B-Instruct表現(xiàn)優(yōu)異,在十大測評中都獲得了遠(yuǎn)超其他開源數(shù)學(xué)模型的成績。

通義千問開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o 

注:研發(fā)團(tuán)隊在greedy和RM@8 的條件下對模型作了測評,表中為每款Qwen2-Math-72B-Instruct模型列出了三個得分結(jié)果,分別是第1次回答得分(無下標(biāo)數(shù)字)、8次回答中出現(xiàn)最多次數(shù)的答案的得分,8次回答中reward model所選答案的得分。

“大模型能不能做數(shù)學(xué)題”,不僅是社交平臺的熱門話題,也是業(yè)界非常關(guān)注的研究課題。處理高級數(shù)學(xué)問題,需要模型具備復(fù)雜多步邏輯推理能力。通義團(tuán)隊在技術(shù)博客中表示,希望通過開源“為科學(xué)界解決高級數(shù)學(xué)問題做出貢獻(xiàn)”,未來將持續(xù)增強模型數(shù)學(xué)能力。

附:Qwen2-Math解題示例

通義千問開源數(shù)學(xué)模型Qwen2-Math,數(shù)學(xué)能力超越GPT-4o 

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說