丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給洪雨欣
發(fā)送

0

GRPO在《時(shí)空謎題》中擊敗o1、o3-mini和R1

本文作者: 洪雨欣   2025-03-27 16:19
導(dǎo)語(yǔ):近日,海外大模型產(chǎn)品平臺(tái) OpenPipe 上發(fā)布了一項(xiàng)研究,闡述其如何通過 GRPO 在重度推理游戲《時(shí)空謎題》中超越R1、o1、o3-mini 等模型。

近日,海外大模型產(chǎn)品平臺(tái) OpenPipe 上發(fā)布了一項(xiàng)研究,闡述其如何通過 GRPO 在重度推理游戲《時(shí)空謎題》中超越R1、o1、o3-mini 等模型。研究作者分別為來(lái)自 Ender Research 的強(qiáng)化學(xué)習(xí)研究員 Brad Hilton 和 OpenPipe 的創(chuàng)始人 Kyle Corbitt。

他們的研究表示,他們不僅將模型與 Sonnet 3.7 的差距縮小至個(gè)位百分比,同時(shí)實(shí)現(xiàn)超過100倍的推理成本優(yōu)化。

報(bào)告中還分享了任務(wù)設(shè)計(jì)與超參數(shù)調(diào)整的經(jīng)驗(yàn),并公開了基于torchtune框架構(gòu)建的完整訓(xùn)練方案。

一、背景介紹

自O(shè)penAI去年發(fā)布突破性的o系列推理模型以來(lái),采用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的大型語(yǔ)言模型(LLMs)迎來(lái)爆發(fā)式增長(zhǎng)。谷歌DeepMind、阿里巴巴、DeepSeek、Anthropic相繼推出支持長(zhǎng)"思維鏈"(CoT)推理的先進(jìn)模型,在可驗(yàn)證問題上實(shí)施強(qiáng)化學(xué)習(xí)訓(xùn)練,讓傳統(tǒng)的基準(zhǔn)測(cè)試逐漸逼近性能天花板。

盡管取得顯著進(jìn)展,邏輯演繹能力仍是頂尖模型的阿喀琉斯之踵。當(dāng)前LLMs普遍存在三大缺陷:

難以穩(wěn)定追蹤所有相關(guān)細(xì)節(jié)

無(wú)法保持邏輯嚴(yán)密的推演過程

多步銜接可靠性不足

即便頂尖模型生成10-100倍長(zhǎng)度的輸出,仍然會(huì)頻現(xiàn)人類可輕易識(shí)別的低級(jí)錯(cuò)誤。

帶著好奇,我們開啟了一系列的探索:小型開源模型能否借助前沿強(qiáng)化學(xué)習(xí)技術(shù),突破演繹推理的邊疆?

我們首先從性能較弱的模型出發(fā),在一項(xiàng)全新的推理任務(wù)上對(duì)其進(jìn)行迭代訓(xùn)練。隨著時(shí)間的推移,我們明顯觀察到它們的推理能力有所提升,最終達(dá)到甚至超越了一些先進(jìn)的專有模型 。

二、基準(zhǔn)測(cè)試框架

為了開展我們的實(shí)驗(yàn),我們首先必須確定一個(gè)具有明確可驗(yàn)證答案且具有挑戰(zhàn)性的推理任務(wù)。碰巧其中一位作者之前創(chuàng)建了一個(gè)完全符合要求的謎題集——“時(shí)空謎題”(Temporal Clue)。除了滿足事實(shí)真相清晰這一標(biāo)準(zhǔn)外,還可以按照需要?jiǎng)?chuàng)建新謎題。

“時(shí)空謎題”靈感源自熱門桌游 Clue(Cluedo),在該游戲中,玩家們競(jìng)相揭開究竟是誰(shuí)在Boddy先生的豪宅中謀殺了他?!皶r(shí)空謎題”將這款游戲轉(zhuǎn)變?yōu)橐粋€(gè)單人邏輯謎題,它不僅涵蓋標(biāo)準(zhǔn)要素 —— 兇手是誰(shuí)、用什么兇器、在哪作案,還增添了兩個(gè)維度:作案時(shí)間和作案動(dòng)機(jī)。謎題是隨機(jī)生成的,游戲使用了 OR - Tools 的 CP - SAT 求解器進(jìn)行線索挑選。

在某個(gè)陰冷的冬夜,神秘富豪John Q. Boddy先生為他的密友舉辦了一場(chǎng)小型的奢華晚宴。然而,這場(chǎng)晚宴以悲劇收?qǐng)?,Boddy先生于清晨時(shí)分被發(fā)現(xiàn)死在都鐸莊園的一個(gè)房間里。以下是被認(rèn)定為嫌疑人的相關(guān)利益人員……

為了明確這項(xiàng)推理任務(wù)的最佳水平,我們對(duì)一些火爆的推理模型進(jìn)行了基準(zhǔn)測(cè)試 ,包括DeepSeek R1、OpenAI的o1和o3 - mini以及Anthropic的Claude Sonnet 3.7。此外,我們還對(duì)14B和32B的Qwen模型進(jìn)行了基準(zhǔn)測(cè)試,這是我們最終結(jié)果的預(yù)覽:

GRPO在《時(shí)空謎題》中擊敗o1、o3-mini和R1

在這些基準(zhǔn)測(cè)試中,我們發(fā)現(xiàn)Claude Sonnet 3.7在設(shè)定6.4萬(wàn)個(gè)token的情況下表現(xiàn)最佳,DeepSeek R1的表現(xiàn)幾乎與OpenAI的o1和o3 - mini不相上下。然而,未經(jīng)調(diào)優(yōu)的Qwen 2.5 Instruct模型在相比之下就稍顯遜色了。

一個(gè)關(guān)鍵問題是:我們能否將這些較小型的開放權(quán)重模型訓(xùn)練到前沿水平的表現(xiàn)?答案是肯定的,只要用對(duì)方法。

三、訓(xùn)練

為了訓(xùn)練出一個(gè)具有前沿水平的推理模型,我們采用了強(qiáng)化學(xué)習(xí)方法。我們首先讓大語(yǔ)言模型針對(duì)每個(gè)謎題生成多個(gè)回復(fù),以此探索問題的各種可能性,從而引導(dǎo)它們學(xué)習(xí)。對(duì)得出正確答案的推理過程給予正向強(qiáng)化,而對(duì)誤導(dǎo)模型的推理過程則進(jìn)行懲罰。

在眾多強(qiáng)化學(xué)習(xí)的方法中,我們選用了DeepSeek模型的GRPO算法。與PPO等傳統(tǒng)方法相比,GRPO不僅表現(xiàn)出色,還簡(jiǎn)化了訓(xùn)練過程。

從宏觀層面來(lái)看,我們的訓(xùn)練遵循以下幾個(gè)基本步驟:

針對(duì)謎題任務(wù)生成模型回復(fù)

對(duì)回復(fù)進(jìn)行評(píng)分,并為每組聊天回復(fù)估算優(yōu)勢(shì)值

利用這些優(yōu)勢(shì)值估算結(jié)果引導(dǎo)的裁剪策略梯度對(duì)模型進(jìn)行微調(diào)

用新的謎題和模型的最新版本重復(fù)上述步驟,直至達(dá)到最佳性能

在生成回復(fù)環(huán)節(jié),我們使用了熱門的vLLM推理引擎,并對(duì)參數(shù)選擇進(jìn)行了調(diào)優(yōu)。我們發(fā)現(xiàn),向vLLM發(fā)送過多請(qǐng)求會(huì)導(dǎo)致正在處理的請(qǐng)求被搶占。為解決這一問題,我們使用了一個(gè)信號(hào)量來(lái)限制請(qǐng)求數(shù)量,該信號(hào)量經(jīng)過調(diào)優(yōu),能夠在盡量減少換出的同時(shí)保持較高的鍵值緩存利用率。

采樣完成后,我們使用 HuggingFace Transformers AutoTokenizer 對(duì)回復(fù)進(jìn)行處理。它的聊天模板功能可將消息對(duì)象渲染為提示字符串,其中包含一個(gè)助手掩碼,用于確定哪些標(biāo)記是由大語(yǔ)言模型生成的。我們發(fā)現(xiàn)這些模型在其默認(rèn)模板中缺少必要的 “生成” 標(biāo)簽,于是在token步驟中對(duì)模板進(jìn)行了修改。最終得到的助手掩碼被納入用于調(diào)優(yōu)的張量字典中,用以標(biāo)識(shí)哪些位置需要進(jìn)行損失計(jì)算。

在獲得助手掩碼后,我們對(duì)數(shù)據(jù)進(jìn)行打包以便調(diào)優(yōu)。除了在每個(gè)打包序列中包含多個(gè)提示和回復(fù)之外,我們還識(shí)別出共享的提示標(biāo)記,并為每個(gè)標(biāo)記分配一個(gè)父ID,同時(shí)附上標(biāo)準(zhǔn)的組ID。對(duì)于像 “時(shí)空謎題” 這類平均每個(gè)謎題超過1000個(gè)標(biāo)記的任務(wù),我們針對(duì)每個(gè)任務(wù)生成多個(gè)回復(fù)并高效打包張量,顯著減少了冗余。一旦將所有必要信息打包完畢,我們就能以二維形式直觀呈現(xiàn)訓(xùn)練數(shù)據(jù)集,每一行都是一個(gè)可能包含多個(gè)提示和回復(fù)的標(biāo)記序列 。

有了數(shù)據(jù)后,我們開始調(diào)優(yōu)。模型已經(jīng)完成了預(yù)訓(xùn)練和指令微調(diào),具備一定的智能水平。雖然它們還無(wú)法穩(wěn)定地解決謎題,但是偶爾也能成功。通過提高正確推理的概率,我們逐步引導(dǎo)模型朝著 “神探” 的水平邁進(jìn)。對(duì)于計(jì)算損失和調(diào)整權(quán)重,我們采用了策略梯度的方法。

在訓(xùn)練過程中,我們使用了由 PyTorch 團(tuán)隊(duì)提供的Torchtune庫(kù),其中包括Llama、Gemma、Phi等熱門模型。我們?cè)谶@個(gè)項(xiàng)目中除了使用Qwen模型,也用80億參數(shù)和700億參數(shù)的Llama模型進(jìn)行了實(shí)驗(yàn)。Torchtune還提供了一些節(jié)省內(nèi)存和提升性能的工具,包括:

激活檢查點(diǎn)(Activation Checkpointing)

激活卸載(Activation Offloading)

量化(Quantization)

參數(shù)高效微調(diào)(PEFT),例如LoRA

此外,Torchtune支持多設(shè)備和多節(jié)點(diǎn)訓(xùn)練,還可以結(jié)合全分片數(shù)據(jù)并行(FSDP)和張量并行(TP)訓(xùn)練。他們提供了十多個(gè)訓(xùn)練配方,鼓勵(lì)用戶復(fù)制并根據(jù)自己的用例進(jìn)行定制。他們完整微調(diào)配方的修改版支持以下功能:

多設(shè)備和單設(shè)備訓(xùn)練

參考模型加載和權(quán)重交換以計(jì)算KL散度

使用組和父ID進(jìn)行高級(jí)因果掩碼計(jì)算

GRPO損失集成和組件日志記錄

強(qiáng)化學(xué)習(xí)訓(xùn)練過程涉及超參數(shù)的選擇。在訓(xùn)練模型期間,我們對(duì)各種配置進(jìn)行了測(cè)試,最終確定了以下參數(shù):

模型:Qwen 2.5 Instruct 140億參數(shù)版和320億參數(shù)版

每次迭代的任務(wù)數(shù):32

每個(gè)任務(wù)每次迭代的樣本數(shù):50

每次迭代的總樣本數(shù):32×50 = 1600

學(xué)習(xí)率:6×10??

微批次大?。簩?duì)于140億參數(shù)模型為4個(gè)序列,對(duì)于320億參數(shù)模型為8個(gè)序列

批次大?。嚎勺儯Q于序列數(shù)量

批次大小之所以可變,是因?yàn)橛?xùn)練過程中回復(fù)長(zhǎng)度不同。每次迭代的序列打包效率會(huì)有波動(dòng),優(yōu)勢(shì)為零的回復(fù)會(huì)被丟棄。在一次實(shí)驗(yàn)中,我們嘗試將學(xué)習(xí)率與批次大小成反比動(dòng)態(tài)調(diào)整,但這會(huì)導(dǎo)致小批次的學(xué)習(xí)率過高。經(jīng)過上限處理后的版本與使用恒定學(xué)習(xí)率相比沒有明顯差異,但調(diào)整批次大小和學(xué)習(xí)率仍是未來(lái)值得探索的方向。

我們還進(jìn)行了簡(jiǎn)短的實(shí)驗(yàn),在每次迭代的任務(wù)數(shù)和每個(gè)任務(wù)的樣本數(shù)之間進(jìn)行反向調(diào)整(即一個(gè)增加另一個(gè)減少),同時(shí)保持每次迭代的總樣本數(shù)大致相等。在較短的訓(xùn)練周期內(nèi),這些變化沒有產(chǎn)生明顯差異,這表明訓(xùn)練配方對(duì)任務(wù)數(shù)量與單任務(wù)樣本量之間的不同配比具有強(qiáng)魯棒性。

四、結(jié)果

經(jīng)過100+次迭代訓(xùn)練,我們的模型成功達(dá)到前沿級(jí)推理水平。

我們的模型能夠在準(zhǔn)確率下降之前迅速改進(jìn)。最佳狀態(tài)下,140億參數(shù)、1.6萬(wàn)個(gè)token的模型已接近于ClaudeSonnet 3.7的性能。320億參數(shù)、6.4萬(wàn)個(gè)token的模型更是幾乎達(dá)到了Sonnet的結(jié)果。

在訓(xùn)練期間,性能提升遵循冪律規(guī)律,在圖表上形成線性關(guān)系(在惡化之前)。

下一步,我們將探索多樣化回應(yīng)的方法,逐步構(gòu)建能力的方法,或者能夠激勵(lì)出徹底探索的方法。

此外,我們注意到在訓(xùn)練期間輸出長(zhǎng)度呈現(xiàn)出有趣的規(guī)律。最初回復(fù)變長(zhǎng),隨后趨于穩(wěn)定,在訓(xùn)練接近尾聲時(shí)出現(xiàn)分化,其中140億參數(shù)模型的回復(fù)變得更長(zhǎng),而320億參數(shù)模型的回復(fù)長(zhǎng)度則縮短(尤其是在達(dá)到最佳性能之后)。

為了從定性角度評(píng)估邏輯推理能力的提升,我們讓最先進(jìn)的模型Claude Sonnet 3.7對(duì)Qwen 32B模型所做出的推論進(jìn)行識(shí)別,并評(píng)估其合理性。Sonnet從基礎(chǔ)模型中識(shí)別出6個(gè)推論,除了一個(gè)被判定為正確外,其余均被判定為錯(cuò)誤。相反,從經(jīng)過訓(xùn)練的模型中識(shí)別出7個(gè)推論,除了一個(gè)錯(cuò)誤之外,其余均被判定為邏輯合理。

最后,在假設(shè)按需部署具有足夠吞吐量的情況下,我們根據(jù)Fireworks AI的無(wú)服務(wù)器定價(jià)層級(jí)估算了Qwen模型的成本。我們繪制了一張準(zhǔn)確性和推理成本的關(guān)系圖,并發(fā)現(xiàn)在未經(jīng)調(diào)優(yōu)的模型中存在一條清晰的線性帕累托前沿線,極大地改善了成本與準(zhǔn)確性之間的權(quán)衡關(guān)系。

五、結(jié)語(yǔ)

在我們的調(diào)查研究中,我們探索了較小型的開源語(yǔ)言模型能否通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)前沿水平的演繹推理能力。對(duì)時(shí)間線索謎題進(jìn)行訓(xùn)練時(shí),我們使用了超參數(shù)和GRPO方法來(lái)訓(xùn)練Qwen 14B和32B模型,顯著低提升了性能。這些改進(jìn)使開源模型在推理性能方面達(dá)到了最前沿的水平,并大幅度低降低了成本。我們的研究結(jié)果凸顯了強(qiáng)化學(xué)習(xí)在高效訓(xùn)練開源模型處理復(fù)雜演繹任務(wù)方面的巨大潛力。

此外,最后還有一個(gè)驚喜。我們發(fā)現(xiàn),僅需16個(gè)訓(xùn)練樣本就能實(shí)現(xiàn)高達(dá)10 - 15% 的性能提升,這意味著我們無(wú)需大量數(shù)據(jù)就能進(jìn)行推理。

原文鏈接:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

GRPO在《時(shí)空謎題》中擊敗o1、o3-mini和R1

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)