0
清華和上交的最新論文中,上演了一場“學術(shù)打假”的戲碼。文中研究者們對當前“純 RL 有利于提升模型推理能力”的主流觀點提出了相反的意見。
通過一系列實驗,他們證明引入強化學習的模型在某些任務(wù)中的表現(xiàn),竟然不如未使用強化學習的模型。
論文批判性地探討了 RLVR 在提升 LLM 推理能力方面的作用,尤其是在賦予模型超越自身原有能力方面,效果可能并非像人們普遍認為的那樣“無懈可擊”。
消息一出,網(wǎng)友們紛紛下場站隊。
有人認為這篇文章抓住了 RL 自身的漏洞,雖然提高了采樣效率,但它似乎在推理方面存在不足,未來我們需要新的方法來釋放 LLM 的全部潛力。
也有人表示,或許強化學習實際上限制了模型開發(fā)新推理行為的能力。真正的推理增強可能需要蒸餾等方法。
質(zhì)疑聲之外,RL 的追隨者也在為“信仰”發(fā)聲:這種說法是錯的,驗證遠比生成簡單的多。
也有網(wǎng)友表示,這更像是獎勵結(jié)構(gòu)的缺陷,而非 RLVR 本身的問題。如果用二元獎勵結(jié)構(gòu),出現(xiàn)這種情況可以理解。但我們可以調(diào)整獎勵結(jié)構(gòu)來緩解這個問題,甚至還能激勵更好的推理。
實驗中,研究人員在三個具有代表性的領(lǐng)域進行了實驗,來評估 RLVR 對基礎(chǔ)模型和 RLVR 模型的推理能力邊界的影響。
在數(shù)學任務(wù)實驗中,研究團隊在 GSM8K、MATH500 和 AIME24 等基準上評估了多個大語言模型系列(如 Qwen-2.5 和 LLaMA-3.1)及其經(jīng)過 RL 訓練的變體。他們通過分析 pass@k 曲線,比較了基礎(chǔ)模型與 RL 模型的表現(xiàn),發(fā)現(xiàn)雖然 RL 在低 k 值下提升了模型的準確性,但在高 k 情況下卻顯著降低了問題的覆蓋范圍。
此外,研究者還手動審查了模型生成的 CoT(Chain of Thought)推理過程,以確認正確答案是推理得出而非純屬運氣。最后,他們還研究了采用 Oat-Zero 方法訓練的模型,并對數(shù)據(jù)集進行了過濾,剔除容易猜測的問題,從而聚焦于更具挑戰(zhàn)性的樣本。
整體結(jié)果顯示,盡管 RL 能在初始準確率上帶來提升,基礎(chǔ)模型在推理覆蓋率方面仍表現(xiàn)更為穩(wěn)健。
在編碼任務(wù)實驗中,研究團隊在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基準上評估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 訓練模型 CodeR1-Zero-Qwen2.5-7B。他們通過 pass@k 指標來衡量性能,并根據(jù)預(yù)定義的測試用例評估模型的正確性。
結(jié)果顯示,RLVR 提升了單樣本 pass@1 的分數(shù),但在較高采樣數(shù)(k = 128)時,模型的覆蓋率有所下降。與此相比,原始模型在較大 k 值下表現(xiàn)出了持續(xù)改進的潛力,而 RLVR 的性能則趨于平穩(wěn)。這表明,盡管 RLVR 提高了模型的確定性準確性,但在探索多樣性方面存在一定的限制。
在視覺推理實驗中,研究團隊在過濾后的視覺推理基準(MathVista 和 MathVision)上評估了 Qwen-2.5-VL-7B,刪除了多項選擇題,聚焦于穩(wěn)健的問題解決能力。RLVR 在視覺推理任務(wù)中的表現(xiàn)提升與數(shù)學和編碼基準中的改進相一致,表明原始模型已能夠解決廣泛的問題,即便是在多模態(tài)任務(wù)中也同樣如此。
跨領(lǐng)域的一致性表明,RLVR 提升了模型的推理能力,同時并未從根本上改變模型的問題解決策略。
使用單次通過的成功率或平均核采樣衡量模型推理能力邊界的傳統(tǒng)指標存在重要缺陷。如果模型在少數(shù)幾次嘗試后未能解決難題,但卻本可以通過更多次的采樣獲得成功,此時其真實推理潛力可能會被低估。
如果為基礎(chǔ)模型投入大量采樣資源,它的性能能否與經(jīng)過強化學習訓練的模型相匹配?
為精準評估大語言模型的推理能力邊界,研究團隊將代碼生成領(lǐng)域常用的pass@k指標拓展至所有可驗證獎勵的任務(wù)。針對一個問題,從模型中采樣k個輸出,若至少一個樣本通過驗證,該問題的pass@k 值為1,否則為0。數(shù)據(jù)集上的平均 pass@k 值反映了模型在 k 次試驗內(nèi)可解決的數(shù)據(jù)集問題比例,能嚴格評估 LLM 的推理能力覆蓋范圍。
直接按問題采樣k個輸出計算pass@k可能導致高方差。他們采用無偏估計法,對評估數(shù)據(jù)集D中的每個問題生成 n 個樣本(n ≥ k),統(tǒng)計正確樣本數(shù)。對于使用編譯器和預(yù)定義單元測試用例作為驗證器的編碼任務(wù),pass@k 值能準確反映模型是否能解決問題。
然而,隨著 k 增大,數(shù)學問題中“黑客”行為可能凸顯,即模型可能生成錯誤的推理過程,卻在多次采樣中偶然得出正確答案,這一情況常被以往指標忽視。為此,他們篩選出易被“黑客”攻克的問題,并手動檢查部分模型輸出的 CoT 正確性。結(jié)合這些措施,他們嚴格評估了 LLM 的推理能力極限。
清華與上交的這篇論文,為當前業(yè)界廣泛推崇的強化學習范式敲響了警鐘。讓我們不得不重新思考強化學習在大模型訓練流程中的真正角色。
我們也不能將模型的“能力”與“效率”混為一談。能力,指的是模型是否擁有解決某類問題的潛質(zhì)與邏輯鏈條;效率,則是在給定的能力范圍內(nèi),模型能以多快、多穩(wěn)、多省資源的方式得出答案。
強化學習或許確實能夠提升模型在已有能力基礎(chǔ)上的輸出表現(xiàn)(比如在低采樣次數(shù)下更快給出正確答案),但這并不代表它為模型帶來了新的推理路徑或更復(fù)雜問題的解決能力。相反,在高采樣場景中,RL 帶來的“收斂性”可能犧牲了答案的多樣性,從而錯失了解決更多難題的機會。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))認為,強化學習更像是一種能力調(diào)控器,而非能力創(chuàng)造器。它可以讓模型更擅長做已經(jīng)能做的事,但難以讓模型做出“原本不會的事”。正因如此,若將 RL 簡單視為提升模型通用智能的萬能鑰匙,未免過于樂觀。接下來的技術(shù)路線,可能需要更多關(guān)注基礎(chǔ)模型在表示能力、知識組織與推理路徑構(gòu)建等方面的設(shè)計,而非過度依賴下游的策略微調(diào)。
總的來說,這項研究的意義不在于“RL 無用”的結(jié)論,而在于它揭示了在過熱預(yù)期背后,強化學習真正適用的邊界。這或許會促使研究者和企業(yè)在制定大模型優(yōu)化方案時,回歸問題本質(zhì),用更清晰的標準衡量“能力的提升”究竟意味著什么。
參考鏈接:
https://arxiv.org/pdf/2504.13837
https://x.com/iScienceLuvr/status/1914171319970848942
https://limit-of-rlvr.github.io/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。