0
本文作者: 梁丙鑒 | 2025-09-18 14:57 |
雷峰網(wǎng)訊 DeepSeek-R1 又開先例,成為首個登上《Nature》封面的中國大模型。
2025 年春節(jié),DeepSeek-R1 橫空出世,因其極低的訓(xùn)練成本引發(fā)病毒式傳播。八個月過去,這一成果帶著 Nature 的金字招牌再次回到公眾視野中央,只為一件事:技術(shù)透明。
這篇名為 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的《Nature》 封面論文由創(chuàng)始人梁文鋒擔(dān)任通訊作者。文中首次確認(rèn)了此前流傳的DeepSeek R1 訓(xùn)練成本,約 29.4 萬美元,折合人民幣約 208 萬,并進(jìn)一步披露了模型訓(xùn)練中采用的數(shù)據(jù)類型、強化學(xué)習(xí)方案等技術(shù)細(xì)節(jié)。
在揭開這一里程碑式大模型的面紗之外,這篇論文更大的意義,是 DeepSeek-R1 作為全球首個經(jīng)歷了同行評審的大語言模型,將大模型研究推向了更透明、可重復(fù)的方向。
此前業(yè)內(nèi)通行的做法,是科技公司在自家官網(wǎng)、論文預(yù)印本網(wǎng)站 arXiv或知名技術(shù)論壇上發(fā)布突破性成果及基準(zhǔn)測試分?jǐn)?shù),大部分模型 API 隨后即向公眾開放。這一過程繞開了傳統(tǒng)學(xué)術(shù)評價體系中的同行評審環(huán)節(jié),而 DeepSeek 團(tuán)隊則主動接受了這一來自學(xué)術(shù)界的審視。
根據(jù) 《Nature》公布的補充信息顯示,評審意見主要集中在實驗評估、模型安全性和倫理風(fēng)險等方面,要求補充 OOD(分布外)測試、中間階段性能分析、誤用討論等工作。正是針對上述同行評審意見,DeepSeek 團(tuán)隊才增加了對數(shù)據(jù)類型等訓(xùn)練細(xì)節(jié)的披露,并進(jìn)一步證明了成果的安全性。
“這是一個非常值得歡迎的先例,“論文評審之一,Hugging Face 機器學(xué)習(xí)工程師 Lewis Tunstall 表示,”如果我們沒有公開分享這一過程大部分內(nèi)容的規(guī)范,那么將很難評估這些系統(tǒng)是否構(gòu)成風(fēng)險。“
公開訓(xùn)練細(xì)節(jié),回應(yīng)“蒸餾”質(zhì)疑
那么在最新版本的論文中, DeepSeek 團(tuán)隊都補充了 R1 的哪些訓(xùn)練細(xì)節(jié)呢?
首先是訓(xùn)練成本,此前曾震動華爾街的 29.4 萬美元數(shù)據(jù)終于得到證實。
據(jù)補充材料介紹, DeepSeek-R1 的研究工作分為三個階段。
第一階段使用 A100 GPU 對 30B 參數(shù)的小模型進(jìn)行實驗預(yù)研,因結(jié)果表現(xiàn)良好,使團(tuán)隊有信心將規(guī)模擴大至 660B 參數(shù)的 R1-Zero 和 R1。
第二階段的成果是 DeepSeek-R1-Zero,研究團(tuán)隊動用了 512 塊 H800 GPU,耗時約 198 小時。
最后是 DeepSeek-R1,仍然采用 512 塊 H800 GPU 的配置,但僅用時 80 小時便宣告完成。
在訓(xùn)練數(shù)據(jù)構(gòu)成方面, DeepSeek-R1 采用了數(shù)學(xué)、編程、STEM、邏輯四大類題目。
其中數(shù)學(xué)數(shù)據(jù)集由 2.6 萬道定量推理題構(gòu)成,涵蓋數(shù)學(xué)考試和競賽題目,模型需逐步推理并給出最終正確答案。
編程數(shù)據(jù)集由 1.7 萬道算法競賽題與 8 千道 Bug修復(fù)題構(gòu)成,其中后者全部來自真實的GitHub issue,數(shù)據(jù)集提供問題描述、含缺陷源碼與部分失敗的單元測試,要求模型定位并修復(fù)缺陷,使代碼通過全部測試。
STEM 數(shù)據(jù)集由 2.2 萬道選擇題構(gòu)成,覆蓋物理、化學(xué)、生物等學(xué)科,模型需選出最科學(xué)準(zhǔn)確的答案。
邏輯數(shù)據(jù)集由真實問題和合成問題共 1.5 萬題構(gòu)成。
此外 DeepSeek 團(tuán)隊還引入了通用 RL 數(shù)據(jù)以提升 DeepSeek-R1 的有用性與無害性。在訓(xùn)練過程中,研究人員采用了兩個獨立訓(xùn)練的獎勵模型,一個針對“有用”排序數(shù)據(jù)訓(xùn)練,涵蓋創(chuàng)意寫作、編輯、事實問答等領(lǐng)域的 6.6萬題,一個針對“無害”排序數(shù)據(jù)訓(xùn)練,由1.2 萬題構(gòu)成。
特別值得一提的是,在最新版論文中,DeepSeek 團(tuán)隊正面回應(yīng)了此前關(guān)于 R1 蒸餾 OpenAI 模型的質(zhì)疑。
研究團(tuán)隊專門為此設(shè)計了一項試驗,使用 Qwen2-7B 作為基礎(chǔ)模型時,通過大規(guī)模強化學(xué)習(xí)進(jìn)行訓(xùn)練,該模型同樣可以自主發(fā)展出各種先進(jìn)推理策略。而 Qwen2-7B 的發(fā)布時間為 2024 年 6 月,顯然早于所有公開的推理模型。蒸無可蒸,推理能力的優(yōu)化自然源于 DeepSeek-R1 開創(chuàng)的強化學(xué)習(xí)方法。
DeepSeek-R1 的另一大特征是在推理過程中更頻繁地使用“我”和“我們”等第一人稱代詞。值得一提的是,這種效果是通過精心設(shè)計的冷啟動數(shù)據(jù)所實現(xiàn)。
論文中介紹,研究團(tuán)隊發(fā)現(xiàn)當(dāng)推理過程符合第一人稱視角的思維模式時,用戶會認(rèn)為其回應(yīng)更直觀且具有吸引力。為此,研究團(tuán)隊要求標(biāo)注人員將推理軌跡轉(zhuǎn)換為更自然、更貼近人類對話風(fēng)格的表達(dá),并以此作為示例提示大語言模型以類似風(fēng)格重寫更多。
在如此收集到的數(shù)千條 CoT 數(shù)據(jù)中進(jìn)一步篩選出最終答案正確且格式清晰的,就得到了簡潔、可讀性強,既包含推理步驟,也涵蓋最終結(jié)果的高質(zhì)量冷啟動數(shù)據(jù)。
雙重里程碑
時隔八個月再次回顧,DeepSeek-R1 因何成為大模型史上里程碑式的論文?
有一部分答案藏在訓(xùn)練成本里。DeepSeek-R1 29.4 萬美元的訓(xùn)練成本不僅只有當(dāng)時同等規(guī)模模型的十分之一,而且其中僅有 1 萬美元被用于構(gòu)建 SFT 數(shù)據(jù)集。這意味和同行相比,它背后砍掉了大規(guī)模的監(jiān)督微調(diào)。
屬于人類的能力,也向人類學(xué)習(xí),監(jiān)督微調(diào)曾經(jīng)是提升模型推理能力的共識。但它的局限性也很明顯,對人類標(biāo)注推理軌跡的依賴顯著增加了模型訓(xùn)練成本,限制了可擴展性,人類的認(rèn)知偏見也在向模型滲透。
更引人深思的問題是,復(fù)制人類思維過程真的是硅基推理的最優(yōu)解嗎?是否存在一種更優(yōu)越的、非人類思維的推理方式?如果答案是肯定的,那一定在人類示例之外。
正是在這樣的背景下,DeepSeek-R1 提出了一種通過純粹強化學(xué)習(xí)實現(xiàn)推理能力自我進(jìn)化發(fā)展的路徑,以擺脫對人工標(biāo)注推理軌跡的依賴。
具體而言,研究團(tuán)隊基于 DeepSeek-V3 Base,并使用組相對策略優(yōu)化(GRPO)作為強化學(xué)習(xí)框架。在全新的訓(xùn)練范式下,僅對最終答案的正確性進(jìn)行獎勵,而不對推理過程本身施加約束。簡單來說,就是推理方式不限,能抓到耗子就是好貓。
這種訓(xùn)練方案設(shè)計和研究團(tuán)隊的假設(shè)一脈相承:人類定義的推理模式可能會限制模型探索,而不受限制的強化學(xué)習(xí)訓(xùn)練能更好地激勵 LLMs 中新型推理能力的出現(xiàn)。
實驗結(jié)果表明,DeepSeek-R1-Zero 的確自然地發(fā)展出了多樣化和復(fù)雜的推理行為。為解決推理問題,它表現(xiàn)出了生成更長響應(yīng)的傾向,并且存在在每個響應(yīng)中包含驗證、反思和探索替代方法的趨勢。
“盡管我們沒有明確地教模型如何推理,但它通過強化學(xué)習(xí)成功學(xué)習(xí)了改進(jìn)的推理策略?!闭撐闹赋?。
展現(xiàn)出強大推理能力的同時,DeepSeek-R1-Zero 在可讀性差和語言混雜等方面仍存在挑戰(zhàn)。這一問題的根源在于 DeepSeek-V3 Base 是在多種語言上完成訓(xùn)練,為此 DeepSeek-R1 的開發(fā)被提上日程。
這一次,研究團(tuán)隊不僅通過多階段強化學(xué)習(xí)訓(xùn)練改進(jìn)模型在對話式推理過程、語言一致性以及人類偏好對齊方面的表現(xiàn),而且在拒絕采樣和監(jiān)督微調(diào)環(huán)節(jié)將推理和非推理數(shù)據(jù)集都納入 SFT 過程,這一設(shè)計使 DeepSeek-R1 不僅能在推理任務(wù)中表現(xiàn)出色,還展示出了高級的寫作能力。
基準(zhǔn)測試結(jié)果顯示,脫胎于全新訓(xùn)練范式下的 DeepSeek-R1 在 MMLU、C-Eval、GPQA Diamond、Arena-Hard、SWE-bench Verified、AIME 2024 上均表現(xiàn)出色。而更直接的例子,則是在 2025 年春節(jié)之后的一段時間里,DeepSeek-R1 幾乎成為了國產(chǎn)大模型的代名詞。
LLMs 的推理能力可以通過純 RL 進(jìn)行激勵,無需人工標(biāo)注推理軌跡的參與。這一今天已成為共識的創(chuàng)想,最初就是經(jīng)由 DeepSeek-R1 所實現(xiàn)。DeepSeek 團(tuán)隊在此基礎(chǔ)上構(gòu)建的 RL 框架,也促進(jìn)了自我反思、驗證和動態(tài)策略適應(yīng)等高級推理模式的涌現(xiàn)。
而今天,這一突破性成果經(jīng)受住了學(xué)術(shù)出版審查。主動接受專家評審的拷問,補充材料說明技術(shù)細(xì)節(jié),并最終作為頂刊封面論文刊發(fā)……如果說 DeepSeek-R1 的初次發(fā)布是一個關(guān)于前沿技術(shù)突破的故事,那么時隔八個月之后,這個故事的關(guān)鍵詞變成了學(xué)術(shù)透明和技術(shù)開放。
補充各種技術(shù)細(xì)節(jié)之后,《Nature》最新這篇封面論文堪稱“手把手教你訓(xùn) R1”。它讓我們看到頭部科技企業(yè)的核心成果不是只能封裝成語焉不詳?shù)暮诤刑峁┙o用戶,而是也可以拿到同行評審面前接受審視,以及更重要的,給出符合學(xué)術(shù)規(guī)范的解釋和回應(yīng)。
商業(yè)化考量讓 OpenAI、Google 等科技巨頭紛紛和傳統(tǒng)的學(xué)術(shù)審查保持距離,這本無可非議,但是當(dāng) DeepSeek-R1 真的成為了可復(fù)現(xiàn)、可驗證的學(xué)術(shù)成果,這種對技術(shù)開放性的追求無疑也讓研究團(tuán)隊的選擇更加可敬。
在雙重意義上,DeepSeek-R1 都堪稱里程碑。
參考資料:
https://www.nature.com/articles/s41586-025-09422-z#ethics
https://www.nature.com/articles/d41586-025-03015-6
雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。