最新 AGI 暴論：強(qiáng)化學(xué)習(xí)的「GPT-3 時刻」實現(xiàn)，還需要 1 萬年？

本文作者：鄭佳美

2025-07-14 16:36

導(dǎo)語：「復(fù)制訓(xùn)練」或許是一條推動 RL 模型走向通用智能的重要路徑。

最近，國外一家 AI 初創(chuàng)公司 Mechanize 的三位創(chuàng)始人聯(lián)合撰文，提出一個大膽的判斷：RL 或許要迎來屬于它的 “GPT-3 時刻”，但還需要擁有相當(dāng)于數(shù)千至上萬年“模型處理任務(wù)所用時間”的訓(xùn)練。

在他們看來，當(dāng)前的 RL 模型還存在明顯短板，比如泛化能力差、難以適應(yīng)新任務(wù)等，這種局面其實很像 GPT-3 出現(xiàn)之前的語言模型——能解決特定問題，但難以遷移和擴(kuò)展。

為了解決這個問題，他們提出了一種新的訓(xùn)練范式，叫作“復(fù)制訓(xùn)練”（Replication Training）：讓模型在虛擬環(huán)境中模擬真實軟件的操作過程，比如使用瀏覽器、編寫代碼、處理命令行任務(wù)等等。

這種訓(xùn)練方式的好處在于任務(wù)目標(biāo)清晰、評分機(jī)制明確，同時還能大規(guī)模自動生成訓(xùn)練數(shù)據(jù)，非常適合用在 RL 模型的系統(tǒng)性訓(xùn)練中。當(dāng)然，它也不是萬能的，比如在任務(wù)開放性和測試設(shè)計方面還有一些挑戰(zhàn)。

但他們認(rèn)為，復(fù)制訓(xùn)練是一條能推動 RL 模型走向通用智能的重要路徑，有望帶來一次類似 GPT-3 那樣的能力躍遷。

綜上，雷峰網(wǎng)(公眾號：雷峰網(wǎng)) AI 科技評論對原文做了不改原意的整理與呈現(xiàn)：

當(dāng) RL 遇上 GPT-3 式規(guī)?；?/h2>
GPT-3 向我們展示了一個關(guān)鍵事實：僅靠規(guī)模的提升，就能催生出強(qiáng)大、任務(wù)無關(guān)的 few-shot 能力，甚至在不少任務(wù)上超越了精心微調(diào)的模型。在此之前，想要在特定任務(wù)上取得最優(yōu)表現(xiàn)，通常需要先用大規(guī)模通用語料進(jìn)行預(yù)訓(xùn)練，再針對目標(biāo)任務(wù)進(jìn)行微調(diào)。
今天的強(qiáng)化學(xué)習(xí)（RL）則還停留在 GPT-3 出現(xiàn)前的階段：我們依舊先預(yù)訓(xùn)練一個大型模型，然后在某些高度特化的環(huán)境中進(jìn)行繁瑣的任務(wù)級微調(diào)。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環(huán)境略有變化，性能便迅速崩潰。
我們認(rèn)為，RL 也將迎來屬于它的 “GPT-3 時刻”。這意味著，訓(xùn)練方式將從在少數(shù)環(huán)境中微調(diào)，轉(zhuǎn)向在成千上萬種多樣化環(huán)境中進(jìn)行大規(guī)模訓(xùn)練，以培育出真正具備 few-shot 能力與任務(wù)無關(guān)泛化能力的智能體，能夠靈活應(yīng)對全新任務(wù)。
但要實現(xiàn)這一躍遷，前提是我們必須構(gòu)建出規(guī)模和多樣性遠(yuǎn)超當(dāng)前水平的訓(xùn)練環(huán)境——這是推動 RL 走向能力爆發(fā)的關(guān)鍵。

要實現(xiàn) GPT-3 級別的 RL 訓(xùn)練，需要多大的規(guī)模？

不過，目前的 RL 數(shù)據(jù)集規(guī)模仍然相當(dāng)有限。

以 DeepSeek-R1 為例，其訓(xùn)練數(shù)據(jù)大約包含 60 萬道數(shù)學(xué)題。假設(shè)每道題人類平均需要 5 分鐘完成，總體相當(dāng)于約 6 年的持續(xù)人工勞動。而相比之下，GPT-3 所使用的 3000 億個 token 語料，若按人類正常寫作速度來計算，則需要幾十萬年才能寫完，數(shù)量級遠(yuǎn)不在一個水平。

另一方面，如果想讓 RL 的算力投入達(dá)到當(dāng)前最前沿預(yù)訓(xùn)練模型的水平，可能需要大約 1 萬年的人類任務(wù)時間（即模型處理所需的時間，換算成人類完成同樣任務(wù)所需的時間）。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP，對應(yīng)約 6 年的模型處理任務(wù)時間。如果后續(xù)訓(xùn)練保持與 DeepSeek-R1 相近的訓(xùn)練周期與分組規(guī)模，那么將訓(xùn)練規(guī)模提升到 6E26 FLOP 級別，大致對應(yīng)約 6000 年的模型處理任務(wù)的時間。

當(dāng)然，隨著任務(wù)多樣性的提高，未來 RL 是否會采用更大或更小的批次規(guī)模，或增加訓(xùn)練輪數(shù)，目前仍無法確定。由于缺乏相關(guān)經(jīng)驗數(shù)據(jù)，要精確評估所需的模型任務(wù)時間仍有一定難度，但 “1 萬年” 可能是一個合理的估算級別。

為了便于理解，我們可以將這一訓(xùn)練規(guī)模與某些大型軟件工程項目進(jìn)行類比：無論是 Windows Server 2008、GTA V，還是 Red Hat Linux 7.1，它們都被估算耗費了約 1 萬年的人類勞動。

值得一提的是，將 RL 訓(xùn)練擴(kuò)展到這一規(guī)模，從經(jīng)濟(jì)角度來看是可行的。由于算力支出在整體訓(xùn)練成本中占據(jù)主導(dǎo)，將 RL 的訓(xùn)練預(yù)算提升至與語言模型預(yù)訓(xùn)練相當(dāng)?shù)乃?，有望顯著提升模型性能，而不會帶來成倍增長的總成本。

而真正的挑戰(zhàn)在于：如何構(gòu)建足夠多樣且可自動評估的 RL 環(huán)境。實現(xiàn)這一點，或許需要我們徹底重新思考 RL 環(huán)境的設(shè)計與構(gòu)建方式。

復(fù)制訓(xùn)練或是解法？

想象一下，如果每次訓(xùn)練一個語言模型進(jìn)行下一個詞的預(yù)測（next-token prediction），都必須手動編寫整套訓(xùn)練語料庫，那幾乎是不可能完成的任務(wù)。實際上，我們之所以能夠訓(xùn)練出強(qiáng)大的語言模型，正是因為可以直接利用大量現(xiàn)有內(nèi)容資源 —— 比如書籍、學(xué)術(shù)論文、博客文章，以及 Reddit 上的討論等，構(gòu)建出大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)。

類似地，我們認(rèn)為，強(qiáng)化學(xué)習(xí)也有望迎來自己的 GPT-3 時刻，而實現(xiàn)這一點的關(guān)鍵，很可能是一種被我們稱為“復(fù)制訓(xùn)練”（Replication Training）的新范式。

其核心思想是：讓 AI 模型去復(fù)現(xiàn)已有的軟件產(chǎn)品，或其中的某些具體功能。

起步階段可以從一些相對簡單的命令行工具入手，比如實現(xiàn)某種哈?；蚣用芩惴ǖ男〕绦颉@些目標(biāo)清晰、結(jié)構(gòu)緊湊，適合訓(xùn)練初期使用。隨著模型能力的提升，復(fù)制訓(xùn)練的任務(wù)范圍也可以擴(kuò)展到更復(fù)雜的系統(tǒng)，比如網(wǎng)頁應(yīng)用、專業(yè)軟件，甚至是大型游戲。雷峰網(wǎng)

每一個復(fù)制訓(xùn)練任務(wù)，都會提供詳盡的功能規(guī)范和一個參考實現(xiàn)。AI 模型的任務(wù)，就是生成一個行為上與參考實現(xiàn)完全一致的版本。這種方式的最大優(yōu)勢在于評估非常直接且客觀：模型的輸出要么與參考結(jié)果完全一致，要么就不一致。清晰的評分標(biāo)準(zhǔn)大大簡化了訓(xùn)練過程中的評估機(jī)制，也提升了訓(xùn)練效率。

盡管“復(fù)制訓(xùn)練”任務(wù)在形式上可能與日常軟件開發(fā)有所不同，但它們瞄準(zhǔn)的，正是當(dāng)前 AI 系統(tǒng)在工程能力上仍顯薄弱的一些關(guān)鍵環(huán)節(jié)。比如，要讓模型復(fù)現(xiàn)一個復(fù)雜算法（如一個包含上萬行代碼的加解密命令行工具，并要求嚴(yán)格遵循詳細(xì)規(guī)范），就必須具備以下核心能力：

準(zhǔn)確閱讀并深入理解復(fù)雜的技術(shù)文檔；

嚴(yán)格按照規(guī)范執(zhí)行指令，避免邏輯或?qū)崿F(xiàn)上的任何偏差；

能夠識別并修復(fù)早期出現(xiàn)的錯誤，具備可靠的問題恢復(fù)能力；

在長時間、高復(fù)雜度任務(wù)中保持穩(wěn)定輸出，就像人類工程師連續(xù)開發(fā)數(shù)周一樣，成果質(zhì)量直接由正確性衡量；

面對困難具備足夠韌性，不輕易滿足于“差不多就行”的半成品。

這些能力的組合，是構(gòu)建可靠、高質(zhì)量 AI 工程系統(tǒng)的基礎(chǔ)。而“復(fù)制訓(xùn)練”的獨特價值就在于：通過高強(qiáng)度還原現(xiàn)實復(fù)雜系統(tǒng)，為模型提供了系統(tǒng)性磨煉上述能力的路徑。這不僅補(bǔ)足了當(dāng)前 AI 系統(tǒng)的能力短板，也為通用型智能體的訓(xùn)練奠定了關(guān)鍵技術(shù)基石。

我們預(yù)測，“復(fù)制訓(xùn)練”將成為 AI 訓(xùn)練的下一個核心范式。

這一判斷源于當(dāng)前 AI 發(fā)展的基本趨勢：通過大量已有的人類創(chuàng)作數(shù)據(jù)，自動構(gòu)建出豐富的新任務(wù)。就像自然語言資源廣泛存在于互聯(lián)網(wǎng)上一樣，軟件本身也是一種高度結(jié)構(gòu)化且數(shù)量龐大的現(xiàn)成素材。復(fù)制訓(xùn)練正是基于這一前提，提供了一種可擴(kuò)展、自動化的方式，能夠高效生成復(fù)雜任務(wù)，推動我們向具備端到端開發(fā)能力的 AI 邁進(jìn)——即那些能夠獨立完成整個軟件項目的智能體。

當(dāng)然，這一方法也并非沒有挑戰(zhàn)。比如，如何編寫既高效又覆蓋全面的測試，仍是一項不小的工程難題，往往需要大量人工投入。此外，從形式上看，復(fù)制訓(xùn)練也略顯“人工”——在日常軟件開發(fā)中，完全照搬已有軟件的情況并不常見，盡管它在軟件移植、遺留系統(tǒng)重構(gòu)、“潔凈室”重寫等場景中確實存在。

盡管如此，我們?nèi)哉J(rèn)為復(fù)制訓(xùn)練提供了一條清晰且具可行性的路徑，能夠?qū)?RL 訓(xùn)練環(huán)境擴(kuò)展到支持泛化能力所需的海量規(guī)模。這種范式很可能成為 RL 實現(xiàn)“GPT-3 時刻”的關(guān)鍵——幫助模型積累成千上萬年級別的任務(wù)經(jīng)驗，進(jìn)而具備穩(wěn)健、任務(wù)無關(guān)的泛化能力。

那么，復(fù)制訓(xùn)練是否就是實現(xiàn)“全自動勞動”的終極路徑？我們并不這么認(rèn)為。雖然它有望催生出能夠依據(jù)詳細(xì)設(shè)計說明獨立完成復(fù)雜軟件項目的系統(tǒng)，但這類系統(tǒng)仍可能缺乏人類所具備的開放性、靈活性，以及在跨領(lǐng)域場景中進(jìn)行抽象規(guī)劃和高階管理的能力。即便未來 AI 成為頂級程序員，它們也未必能勝任更廣泛意義上的決策與協(xié)調(diào)任務(wù)。

不過，我們相信復(fù)制訓(xùn)練仍有可能成為通往下一個訓(xùn)練范式的關(guān)鍵“橋梁”——正如在復(fù)制訓(xùn)練之前，我們也需要經(jīng)歷預(yù)訓(xùn)練這一階段一樣。我們對這一新范式的潛力與前景，充滿期待

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。