0
本文作者: 鄭佳美 | 2025-07-14 16:36 |
最近,國外一家 AI 初創(chuàng)公司 Mechanize 的三位創(chuàng)始人聯(lián)合撰文,提出一個大膽的判斷:RL 或許要迎來屬于它的 “GPT-3 時刻”,但還需要擁有相當(dāng)于數(shù)千至上萬年“模型處理任務(wù)所用時間”的訓(xùn)練。
在他們看來,當(dāng)前的 RL 模型還存在明顯短板,比如泛化能力差、難以適應(yīng)新任務(wù)等,這種局面其實很像 GPT-3 出現(xiàn)之前的語言模型——能解決特定問題,但難以遷移和擴(kuò)展。
為了解決這個問題,他們提出了一種新的訓(xùn)練范式,叫作“復(fù)制訓(xùn)練”(Replication Training):讓模型在虛擬環(huán)境中模擬真實軟件的操作過程,比如使用瀏覽器、編寫代碼、處理命令行任務(wù)等等。
這種訓(xùn)練方式的好處在于任務(wù)目標(biāo)清晰、評分機(jī)制明確,同時還能大規(guī)模自動生成訓(xùn)練數(shù)據(jù),非常適合用在 RL 模型的系統(tǒng)性訓(xùn)練中。當(dāng)然,它也不是萬能的,比如在任務(wù)開放性和測試設(shè)計方面還有一些挑戰(zhàn)。
但他們認(rèn)為,復(fù)制訓(xùn)練是一條能推動 RL 模型走向通用智能的重要路徑,有望帶來一次類似 GPT-3 那樣的能力躍遷。
綜上,雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論對原文做了不改原意的整理與呈現(xiàn):
GPT-3 向我們展示了一個關(guān)鍵事實:僅靠規(guī)模的提升,就能催生出強(qiáng)大、任務(wù)無關(guān)的 few-shot 能力,甚至在不少任務(wù)上超越了精心微調(diào)的模型。在此之前,想要在特定任務(wù)上取得最優(yōu)表現(xiàn),通常需要先用大規(guī)模通用語料進(jìn)行預(yù)訓(xùn)練,再針對目標(biāo)任務(wù)進(jìn)行微調(diào)。
今天的強(qiáng)化學(xué)習(xí)(RL)則還停留在 GPT-3 出現(xiàn)前的階段:我們依舊先預(yù)訓(xùn)練一個大型模型,然后在某些高度特化的環(huán)境中進(jìn)行繁瑣的任務(wù)級微調(diào)。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環(huán)境略有變化,性能便迅速崩潰。
我們認(rèn)為,RL 也將迎來屬于它的 “GPT-3 時刻”。這意味著,訓(xùn)練方式將從在少數(shù)環(huán)境中微調(diào),轉(zhuǎn)向在成千上萬種多樣化環(huán)境中進(jìn)行大規(guī)模訓(xùn)練,以培育出真正具備 few-shot 能力與任務(wù)無關(guān)泛化能力的智能體,能夠靈活應(yīng)對全新任務(wù)。
但要實現(xiàn)這一躍遷,前提是我們必須構(gòu)建出規(guī)模和多樣性遠(yuǎn)超當(dāng)前水平的訓(xùn)練環(huán)境——這是推動 RL 走向能力爆發(fā)的關(guān)鍵。
不過,目前的 RL 數(shù)據(jù)集規(guī)模仍然相當(dāng)有限。
以 DeepSeek-R1 為例,其訓(xùn)練數(shù)據(jù)大約包含 60 萬道數(shù)學(xué)題。假設(shè)每道題人類平均需要 5 分鐘完成,總體相當(dāng)于約 6 年的持續(xù)人工勞動。而相比之下,GPT-3 所使用的 3000 億個 token 語料,若按人類正常寫作速度來計算,則需要幾十萬年才能寫完,數(shù)量級遠(yuǎn)不在一個水平。
另一方面,如果想讓 RL 的算力投入達(dá)到當(dāng)前最前沿預(yù)訓(xùn)練模型的水平,可能需要大約 1 萬年的人類任務(wù)時間(即模型處理所需的時間,換算成人類完成同樣任務(wù)所需的時間)。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP,對應(yīng)約 6 年的模型處理任務(wù)時間。如果后續(xù)訓(xùn)練保持與 DeepSeek-R1 相近的訓(xùn)練周期與分組規(guī)模,那么將訓(xùn)練規(guī)模提升到 6E26 FLOP 級別,大致對應(yīng)約 6000 年的模型處理任務(wù)的時間。
當(dāng)然,隨著任務(wù)多樣性的提高,未來 RL 是否會采用更大或更小的批次規(guī)模,或增加訓(xùn)練輪數(shù),目前仍無法確定。由于缺乏相關(guān)經(jīng)驗數(shù)據(jù),要精確評估所需的模型任務(wù)時間仍有一定難度,但 “1 萬年” 可能是一個合理的估算級別。
為了便于理解,我們可以將這一訓(xùn)練規(guī)模與某些大型軟件工程項目進(jìn)行類比:無論是 Windows Server 2008、GTA V,還是 Red Hat Linux 7.1,它們都被估算耗費了約 1 萬年的人類勞動。
值得一提的是,將 RL 訓(xùn)練擴(kuò)展到這一規(guī)模,從經(jīng)濟(jì)角度來看是可行的。由于算力支出在整體訓(xùn)練成本中占據(jù)主導(dǎo),將 RL 的訓(xùn)練預(yù)算提升至與語言模型預(yù)訓(xùn)練相當(dāng)?shù)乃?,有望顯著提升模型性能,而不會帶來成倍增長的總成本。
而真正的挑戰(zhàn)在于:如何構(gòu)建足夠多樣且可自動評估的 RL 環(huán)境。實現(xiàn)這一點,或許需要我們徹底重新思考 RL 環(huán)境的設(shè)計與構(gòu)建方式。
想象一下,如果每次訓(xùn)練一個語言模型進(jìn)行下一個詞的預(yù)測(next-token prediction),都必須手動編寫整套訓(xùn)練語料庫,那幾乎是不可能完成的任務(wù)。實際上,我們之所以能夠訓(xùn)練出強(qiáng)大的語言模型,正是因為可以直接利用大量現(xiàn)有內(nèi)容資源 —— 比如書籍、學(xué)術(shù)論文、博客文章,以及 Reddit 上的討論等,構(gòu)建出大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)。
類似地,我們認(rèn)為,強(qiáng)化學(xué)習(xí)也有望迎來自己的 GPT-3 時刻,而實現(xiàn)這一點的關(guān)鍵,很可能是一種被我們稱為“復(fù)制訓(xùn)練”(Replication Training)的新范式。
其核心思想是:讓 AI 模型去復(fù)現(xiàn)已有的軟件產(chǎn)品,或其中的某些具體功能。
起步階段可以從一些相對簡單的命令行工具入手,比如實現(xiàn)某種哈?;蚣用芩惴ǖ男〕绦颉@些目標(biāo)清晰、結(jié)構(gòu)緊湊,適合訓(xùn)練初期使用。隨著模型能力的提升,復(fù)制訓(xùn)練的任務(wù)范圍也可以擴(kuò)展到更復(fù)雜的系統(tǒng),比如網(wǎng)頁應(yīng)用、專業(yè)軟件,甚至是大型游戲。雷峰網(wǎng)
每一個復(fù)制訓(xùn)練任務(wù),都會提供詳盡的功能規(guī)范和一個參考實現(xiàn)。AI 模型的任務(wù),就是生成一個行為上與參考實現(xiàn)完全一致的版本。這種方式的最大優(yōu)勢在于評估非常直接且客觀:模型的輸出要么與參考結(jié)果完全一致,要么就不一致。清晰的評分標(biāo)準(zhǔn)大大簡化了訓(xùn)練過程中的評估機(jī)制,也提升了訓(xùn)練效率。
盡管“復(fù)制訓(xùn)練”任務(wù)在形式上可能與日常軟件開發(fā)有所不同,但它們瞄準(zhǔn)的,正是當(dāng)前 AI 系統(tǒng)在工程能力上仍顯薄弱的一些關(guān)鍵環(huán)節(jié)。比如,要讓模型復(fù)現(xiàn)一個復(fù)雜算法(如一個包含上萬行代碼的加解密命令行工具,并要求嚴(yán)格遵循詳細(xì)規(guī)范),就必須具備以下核心能力:
準(zhǔn)確閱讀并深入理解復(fù)雜的技術(shù)文檔;
嚴(yán)格按照規(guī)范執(zhí)行指令,避免邏輯或?qū)崿F(xiàn)上的任何偏差;
能夠識別并修復(fù)早期出現(xiàn)的錯誤,具備可靠的問題恢復(fù)能力;
在長時間、高復(fù)雜度任務(wù)中保持穩(wěn)定輸出,就像人類工程師連續(xù)開發(fā)數(shù)周一樣,成果質(zhì)量直接由正確性衡量;
面對困難具備足夠韌性,不輕易滿足于“差不多就行”的半成品。
這些能力的組合,是構(gòu)建可靠、高質(zhì)量 AI 工程系統(tǒng)的基礎(chǔ)。而“復(fù)制訓(xùn)練”的獨特價值就在于:通過高強(qiáng)度還原現(xiàn)實復(fù)雜系統(tǒng),為模型提供了系統(tǒng)性磨煉上述能力的路徑。這不僅補(bǔ)足了當(dāng)前 AI 系統(tǒng)的能力短板,也為通用型智能體的訓(xùn)練奠定了關(guān)鍵技術(shù)基石。
我們預(yù)測,“復(fù)制訓(xùn)練”將成為 AI 訓(xùn)練的下一個核心范式。
這一判斷源于當(dāng)前 AI 發(fā)展的基本趨勢:通過大量已有的人類創(chuàng)作數(shù)據(jù),自動構(gòu)建出豐富的新任務(wù)。就像自然語言資源廣泛存在于互聯(lián)網(wǎng)上一樣,軟件本身也是一種高度結(jié)構(gòu)化且數(shù)量龐大的現(xiàn)成素材。復(fù)制訓(xùn)練正是基于這一前提,提供了一種可擴(kuò)展、自動化的方式,能夠高效生成復(fù)雜任務(wù),推動我們向具備端到端開發(fā)能力的 AI 邁進(jìn)——即那些能夠獨立完成整個軟件項目的智能體。
當(dāng)然,這一方法也并非沒有挑戰(zhàn)。比如,如何編寫既高效又覆蓋全面的測試,仍是一項不小的工程難題,往往需要大量人工投入。此外,從形式上看,復(fù)制訓(xùn)練也略顯“人工”——在日常軟件開發(fā)中,完全照搬已有軟件的情況并不常見,盡管它在軟件移植、遺留系統(tǒng)重構(gòu)、“潔凈室”重寫等場景中確實存在。
盡管如此,我們?nèi)哉J(rèn)為復(fù)制訓(xùn)練提供了一條清晰且具可行性的路徑,能夠?qū)?RL 訓(xùn)練環(huán)境擴(kuò)展到支持泛化能力所需的海量規(guī)模。這種范式很可能成為 RL 實現(xiàn)“GPT-3 時刻”的關(guān)鍵——幫助模型積累成千上萬年級別的任務(wù)經(jīng)驗,進(jìn)而具備穩(wěn)健、任務(wù)無關(guān)的泛化能力。
那么,復(fù)制訓(xùn)練是否就是實現(xiàn)“全自動勞動”的終極路徑?我們并不這么認(rèn)為。雖然它有望催生出能夠依據(jù)詳細(xì)設(shè)計說明獨立完成復(fù)雜軟件項目的系統(tǒng),但這類系統(tǒng)仍可能缺乏人類所具備的開放性、靈活性,以及在跨領(lǐng)域場景中進(jìn)行抽象規(guī)劃和高階管理的能力。即便未來 AI 成為頂級程序員,它們也未必能勝任更廣泛意義上的決策與協(xié)調(diào)任務(wù)。
不過,我們相信復(fù)制訓(xùn)練仍有可能成為通往下一個訓(xùn)練范式的關(guān)鍵“橋梁”——正如在復(fù)制訓(xùn)練之前,我們也需要經(jīng)歷預(yù)訓(xùn)練這一階段一樣。我們對這一新范式的潛力與前景,充滿期待
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。