丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

本文作者: 王悅   2025-03-31 20:23
導(dǎo)語:從 Agent 前沿研究中一窺復(fù)制 Manus 的啟示。


Manus 的出現(xiàn)將智能體推入當(dāng)下 AI 格局的前列,使得這個過去略抽象的概念變得具體可感知。然而行業(yè)中也不乏對 Manus 的爭議,認(rèn)為 Manus 沒有底層技術(shù)創(chuàng)新力,更多的是將現(xiàn)有技術(shù)融合從而在工程上創(chuàng)新,即所謂的“套殼”。

雖說工程創(chuàng)新也是一種護(hù)城河,但“套殼”的說法也并非完全沒道理。近幾年的時間里,學(xué)界和業(yè)界關(guān)于 Agent 的技術(shù)和實(shí)踐成果頗豐。在 AI 智能體推理與決策研討會(AIR 2025)上,來自倫敦大學(xué)學(xué)院、新加坡南洋理工大學(xué)、Weco AI、Google DeepMind、Meta、華為、阿里等多位學(xué)術(shù)界和工業(yè)界的研究人員圍繞強(qiáng)化學(xué)習(xí)、推理決策、AI 智能體展開討論。

新加坡南洋理工大學(xué)的安波教授揭示了從基于強(qiáng)化學(xué)習(xí)的智能體到由大型語言模型驅(qū)動的智能體的演變,分享了團(tuán)隊(duì)多項(xiàng)關(guān)于 Agent 的工作進(jìn)展,其中 Q* 算法以多步驟推理作為審慎規(guī)劃,在學(xué)習(xí) Q 值模型的過程中,需要經(jīng)歷離線強(qiáng)化學(xué)習(xí)以交替更新 Q 值標(biāo)簽并擬合 QVM、使用表現(xiàn)最佳的回滾軌跡的獎勵、使用與更強(qiáng)大 LLM 一起完成的軌跡的獎勵三個關(guān)鍵步驟。

初創(chuàng)公司 Weco Al 的 CTO Yuxiang 闡述了在解空間中尋找智能的一些時間,介紹了由人工智能驅(qū)動的 Agent—— AIDE,能夠處理完整的機(jī)器和工程任務(wù)。如果將機(jī)器學(xué)習(xí)和工程視為一個代碼優(yōu)化問題,那么它就會將整個搜索或代碼優(yōu)化的過程形式化為在解空間中的樹搜索。在這個被形式化的解空間中,AIDE 是一個任何大語言模型都可以編寫的代碼空間。

來自倫敦大學(xué)學(xué)院的宋研從 DeepSeek 切入,討論了強(qiáng)化學(xué)習(xí)在大型語言模型推理中的作用,并指出 DS 又一個“Aha時刻”,即在強(qiáng)化學(xué)習(xí)階段,大型語言模型學(xué)會了自我糾正,這可能是由于其基礎(chǔ)模型已經(jīng)具備自我糾正的能力?;诖诉M(jìn)一步發(fā)現(xiàn),當(dāng) Agent 使用某些關(guān)鍵詞時,它們會進(jìn)行各種回溯、自我報(bào)告和復(fù)雜推理。

谷歌 Deepmind 研究員馮熙棟初步闡述了將強(qiáng)化學(xué)習(xí)的組成部分用自然語言描述出來的理念,將會把所有強(qiáng)化學(xué)習(xí)的概念重新定義為自然語言表示的內(nèi)容,嘗試將策略、值函數(shù)、貝爾曼方程、蒙特卡洛采樣、時間差分學(xué)習(xí)以及策略改進(jìn)操作符等,映射到它們的自然語言對應(yīng)中。

AIR2025 由倫敦大學(xué)學(xué)院汪軍、Meta GenAI 田淵棟等教授聯(lián)合主辦,致力于推動智能系統(tǒng)的發(fā)展,使其能夠自主、適應(yīng)性強(qiáng)且負(fù)責(zé)任地運(yùn)行(會議詳情及注冊可訪問官網(wǎng):https://ai-agent-reasoning.com)。本次會議特別鳴謝來自加州大學(xué)伯克利分校的博士后研究員顧尚定。

AI 科技評論截取會議部分精彩內(nèi)進(jìn)行編譯,以下為核心內(nèi)容的演講實(shí)錄:

一、Agent 驅(qū)動力變革:從 RL 到 LLM


新加坡南洋理工大學(xué)的安波教授做了主題為《From RL-based to LLM-powered Agents》的演講,揭示了近年來從基于強(qiáng)化學(xué)習(xí)的智能體到由大型語言模型驅(qū)動的智能體的演變,分享了多項(xiàng)關(guān)于 Agent 的工作進(jìn)展。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

去年,我們做了一些工作,結(jié)合了一個臨時模型,以提高其在某些基準(zhǔn)問題中的性能。我們的方法是嘗試從與環(huán)境的交互中學(xué)習(xí)策略,因此它具有很強(qiáng)的落地能力,所以我想我們在這里嘗試結(jié)合先驗(yàn)知識的優(yōu)勢,從模型和落地能力中汲取優(yōu)勢,以提高性能。

因?yàn)閷τ谶@項(xiàng)工作,我們發(fā)現(xiàn)利用知識模型可以提高其在某些實(shí)際工作場景中的性能。

推理和推斷非常重要,尤其是在 OpenAI-o1 和 DeepSeek R1 發(fā)布之后,我們有一個純粹基于自己研究的版本,這確實(shí)非常困難。

但事實(shí)上,我們在 OpenAI 發(fā)布相關(guān)模型之前就發(fā)布了關(guān)于 Q* 的第一篇論文。我們需要一個 G 函數(shù),用于估算從初始狀態(tài)到當(dāng)前節(jié)點(diǎn)的成本。在我們的工作中,我們使用的 G 函數(shù)是通過利用文獻(xiàn)中的數(shù)據(jù)來訓(xùn)練模型的。對于啟發(fā)式函數(shù)(h 值),我們實(shí)際上是自己進(jìn)行了修正。

所以,基于我們的數(shù)據(jù),訓(xùn)練這樣一個強(qiáng)大的模型有很多方法。最終,我們將這兩者結(jié)合起來,并應(yīng)用 A* 搜索算法,以提升大型語言模型的推理能力。

所以,我們早期做了些實(shí)驗(yàn)。你可以降低那些數(shù)值,因?yàn)槟菚r候基礎(chǔ)模型還不夠強(qiáng)大。我想關(guān)鍵點(diǎn)是,如果你應(yīng)用這種推理方法,它可以提升基礎(chǔ)模型的性能。

然后我們以某種方式訓(xùn)練它們的 Q 值函數(shù)。所以,我們還在考慮是否能夠克服困難,例如,將這種方法應(yīng)用于改進(jìn)最近的 DeepSeek 模型以及其他模型。

所以,我們在比較控制方面也做了一些關(guān)于 Synapse 的工作,是我們?nèi)ツ昴瓿醢l(fā)表的成果之一。這些工作涉及一些想法,比如狀態(tài)抽象訓(xùn)練、從演示中學(xué)習(xí),以及使用記憶等方法,來改進(jìn)計(jì)算機(jī)控制任務(wù)。

我們還提供了一個用于構(gòu)建通用虛擬Agent的開發(fā)者工具包。我們提供了更好的界面,還提供了更強(qiáng)大的前端支持,并且提供了大量的基準(zhǔn)測試,用于設(shè)計(jì)適用于PC控制、計(jì)算機(jī)控制等場景的通用虛擬Agent,也適用于移動設(shè)備的控制。

接下來的這項(xiàng)工作涉及利用語言模型驅(qū)動的智能體來玩具有挑戰(zhàn)性的電子游戲。

因此,我們構(gòu)建了一個智能體架構(gòu),包括不同的組件,例如我們需要理解環(huán)境。它包含一個反思模型、記憶模型、檢索模型等,用于應(yīng)對許多具有挑戰(zhàn)性的電子游戲和不同的軟件。這個項(xiàng)目是開源的,對于感興趣的人非常有吸引力。

我們最近做了一些尚未發(fā)表的工作,是關(guān)于使用強(qiáng)化學(xué)習(xí)(RL)對語言模型進(jìn)行微調(diào)的。

我想這在某種程度上與一些早期工作有所不同,在我們過去看到的大多數(shù)工作中,強(qiáng)化學(xué)習(xí)并沒有涉及智能體。你知道的,人們只是構(gòu)建不同的組件,使用語言模型作為大腦,并結(jié)合其他組件來處理復(fù)雜任務(wù)。

但在這里,我認(rèn)為在未來,對于許多現(xiàn)實(shí)世界的問題,我們需要強(qiáng)化學(xué)習(xí)的能力。然而,如果我們想將強(qiáng)化學(xué)習(xí)應(yīng)用于這些場景,會面臨許多挑戰(zhàn),其中最顯著的是探索空間的指數(shù)級增長。因?yàn)殚_放和實(shí)際動作技能的采樣空間會隨著矩形的大小和厚度呈指數(shù)級增長,因?yàn)樘剿骺臻g是在token級別上的,所以token空間非常龐大。因此,我們需要解決探索問題。同時,我們注意到并非所有token在最終決策動作中都發(fā)揮有意義的作用。

所以,我認(rèn)為我們在這里得到的啟示是,我們必須設(shè)計(jì)一些機(jī)制來決定如何進(jìn)行更有效的探索,以便提高強(qiáng)化學(xué)習(xí)微調(diào)的效率,從而提升語言模型的性能。因此,我們設(shè)計(jì)了一個名為“CoSo”的方法,它包含幾個關(guān)鍵思想。首先,我們使用事實(shí)推理來識別對動作至關(guān)重要的token。

不是每個token都對智能體最終采取的動作產(chǎn)生影響,或者產(chǎn)生相同的影響。因此,我們使用因果推理來找出這些token,然后利用這些信息來決定如何進(jìn)行探索。其次,我們可以中斷優(yōu)化過程,將我們的探索集中在那些有影響的token上。

這是利用我們在第一步中學(xué)到的結(jié)果。然后我們嘗試進(jìn)行了許多實(shí)驗(yàn),可以看到這種方法顯著提高了視覺語言模型(VLM)在一些非常具有挑戰(zhàn)性的任務(wù)中的性能。我認(rèn)為這還是一項(xiàng)正在進(jìn)行的工作,例如我剛才提到的創(chuàng)造性工作。



二、在解空間中尋找智能


初創(chuàng)公司 Weco Al 的 CTO Yuxiang 做了題為《AlDE: Searching Intelligence in the Space of Solutions》的分享,闡述在解空間中尋找智能的新思考,介紹了一種由人工智能驅(qū)動的強(qiáng)大的 Agent—— AIDE。

我們之所以稱之為 AIDE 是因?yàn)?,它就像一種由人工智能驅(qū)動的強(qiáng)大的 Agent,能夠處理完整的機(jī)器和工程任務(wù)。所以,如果將機(jī)器學(xué)習(xí)和工程視為一個代碼優(yōu)化問題,那么它就會將整個搜索或代碼優(yōu)化的過程形式化為在解空間中的樹搜索。在這個被形式化的解空間中,它只是一個任何大語言模型都可以編寫的代碼空間。

你可能見過其他更具體的Agent,比如那些提示 APIAgent 或反應(yīng)式 Agent,它們將所有歷史解決方案組織成樹狀結(jié)構(gòu)。然后,將所有這些歷史解決方案納入上下文中,但這個過程實(shí)際上是遞增的。因此,它會迅速積累上下文信息,所以在長期的代碼優(yōu)化過程中,它可能不會表現(xiàn)得很好。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

所以,這個問題被重新定義為一個優(yōu)化問題。機(jī)器學(xué)習(xí)可以在機(jī)器中完成,然后我們可以定義所有相關(guān)的評估指標(biāo)。這與我們提出的機(jī)器學(xué)習(xí)工程 Agent 非常契合,其定義的獎勵或優(yōu)化目標(biāo)也非常簡單。我們只是在這個代碼空間中進(jìn)行搜索,目標(biāo)是優(yōu)化機(jī)器學(xué)習(xí)代碼和機(jī)器學(xué)習(xí)工程任務(wù)中的目標(biāo)函數(shù)。這個目標(biāo)函數(shù)可以是驗(yàn)證精度、損失,或者是任何與你的機(jī)器學(xué)習(xí)成本相關(guān)的指標(biāo)。

而代碼空間在本例中被非常具體地定義為用于解決該問題的Python腳本空間。好處是我們現(xiàn)在可以在一個公平的指標(biāo)上比較解決方案,并且使這些依賴于單一標(biāo)準(zhǔn)已知評估的研究方法更加統(tǒng)一,整個搜索過程也會更加穩(wěn)健。

因此,我們開發(fā)了這種算法,它本質(zhì)上是一個樹搜索問題。你從一棵空樹開始,首先會生成一個初始節(jié)點(diǎn),實(shí)際上是一組基礎(chǔ)解決方案。然后,它通過查看現(xiàn)有的代碼和現(xiàn)有的解決方案,迭代地提出新的解決方案。這些解決方案已經(jīng)生成了,然后它會提出你的解決方案,并且基于這個想法,它會生成那段代碼,然后運(yùn)行代碼以評估解決方案,并記錄新的節(jié)點(diǎn)。

這里的評估指標(biāo)是滾動(scroll),通常在機(jī)器學(xué)習(xí)任務(wù)中,這個指標(biāo)可以是精度(accuracy)、損失(loss)或者隨便你怎么稱呼它。然后它會根據(jù)這個指標(biāo)選擇下一個節(jié)點(diǎn),以便進(jìn)一步優(yōu)化。所以,它涉及了所有這些搜索策略、總結(jié)操作符以及編碼操作符。這些操作符不再完全由算法定義,而是部分由大型語言模型定義。

所以,為了更直觀地展示,我們從 S0 開始,這是一個初始的空解決方案,也就是我們的數(shù)據(jù)狀態(tài)。我們還沒有任何現(xiàn)有的機(jī)器學(xué)習(xí)任務(wù)的解決方案,然后它開始起草三個。例如,起草三個方向不同的解決方案。所以在提示中,有一個技巧是我們會明確要求它探索不同的方向,以確保 S01、 S2 和 S3 之間有足夠的多樣性。然后在下一步,它會選擇一個節(jié)點(diǎn)開始優(yōu)化。

例如,嘗試不同的步驟來修復(fù)問題,如果成功修復(fù)了,它就成為一個有效的解決方案。然后這個解決方案就被存儲為一個有效的解決方案,此時你有了一個當(dāng)前最佳節(jié)點(diǎn),比如 S5,然后它開始探索下一個要優(yōu)化的節(jié)點(diǎn)。它會保證每個草擬的解決方案至少被探索一次,并且會從 S2 等節(jié)點(diǎn)分別生成另一個改進(jìn)方案,然后評估為解決方案6或7,這個過程會不斷持續(xù),直到用盡所有的優(yōu)化步驟。

所以最終,選擇最優(yōu)解其實(shí)相當(dāng)簡單,因?yàn)樗羞@些解決方案都是用相同的評估指標(biāo)來評估的。所以,基于評估指標(biāo),你就能得到那個最優(yōu)解。

是什么定義了整個過程呢?有幾個關(guān)鍵組件。首先是搜索策略。在這個案例中,我們實(shí)際上采用了一個非常簡單的熱編碼策略。

在起草階段,當(dāng)它起草多個解決方案時,由于它還沒有一棵樹,也就是說我們還沒有分配初始解決方案,它會創(chuàng)建多個解決方案來探索不同的方法。而在調(diào)試階段,當(dāng)它進(jìn)入調(diào)試階段后,它會有一個最大調(diào)試步數(shù)限制,它會在那個節(jié)點(diǎn)停留,直到達(dá)到允許的最大調(diào)試步數(shù)。

通常我們會將這個最大調(diào)試步數(shù)設(shè)置為10到20步,以避免這個Agent花費(fèi)過多時間在調(diào)試上,從而陷入幾乎無限循環(huán),浪費(fèi)大量時間和計(jì)算資源。當(dāng)然,最重要也最有趣的部分并不是什么時候選擇一個節(jié)點(diǎn)來進(jìn)行改進(jìn)。

所以當(dāng)它完成調(diào)試或起草后,就會進(jìn)入一個階段,來改進(jìn)一個桶節(jié)點(diǎn)。這只是一個貪婪算法,它會選擇樹中當(dāng)前表現(xiàn)最好的解決方案,然后決定進(jìn)一步優(yōu)化樹中表現(xiàn)最高的那個節(jié)點(diǎn)。

所以在編碼操作符中,我們也會根據(jù)不同的階段采用不同的提示策略。比如在起草階段,我們會鼓勵它為模型架構(gòu)和特征工程制定一個計(jì)劃,并要求它生成一個單文件Python程序來實(shí)現(xiàn)這個計(jì)劃。在底層階段,Agent會收到錯誤日志和堆棧跟蹤,以識別問題所在。

然后,它會通過保留整體先前的方法來糾正問題。因此,我們確保調(diào)試實(shí)際上不會改變解決方案本身。在改進(jìn)模式或改進(jìn)階段,我們會提示Agent提出一個原子級別的改變。這是另一個我們希望納入這個框架的觀察結(jié)果,即每一步實(shí)際上都是可解釋的。行動本身是可解釋的,并且是原子性的。

因此,我們不允許Agent或大型語言模型一次提出多個改進(jìn)。相反,我們會提示它逐步、增量地進(jìn)行改進(jìn)。在這個過程中,我們不會跳過任何中間步驟的優(yōu)化想法,這使得它能夠進(jìn)行更細(xì)致的探索,并且在整體上更具可解釋性。

也就是說,它能夠更好地展示出達(dá)到最優(yōu)解的最佳路徑是什么。例如,切換優(yōu)化器、添加一層、使網(wǎng)絡(luò)變得更深,或者從一種架構(gòu)轉(zhuǎn)換到另一種架構(gòu)、添加正則化等。如果你檢查它最終生成的樹軌跡或樹結(jié)構(gòu),你會發(fā)現(xiàn)很多這樣的原子優(yōu)化步驟,而且很多時候這些步驟是非常有洞察力的。

最后,因?yàn)橐粋€最大的問題是你需要管理上下文,比如可能需要運(yùn)行8個步驟。例如,OpenAI運(yùn)行了500個步驟,即使是Gemini,也沒有辦法真正處理那么長的上下文。所以,必須有一種方法來管理上下文。這就是我們所說的總結(jié)操作符,它會提取相關(guān)信息,以避免上下文過載。

總結(jié)操作符會包含性能指標(biāo),比如當(dāng)前的準(zhǔn)確率、高參數(shù)設(shè)置和調(diào)試階段的信息。這是非常重要的,尤其是在調(diào)試階段。好處是我們可以截?cái)嗨翱梢蕴幚淼墓?jié)點(diǎn)數(shù)量。

我們可以將總結(jié)后的信息放入大型語言模型的上下文中,以生成調(diào)試節(jié)點(diǎn)或改進(jìn)節(jié)點(diǎn)。這將保持一個幾乎恒定的窗口大小,供Agent使用,這使我們能夠真正擴(kuò)展到很長的時間范圍,比如對比步驟。

而且,因?yàn)槲覀儗⑵涠x為逐步改進(jìn),這也使得整個優(yōu)化操作符變得無狀態(tài)。它不再依賴于整個軌跡,而是無狀態(tài)的,不會像提示或上下文大小那樣呈爆炸式增長。



三、聚焦通用型 GUI Agent


來自 Huawei London 的邵坤做了主題為《Towards generalist GUl Agents: model and optimization》的演講,介紹了面向通用型 GUI Agent 的模型和優(yōu)化。

以下是GUI Agent的演示,他們有不同的任務(wù),比如我們有三個不同的平臺。第一個是獲取關(guān)于美元的研究結(jié)果,我們可以從主用戶界面頁面開始。然后,我們可以執(zhí)行一些步驟前往麥當(dāng)勞,進(jìn)入麥當(dāng)勞餐廳并搜索那里的薯?xiàng)l,我們還可以設(shè)置多個步驟并提高目標(biāo)。這就是GUI Agent可以幫助我們的地方。

在另一個網(wǎng)站上,GUI Agent 也許可以找到一些更好的解決方案,幫助人類完成這類任務(wù)。這就是 GUI Agent 的意義。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

從2023年到2025年,你可以看到 GUI Agent 已經(jīng)廣泛流行起來。它重新引發(fā)了對Agent研究的關(guān)注,無論是學(xué)術(shù)界還是大型科技公司都在關(guān)注GUI Agent。這種關(guān)注不僅局限于移動設(shè)備,還涵蓋了網(wǎng)站和計(jì)算領(lǐng)域。


我們還將這些主題引入到 GUI Agent 中,例如第一個是關(guān)于生成的。實(shí)際上,使用這種模型來指導(dǎo)行動并不好。因此,當(dāng)我們?yōu)镚UI Agent提供當(dāng)前模型能力時,我們有不同類型的改進(jìn)方法來實(shí)現(xiàn)更好的模型。但你必須理解,如何實(shí)現(xiàn),如何為UI設(shè)計(jì)Pythonian,以及如何設(shè)計(jì)分層架構(gòu)。

第二個是關(guān)于Agent系統(tǒng)。在我們有了項(xiàng)目模型之后,我們還需要一些其他自動化的模型來提高GUI Agent的性能和效率。為了實(shí)現(xiàn)這一點(diǎn),我們有不同的解決方案,我們可以有數(shù)據(jù)庫規(guī)劃、反射機(jī)制、也可以使用記憶和檢索器。

我還想強(qiáng)調(diào)的另一個重點(diǎn)是,我們還想做很多關(guān)于微調(diào)的工作,因?yàn)榭梢哉f強(qiáng)化學(xué)習(xí)對于Agent的微調(diào)是非常重要的,我們需要某種目的。例如,如何利用當(dāng)前模型作為評判。如何發(fā)揮生成角色模型的作用,以及如何為角色模型進(jìn)行更好的微調(diào)。同時,我們需要找到更好的方法來實(shí)現(xiàn)我們高效、可靠且穩(wěn)健的強(qiáng)化學(xué)習(xí)訓(xùn)練,并且我們需要找到最適合GUI Agent的算法。

最后一個問題是關(guān)于評估的。當(dāng)設(shè)計(jì)不同的基準(zhǔn)任務(wù)時,對于兩個Agent來說評估非常重要,我們需要設(shè)計(jì)評估指標(biāo)。

同樣,我們也提出一些研究問題。

第一個問題是,我們需要找到并提出一個基準(zhǔn)測試。因?yàn)槟壳拔覀兛梢钥吹胶芏嚓P(guān)于GUI Agent的論文。所以我們需要設(shè)計(jì)一個全面的基準(zhǔn)測試,它可以用于不同的應(yīng)用程序,以及不同的Agent。因此,當(dāng)你找到一個用于評估Agent的流程時,它不僅僅依賴人工干預(yù)。

第二部分是,我們需要設(shè)計(jì)一個行動模型。眾所周知,如果我們僅僅使用當(dāng)前的基礎(chǔ)模型來執(zhí)行Agent任務(wù),那么我們需要找到一些方法來訓(xùn)練出性能良好且高效的模型。

最后一個問題是關(guān)于如何為GUI Agent進(jìn)行高效的強(qiáng)化學(xué)習(xí)微調(diào)。我們必須讓Agent能夠充分利用有限的數(shù)據(jù),并逐步提高性能。對于GUI Agent來說,進(jìn)行微調(diào)并不是一件容易的事,因此我們還需要找到一些方法來解決這個問題。

四、DeepSeek 強(qiáng)化學(xué)習(xí)的“Aha時刻”

來自 UCL 的宋研 ,做了主題為《The Power of Reinforcement Learning in LLM Reasoning》的演講,討論了強(qiáng)化學(xué)習(xí)在大型語言模型推理中的作用。

這是R1-zero的結(jié)果,它的基準(zhǔn)測試結(jié)果非常好,甚至比OpenAI的o1還要出色。更令人印象深刻的是,它的訓(xùn)練過程非常穩(wěn)定。而且它在擴(kuò)展性方面表現(xiàn)出色。對于R1-zero來說,它在過去的準(zhǔn)確率方面并不比最新的原始版本更好。但當(dāng)你嘗試生成內(nèi)容時,它顯然能夠產(chǎn)生更好的結(jié)果。

還有他們在論文中提到的一個“Aha時刻”。在強(qiáng)化學(xué)習(xí)階段,語言模型學(xué)會了增加思考預(yù)算。這可能是因?yàn)槟阈枰嗟膖oken來進(jìn)行思考,從而解決一些難題。這一觀點(diǎn)得到了一些支持。他們發(fā)現(xiàn),當(dāng)Agent使用某些關(guān)鍵詞時,它們會進(jìn)行各種回溯、自我報(bào)告和復(fù)雜推理。但對此也有另一種可能的解釋。首先,基礎(chǔ)模型本身已經(jīng)具備自我糾正的能力。所以,從技術(shù)角度來看,這并不是一個非?!癆ha”的時刻,而是表明強(qiáng)化學(xué)習(xí)確實(shí)可以在簡單的設(shè)置下發(fā)揮作用。我認(rèn)為這才是最重要的。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

對于R1版本,他們使用初始數(shù)據(jù)開始訓(xùn)練,然后在強(qiáng)化學(xué)習(xí)(RL)的場景中進(jìn)行訓(xùn)練。結(jié)論是,大型語言模型(LLM)具有強(qiáng)大的能力,能夠進(jìn)行穩(wěn)定的強(qiáng)化學(xué)習(xí),而小型語言模型則采用知識蒸餾的方式進(jìn)行訓(xùn)練。

在R1發(fā)布之后,我們在后續(xù)的訓(xùn)練和增量更新中推出了TinyZero,這是一個30億參數(shù)的大型模型。此外,SimpleRL是在70億參數(shù)的LLM上實(shí)現(xiàn)的Zero-RL。所以,所有這些工作都使用了Zero-RL。至少基本的想法是,你需要有一個強(qiáng)大的基礎(chǔ)模型,以便能夠?qū)W會推理。下一步是它們可以學(xué)會探索,然后它們可以學(xué)會自我糾正。

最近也有一些多模態(tài)的Zero-RL工作。這些工作基于Open-R1代碼庫、OpenRLHF代碼庫或Verl代碼庫。

我們也在小規(guī)模上進(jìn)行了一些實(shí)驗(yàn)?;驹O(shè)置是我們嘗試在數(shù)學(xué)問題上進(jìn)行訓(xùn)練,選擇的難度等級為三到五,這與SimpleRL之前的代碼庫設(shè)置相同,我們發(fā)現(xiàn)這相當(dāng)重要。我們需要進(jìn)行篩選,而我們是在Qwen2.5-Math-7B上進(jìn)行的。其性能表現(xiàn)良好,如圖所示。藍(lán)色線條表示從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí),它能夠推廣到AIME2024,這非常難以解決。

但它僅在數(shù)學(xué)問題上進(jìn)行訓(xùn)練,通過使用監(jiān)督微調(diào)數(shù)據(jù),它可以在GSM8k上獲得更好的性能。但在AIME2024上,它給出的結(jié)果非常糟糕。這意味著,監(jiān)督微調(diào)數(shù)據(jù)可能會損害強(qiáng)化學(xué)習(xí)帶來的泛化能力。我們還在LLaMA上進(jìn)行了實(shí)驗(yàn),但結(jié)果并不理想。

接下來,Yan Song 也分享一些最近工作中的前瞻見解。


五、自然語言強(qiáng)化學(xué)習(xí)新范式




來自 UCL、Google Deepmind 的馮熙棟探討了《Natural Language Reinforcement Learning》,介紹了把強(qiáng)化學(xué)習(xí)的組成部分用自然語言描述出來的理念。

如果我們有了新的強(qiáng)化學(xué)習(xí)范式,那會怎樣?如果我們不學(xué)習(xí)已經(jīng)確定的值函數(shù),而是學(xué)習(xí)語言值函數(shù)呢?也就是說,我們嘗試用自然語言來描述狀態(tài)的值、描述狀態(tài)-動作對。為什么不干脆把所有強(qiáng)化學(xué)習(xí)的組成部分都用語言表達(dá)出來呢?這正是我們最近努力的方向。

我們是從傳統(tǒng)的強(qiáng)化學(xué)習(xí)概念中汲取靈感,但我們正在將所有這些強(qiáng)化學(xué)習(xí)的概念重新定義為自然語言表示空間中的內(nèi)容。我們嘗試將策略、值函數(shù)、貝爾曼方程、蒙特卡洛采樣、時間差分學(xué)習(xí)以及策略改進(jìn)操作符等,映射到它們的自然語言對應(yīng)中。

這里我展示了一個這樣的例子。在強(qiáng)化學(xué)習(xí)中,你有一個策略,它是分布式的。但在自然語言強(qiáng)化學(xué)習(xí)中,你可能會有一個語言策略。也就是說,你不一定需要直接將你的狀態(tài)和動作映射過去。相反,你可以嘗試說:“我先對狀態(tài)進(jìn)行一些分析,然后再采取行動?!彼?,讓我們用語言策略來響應(yīng)。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,你有標(biāo)量獎勵,即即時獎勵。但在自然語言強(qiáng)化學(xué)習(xí)中,你可能會有語言反饋,比如“你達(dá)到了目標(biāo)”,這不僅僅像傳統(tǒng)強(qiáng)化學(xué)習(xí)中的+1獎勵,它可以包含更豐富的信息。

在狀態(tài)方面,你不需要是一個高維狀態(tài),你也可以用語言來描述狀態(tài)。例如,你可以這樣說“你正在滾動……”之類的內(nèi)容。對于值函數(shù),在強(qiáng)化學(xué)習(xí)中,我們過去習(xí)慣于使用預(yù)期的累積獎勵。但現(xiàn)在,我們可以有一個更自然的語言表示。我們可以嘗試用語言描述符來總結(jié)未來的軌跡,最終,還有貝爾曼方程。

傳統(tǒng)的貝爾曼方程試圖衡量當(dāng)前狀態(tài)與其后續(xù)狀態(tài)之間的關(guān)系。我們也可以在自然語言評估中做類似的事情。如果你試圖評估當(dāng)前的狀態(tài),那么你的當(dāng)前狀態(tài)評估不可能與后續(xù)狀態(tài)評估相差甚遠(yuǎn)。因此,你的自然語言評估必須在連續(xù)狀態(tài)之間具有一致性、自我一致性。所以,這也是貝爾曼方程,但它發(fā)生在自然語言空間中。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

同樣地,我們可以嘗試將傳統(tǒng)的蒙特卡洛采樣和時間差分學(xué)習(xí)方法映射到自然語言中。假設(shè)我們有兩種語言聚合器 G1 和 G2 。在傳統(tǒng)的蒙特卡洛方法中,我們通過采樣大量的軌跡來估計(jì)其折扣獎勵的累積和,并試圖通過計(jì)算這些軌跡的平均獎勵來估計(jì)我們的軌跡。

在自然語言中,我們也可以做類似的事情。我們從時間步 (t+1) 開始采樣,直到無窮大。我們有很多基于語言的幾何采樣結(jié)果,并且假設(shè)我們有一些語言信息聚合器,因?yàn)楫?dāng)然,我們不能對語言進(jìn)行求平均或求和操作,因?yàn)樗鼈儾皇菙?shù)字。但如果有一個語言聚合器,我們可以要求它從這些不同的采樣語言軌跡中總結(jié)和聚合信息。

G1 可以負(fù)責(zé)從多個軌跡中聚合評估結(jié)果,并將所有步驟聚合到一個項(xiàng)目中。這在物理上是完全相同的事情,只是發(fā)生在不同的空間中。因此,我們需要在傳統(tǒng)強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)不同的聚合操作符。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,它是平均值;在基于語言的案例中,它只是一個語言聚合器。

對于時間差分學(xué)習(xí)也是如此。時間差分學(xué)習(xí)的理念是,如果你試圖評估當(dāng)前狀態(tài)的值,你可以向前邁出一步,并將即時獎勵與未來狀態(tài)評估結(jié)果結(jié)合起來,以形成你對當(dāng)前狀態(tài)的評估。

在自然語言強(qiáng)化學(xué)習(xí)中,我們也可以做完全相同的事情。假設(shè)我們有 G1 和 G2 這兩個語言聚合器, G2負(fù)責(zé)將即時獎勵和未來評估結(jié)果合并。我們可以讓 G2 接收即時轉(zhuǎn)換的描述和未來狀態(tài)評估結(jié)果,并讓 G1 負(fù)責(zé)從多個軌跡中聚合評估結(jié)果。雖然在傳統(tǒng)強(qiáng)化學(xué)習(xí)和自然語言強(qiáng)化學(xué)習(xí)中,它們的實(shí)現(xiàn)方式不同,但理念是相似的。你可以通過不同的聚合器看到我們的新語言時間差分學(xué)習(xí)是如何響應(yīng)傳統(tǒng)時間差分學(xué)習(xí)的。

闡述完概念之后,Xidong Feng 也談了這種方法的具體實(shí)現(xiàn),給出了如何利用大型語言模型(LLMs)實(shí)現(xiàn)自然語言強(qiáng)化學(xué)習(xí)(NLRL)的幾條路徑。


六、Qwen長文本能力:更快速度、更低成本

阿里通義千問的林俊旸做了題為《Qwen: Towards Generalist Models》的演講,系統(tǒng)介紹了通義千問在技術(shù)、工程化方面的進(jìn)展,以下是關(guān)于通義千問大模型在數(shù)據(jù)量方面的細(xì)節(jié)。

在Qwen2.5版本中,數(shù)據(jù)量擴(kuò)展到18T。但現(xiàn)在我們正在考慮用更多的token進(jìn)行訓(xùn)練,比如30萬億到40萬億個token。這只是一個很大的數(shù)量,但對于訓(xùn)練大型模型來說很重要,不僅需要高質(zhì)量的數(shù)據(jù),還需要大量的數(shù)據(jù)。這就是為什么我們在進(jìn)行多階段預(yù)訓(xùn)練,因?yàn)槟阈枰?xùn)練大量的數(shù)據(jù)。但數(shù)據(jù)中有臟數(shù)據(jù),在第一階段,然后是更高質(zhì)量的,再到不同階段的更高質(zhì)量。

在模型規(guī)模方面,我們開源了7種不同規(guī)模的模型,范圍從0.5B到72B。因此,你可以通過這些不同規(guī)模的模型來研究擴(kuò)展規(guī)律。但目前我們討論的是密集型模型,我們現(xiàn)在正在考慮MoE(Mixture of Experts)模型,它與密集型模型有些相似,但在訓(xùn)練和內(nèi)存模型方面有更多的技術(shù)細(xì)節(jié),但總體上它仍然遵循擴(kuò)展規(guī)律。

在擴(kuò)展模型規(guī)模方面,不僅僅是模型本身的規(guī)模,還有激活參數(shù)的規(guī)模。還有一種掃描方式,但模型規(guī)模門控實(shí)際上已被證明是非常有效的。我們的開源模型中有許多細(xì)節(jié),你可以去查看這些細(xì)節(jié)。

在上下文長度擴(kuò)展方面,這也是我們之前非常關(guān)注的一個問題。人們之前訓(xùn)練的模型上下文長度為 32K tokens 然后擴(kuò)展到 128k tokens token。真的有這么長嗎?但你甚至可以將其擴(kuò)展到甚至1000萬,這也是有可能的?,F(xiàn)在人們正在考慮轉(zhuǎn)向無限長度,所以他們希望使用類似傳統(tǒng)的多頭注意力機(jī)制來實(shí)現(xiàn)。也許線性注意力是未來的發(fā)展方向,但在這一領(lǐng)域我們還沒有取得重大突破。

但我們有一些技術(shù)可以將其進(jìn)一步擴(kuò)展,而無需進(jìn)一步訓(xùn)練。這是一種無需訓(xùn)練的技術(shù),稱為 Trunk Attention(截?cái)嘧⒁饬Γ憧梢圆榭?Trunk Attention 的技術(shù)報(bào)告。

我們團(tuán)隊(duì)在ICML上發(fā)表了一篇相關(guān)論文,還有另一個技術(shù)問題是在部署方面。擁有100萬上下文token的模型,部署起來非常困難。因此,你需要使用一些技術(shù)來引入稀疏性,從而加快推理速度。你可以看到,之前首次生成一個token需要5分鐘,而現(xiàn)在只需要1分鐘,這也意味著它會更便宜,因?yàn)樽⒁饬C(jī)制中存在稀疏性,但我們發(fā)現(xiàn)性能并沒有下降,或者在100萬token的上下文中,我們得到了一個性價比很高的預(yù)期性能。

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

除了理解長上下文之外,還有另一種擴(kuò)展,那就是生成長上下文的能力。以前我們能夠生成 8k tokens,但你會發(fā)現(xiàn)這還不夠。因?yàn)楝F(xiàn)在我們有長鏈?zhǔn)酵评恚↙ong Chain of Thought),所以,它之前還不足以生成非常、非常長的文本,但如今情況已經(jīng)大不相同了。也許現(xiàn)在它能夠生成像 12.8k 個 token 的文本,這實(shí)際上是可以實(shí)現(xiàn)的。對于目前的Qwen來說,它實(shí)際上能夠生成大約 32k 的 token。






雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

AI Agent 發(fā)展史:從 RL 驅(qū)動到大模型驅(qū)動 |AIR 2025

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說