AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

本文作者：王悅

2025-03-31 20:23

導(dǎo)語：從 Agent 前沿研究中一窺復(fù)制 Manus 的啟示。

Manus 的出現(xiàn)將智能體推入當(dāng)下 AI 格局的前列，使得這個(gè)過去略抽象的概念變得具體可感知。然而行業(yè)中也不乏對(duì) Manus 的爭(zhēng)議，認(rèn)為 Manus 沒有底層技術(shù)創(chuàng)新力，更多的是將現(xiàn)有技術(shù)融合從而在工程上創(chuàng)新，即所謂的“套殼”。

雖說工程創(chuàng)新也是一種護(hù)城河，但“套殼”的說法也并非完全沒道理。近幾年的時(shí)間里，學(xué)界和業(yè)界關(guān)于 Agent 的技術(shù)和實(shí)踐成果頗豐。在 AI 智能體推理與決策研討會(huì)（AIR 2025）上，來自倫敦大學(xué)學(xué)院、新加坡南洋理工大學(xué)、Weco AI、Google DeepMind、Meta、華為、阿里等多位學(xué)術(shù)界和工業(yè)界的研究人員圍繞強(qiáng)化學(xué)習(xí)、推理決策、AI 智能體展開討論。

新加坡南洋理工大學(xué)的安波教授揭示了從基于強(qiáng)化學(xué)習(xí)的智能體到由大型語言模型驅(qū)動(dòng)的智能體的演變，分享了團(tuán)隊(duì)多項(xiàng)關(guān)于 Agent 的工作進(jìn)展，其中 Q* 算法以多步驟推理作為審慎規(guī)劃，在學(xué)習(xí) Q 值模型的過程中，需要經(jīng)歷離線強(qiáng)化學(xué)習(xí)以交替更新 Q 值標(biāo)簽并擬合 QVM、使用表現(xiàn)最佳的回滾軌跡的獎(jiǎng)勵(lì)、使用與更強(qiáng)大 LLM 一起完成的軌跡的獎(jiǎng)勵(lì)三個(gè)關(guān)鍵步驟。

初創(chuàng)公司 Weco Al 的 CTO Yuxiang 闡述了在解空間中尋找智能的一些時(shí)間，介紹了由人工智能驅(qū)動(dòng)的 Agent—— AIDE，能夠處理完整的機(jī)器和工程任務(wù)。如果將機(jī)器學(xué)習(xí)和工程視為一個(gè)代碼優(yōu)化問題，那么它就會(huì)將整個(gè)搜索或代碼優(yōu)化的過程形式化為在解空間中的樹搜索。在這個(gè)被形式化的解空間中，AIDE 是一個(gè)任何大語言模型都可以編寫的代碼空間。

來自倫敦大學(xué)學(xué)院的宋研從 DeepSeek 切入，討論了強(qiáng)化學(xué)習(xí)在大型語言模型推理中的作用，并指出 DS 又一個(gè)“Aha時(shí)刻”，即在強(qiáng)化學(xué)習(xí)階段，大型語言模型學(xué)會(huì)了自我糾正，這可能是由于其基礎(chǔ)模型已經(jīng)具備自我糾正的能力?；诖诉M(jìn)一步發(fā)現(xiàn)，當(dāng) Agent 使用某些關(guān)鍵詞時(shí)，它們會(huì)進(jìn)行各種回溯、自我報(bào)告和復(fù)雜推理。

谷歌 Deepmind 研究員馮熙棟初步闡述了將強(qiáng)化學(xué)習(xí)的組成部分用自然語言描述出來的理念，將會(huì)把所有強(qiáng)化學(xué)習(xí)的概念重新定義為自然語言表示的內(nèi)容，嘗試將策略、值函數(shù)、貝爾曼方程、蒙特卡洛采樣、時(shí)間差分學(xué)習(xí)以及策略改進(jìn)操作符等，映射到它們的自然語言對(duì)應(yīng)中。

AIR2025 由倫敦大學(xué)學(xué)院汪軍、Meta GenAI 田淵棟等教授聯(lián)合主辦，致力于推動(dòng)智能系統(tǒng)的發(fā)展，使其能夠自主、適應(yīng)性強(qiáng)且負(fù)責(zé)任地運(yùn)行（會(huì)議詳情及注冊(cè)可訪問官網(wǎng)：https://ai-agent-reasoning.com）。本次會(huì)議特別鳴謝來自加州大學(xué)伯克利分校的博士后研究員顧尚定。

AI 科技評(píng)論截取會(huì)議部分精彩內(nèi)進(jìn)行編譯，以下為核心內(nèi)容的演講實(shí)錄：

一、Agent 驅(qū)動(dòng)力變革：從 RL 到 LLM

新加坡南洋理工大學(xué)的安波教授做了主題為《From RL-based to LLM-powered Agents》的演講，揭示了近年來從基于強(qiáng)化學(xué)習(xí)的智能體到由大型語言模型驅(qū)動(dòng)的智能體的演變，分享了多項(xiàng)關(guān)于 Agent 的工作進(jìn)展。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

去年，我們做了一些工作，結(jié)合了一個(gè)臨時(shí)模型，以提高其在某些基準(zhǔn)問題中的性能。我們的方法是嘗試從與環(huán)境的交互中學(xué)習(xí)策略，因此它具有很強(qiáng)的落地能力，所以我想我們?cè)谶@里嘗試結(jié)合先驗(yàn)知識(shí)的優(yōu)勢(shì)，從模型和落地能力中汲取優(yōu)勢(shì)，以提高性能。

因?yàn)閷?duì)于這項(xiàng)工作，我們發(fā)現(xiàn)利用知識(shí)模型可以提高其在某些實(shí)際工作場(chǎng)景中的性能。

推理和推斷非常重要，尤其是在 OpenAI-o1 和 DeepSeek R1 發(fā)布之后，我們有一個(gè)純粹基于自己研究的版本，這確實(shí)非常困難。

但事實(shí)上，我們?cè)?OpenAI 發(fā)布相關(guān)模型之前就發(fā)布了關(guān)于 Q* 的第一篇論文。我們需要一個(gè) G 函數(shù)，用于估算從初始狀態(tài)到當(dāng)前節(jié)點(diǎn)的成本。在我們的工作中，我們使用的 G 函數(shù)是通過利用文獻(xiàn)中的數(shù)據(jù)來訓(xùn)練模型的。對(duì)于啟發(fā)式函數(shù)（h 值），我們實(shí)際上是自己進(jìn)行了修正。

所以，基于我們的數(shù)據(jù)，訓(xùn)練這樣一個(gè)強(qiáng)大的模型有很多方法。最終，我們將這兩者結(jié)合起來，并應(yīng)用 A* 搜索算法，以提升大型語言模型的推理能力。

所以，我們?cè)缙谧隽诵?shí)驗(yàn)。你可以降低那些數(shù)值，因?yàn)槟菚r(shí)候基礎(chǔ)模型還不夠強(qiáng)大。我想關(guān)鍵點(diǎn)是，如果你應(yīng)用這種推理方法，它可以提升基礎(chǔ)模型的性能。

然后我們以某種方式訓(xùn)練它們的 Q 值函數(shù)。所以，我們還在考慮是否能夠克服困難，例如，將這種方法應(yīng)用于改進(jìn)最近的 DeepSeek 模型以及其他模型。

所以，我們?cè)诒容^控制方面也做了一些關(guān)于 Synapse 的工作，是我們?nèi)ツ昴瓿醢l(fā)表的成果之一。這些工作涉及一些想法，比如狀態(tài)抽象訓(xùn)練、從演示中學(xué)習(xí)，以及使用記憶等方法，來改進(jìn)計(jì)算機(jī)控制任務(wù)。

我們還提供了一個(gè)用于構(gòu)建通用虛擬Agent的開發(fā)者工具包。我們提供了更好的界面，還提供了更強(qiáng)大的前端支持，并且提供了大量的基準(zhǔn)測(cè)試，用于設(shè)計(jì)適用于PC控制、計(jì)算機(jī)控制等場(chǎng)景的通用虛擬Agent，也適用于移動(dòng)設(shè)備的控制。

接下來的這項(xiàng)工作涉及利用語言模型驅(qū)動(dòng)的智能體來玩具有挑戰(zhàn)性的電子游戲。

因此，我們構(gòu)建了一個(gè)智能體架構(gòu)，包括不同的組件，例如我們需要理解環(huán)境。它包含一個(gè)反思模型、記憶模型、檢索模型等，用于應(yīng)對(duì)許多具有挑戰(zhàn)性的電子游戲和不同的軟件。這個(gè)項(xiàng)目是開源的，對(duì)于感興趣的人非常有吸引力。

我們最近做了一些尚未發(fā)表的工作，是關(guān)于使用強(qiáng)化學(xué)習(xí)（RL）對(duì)語言模型進(jìn)行微調(diào)的。

我想這在某種程度上與一些早期工作有所不同，在我們過去看到的大多數(shù)工作中，強(qiáng)化學(xué)習(xí)并沒有涉及智能體。你知道的，人們只是構(gòu)建不同的組件，使用語言模型作為大腦，并結(jié)合其他組件來處理復(fù)雜任務(wù)。

但在這里，我認(rèn)為在未來，對(duì)于許多現(xiàn)實(shí)世界的問題，我們需要強(qiáng)化學(xué)習(xí)的能力。然而，如果我們想將強(qiáng)化學(xué)習(xí)應(yīng)用于這些場(chǎng)景，會(huì)面臨許多挑戰(zhàn)，其中最顯著的是探索空間的指數(shù)級(jí)增長。因?yàn)殚_放和實(shí)際動(dòng)作技能的采樣空間會(huì)隨著矩形的大小和厚度呈指數(shù)級(jí)增長，因?yàn)樘剿骺臻g是在token級(jí)別上的，所以token空間非常龐大。因此，我們需要解決探索問題。同時(shí)，我們注意到并非所有token在最終決策動(dòng)作中都發(fā)揮有意義的作用。

所以，我認(rèn)為我們?cè)谶@里得到的啟示是，我們必須設(shè)計(jì)一些機(jī)制來決定如何進(jìn)行更有效的探索，以便提高強(qiáng)化學(xué)習(xí)微調(diào)的效率，從而提升語言模型的性能。因此，我們?cè)O(shè)計(jì)了一個(gè)名為“CoSo”的方法，它包含幾個(gè)關(guān)鍵思想。首先，我們使用事實(shí)推理來識(shí)別對(duì)動(dòng)作至關(guān)重要的token。

不是每個(gè)token都對(duì)智能體最終采取的動(dòng)作產(chǎn)生影響，或者產(chǎn)生相同的影響。因此，我們使用因果推理來找出這些token，然后利用這些信息來決定如何進(jìn)行探索。其次，我們可以中斷優(yōu)化過程，將我們的探索集中在那些有影響的token上。

這是利用我們?cè)诘谝徊街袑W(xué)到的結(jié)果。然后我們嘗試進(jìn)行了許多實(shí)驗(yàn)，可以看到這種方法顯著提高了視覺語言模型（VLM）在一些非常具有挑戰(zhàn)性的任務(wù)中的性能。我認(rèn)為這還是一項(xiàng)正在進(jìn)行的工作，例如我剛才提到的創(chuàng)造性工作。

二、在解空間中尋找智能

初創(chuàng)公司 Weco Al 的 CTO Yuxiang 做了題為《AlDE: Searching Intelligence in the Space of Solutions》的分享，闡述在解空間中尋找智能的新思考，介紹了一種由人工智能驅(qū)動(dòng)的強(qiáng)大的 Agent—— AIDE。

我們之所以稱之為 AIDE 是因?yàn)?，它就像一種由人工智能驅(qū)動(dòng)的強(qiáng)大的 Agent，能夠處理完整的機(jī)器和工程任務(wù)。所以，如果將機(jī)器學(xué)習(xí)和工程視為一個(gè)代碼優(yōu)化問題，那么它就會(huì)將整個(gè)搜索或代碼優(yōu)化的過程形式化為在解空間中的樹搜索。在這個(gè)被形式化的解空間中，它只是一個(gè)任何大語言模型都可以編寫的代碼空間。

你可能見過其他更具體的Agent，比如那些提示 APIAgent 或反應(yīng)式 Agent，它們將所有歷史解決方案組織成樹狀結(jié)構(gòu)。然后，將所有這些歷史解決方案納入上下文中，但這個(gè)過程實(shí)際上是遞增的。因此，它會(huì)迅速積累上下文信息，所以在長期的代碼優(yōu)化過程中，它可能不會(huì)表現(xiàn)得很好。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

所以，這個(gè)問題被重新定義為一個(gè)優(yōu)化問題。機(jī)器學(xué)習(xí)可以在機(jī)器中完成，然后我們可以定義所有相關(guān)的評(píng)估指標(biāo)。這與我們提出的機(jī)器學(xué)習(xí)工程 Agent 非常契合，其定義的獎(jiǎng)勵(lì)或優(yōu)化目標(biāo)也非常簡(jiǎn)單。我們只是在這個(gè)代碼空間中進(jìn)行搜索，目標(biāo)是優(yōu)化機(jī)器學(xué)習(xí)代碼和機(jī)器學(xué)習(xí)工程任務(wù)中的目標(biāo)函數(shù)。這個(gè)目標(biāo)函數(shù)可以是驗(yàn)證精度、損失，或者是任何與你的機(jī)器學(xué)習(xí)成本相關(guān)的指標(biāo)。

而代碼空間在本例中被非常具體地定義為用于解決該問題的Python腳本空間。好處是我們現(xiàn)在可以在一個(gè)公平的指標(biāo)上比較解決方案，并且使這些依賴于單一標(biāo)準(zhǔn)已知評(píng)估的研究方法更加統(tǒng)一，整個(gè)搜索過程也會(huì)更加穩(wěn)健。

因此，我們開發(fā)了這種算法，它本質(zhì)上是一個(gè)樹搜索問題。你從一棵空樹開始，首先會(huì)生成一個(gè)初始節(jié)點(diǎn)，實(shí)際上是一組基礎(chǔ)解決方案。然后，它通過查看現(xiàn)有的代碼和現(xiàn)有的解決方案，迭代地提出新的解決方案。這些解決方案已經(jīng)生成了，然后它會(huì)提出你的解決方案，并且基于這個(gè)想法，它會(huì)生成那段代碼，然后運(yùn)行代碼以評(píng)估解決方案，并記錄新的節(jié)點(diǎn)。

這里的評(píng)估指標(biāo)是滾動(dòng)（scroll），通常在機(jī)器學(xué)習(xí)任務(wù)中，這個(gè)指標(biāo)可以是精度（accuracy）、損失（loss）或者隨便你怎么稱呼它。然后它會(huì)根據(jù)這個(gè)指標(biāo)選擇下一個(gè)節(jié)點(diǎn)，以便進(jìn)一步優(yōu)化。所以，它涉及了所有這些搜索策略、總結(jié)操作符以及編碼操作符。這些操作符不再完全由算法定義，而是部分由大型語言模型定義。

所以，為了更直觀地展示，我們從 S0 開始，這是一個(gè)初始的空解決方案，也就是我們的數(shù)據(jù)狀態(tài)。我們還沒有任何現(xiàn)有的機(jī)器學(xué)習(xí)任務(wù)的解決方案，然后它開始起草三個(gè)。例如，起草三個(gè)方向不同的解決方案。所以在提示中，有一個(gè)技巧是我們會(huì)明確要求它探索不同的方向，以確保 S01、 S2 和 S3 之間有足夠的多樣性。然后在下一步，它會(huì)選擇一個(gè)節(jié)點(diǎn)開始優(yōu)化。

例如，嘗試不同的步驟來修復(fù)問題，如果成功修復(fù)了，它就成為一個(gè)有效的解決方案。然后這個(gè)解決方案就被存儲(chǔ)為一個(gè)有效的解決方案，此時(shí)你有了一個(gè)當(dāng)前最佳節(jié)點(diǎn)，比如 S5，然后它開始探索下一個(gè)要優(yōu)化的節(jié)點(diǎn)。它會(huì)保證每個(gè)草擬的解決方案至少被探索一次，并且會(huì)從 S2 等節(jié)點(diǎn)分別生成另一個(gè)改進(jìn)方案，然后評(píng)估為解決方案6或7，這個(gè)過程會(huì)不斷持續(xù)，直到用盡所有的優(yōu)化步驟。

所以最終，選擇最優(yōu)解其實(shí)相當(dāng)簡(jiǎn)單，因?yàn)樗羞@些解決方案都是用相同的評(píng)估指標(biāo)來評(píng)估的。所以，基于評(píng)估指標(biāo)，你就能得到那個(gè)最優(yōu)解。

是什么定義了整個(gè)過程呢？有幾個(gè)關(guān)鍵組件。首先是搜索策略。在這個(gè)案例中，我們實(shí)際上采用了一個(gè)非常簡(jiǎn)單的熱編碼策略。

在起草階段，當(dāng)它起草多個(gè)解決方案時(shí)，由于它還沒有一棵樹，也就是說我們還沒有分配初始解決方案，它會(huì)創(chuàng)建多個(gè)解決方案來探索不同的方法。而在調(diào)試階段，當(dāng)它進(jìn)入調(diào)試階段后，它會(huì)有一個(gè)最大調(diào)試步數(shù)限制，它會(huì)在那個(gè)節(jié)點(diǎn)停留，直到達(dá)到允許的最大調(diào)試步數(shù)。

通常我們會(huì)將這個(gè)最大調(diào)試步數(shù)設(shè)置為10到20步，以避免這個(gè)Agent花費(fèi)過多時(shí)間在調(diào)試上，從而陷入幾乎無限循環(huán)，浪費(fèi)大量時(shí)間和計(jì)算資源。當(dāng)然，最重要也最有趣的部分并不是什么時(shí)候選擇一個(gè)節(jié)點(diǎn)來進(jìn)行改進(jìn)。

所以當(dāng)它完成調(diào)試或起草后，就會(huì)進(jìn)入一個(gè)階段，來改進(jìn)一個(gè)桶節(jié)點(diǎn)。這只是一個(gè)貪婪算法，它會(huì)選擇樹中當(dāng)前表現(xiàn)最好的解決方案，然后決定進(jìn)一步優(yōu)化樹中表現(xiàn)最高的那個(gè)節(jié)點(diǎn)。

所以在編碼操作符中，我們也會(huì)根據(jù)不同的階段采用不同的提示策略。比如在起草階段，我們會(huì)鼓勵(lì)它為模型架構(gòu)和特征工程制定一個(gè)計(jì)劃，并要求它生成一個(gè)單文件Python程序來實(shí)現(xiàn)這個(gè)計(jì)劃。在底層階段，Agent會(huì)收到錯(cuò)誤日志和堆棧跟蹤，以識(shí)別問題所在。

然后，它會(huì)通過保留整體先前的方法來糾正問題。因此，我們確保調(diào)試實(shí)際上不會(huì)改變解決方案本身。在改進(jìn)模式或改進(jìn)階段，我們會(huì)提示Agent提出一個(gè)原子級(jí)別的改變。這是另一個(gè)我們希望納入這個(gè)框架的觀察結(jié)果，即每一步實(shí)際上都是可解釋的。行動(dòng)本身是可解釋的，并且是原子性的。

因此，我們不允許Agent或大型語言模型一次提出多個(gè)改進(jìn)。相反，我們會(huì)提示它逐步、增量地進(jìn)行改進(jìn)。在這個(gè)過程中，我們不會(huì)跳過任何中間步驟的優(yōu)化想法，這使得它能夠進(jìn)行更細(xì)致的探索，并且在整體上更具可解釋性。

也就是說，它能夠更好地展示出達(dá)到最優(yōu)解的最佳路徑是什么。例如，切換優(yōu)化器、添加一層、使網(wǎng)絡(luò)變得更深，或者從一種架構(gòu)轉(zhuǎn)換到另一種架構(gòu)、添加正則化等。如果你檢查它最終生成的樹軌跡或樹結(jié)構(gòu)，你會(huì)發(fā)現(xiàn)很多這樣的原子優(yōu)化步驟，而且很多時(shí)候這些步驟是非常有洞察力的。

最后，因?yàn)橐粋€(gè)最大的問題是你需要管理上下文，比如可能需要運(yùn)行8個(gè)步驟。例如，OpenAI運(yùn)行了500個(gè)步驟，即使是Gemini，也沒有辦法真正處理那么長的上下文。所以，必須有一種方法來管理上下文。這就是我們所說的總結(jié)操作符，它會(huì)提取相關(guān)信息，以避免上下文過載。

總結(jié)操作符會(huì)包含性能指標(biāo)，比如當(dāng)前的準(zhǔn)確率、高參數(shù)設(shè)置和調(diào)試階段的信息。這是非常重要的，尤其是在調(diào)試階段。好處是我們可以截?cái)嗨翱梢蕴幚淼墓?jié)點(diǎn)數(shù)量。

我們可以將總結(jié)后的信息放入大型語言模型的上下文中，以生成調(diào)試節(jié)點(diǎn)或改進(jìn)節(jié)點(diǎn)。這將保持一個(gè)幾乎恒定的窗口大小，供Agent使用，這使我們能夠真正擴(kuò)展到很長的時(shí)間范圍，比如對(duì)比步驟。

而且，因?yàn)槲覀儗⑵涠x為逐步改進(jìn)，這也使得整個(gè)優(yōu)化操作符變得無狀態(tài)。它不再依賴于整個(gè)軌跡，而是無狀態(tài)的，不會(huì)像提示或上下文大小那樣呈爆炸式增長。

三、聚焦通用型 GUI Agent

來自 Huawei London 的邵坤做了主題為《Towards generalist GUl Agents: model and optimization》的演講，介紹了面向通用型 GUI Agent 的模型和優(yōu)化。

以下是GUI Agent的演示，他們有不同的任務(wù)，比如我們有三個(gè)不同的平臺(tái)。第一個(gè)是獲取關(guān)于美元的研究結(jié)果，我們可以從主用戶界面頁面開始。然后，我們可以執(zhí)行一些步驟前往麥當(dāng)勞，進(jìn)入麥當(dāng)勞餐廳并搜索那里的薯?xiàng)l，我們還可以設(shè)置多個(gè)步驟并提高目標(biāo)。這就是GUI Agent可以幫助我們的地方。

在另一個(gè)網(wǎng)站上，GUI Agent 也許可以找到一些更好的解決方案，幫助人類完成這類任務(wù)。這就是 GUI Agent 的意義。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

從2023年到2025年，你可以看到 GUI Agent 已經(jīng)廣泛流行起來。它重新引發(fā)了對(duì)Agent研究的關(guān)注，無論是學(xué)術(shù)界還是大型科技公司都在關(guān)注GUI Agent。這種關(guān)注不僅局限于移動(dòng)設(shè)備，還涵蓋了網(wǎng)站和計(jì)算領(lǐng)域。

我們還將這些主題引入到 GUI Agent 中，例如第一個(gè)是關(guān)于生成的。實(shí)際上，使用這種模型來指導(dǎo)行動(dòng)并不好。因此，當(dāng)我們?yōu)镚UI Agent提供當(dāng)前模型能力時(shí)，我們有不同類型的改進(jìn)方法來實(shí)現(xiàn)更好的模型。但你必須理解，如何實(shí)現(xiàn)，如何為UI設(shè)計(jì)Pythonian，以及如何設(shè)計(jì)分層架構(gòu)。

第二個(gè)是關(guān)于Agent系統(tǒng)。在我們有了項(xiàng)目模型之后，我們還需要一些其他自動(dòng)化的模型來提高GUI Agent的性能和效率。為了實(shí)現(xiàn)這一點(diǎn)，我們有不同的解決方案，我們可以有數(shù)據(jù)庫規(guī)劃、反射機(jī)制、也可以使用記憶和檢索器。

我還想強(qiáng)調(diào)的另一個(gè)重點(diǎn)是，我們還想做很多關(guān)于微調(diào)的工作，因?yàn)榭梢哉f強(qiáng)化學(xué)習(xí)對(duì)于Agent的微調(diào)是非常重要的，我們需要某種目的。例如，如何利用當(dāng)前模型作為評(píng)判。如何發(fā)揮生成角色模型的作用，以及如何為角色模型進(jìn)行更好的微調(diào)。同時(shí)，我們需要找到更好的方法來實(shí)現(xiàn)我們高效、可靠且穩(wěn)健的強(qiáng)化學(xué)習(xí)訓(xùn)練，并且我們需要找到最適合GUI Agent的算法。

最后一個(gè)問題是關(guān)于評(píng)估的。當(dāng)設(shè)計(jì)不同的基準(zhǔn)任務(wù)時(shí)，對(duì)于兩個(gè)Agent來說評(píng)估非常重要，我們需要設(shè)計(jì)評(píng)估指標(biāo)。

同樣，我們也提出一些研究問題。

第一個(gè)問題是，我們需要找到并提出一個(gè)基準(zhǔn)測(cè)試。因?yàn)槟壳拔覀兛梢钥吹胶芏嚓P(guān)于GUI Agent的論文。所以我們需要設(shè)計(jì)一個(gè)全面的基準(zhǔn)測(cè)試，它可以用于不同的應(yīng)用程序，以及不同的Agent。因此，當(dāng)你找到一個(gè)用于評(píng)估Agent的流程時(shí)，它不僅僅依賴人工干預(yù)。

第二部分是，我們需要設(shè)計(jì)一個(gè)行動(dòng)模型。眾所周知，如果我們僅僅使用當(dāng)前的基礎(chǔ)模型來執(zhí)行Agent任務(wù)，那么我們需要找到一些方法來訓(xùn)練出性能良好且高效的模型。

最后一個(gè)問題是關(guān)于如何為GUI Agent進(jìn)行高效的強(qiáng)化學(xué)習(xí)微調(diào)。我們必須讓Agent能夠充分利用有限的數(shù)據(jù)，并逐步提高性能。對(duì)于GUI Agent來說，進(jìn)行微調(diào)并不是一件容易的事，因此我們還需要找到一些方法來解決這個(gè)問題。

四、DeepSeek 強(qiáng)化學(xué)習(xí)的“Aha時(shí)刻”

來自 UCL 的宋研，做了主題為《The Power of Reinforcement Learning in LLM Reasoning》的演講，討論了強(qiáng)化學(xué)習(xí)在大型語言模型推理中的作用。

這是R1-zero的結(jié)果，它的基準(zhǔn)測(cè)試結(jié)果非常好，甚至比OpenAI的o1還要出色。更令人印象深刻的是，它的訓(xùn)練過程非常穩(wěn)定。而且它在擴(kuò)展性方面表現(xiàn)出色。對(duì)于R1-zero來說，它在過去的準(zhǔn)確率方面并不比最新的原始版本更好。但當(dāng)你嘗試生成內(nèi)容時(shí)，它顯然能夠產(chǎn)生更好的結(jié)果。

還有他們?cè)谡撐闹刑岬降囊粋€(gè)“Aha時(shí)刻”。在強(qiáng)化學(xué)習(xí)階段，語言模型學(xué)會(huì)了增加思考預(yù)算。這可能是因?yàn)槟阈枰嗟膖oken來進(jìn)行思考，從而解決一些難題。這一觀點(diǎn)得到了一些支持。他們發(fā)現(xiàn)，當(dāng)Agent使用某些關(guān)鍵詞時(shí)，它們會(huì)進(jìn)行各種回溯、自我報(bào)告和復(fù)雜推理。但對(duì)此也有另一種可能的解釋。首先，基礎(chǔ)模型本身已經(jīng)具備自我糾正的能力。所以，從技術(shù)角度來看，這并不是一個(gè)非?！癆ha”的時(shí)刻，而是表明強(qiáng)化學(xué)習(xí)確實(shí)可以在簡(jiǎn)單的設(shè)置下發(fā)揮作用。我認(rèn)為這才是最重要的。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

對(duì)于R1版本，他們使用初始數(shù)據(jù)開始訓(xùn)練，然后在強(qiáng)化學(xué)習(xí)（RL）的場(chǎng)景中進(jìn)行訓(xùn)練。結(jié)論是，大型語言模型（LLM）具有強(qiáng)大的能力，能夠進(jìn)行穩(wěn)定的強(qiáng)化學(xué)習(xí)，而小型語言模型則采用知識(shí)蒸餾的方式進(jìn)行訓(xùn)練。

在R1發(fā)布之后，我們?cè)诤罄m(xù)的訓(xùn)練和增量更新中推出了TinyZero，這是一個(gè)30億參數(shù)的大型模型。此外，SimpleRL是在70億參數(shù)的LLM上實(shí)現(xiàn)的Zero-RL。所以，所有這些工作都使用了Zero-RL。至少基本的想法是，你需要有一個(gè)強(qiáng)大的基礎(chǔ)模型，以便能夠?qū)W會(huì)推理。下一步是它們可以學(xué)會(huì)探索，然后它們可以學(xué)會(huì)自我糾正。

最近也有一些多模態(tài)的Zero-RL工作。這些工作基于Open-R1代碼庫、OpenRLHF代碼庫或Verl代碼庫。

我們也在小規(guī)模上進(jìn)行了一些實(shí)驗(yàn)。基本設(shè)置是我們嘗試在數(shù)學(xué)問題上進(jìn)行訓(xùn)練，選擇的難度等級(jí)為三到五，這與SimpleRL之前的代碼庫設(shè)置相同，我們發(fā)現(xiàn)這相當(dāng)重要。我們需要進(jìn)行篩選，而我們是在Qwen2.5-Math-7B上進(jìn)行的。其性能表現(xiàn)良好，如圖所示。藍(lán)色線條表示從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí)，它能夠推廣到AIME2024，這非常難以解決。

但它僅在數(shù)學(xué)問題上進(jìn)行訓(xùn)練，通過使用監(jiān)督微調(diào)數(shù)據(jù)，它可以在GSM8k上獲得更好的性能。但在AIME2024上，它給出的結(jié)果非常糟糕。這意味著，監(jiān)督微調(diào)數(shù)據(jù)可能會(huì)損害強(qiáng)化學(xué)習(xí)帶來的泛化能力。我們還在LLaMA上進(jìn)行了實(shí)驗(yàn)，但結(jié)果并不理想。

接下來，Yan Song 也分享一些最近工作中的前瞻見解。

五、自然語言強(qiáng)化學(xué)習(xí)新范式

來自 UCL、Google Deepmind 的馮熙棟探討了《Natural Language Reinforcement Learning》，介紹了把強(qiáng)化學(xué)習(xí)的組成部分用自然語言描述出來的理念。

如果我們有了新的強(qiáng)化學(xué)習(xí)范式，那會(huì)怎樣？如果我們不學(xué)習(xí)已經(jīng)確定的值函數(shù)，而是學(xué)習(xí)語言值函數(shù)呢？也就是說，我們嘗試用自然語言來描述狀態(tài)的值、描述狀態(tài)-動(dòng)作對(duì)。為什么不干脆把所有強(qiáng)化學(xué)習(xí)的組成部分都用語言表達(dá)出來呢？這正是我們最近努力的方向。

我們是從傳統(tǒng)的強(qiáng)化學(xué)習(xí)概念中汲取靈感，但我們正在將所有這些強(qiáng)化學(xué)習(xí)的概念重新定義為自然語言表示空間中的內(nèi)容。我們嘗試將策略、值函數(shù)、貝爾曼方程、蒙特卡洛采樣、時(shí)間差分學(xué)習(xí)以及策略改進(jìn)操作符等，映射到它們的自然語言對(duì)應(yīng)中。

這里我展示了一個(gè)這樣的例子。在強(qiáng)化學(xué)習(xí)中，你有一個(gè)策略，它是分布式的。但在自然語言強(qiáng)化學(xué)習(xí)中，你可能會(huì)有一個(gè)語言策略。也就是說，你不一定需要直接將你的狀態(tài)和動(dòng)作映射過去。相反，你可以嘗試說：“我先對(duì)狀態(tài)進(jìn)行一些分析，然后再采取行動(dòng)?！彼?，讓我們用語言策略來響應(yīng)。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中，你有標(biāo)量獎(jiǎng)勵(lì)，即即時(shí)獎(jiǎng)勵(lì)。但在自然語言強(qiáng)化學(xué)習(xí)中，你可能會(huì)有語言反饋，比如“你達(dá)到了目標(biāo)”，這不僅僅像傳統(tǒng)強(qiáng)化學(xué)習(xí)中的+1獎(jiǎng)勵(lì)，它可以包含更豐富的信息。

在狀態(tài)方面，你不需要是一個(gè)高維狀態(tài)，你也可以用語言來描述狀態(tài)。例如，你可以這樣說“你正在滾動(dòng)……”之類的內(nèi)容。對(duì)于值函數(shù)，在強(qiáng)化學(xué)習(xí)中，我們過去習(xí)慣于使用預(yù)期的累積獎(jiǎng)勵(lì)。但現(xiàn)在，我們可以有一個(gè)更自然的語言表示。我們可以嘗試用語言描述符來總結(jié)未來的軌跡，最終，還有貝爾曼方程。

傳統(tǒng)的貝爾曼方程試圖衡量當(dāng)前狀態(tài)與其后續(xù)狀態(tài)之間的關(guān)系。我們也可以在自然語言評(píng)估中做類似的事情。如果你試圖評(píng)估當(dāng)前的狀態(tài)，那么你的當(dāng)前狀態(tài)評(píng)估不可能與后續(xù)狀態(tài)評(píng)估相差甚遠(yuǎn)。因此，你的自然語言評(píng)估必須在連續(xù)狀態(tài)之間具有一致性、自我一致性。所以，這也是貝爾曼方程，但它發(fā)生在自然語言空間中。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

同樣地，我們可以嘗試將傳統(tǒng)的蒙特卡洛采樣和時(shí)間差分學(xué)習(xí)方法映射到自然語言中。假設(shè)我們有兩種語言聚合器 G1 和 G2 。在傳統(tǒng)的蒙特卡洛方法中，我們通過采樣大量的軌跡來估計(jì)其折扣獎(jiǎng)勵(lì)的累積和，并試圖通過計(jì)算這些軌跡的平均獎(jiǎng)勵(lì)來估計(jì)我們的軌跡。

在自然語言中，我們也可以做類似的事情。我們從時(shí)間步 (t+1) 開始采樣，直到無窮大。我們有很多基于語言的幾何采樣結(jié)果，并且假設(shè)我們有一些語言信息聚合器，因?yàn)楫?dāng)然，我們不能對(duì)語言進(jìn)行求平均或求和操作，因?yàn)樗鼈儾皇菙?shù)字。但如果有一個(gè)語言聚合器，我們可以要求它從這些不同的采樣語言軌跡中總結(jié)和聚合信息。

G1 可以負(fù)責(zé)從多個(gè)軌跡中聚合評(píng)估結(jié)果，并將所有步驟聚合到一個(gè)項(xiàng)目中。這在物理上是完全相同的事情，只是發(fā)生在不同的空間中。因此，我們需要在傳統(tǒng)強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)不同的聚合操作符。在傳統(tǒng)強(qiáng)化學(xué)習(xí)中，它是平均值；在基于語言的案例中，它只是一個(gè)語言聚合器。

對(duì)于時(shí)間差分學(xué)習(xí)也是如此。時(shí)間差分學(xué)習(xí)的理念是，如果你試圖評(píng)估當(dāng)前狀態(tài)的值，你可以向前邁出一步，并將即時(shí)獎(jiǎng)勵(lì)與未來狀態(tài)評(píng)估結(jié)果結(jié)合起來，以形成你對(duì)當(dāng)前狀態(tài)的評(píng)估。

在自然語言強(qiáng)化學(xué)習(xí)中，我們也可以做完全相同的事情。假設(shè)我們有 G1 和 G2 這兩個(gè)語言聚合器， G2負(fù)責(zé)將即時(shí)獎(jiǎng)勵(lì)和未來評(píng)估結(jié)果合并。我們可以讓 G2 接收即時(shí)轉(zhuǎn)換的描述和未來狀態(tài)評(píng)估結(jié)果，并讓 G1 負(fù)責(zé)從多個(gè)軌跡中聚合評(píng)估結(jié)果。雖然在傳統(tǒng)強(qiáng)化學(xué)習(xí)和自然語言強(qiáng)化學(xué)習(xí)中，它們的實(shí)現(xiàn)方式不同，但理念是相似的。你可以通過不同的聚合器看到我們的新語言時(shí)間差分學(xué)習(xí)是如何響應(yīng)傳統(tǒng)時(shí)間差分學(xué)習(xí)的。

闡述完概念之后，Xidong Feng 也談了這種方法的具體實(shí)現(xiàn)，給出了如何利用大型語言模型（LLMs）實(shí)現(xiàn)自然語言強(qiáng)化學(xué)習(xí)（NLRL）的幾條路徑。

六、Qwen長文本能力：更快速度、更低成本

阿里通義千問的林俊旸做了題為《Qwen: Towards Generalist Models》的演講，系統(tǒng)介紹了通義千問在技術(shù)、工程化方面的進(jìn)展，以下是關(guān)于通義千問大模型在數(shù)據(jù)量方面的細(xì)節(jié)。

在Qwen2.5版本中，數(shù)據(jù)量擴(kuò)展到18T。但現(xiàn)在我們正在考慮用更多的token進(jìn)行訓(xùn)練，比如30萬億到40萬億個(gè)token。這只是一個(gè)很大的數(shù)量，但對(duì)于訓(xùn)練大型模型來說很重要，不僅需要高質(zhì)量的數(shù)據(jù)，還需要大量的數(shù)據(jù)。這就是為什么我們?cè)谶M(jìn)行多階段預(yù)訓(xùn)練，因?yàn)槟阈枰?xùn)練大量的數(shù)據(jù)。但數(shù)據(jù)中有臟數(shù)據(jù)，在第一階段，然后是更高質(zhì)量的，再到不同階段的更高質(zhì)量。

在模型規(guī)模方面，我們開源了7種不同規(guī)模的模型，范圍從0.5B到72B。因此，你可以通過這些不同規(guī)模的模型來研究擴(kuò)展規(guī)律。但目前我們討論的是密集型模型，我們現(xiàn)在正在考慮MoE（Mixture of Experts）模型，它與密集型模型有些相似，但在訓(xùn)練和內(nèi)存模型方面有更多的技術(shù)細(xì)節(jié)，但總體上它仍然遵循擴(kuò)展規(guī)律。

在擴(kuò)展模型規(guī)模方面，不僅僅是模型本身的規(guī)模，還有激活參數(shù)的規(guī)模。還有一種掃描方式，但模型規(guī)模門控實(shí)際上已被證明是非常有效的。我們的開源模型中有許多細(xì)節(jié)，你可以去查看這些細(xì)節(jié)。

在上下文長度擴(kuò)展方面，這也是我們之前非常關(guān)注的一個(gè)問題。人們之前訓(xùn)練的模型上下文長度為 32K tokens 然后擴(kuò)展到 128k tokens token。真的有這么長嗎？但你甚至可以將其擴(kuò)展到甚至1000萬，這也是有可能的?，F(xiàn)在人們正在考慮轉(zhuǎn)向無限長度，所以他們希望使用類似傳統(tǒng)的多頭注意力機(jī)制來實(shí)現(xiàn)。也許線性注意力是未來的發(fā)展方向，但在這一領(lǐng)域我們還沒有取得重大突破。

但我們有一些技術(shù)可以將其進(jìn)一步擴(kuò)展，而無需進(jìn)一步訓(xùn)練。這是一種無需訓(xùn)練的技術(shù)，稱為 Trunk Attention（截?cái)嘧⒁饬Γ?，你可以查?Trunk Attention 的技術(shù)報(bào)告。

我們團(tuán)隊(duì)在ICML上發(fā)表了一篇相關(guān)論文，還有另一個(gè)技術(shù)問題是在部署方面。擁有100萬上下文token的模型，部署起來非常困難。因此，你需要使用一些技術(shù)來引入稀疏性，從而加快推理速度。你可以看到，之前首次生成一個(gè)token需要5分鐘，而現(xiàn)在只需要1分鐘，這也意味著它會(huì)更便宜，因?yàn)樽⒁饬C(jī)制中存在稀疏性，但我們發(fā)現(xiàn)性能并沒有下降，或者在100萬token的上下文中，我們得到了一個(gè)性價(jià)比很高的預(yù)期性能。

AI Agent 發(fā)展史：從 RL 驅(qū)動(dòng)到大模型驅(qū)動(dòng) ｜AIR 2025

除了理解長上下文之外，還有另一種擴(kuò)展，那就是生成長上下文的能力。以前我們能夠生成 8k tokens，但你會(huì)發(fā)現(xiàn)這還不夠。因?yàn)楝F(xiàn)在我們有長鏈?zhǔn)酵评恚↙ong Chain of Thought），所以，它之前還不足以生成非常、非常長的文本，但如今情況已經(jīng)大不相同了。也許現(xiàn)在它能夠生成像 12.8k 個(gè) token 的文本，這實(shí)際上是可以實(shí)現(xiàn)的。對(duì)于目前的Qwen來說，它實(shí)際上能夠生成大約 32k 的 token。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章