強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

本文作者：鄭佳美

2025-04-23 10:57

導(dǎo)語：從 Workflow 到通用智能，還差著代際距離。

自主決策能力是 Agent 受到重視，并被稱為 AI 時(shí)代“新基建”原因。從這個(gè)角度看，Workflow 似乎做不出真正的通用 Agent。

而要談?wù)嬲邆錄Q策能力和自我意識(shí)的 Agent，其實(shí)要從 AlphaGo 的問世說起。這是 AI 首次展示出非模板化、非規(guī)則驅(qū)動(dòng)的智能行為。而 AlphaGo 也靠著深度神經(jīng)網(wǎng)絡(luò)與 RL，進(jìn)行自我對弈與自我優(yōu)化，最終擊敗人類頂級(jí)棋手，敲響了 Agent 時(shí)代的第一聲鑼。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

從某種程度上說，Devin 可以算是通用 Agent 的濫觴。它首次把 AI 的編碼能力、任務(wù)執(zhí)行與反饋機(jī)制整合成一個(gè)完整的閉環(huán)，為后續(xù)產(chǎn)品提供了清晰的范例。

后來，Manus 延續(xù)了 Devin 的工作流思路，并提出 “More Intelligence” 的理念，不再滿足于簡單地串聯(lián)工具，而是試圖通過任務(wù)拆解、自我反思、模型調(diào)度等方式，讓 Agent 具備更強(qiáng)的理解力和適應(yīng)能力。而 Genspark 則走了一條更加模塊化的路線，把每個(gè)任務(wù)步驟都變成一個(gè)可組合的部分，讓開發(fā)者可以像拼樂高一樣，快速搭建出屬于自己的 Agent 系統(tǒng)。

但在當(dāng)前主流關(guān)于“如何構(gòu)建 Agent”的技術(shù)路徑中，有兩個(gè)被廣泛認(rèn)可的共識(shí)：一是擁有基礎(chǔ)模型是構(gòu)建 Agent 的起點(diǎn)，二是 RL 是賦予 Agent 連貫行為和目標(biāo)感的“靈魂”。它決定了 Agent 如何理解環(huán)境反饋、進(jìn)行長期規(guī)劃，并作為連接 Perception 與行動(dòng) Action 的關(guān)鍵橋梁。

反觀 Manus，由于缺乏底層模型能力和算法能力的支撐，它的系統(tǒng)結(jié)構(gòu)相對開放，十分容易被模仿，甚至有團(tuán)隊(duì)在三天內(nèi)就實(shí)現(xiàn)了復(fù)制，也因此被一些批評(píng)者視為“套殼”。不過從 AI 科技評(píng)論的角度看，這種批評(píng)也有失公允，畢竟 Manus 在產(chǎn)品設(shè)計(jì)和任務(wù)編排上依然有不少可圈可點(diǎn)的創(chuàng)新。

但“Agent 不能僅靠 Workflow 搭建”的看法，已經(jīng)逐漸成為業(yè)內(nèi)的共識(shí)。正是在這樣的主流認(rèn)知下，那些始終堅(jiān)持深耕強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)，反而在新一輪技術(shù)演進(jìn)中走到了更前沿的位置。

沒有 RL 的 Agent，只是在演戲

Pokee AI 創(chuàng)始人、前 Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人朱哲清，就是一位對 RL 始終堅(jiān)定信仰的“長期主義者”。

朱哲清曾向 AI 科技評(píng)論表示，RL 的核心優(yōu)勢在于目標(biāo)驅(qū)動(dòng)，它不是簡單地響應(yīng)輸入，而是圍繞一個(gè)清晰目標(biāo)，進(jìn)行策略規(guī)劃和任務(wù)執(zhí)行。而一旦缺少了 RL 的參與，Agent 就容易陷入“走一步看一步”的模式，缺乏內(nèi)在驅(qū)動(dòng)力，最終難以真正勝任復(fù)雜任務(wù)的完成。

他認(rèn)為真正的 Agent 的核心在于其執(zhí)行能力與影響力。如果一個(gè)系統(tǒng)只是單純地生成內(nèi)容或文件，那它更像是一個(gè)普通的工具，而非真正的 Agent。而當(dāng)它能夠?qū)Νh(huán)境產(chǎn)生不可逆的影響時(shí)，它才具備了真正的執(zhí)行性?？偟膩碚f，只有與環(huán)境發(fā)生深度交互，且產(chǎn)生的影響不可逆，才能稱之為真正的 Agent。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

他表示帶有 Workflow 的產(chǎn)品，實(shí)際上是發(fā)展的初期形態(tài)。雖然它有明確的目標(biāo)和流程，但仍需要人為干預(yù)，這樣的系統(tǒng)仍處于早期階段。真正的 Agent 不僅僅是按照預(yù)設(shè)的工具來操作，而是能夠根據(jù)給定目標(biāo)，自主選擇和使用工具完成任務(wù)。

在他的認(rèn)知中，Agent 的發(fā)展可以分為多個(gè)階段。早期的例子，比如 Zapier 的工作流系統(tǒng)，更多是模擬人的決策行為，但并非真正智能的 AI Agent。之后又有了像 LangChain 這種類拖拽流的可組合型的任務(wù)執(zhí)行模式，逐步向系統(tǒng)化過渡。到了現(xiàn)在，用 Claude 去做 MCP 的時(shí)候雖然工具的調(diào)用和規(guī)劃能力都比較有限，但已經(jīng)開始向更高水平的 Agent 演進(jìn)。

而下一階段的 Agent，將不再需要用戶或開發(fā)者了解具體的工具或技術(shù)細(xì)節(jié)。用戶只需簡單提出任務(wù)要求，Agent 就能夠根據(jù)目標(biāo)自動(dòng)選擇工具，并規(guī)劃解決路徑。此時(shí)，整個(gè)過程的自主性與智能性將達(dá)到前所未有的水平，Agent 也將真正實(shí)現(xiàn)從工具到智能體的轉(zhuǎn)變。

他坦言，RL 算法確實(shí)存在諸多挑戰(zhàn)。比如線下訓(xùn)練時(shí)，使用的數(shù)據(jù)集與真實(shí)世界往往存在巨大差異，導(dǎo)致模型一旦從線下遷移到線上，就可能“水土不服”，再比如操作動(dòng)作空間過大時(shí)，RL 系統(tǒng)很難穩(wěn)定泛化，效率與穩(wěn)定性之間的平衡始終是個(gè)難題。

但即便如此，朱哲清仍然堅(jiān)持自己的判斷：無論是 o1 還是 Rule-based reward model等模型范式的出現(xiàn)，RL 始終是站在技術(shù)舞臺(tái)上的“隱形主角”。雖然它未必是 AGI 的唯一通路，但在邁向真正 “Superhuman Intelligence” 的過程中，RL 是一個(gè)無法繞開的技術(shù)節(jié)點(diǎn)。

在他看來，相比那些過于模糊、甚至略顯理想化的 AGI 概念，能夠超越人類在某些任務(wù)上的智能體，才是一個(gè)更實(shí)際、可度量的目標(biāo)。RL，就是驅(qū)動(dòng)這一目標(biāo)落地的關(guān)鍵引擎。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

沒有 RL 的 Agent，也能往前走

然而，凡事都有兩面。有人堅(jiān)信 RL 是 Agent 的核心驅(qū)動(dòng)力，也有人對這個(gè)觀點(diǎn)提出質(zhì)疑。

香港科技大學(xué)（廣州）博士生，DeepWisdom 研究員張佳釔就屬于對 RL 持保留態(tài)度的那一派。他追求跨環(huán)境的智能體，在與 AI 科技評(píng)論對話時(shí)表示： DeepWisdom研究員張佳釔認(rèn)為，現(xiàn)有RL技術(shù)雖能在特定環(huán)境中提升Agent能力，但這本質(zhì)上是“任務(wù)特化”而非真正的智能泛化。在實(shí)現(xiàn)跨環(huán)境數(shù)據(jù)的有效統(tǒng)一表征之前，RL面臨的跨環(huán)境學(xué)習(xí)困境難以突破。

他認(rèn)為利用 RL 對語言模型進(jìn)行環(huán)境內(nèi)優(yōu)化本身沒有問題，但問題在于，目前很多研究使用的仍是能力較弱的基礎(chǔ)模型（base model），即便訓(xùn)練到“最優(yōu)”，也只是對單一環(huán)境的適配，缺乏跨環(huán)境的泛化能力。在他看來，“使用 RL 訓(xùn)出一個(gè)適應(yīng)某個(gè)環(huán)境的 Agent 已經(jīng)很近，但距離訓(xùn)出通用跨環(huán)境的 Agent 還有很長的一段路要走?！?/p>

同時(shí)他也并不完全認(rèn)同“沒有 RL 就沒有 Agent”這一觀點(diǎn)。他表示業(yè)界對 RL 的“過度崇拜”掩蓋了一個(gè)關(guān)鍵事實(shí)：OpenAI Deep Research 的成功更多依賴于其強(qiáng)大的基礎(chǔ)模型 o3 早期版本提供的先驗(yàn)知識(shí)，而非只有 RL 本身。

雖然近期的學(xué)術(shù)研究表明RL確實(shí)能提升較弱基礎(chǔ)模型的能力，但提升幅度有限，這也正是學(xué)術(shù)界和初創(chuàng)公司面臨的核心挑戰(zhàn)——如何在缺乏頂級(jí)基礎(chǔ)模型的情況下，通過建立持續(xù)有效的 RL 數(shù)據(jù)收集流程來縮小與巨頭的差距。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

不過，張佳釔也并不全盤否定 RL。他表示 RL 的局限性更多是技術(shù)階段的產(chǎn)物，且目前尚未出現(xiàn)一個(gè)能夠有效解決泛化問題的算法。因此，RL 的問題不完全是方法論本身，而是當(dāng)前技術(shù)仍處于早期階段。

除此之外，他還向 AI 科技評(píng)論表示，更期待能夠看到一個(gè)跨環(huán)境泛化的模型（比如 UI-TARS-1.5） —— 在任何環(huán)境下都能執(zhí)行不同任務(wù)，而不是針對某個(gè)環(huán)境進(jìn)行“定制化適配”。在他看來，這樣的模型可能在未來出現(xiàn)。一旦實(shí)現(xiàn)，“Agent 就只需要在模型上做個(gè)簡單系統(tǒng)就可以了。”

在整體架構(gòu)上，他也給出了他對 Agent 演化路徑的劃分 —— 他將 Agent 的發(fā)展過程分為六個(gè)階段：

第一階段：構(gòu)成 Agent 系統(tǒng)的最底層節(jié)點(diǎn)，語言模型被調(diào)用來執(zhí)行基本任務(wù)；

第二階段：在底層調(diào)用節(jié)點(diǎn)基礎(chǔ)上，構(gòu)建出固定的 agentic workflow，每個(gè)節(jié)點(diǎn)的角色與職責(zé)預(yù)設(shè)明確；

第三階段：底層組件演化為具有自身邏輯和動(dòng)作空間的 autonomous agent；

第四階段：多個(gè) autonomous agents 通過主動(dòng)交流機(jī)制構(gòu)建系統(tǒng)，形成 Multi Autonomous Agent Systems（MAS）；

第五階段：底層組件擁有與人類一致的環(huán)境空間，成為Foundation Agent，開始協(xié)助人類跨環(huán)境完成任務(wù)；

第六階段：Foundation Agent 基于人類目標(biāo)與其他 Agent 產(chǎn)生聯(lián)系，演化出具備自主協(xié)作能力的Foundation Agents 網(wǎng)絡(luò)。真正實(shí)現(xiàn)以人類目標(biāo)為核心的多智能體社會(huì)，達(dá)到Agent與人類共生的范式。

而目前大多數(shù) Agent 產(chǎn)品公司仍停留在第二到第三階段之間，尚未邁過第四階段的門檻，而“最大的瓶頸在于當(dāng)前 Agent 仍嚴(yán)重依賴人類預(yù)設(shè)的 workflow 節(jié)點(diǎn)，缺乏真正的自主性?！?/p>

在張佳釔看來，當(dāng)前大多數(shù) Agent 產(chǎn)品仍停留在第二到第三階段之間，尚未邁過第四階段的門檻。突破當(dāng)前瓶頸的關(guān)鍵在于使 Agent 擺脫人類預(yù)設(shè)經(jīng)驗(yàn)的束縛，通過自主探索獲取跨環(huán)境經(jīng)驗(yàn)并學(xué)會(huì)與各類專業(yè) Agent 協(xié)作。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

但在 Follou 創(chuàng)始人謝揚(yáng)來看，這個(gè)問題又有所不同。

他認(rèn)為 Agent 和工作流自動(dòng)化是可以組合起來的。在他眼中，Agent 應(yīng)該是一些可以協(xié)助人類提升生產(chǎn)力的工具，而并非一個(gè)獨(dú)立的個(gè)體。它的價(jià)值不在于模擬人類，而在于高效協(xié)助人類，把復(fù)雜的任務(wù)拆解、執(zhí)行，并最終完成目標(biāo)。

在謝揚(yáng)看來，很多人過于執(zhí)著于“Agent 是否像人”這個(gè)問題，而忽略了它真正的應(yīng)用意義。他更關(guān)心的是，Agent 是否真的能在現(xiàn)實(shí)中幫人把一件事做完，無論是搜索信息、分析數(shù)據(jù)，還是調(diào)度工具，Agent 也不應(yīng)該成為一個(gè)新的“入口”或者“平臺(tái)”，而應(yīng)該成為一種嵌入式能力，真正融入人類的工作流程之中，成為“能執(zhí)行的思考”和“能學(xué)習(xí)的工具”。

在這個(gè)過程中，他并不否認(rèn)“自主性”的重要性，尤其是在環(huán)境感知和情境理解上的價(jià)值。但在他看來，衡量一個(gè) Agent 是否真正有生命力，更關(guān)鍵的標(biāo)準(zhǔn)在于它是否“可組合”“可調(diào)度”。只有當(dāng) Agent 能夠被靈活地組織在不同的垂直任務(wù)中，支持模塊化的能力組合，并與人類實(shí)現(xiàn)高效協(xié)同，它才真正具備長期應(yīng)用的可能性。

基于這樣的理念，F(xiàn)ollou 也構(gòu)建了一整套融合 Agent 與工作流的架構(gòu)體系，他們將瀏覽器（Browser）、智能體（Agent）和工作流自動(dòng)化（Workflow Automation）等核心組件融合在一起，瀏覽器負(fù)責(zé)訪問和渲染 Web 內(nèi)容，智能體負(fù)責(zé)基于 LLM 理解上下文和做出決策，而工作流自動(dòng)化則執(zhí)行具體任務(wù)，調(diào)用 API、插件或腳本。

在謝揚(yáng)看來，這種結(jié)構(gòu)并不是技術(shù)炫技，而是一種“實(shí)用主義”的選擇。他更關(guān)心的是，Agent 是否真正能在現(xiàn)實(shí)中把一件事做完，而不是停留在看起來很聰明的幻覺里。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

在 RL 信徒與質(zhì)疑者的觀點(diǎn)交鋒中，我們能看到一個(gè)逐漸清晰的趨勢：Agent 的演化已不再是單一范式的勝利，而是多種技術(shù)路線的協(xié)同博弈。歸根到底，構(gòu)建 Agent 從來不是拼哪一種技術(shù)最炫，而是拼能不能把每一塊基礎(chǔ)能力連接成一個(gè)真正可運(yùn)行的系統(tǒng)。

從理解指令，到規(guī)劃路徑、感知反饋，再到調(diào)用外部工具完成任務(wù)，每一環(huán)都需要精密協(xié)作、形成穩(wěn)定閉環(huán)。模型能力再強(qiáng)，如果沒有目標(biāo)規(guī)劃和執(zhí)行機(jī)制，也只能停留在“懂你在說什么，但卻做不了任何事”的階段，而即便策略再優(yōu)秀，如果基礎(chǔ)模型跟不上、感知不準(zhǔn)確，也會(huì)陷入“會(huì)動(dòng)但不聰明”的窘境。

所以，構(gòu)建 Agent 不是“拼模型”或“賭范式”的零和游戲，而是一次工程能力、系統(tǒng)設(shè)計(jì)和認(rèn)知理解力的多維較量。

RL 可以塑造目標(biāo)感，模型提供理解力，外部接口延展執(zhí)行力，三者缺一不可。而如何把這些能力組合在一起，真正打造成一個(gè)可泛化、可遷移甚至是可迭代的系統(tǒng)，才是 Agent 走向通用市場的重要一步。

一個(gè)新的未來

而現(xiàn)在每天被人們掛在嘴邊的 Agent，其實(shí)最早在人工智能領(lǐng)域是一個(gè)非常寬泛的概念：只要一個(gè)系統(tǒng)具備感知和決策能力，它就可以被稱為 Agent。

但隨著 Copilot 類產(chǎn)品的興起，Agent 的概念又被重新定義：是否需要人介入決策，成為劃定 Agent 邊界的關(guān)鍵標(biāo)準(zhǔn)。如果一個(gè)系統(tǒng)可以在沒有人參與的前提下獨(dú)立完成決策和執(zhí)行，那它就屬于真正意義上的 Agent。

在這個(gè)標(biāo)準(zhǔn)下，其實(shí)我們今天看到的大部分 AI 應(yīng)用都可以被視為某種形式的 Agent。比如在編程領(lǐng)域，一個(gè) AI 模型可以完成代碼生成、編譯、測試、修改的循環(huán)；在游戲中，AI 控制的角色可以自主應(yīng)對環(huán)境變化，失敗也不會(huì)造成真實(shí)世界的損失。這些任務(wù)雖然復(fù)雜，但由于風(fēng)險(xiǎn)較低、反饋明確，所以系統(tǒng)即使出錯(cuò)，問題也不大。

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

但如果朝著通用 Agent 的方向發(fā)展的話，那么最大的衡量標(biāo)準(zhǔn)，就不再是語言生成的能力或者執(zhí)行速度，而是任務(wù)解決的成功率。從系統(tǒng)架構(gòu)上來看，著往往取決于兩種關(guān)鍵的設(shè)計(jì)：

如果是串行的 Agent 架構(gòu)，即由一個(gè)上層 Agent 發(fā)出決策，再調(diào)度多個(gè)下層 Agent 執(zhí)行子任務(wù)。如果是在這種模式下，調(diào)度層的指揮能力和下層的配合能力就直接決定了任務(wù)是否能夠高效完成。

而如果是并行的 Agent 架構(gòu)的話，則是需要多個(gè)智能體在同一時(shí)間共同協(xié)作完成任務(wù)，這就需要系統(tǒng)從頭到尾都不能出錯(cuò)，因?yàn)榫退忝總€(gè)環(huán)節(jié)的成功率都能夠達(dá)到七八成，但最后的整體成功率也會(huì)指數(shù)級(jí)下降。

因此，雷峰網(wǎng)認(rèn)為，要構(gòu)建真正強(qiáng)大、可落地的通用 Agent，必須確保系統(tǒng)的穩(wěn)定性、容錯(cuò)機(jī)制和跨模塊協(xié)同能力，否則就難以勝任復(fù)雜任務(wù)。這便是目前通用 Agent 面臨的主要問題。

而通用 Agent 一旦能夠落地，它將會(huì)讓大家的邊際成本顯著下降，同時(shí)望成為繼 PC 操作系統(tǒng)和手機(jī)系統(tǒng)之后的新一代人機(jī)交互入口。這一點(diǎn)類似于當(dāng)年微軟和英特爾組成的“Wintel 模式”，即操作系統(tǒng)帶來人機(jī)交互，芯片提供計(jì)算能力，二者結(jié)合直接引爆整個(gè)生態(tài)。同理，今天的蘋果也憑借自研的 iOS 和芯片稱霸移動(dòng)端，而安卓陣營與高通的配合也形成了另一套強(qiáng)大體系。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))認(rèn)為，順著這個(gè)思路去想，在通用 Agent 的未來中，很可能會(huì)誕生類似的生態(tài)閉環(huán)：AI 操作系統(tǒng) + 模型原生芯片，進(jìn)而催生出下一代 Wintel 模式。到時(shí)候，我們或許將看到專為 Agent 設(shè)計(jì)的模型級(jí)芯片，亦或者是 AIPC 的興起，共同見證整個(gè)智能交互方式的范式躍遷。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？

沒有 RL 的 Agent，只是在演戲

沒有 RL 的 Agent，也能往前走

強(qiáng)化學(xué)習(xí)之于 AI Agent，是靈魂、還是包袱？