0
自主決策能力是 Agent 受到重視,并被稱為 AI 時代“新基建”原因。從這個角度看,Workflow 似乎做不出真正的通用 Agent。
而要談?wù)嬲邆錄Q策能力和自我意識的 Agent,其實要從 AlphaGo 的問世說起。這是 AI 首次展示出非模板化、非規(guī)則驅(qū)動的智能行為。而 AlphaGo 也靠著深度神經(jīng)網(wǎng)絡(luò)與 RL,進行自我對弈與自我優(yōu)化,最終擊敗人類頂級棋手,敲響了 Agent 時代的第一聲鑼。
從某種程度上說,Devin 可以算是通用 Agent 的濫觴。它首次把 AI 的編碼能力、任務(wù)執(zhí)行與反饋機制整合成一個完整的閉環(huán),為后續(xù)產(chǎn)品提供了清晰的范例。
后來,Manus 延續(xù)了 Devin 的工作流思路,并提出 “More Intelligence” 的理念,不再滿足于簡單地串聯(lián)工具,而是試圖通過任務(wù)拆解、自我反思、模型調(diào)度等方式,讓 Agent 具備更強的理解力和適應(yīng)能力。而 Genspark 則走了一條更加模塊化的路線,把每個任務(wù)步驟都變成一個可組合的部分,讓開發(fā)者可以像拼樂高一樣,快速搭建出屬于自己的 Agent 系統(tǒng)。
但在當前主流關(guān)于“如何構(gòu)建 Agent”的技術(shù)路徑中,有兩個被廣泛認可的共識:一是擁有基礎(chǔ)模型是構(gòu)建 Agent 的起點,二是 RL 是賦予 Agent 連貫行為和目標感的“靈魂”。它決定了 Agent 如何理解環(huán)境反饋、進行長期規(guī)劃,并作為連接 Perception 與行動 Action 的關(guān)鍵橋梁。
反觀 Manus,由于缺乏底層模型能力和算法能力的支撐,它的系統(tǒng)結(jié)構(gòu)相對開放,十分容易被模仿,甚至有團隊在三天內(nèi)就實現(xiàn)了復制,也因此被一些批評者視為“套殼”。不過從 AI 科技評論的角度看,這種批評也有失公允,畢竟 Manus 在產(chǎn)品設(shè)計和任務(wù)編排上依然有不少可圈可點的創(chuàng)新。
但“Agent 不能僅靠 Workflow 搭建”的看法,已經(jīng)逐漸成為業(yè)內(nèi)的共識。正是在這樣的主流認知下,那些始終堅持深耕強化學習的團隊,反而在新一輪技術(shù)演進中走到了更前沿的位置。
Pokee AI 創(chuàng)始人、前 Meta AI應(yīng)用強化學習團隊負責人朱哲清,就是一位對 RL 始終堅定信仰的“長期主義者”。
朱哲清曾向 AI 科技評論表示,RL 的核心優(yōu)勢在于目標驅(qū)動,它不是簡單地響應(yīng)輸入,而是圍繞一個清晰目標,進行策略規(guī)劃和任務(wù)執(zhí)行。而一旦缺少了 RL 的參與,Agent 就容易陷入“走一步看一步”的模式,缺乏內(nèi)在驅(qū)動力,最終難以真正勝任復雜任務(wù)的完成。
他認為真正的 Agent 的核心在于其執(zhí)行能力與影響力。如果一個系統(tǒng)只是單純地生成內(nèi)容或文件,那它更像是一個普通的工具,而非真正的 Agent。而當它能夠?qū)Νh(huán)境產(chǎn)生不可逆的影響時,它才具備了真正的執(zhí)行性。總的來說,只有與環(huán)境發(fā)生深度交互,且產(chǎn)生的影響不可逆,才能稱之為真正的 Agent。
他表示帶有 Workflow 的產(chǎn)品,實際上是 發(fā)展的初期形態(tài)。雖然它有明確的目標和流程,但仍需要人為干預,這樣的系統(tǒng)仍處于早期階段。真正的 Agent 不僅僅是按照預設(shè)的工具來操作,而是能夠根據(jù)給定目標,自主選擇和使用工具完成任務(wù)。
在他的認知中,Agent 的發(fā)展可以分為多個階段。早期的例子,比如 Zapier 的工作流系統(tǒng),更多是模擬人的決策行為,但并非真正智能的 AI Agent。之后又有了 像 LangChain 這種類拖拽流的可組合型的任務(wù)執(zhí)行模式,逐步向系統(tǒng)化過渡。到了現(xiàn)在,用 Claude 去做 MCP 的時候雖然工具的調(diào)用和規(guī)劃能力都比較有限,但已經(jīng)開始向更高水平的 Agent 演進。
而下一階段的 Agent,將不再需要用戶或開發(fā)者了解具體的工具或技術(shù)細節(jié)。用戶只需簡單提出任務(wù)要求,Agent 就能夠根據(jù)目標自動選擇工具,并規(guī)劃解決路徑。此時,整個過程的自主性與智能性將達到前所未有的水平,Agent 也將真正實現(xiàn)從工具到智能體的轉(zhuǎn)變。
他坦言,RL 算法確實存在諸多挑戰(zhàn)。比如線下訓練時,使用的數(shù)據(jù)集與真實世界往往存在巨大差異,導致模型一旦從線下遷移到線上,就可能“水土不服”,再比如操作動作空間過大時,RL 系統(tǒng)很難穩(wěn)定泛化,效率與穩(wěn)定性之間的平衡始終是個難題。
但即便如此,朱哲清仍然堅持自己的判斷:無論是 o1 還是 Rule-based reward model等模型范式的出現(xiàn),RL 始終是站在技術(shù)舞臺上的“隱形主角”。雖然它未必是 AGI 的唯一通路,但在邁向真正 “Superhuman Intelligence” 的過程中,RL 是一個無法繞開的技術(shù)節(jié)點。
在他看來,相比那些過于模糊、甚至略顯理想化的 AGI 概念,能夠超越人類在某些任務(wù)上的智能體,才是一個更實際、可度量的目標。RL,就是驅(qū)動這一目標落地的關(guān)鍵引擎。
然而,凡事都有兩面。有人堅信 RL 是 Agent 的核心驅(qū)動力,也有人對這個觀點提出質(zhì)疑。
香港科技大學(廣州)博士生,DeepWisdom 研究員張佳釔就屬于對 RL 持保留態(tài)度的那一派。他追求跨環(huán)境的智能體,在與 AI 科技評論對話時表示: DeepWisdom研究員張佳釔認為,現(xiàn)有RL技術(shù)雖能在特定環(huán)境中提升Agent能力,但這本質(zhì)上是“任務(wù)特化”而非真正的智能泛化。在實現(xiàn)跨環(huán)境數(shù)據(jù)的有效統(tǒng)一表征之前,RL面臨的跨環(huán)境學習困境難以突破。
他認為利用 RL 對語言模型進行環(huán)境內(nèi)優(yōu)化本身沒有問題,但問題在于,目前很多研究使用的仍是能力較弱的基礎(chǔ)模型(base model),即便訓練到“最優(yōu)”,也只是對單一環(huán)境的適配,缺乏跨環(huán)境的泛化能力。 在他看來,“使用 RL 訓出一個適應(yīng)某個環(huán)境的 Agent 已經(jīng)很近,但距離訓出通用跨環(huán)境的 Agent 還有很長的一段路要走?!?/p>
同時他也并不完全認同“沒有 RL 就沒有 Agent”這一觀點。他表示業(yè)界對 RL 的“過度崇拜”掩蓋了一個關(guān)鍵事實:OpenAI Deep Research 的成功更多依賴于其強大的基礎(chǔ)模型 o3 早期版本提供的先驗知識,而非只有 RL 本身。
雖然近期的學術(shù)研究表明RL確實能提升較弱基礎(chǔ)模型的能力,但提升幅度有限,這也正是學術(shù)界和初創(chuàng)公司面臨的核心挑戰(zhàn)——如何在缺乏頂級基礎(chǔ)模型的情況下,通過建立持續(xù)有效的 RL 數(shù)據(jù)收集流程來縮小與巨頭的差距。
不過,張佳釔也并不全盤否定 RL。他表示 RL 的局限性更多是技術(shù)階段的產(chǎn)物,且目前尚未出現(xiàn)一個能夠有效解決泛化問題的算法。因此,RL 的問題不完全是方法論本身,而是當前技術(shù)仍處于早期階段。
除此之外,他還向 AI 科技評論表示,更期待能夠看到一個跨環(huán)境泛化的模型(比如 UI-TARS-1.5) —— 在任何環(huán)境下都能執(zhí)行不同任務(wù),而不是針對某個環(huán)境進行“定制化適配”。在他看來,這樣的模型可能在未來出現(xiàn)。一旦實現(xiàn),“Agent 就只需要在模型上做個簡單系統(tǒng)就可以了?!?/p>
在整體架構(gòu)上,他也給出了他對 Agent 演化路徑的劃分 —— 他將 Agent 的發(fā)展過程分為六個階段:
第一階段:構(gòu)成 Agent 系統(tǒng)的最底層節(jié)點,語言模型被調(diào)用來執(zhí)行基本任務(wù);
第二階段:在底層調(diào)用節(jié)點基礎(chǔ)上,構(gòu)建出固定的 agentic workflow,每個節(jié)點的角色與職責預設(shè)明確;
第三階段:底層組件演化為具有自身邏輯和動作空間的 autonomous agent;
第四階段:多個 autonomous agents 通過主動交流機制構(gòu)建系統(tǒng),形成 Multi Autonomous Agent Systems(MAS);
第五階段:底層組件擁有與人類一致的環(huán)境空間,成為Foundation Agent,開始協(xié)助人類跨環(huán)境完成任務(wù);
第六階段:Foundation Agent 基于人類目標與其他 Agent 產(chǎn)生聯(lián)系,演化出具備自主協(xié)作能力的Foundation Agents 網(wǎng)絡(luò)。真正實現(xiàn)以人類目標為核心的多智能體社會,達到Agent與人類共生的范式。
而目前大多數(shù) Agent 產(chǎn)品公司仍停留在第二到第三階段之間,尚未邁過第四階段的門檻,而“最大的瓶頸在于當前 Agent 仍嚴重依賴人類預設(shè)的 workflow 節(jié)點,缺乏真正的自主性?!?/p>
在張佳釔看來,當前大多數(shù) Agent 產(chǎn)品仍停留在第二到第三階段之間,尚未邁過第四階段的門檻。突破當前瓶頸的關(guān)鍵在于使 Agent 擺脫人類預設(shè)經(jīng)驗的束縛,通過自主探索獲取跨環(huán)境經(jīng)驗并學會與各類專業(yè) Agent 協(xié)作。
但在 Follou 創(chuàng)始人謝揚來看,這個問題又有所不同。
他認為 Agent 和工作流自動化是可以組合起來的。在他眼中,Agent 應(yīng)該是一些可以協(xié)助人類提升生產(chǎn)力的工具,而并非一個獨立的個體。它的價值不在于模擬人類,而在于高效協(xié)助人類,把復雜的任務(wù)拆解、執(zhí)行,并最終完成目標。
在謝揚看來,很多人過于執(zhí)著于“Agent 是否像人”這個問題,而忽略了它真正的應(yīng)用意義。他更關(guān)心的是,Agent 是否真的能在現(xiàn)實中幫人把一件事做完,無論是搜索信息、分析數(shù)據(jù),還是調(diào)度工具,Agent 也不應(yīng)該成為一個新的“入口”或者“平臺”,而應(yīng)該成為一種嵌入式能力,真正融入人類的工作流程之中,成為“能執(zhí)行的思考”和“能學習的工具”。
在這個過程中,他并不否認“自主性”的重要性,尤其是在環(huán)境感知和情境理解上的價值。但在他看來,衡量一個 Agent 是否真正有生命力,更關(guān)鍵的標準在于它是否“可組合”“可調(diào)度”。只有當 Agent 能夠被靈活地組織在不同的垂直任務(wù)中,支持模塊化的能力組合,并與人類實現(xiàn)高效協(xié)同,它才真正具備長期應(yīng)用的可能性。
基于這樣的理念,F(xiàn)ollou 也構(gòu)建了一整套融合 Agent 與工作流的架構(gòu)體系,他們將瀏覽器(Browser)、智能體(Agent)和工作流自動化(Workflow Automation)等核心組件融合在一起,瀏覽器負責訪問和渲染 Web 內(nèi)容,智能體負責基于 LLM 理解上下文和做出決策,而工作流自動化則執(zhí)行具體任務(wù),調(diào)用 API、插件或腳本。
在謝揚看來,這種結(jié)構(gòu)并不是技術(shù)炫技,而是一種“實用主義”的選擇。他更關(guān)心的是,Agent 是否真正能在現(xiàn)實中把一件事做完,而不是停留在看起來很聰明的幻覺里。
在 RL 信徒與質(zhì)疑者的觀點交鋒中,我們能看到一個逐漸清晰的趨勢:Agent 的演化已不再是單一范式的勝利,而是多種技術(shù)路線的協(xié)同博弈。歸根到底,構(gòu)建 Agent 從來不是拼哪一種技術(shù)最炫,而是拼能不能把每一塊基礎(chǔ)能力連接成一個真正可運行的系統(tǒng)。
從理解指令,到規(guī)劃路徑、感知反饋,再到調(diào)用外部工具完成任務(wù),每一環(huán)都需要精密協(xié)作、形成穩(wěn)定閉環(huán)。模型能力再強,如果沒有目標規(guī)劃和執(zhí)行機制,也只能停留在“懂你在說什么,但卻做不了任何事”的階段,而即便策略再優(yōu)秀,如果基礎(chǔ)模型跟不上、感知不準確,也會陷入“會動但不聰明”的窘境。
所以,構(gòu)建 Agent 不是“拼模型”或“賭范式”的零和游戲,而是一次工程能力、系統(tǒng)設(shè)計和認知理解力的多維較量。
RL 可以塑造目標感,模型提供理解力,外部接口延展執(zhí)行力,三者缺一不可。而如何把這些能力組合在一起,真正打造成一個可泛化、可遷移甚至是可迭代的系統(tǒng),才是 Agent 走向通用市場的重要一步。
一個新的未來
而現(xiàn)在每天被人們掛在嘴邊的 Agent,其實最早在人工智能領(lǐng)域是一個非常寬泛的概念:只要一個系統(tǒng)具備感知和決策能力,它就可以被稱為 Agent。
但隨著 Copilot 類產(chǎn)品的興起,Agent 的概念又被重新定義:是否需要人介入決策,成為劃定 Agent 邊界的關(guān)鍵標準。如果一個系統(tǒng)可以在沒有人參與的前提下獨立完成決策和執(zhí)行,那它就屬于真正意義上的 Agent。
在這個標準下,其實我們今天看到的大部分 AI 應(yīng)用都可以被視為某種形式的 Agent。比如在編程領(lǐng)域,一個 AI 模型可以完成代碼生成、編譯、測試、修改的循環(huán);在游戲中,AI 控制的角色可以自主應(yīng)對環(huán)境變化,失敗也不會造成真實世界的損失。這些任務(wù)雖然復雜,但由于風險較低、反饋明確,所以系統(tǒng)即使出錯,問題也不大。
但如果朝著通用 Agent 的方向發(fā)展的話,那么最大的衡量標準,就不再是語言生成的能力或者執(zhí)行速度,而是任務(wù)解決的成功率。從系統(tǒng)架構(gòu)上來看,著往往取決于兩種關(guān)鍵的設(shè)計:
如果是串行的 Agent 架構(gòu),即由一個上層 Agent 發(fā)出決策,再調(diào)度多個下層 Agent 執(zhí)行子任務(wù)。如果是在這種模式下,調(diào)度層的指揮能力和下層的配合能力就直接決定了任務(wù)是否能夠高效完成。
而如果是并行的 Agent 架構(gòu)的話,則是需要多個智能體在同一時間共同協(xié)作完成任務(wù),這就需要系統(tǒng)從頭到尾都不能出錯,因為就算每個環(huán)節(jié)的成功率都能夠達到七八成,但最后的整體成功率也會指數(shù)級下降。
因此,雷峰網(wǎng)認為,要構(gòu)建真正強大、可落地的通用 Agent,必須確保系統(tǒng)的穩(wěn)定性、容錯機制和跨模塊協(xié)同能力,否則就難以勝任復雜任務(wù)。這便是目前通用 Agent 面臨的主要問題。
而通用 Agent 一旦能夠落地,它將會讓大家的邊際成本顯著下降,同時望成為繼 PC 操作系統(tǒng)和手機系統(tǒng)之后的新一代人機交互入口。這一點類似于當年微軟和英特爾組成的“Wintel 模式”,即操作系統(tǒng)帶來人機交互,芯片提供計算能力,二者結(jié)合直接引爆整個生態(tài)。同理,今天的蘋果也憑借自研的 iOS 和芯片稱霸移動端,而安卓陣營與高通的配合也形成了另一套強大體系。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))認為,順著這個思路去想,在通用 Agent 的未來中,很可能會誕生類似的生態(tài)閉環(huán):AI 操作系統(tǒng) + 模型原生芯片,進而催生出下一代 Wintel 模式。到時候,我們或許將看到專為 Agent 設(shè)計的模型級芯片,亦或者是 AIPC 的興起,共同見證整個智能交互方式的范式躍遷。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。