0
本文作者: 鄭佳美 | 2025-04-23 10:57 |
自主決策能力是 Agent 受到重視,并被稱為 AI 時(shí)代“新基建”原因。從這個(gè)角度看,Workflow 似乎做不出真正的通用 Agent。
而要談?wù)嬲邆錄Q策能力和自我意識的 Agent,其實(shí)要從 AlphaGo 的問世說起。這是 AI 首次展示出非模板化、非規(guī)則驅(qū)動的智能行為。而 AlphaGo 也靠著深度神經(jīng)網(wǎng)絡(luò)與 RL,進(jìn)行自我對弈與自我優(yōu)化,最終擊敗人類頂級棋手,敲響了 Agent 時(shí)代的第一聲鑼。
從某種程度上說,Devin 可以算是通用 Agent 的濫觴。它首次把 AI 的編碼能力、任務(wù)執(zhí)行與反饋機(jī)制整合成一個(gè)完整的閉環(huán),為后續(xù)產(chǎn)品提供了清晰的范例。
后來,Manus 延續(xù)了 Devin 的工作流思路,并提出 “More Intelligence” 的理念,不再滿足于簡單地串聯(lián)工具,而是試圖通過任務(wù)拆解、自我反思、模型調(diào)度等方式,讓 Agent 具備更強(qiáng)的理解力和適應(yīng)能力。而 Genspark 則走了一條更加模塊化的路線,把每個(gè)任務(wù)步驟都變成一個(gè)可組合的部分,讓開發(fā)者可以像拼樂高一樣,快速搭建出屬于自己的 Agent 系統(tǒng)。
但在當(dāng)前主流關(guān)于“如何構(gòu)建 Agent”的技術(shù)路徑中,有兩個(gè)被廣泛認(rèn)可的共識:一是擁有基礎(chǔ)模型是構(gòu)建 Agent 的起點(diǎn),二是 RL 是賦予 Agent 連貫行為和目標(biāo)感的“靈魂”。它決定了 Agent 如何理解環(huán)境反饋、進(jìn)行長期規(guī)劃,并作為連接 Perception 與行動 Action 的關(guān)鍵橋梁。
反觀 Manus,由于缺乏底層模型能力和算法能力的支撐,它的系統(tǒng)結(jié)構(gòu)相對開放,十分容易被模仿,甚至有團(tuán)隊(duì)在三天內(nèi)就實(shí)現(xiàn)了復(fù)制,也因此被一些批評者視為“套殼”。不過從 AI 科技評論的角度看,這種批評也有失公允,畢竟 Manus 在產(chǎn)品設(shè)計(jì)和任務(wù)編排上依然有不少可圈可點(diǎn)的創(chuàng)新。
但“Agent 不能僅靠 Workflow 搭建”的看法,已經(jīng)逐漸成為業(yè)內(nèi)的共識。正是在這樣的主流認(rèn)知下,那些始終堅(jiān)持深耕強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì),反而在新一輪技術(shù)演進(jìn)中走到了更前沿的位置。
Pokee AI 創(chuàng)始人、前 Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人朱哲清,就是一位對 RL 始終堅(jiān)定信仰的“長期主義者”。
朱哲清曾向 AI 科技評論表示,RL 的核心優(yōu)勢在于目標(biāo)驅(qū)動,它不是簡單地響應(yīng)輸入,而是圍繞一個(gè)清晰目標(biāo),進(jìn)行策略規(guī)劃和任務(wù)執(zhí)行。而一旦缺少了 RL 的參與,Agent 就容易陷入“走一步看一步”的模式,缺乏內(nèi)在驅(qū)動力,最終難以真正勝任復(fù)雜任務(wù)的完成。
他認(rèn)為真正的 Agent 的核心在于其執(zhí)行能力與影響力。如果一個(gè)系統(tǒng)只是單純地生成內(nèi)容或文件,那它更像是一個(gè)普通的工具,而非真正的 Agent。而當(dāng)它能夠?qū)Νh(huán)境產(chǎn)生不可逆的影響時(shí),它才具備了真正的執(zhí)行性。總的來說,只有與環(huán)境發(fā)生深度交互,且產(chǎn)生的影響不可逆,才能稱之為真正的 Agent。
他表示帶有 Workflow 的產(chǎn)品,實(shí)際上是 發(fā)展的初期形態(tài)。雖然它有明確的目標(biāo)和流程,但仍需要人為干預(yù),這樣的系統(tǒng)仍處于早期階段。真正的 Agent 不僅僅是按照預(yù)設(shè)的工具來操作,而是能夠根據(jù)給定目標(biāo),自主選擇和使用工具完成任務(wù)。
在他的認(rèn)知中,Agent 的發(fā)展可以分為多個(gè)階段。早期的例子,比如 Zapier 的工作流系統(tǒng),更多是模擬人的決策行為,但并非真正智能的 AI Agent。之后又有了 像 LangChain 這種類拖拽流的可組合型的任務(wù)執(zhí)行模式,逐步向系統(tǒng)化過渡。到了現(xiàn)在,用 Claude 去做 MCP 的時(shí)候雖然工具的調(diào)用和規(guī)劃能力都比較有限,但已經(jīng)開始向更高水平的 Agent 演進(jìn)。
而下一階段的 Agent,將不再需要用戶或開發(fā)者了解具體的工具或技術(shù)細(xì)節(jié)。用戶只需簡單提出任務(wù)要求,Agent 就能夠根據(jù)目標(biāo)自動選擇工具,并規(guī)劃解決路徑。此時(shí),整個(gè)過程的自主性與智能性將達(dá)到前所未有的水平,Agent 也將真正實(shí)現(xiàn)從工具到智能體的轉(zhuǎn)變。
他坦言,RL 算法確實(shí)存在諸多挑戰(zhàn)。比如線下訓(xùn)練時(shí),使用的數(shù)據(jù)集與真實(shí)世界往往存在巨大差異,導(dǎo)致模型一旦從線下遷移到線上,就可能“水土不服”,再比如操作動作空間過大時(shí),RL 系統(tǒng)很難穩(wěn)定泛化,效率與穩(wěn)定性之間的平衡始終是個(gè)難題。
但即便如此,朱哲清仍然堅(jiān)持自己的判斷:無論是 o1 還是 Rule-based reward model等模型范式的出現(xiàn),RL 始終是站在技術(shù)舞臺上的“隱形主角”。雖然它未必是 AGI 的唯一通路,但在邁向真正 “Superhuman Intelligence” 的過程中,RL 是一個(gè)無法繞開的技術(shù)節(jié)點(diǎn)。
在他看來,相比那些過于模糊、甚至略顯理想化的 AGI 概念,能夠超越人類在某些任務(wù)上的智能體,才是一個(gè)更實(shí)際、可度量的目標(biāo)。RL,就是驅(qū)動這一目標(biāo)落地的關(guān)鍵引擎。
然而,凡事都有兩面。有人堅(jiān)信 RL 是 Agent 的核心驅(qū)動力,也有人對這個(gè)觀點(diǎn)提出質(zhì)疑。
香港科技大學(xué)(廣州)博士生,DeepWisdom 研究員張佳釔就屬于對 RL 持保留態(tài)度的那一派。他追求跨環(huán)境的智能體,在與 AI 科技評論對話時(shí)表示: DeepWisdom研究員張佳釔認(rèn)為,現(xiàn)有RL技術(shù)雖能在特定環(huán)境中提升Agent能力,但這本質(zhì)上是“任務(wù)特化”而非真正的智能泛化。在實(shí)現(xiàn)跨環(huán)境數(shù)據(jù)的有效統(tǒng)一表征之前,RL面臨的跨環(huán)境學(xué)習(xí)困境難以突破。
他認(rèn)為利用 RL 對語言模型進(jìn)行環(huán)境內(nèi)優(yōu)化本身沒有問題,但問題在于,目前很多研究使用的仍是能力較弱的基礎(chǔ)模型(base model),即便訓(xùn)練到“最優(yōu)”,也只是對單一環(huán)境的適配,缺乏跨環(huán)境的泛化能力。 在他看來,“使用 RL 訓(xùn)出一個(gè)適應(yīng)某個(gè)環(huán)境的 Agent 已經(jīng)很近,但距離訓(xùn)出通用跨環(huán)境的 Agent 還有很長的一段路要走?!?/p>
同時(shí)他也并不完全認(rèn)同“沒有 RL 就沒有 Agent”這一觀點(diǎn)。他表示業(yè)界對 RL 的“過度崇拜”掩蓋了一個(gè)關(guān)鍵事實(shí):OpenAI Deep Research 的成功更多依賴于其強(qiáng)大的基礎(chǔ)模型 o3 早期版本提供的先驗(yàn)知識,而非只有 RL 本身。
雖然近期的學(xué)術(shù)研究表明RL確實(shí)能提升較弱基礎(chǔ)模型的能力,但提升幅度有限,這也正是學(xué)術(shù)界和初創(chuàng)公司面臨的核心挑戰(zhàn)——如何在缺乏頂級基礎(chǔ)模型的情況下,通過建立持續(xù)有效的 RL 數(shù)據(jù)收集流程來縮小與巨頭的差距。
不過,張佳釔也并不全盤否定 RL。他表示 RL 的局限性更多是技術(shù)階段的產(chǎn)物,且目前尚未出現(xiàn)一個(gè)能夠有效解決泛化問題的算法。因此,RL 的問題不完全是方法論本身,而是當(dāng)前技術(shù)仍處于早期階段。
除此之外,他還向 AI 科技評論表示,更期待能夠看到一個(gè)跨環(huán)境泛化的模型(比如 UI-TARS-1.5) —— 在任何環(huán)境下都能執(zhí)行不同任務(wù),而不是針對某個(gè)環(huán)境進(jìn)行“定制化適配”。在他看來,這樣的模型可能在未來出現(xiàn)。一旦實(shí)現(xiàn),“Agent 就只需要在模型上做個(gè)簡單系統(tǒng)就可以了?!?/p>
在整體架構(gòu)上,他也給出了他對 Agent 演化路徑的劃分 —— 他將 Agent 的發(fā)展過程分為六個(gè)階段:
第一階段:構(gòu)成 Agent 系統(tǒng)的最底層節(jié)點(diǎn),語言模型被調(diào)用來執(zhí)行基本任務(wù);
第二階段:在底層調(diào)用節(jié)點(diǎn)基礎(chǔ)上,構(gòu)建出固定的 agentic workflow,每個(gè)節(jié)點(diǎn)的角色與職責(zé)預(yù)設(shè)明確;
第三階段:底層組件演化為具有自身邏輯和動作空間的 autonomous agent;
第四階段:多個(gè) autonomous agents 通過主動交流機(jī)制構(gòu)建系統(tǒng),形成 Multi Autonomous Agent Systems(MAS);
第五階段:底層組件擁有與人類一致的環(huán)境空間,成為Foundation Agent,開始協(xié)助人類跨環(huán)境完成任務(wù);
第六階段:Foundation Agent 基于人類目標(biāo)與其他 Agent 產(chǎn)生聯(lián)系,演化出具備自主協(xié)作能力的Foundation Agents 網(wǎng)絡(luò)。真正實(shí)現(xiàn)以人類目標(biāo)為核心的多智能體社會,達(dá)到Agent與人類共生的范式。
而目前大多數(shù) Agent 產(chǎn)品公司仍停留在第二到第三階段之間,尚未邁過第四階段的門檻,而“最大的瓶頸在于當(dāng)前 Agent 仍嚴(yán)重依賴人類預(yù)設(shè)的 workflow 節(jié)點(diǎn),缺乏真正的自主性?!?/p>
在張佳釔看來,當(dāng)前大多數(shù) Agent 產(chǎn)品仍停留在第二到第三階段之間,尚未邁過第四階段的門檻。突破當(dāng)前瓶頸的關(guān)鍵在于使 Agent 擺脫人類預(yù)設(shè)經(jīng)驗(yàn)的束縛,通過自主探索獲取跨環(huán)境經(jīng)驗(yàn)并學(xué)會與各類專業(yè) Agent 協(xié)作。
但在 Follou 創(chuàng)始人謝揚(yáng)來看,這個(gè)問題又有所不同。
他認(rèn)為 Agent 和工作流自動化是可以組合起來的。在他眼中,Agent 應(yīng)該是一些可以協(xié)助人類提升生產(chǎn)力的工具,而并非一個(gè)獨(dú)立的個(gè)體。它的價(jià)值不在于模擬人類,而在于高效協(xié)助人類,把復(fù)雜的任務(wù)拆解、執(zhí)行,并最終完成目標(biāo)。
在謝揚(yáng)看來,很多人過于執(zhí)著于“Agent 是否像人”這個(gè)問題,而忽略了它真正的應(yīng)用意義。他更關(guān)心的是,Agent 是否真的能在現(xiàn)實(shí)中幫人把一件事做完,無論是搜索信息、分析數(shù)據(jù),還是調(diào)度工具,Agent 也不應(yīng)該成為一個(gè)新的“入口”或者“平臺”,而應(yīng)該成為一種嵌入式能力,真正融入人類的工作流程之中,成為“能執(zhí)行的思考”和“能學(xué)習(xí)的工具”。
在這個(gè)過程中,他并不否認(rèn)“自主性”的重要性,尤其是在環(huán)境感知和情境理解上的價(jià)值。但在他看來,衡量一個(gè) Agent 是否真正有生命力,更關(guān)鍵的標(biāo)準(zhǔn)在于它是否“可組合”“可調(diào)度”。只有當(dāng) Agent 能夠被靈活地組織在不同的垂直任務(wù)中,支持模塊化的能力組合,并與人類實(shí)現(xiàn)高效協(xié)同,它才真正具備長期應(yīng)用的可能性。
基于這樣的理念,F(xiàn)ollou 也構(gòu)建了一整套融合 Agent 與工作流的架構(gòu)體系,他們將瀏覽器(Browser)、智能體(Agent)和工作流自動化(Workflow Automation)等核心組件融合在一起,瀏覽器負(fù)責(zé)訪問和渲染 Web 內(nèi)容,智能體負(fù)責(zé)基于 LLM 理解上下文和做出決策,而工作流自動化則執(zhí)行具體任務(wù),調(diào)用 API、插件或腳本。
在謝揚(yáng)看來,這種結(jié)構(gòu)并不是技術(shù)炫技,而是一種“實(shí)用主義”的選擇。他更關(guān)心的是,Agent 是否真正能在現(xiàn)實(shí)中把一件事做完,而不是停留在看起來很聰明的幻覺里。
在 RL 信徒與質(zhì)疑者的觀點(diǎn)交鋒中,我們能看到一個(gè)逐漸清晰的趨勢:Agent 的演化已不再是單一范式的勝利,而是多種技術(shù)路線的協(xié)同博弈。歸根到底,構(gòu)建 Agent 從來不是拼哪一種技術(shù)最炫,而是拼能不能把每一塊基礎(chǔ)能力連接成一個(gè)真正可運(yùn)行的系統(tǒng)。
從理解指令,到規(guī)劃路徑、感知反饋,再到調(diào)用外部工具完成任務(wù),每一環(huán)都需要精密協(xié)作、形成穩(wěn)定閉環(huán)。模型能力再強(qiáng),如果沒有目標(biāo)規(guī)劃和執(zhí)行機(jī)制,也只能停留在“懂你在說什么,但卻做不了任何事”的階段,而即便策略再優(yōu)秀,如果基礎(chǔ)模型跟不上、感知不準(zhǔn)確,也會陷入“會動但不聰明”的窘境。
所以,構(gòu)建 Agent 不是“拼模型”或“賭范式”的零和游戲,而是一次工程能力、系統(tǒng)設(shè)計(jì)和認(rèn)知理解力的多維較量。
RL 可以塑造目標(biāo)感,模型提供理解力,外部接口延展執(zhí)行力,三者缺一不可。而如何把這些能力組合在一起,真正打造成一個(gè)可泛化、可遷移甚至是可迭代的系統(tǒng),才是 Agent 走向通用市場的重要一步。
一個(gè)新的未來
而現(xiàn)在每天被人們掛在嘴邊的 Agent,其實(shí)最早在人工智能領(lǐng)域是一個(gè)非常寬泛的概念:只要一個(gè)系統(tǒng)具備感知和決策能力,它就可以被稱為 Agent。
但隨著 Copilot 類產(chǎn)品的興起,Agent 的概念又被重新定義:是否需要人介入決策,成為劃定 Agent 邊界的關(guān)鍵標(biāo)準(zhǔn)。如果一個(gè)系統(tǒng)可以在沒有人參與的前提下獨(dú)立完成決策和執(zhí)行,那它就屬于真正意義上的 Agent。
在這個(gè)標(biāo)準(zhǔn)下,其實(shí)我們今天看到的大部分 AI 應(yīng)用都可以被視為某種形式的 Agent。比如在編程領(lǐng)域,一個(gè) AI 模型可以完成代碼生成、編譯、測試、修改的循環(huán);在游戲中,AI 控制的角色可以自主應(yīng)對環(huán)境變化,失敗也不會造成真實(shí)世界的損失。這些任務(wù)雖然復(fù)雜,但由于風(fēng)險(xiǎn)較低、反饋明確,所以系統(tǒng)即使出錯(cuò),問題也不大。
但如果朝著通用 Agent 的方向發(fā)展的話,那么最大的衡量標(biāo)準(zhǔn),就不再是語言生成的能力或者執(zhí)行速度,而是任務(wù)解決的成功率。從系統(tǒng)架構(gòu)上來看,著往往取決于兩種關(guān)鍵的設(shè)計(jì):
如果是串行的 Agent 架構(gòu),即由一個(gè)上層 Agent 發(fā)出決策,再調(diào)度多個(gè)下層 Agent 執(zhí)行子任務(wù)。如果是在這種模式下,調(diào)度層的指揮能力和下層的配合能力就直接決定了任務(wù)是否能夠高效完成。
而如果是并行的 Agent 架構(gòu)的話,則是需要多個(gè)智能體在同一時(shí)間共同協(xié)作完成任務(wù),這就需要系統(tǒng)從頭到尾都不能出錯(cuò),因?yàn)榫退忝總€(gè)環(huán)節(jié)的成功率都能夠達(dá)到七八成,但最后的整體成功率也會指數(shù)級下降。
因此,雷峰網(wǎng)認(rèn)為,要構(gòu)建真正強(qiáng)大、可落地的通用 Agent,必須確保系統(tǒng)的穩(wěn)定性、容錯(cuò)機(jī)制和跨模塊協(xié)同能力,否則就難以勝任復(fù)雜任務(wù)。這便是目前通用 Agent 面臨的主要問題。
而通用 Agent 一旦能夠落地,它將會讓大家的邊際成本顯著下降,同時(shí)望成為繼 PC 操作系統(tǒng)和手機(jī)系統(tǒng)之后的新一代人機(jī)交互入口。這一點(diǎn)類似于當(dāng)年微軟和英特爾組成的“Wintel 模式”,即操作系統(tǒng)帶來人機(jī)交互,芯片提供計(jì)算能力,二者結(jié)合直接引爆整個(gè)生態(tài)。同理,今天的蘋果也憑借自研的 iOS 和芯片稱霸移動端,而安卓陣營與高通的配合也形成了另一套強(qiáng)大體系。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))認(rèn)為,順著這個(gè)思路去想,在通用 Agent 的未來中,很可能會誕生類似的生態(tài)閉環(huán):AI 操作系統(tǒng) + 模型原生芯片,進(jìn)而催生出下一代 Wintel 模式。到時(shí)候,我們或許將看到專為 Agent 設(shè)計(jì)的模型級芯片,亦或者是 AIPC 的興起,共同見證整個(gè)智能交互方式的范式躍遷。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。