Agent 正在重新劃分大模型競爭格局

本文作者：二維馬曉寧

2025-03-31 11:12

導(dǎo)語：沒有基礎(chǔ)模型，就做不了Agent。

Agent 正在重新劃分大模型競爭格局

雷峰網(wǎng)訊 3月27日，OpenAI發(fā)布GPT-4o原生圖像生成功能，效果炸裂令人震撼，以至于這兩天在網(wǎng)上出現(xiàn)了一個很流行的段子：

如果兩個人都在前年開始投身 AI 圖像生成領(lǐng)域，一個人花大量時(shí)間和金錢投入 ComfyUI 和工作流的研究，另一個人兩年都在游山玩水，那么 GPT-4o 發(fā)布更新之后，他們?nèi)匀徽驹诹送黄鹋芫€上。

這個段子說出了不少創(chuàng)業(yè)者內(nèi)心的恐慌。換句話說，你很難說服自己（和投資人）相信，你不只是一直在一架上升中的電梯里做俯臥撐。

每當(dāng)基座模型能力突破某個臨界點(diǎn)，此前以工程優(yōu)化能力作為賣點(diǎn)、從而實(shí)現(xiàn)某個類型能力的應(yīng)用，就立刻失去價(jià)值。盡管“模型無關(guān)”的思想出現(xiàn)，但事實(shí)上基于模型開發(fā)的上層應(yīng)用始終沒有擺脫基座大模型的支配。文生圖產(chǎn)品如此，近日來火熱的 Agent 也如此。

雖然 Manus 掀起了 Agent 的熱度，但不少業(yè)內(nèi)人認(rèn)為，“如果一個 Agent 團(tuán)隊(duì)沒有基座模型與強(qiáng)化學(xué)習(xí)技術(shù)，只是單純的產(chǎn)品人員做 Agent，那么最終必然被模型公司吞噬?！?/p>

這個觀點(diǎn)并非悚然聽聞：因?yàn)榻Y(jié)合了大模型與強(qiáng)化學(xué)習(xí)技術(shù)的 Agent 本質(zhì)上就是人工智能時(shí)代的“AI Being”（類似于 Human Being），可以完成從理解任務(wù)、思考推理、決策執(zhí)行的全流程。區(qū)分于過往的 AI 工具，前者只能完成一個環(huán)節(jié)、且需要由人來指導(dǎo)，終極 Agent 則完全自主、且能執(zhí)行完整個流程、繼而代替一個工種。

由于 Agent 基于大模型與強(qiáng)化學(xué)習(xí)，那么不難想象：如果說 Agent 是一個個“畢業(yè)生”，掌握基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)的大模型公司就是正規(guī)大學(xué)，只掌握強(qiáng)化學(xué)習(xí)、不掌握基礎(chǔ)模型的團(tuán)隊(duì)就是課外輔導(dǎo)班，而基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)都不掌握的純 Agent 公司則很可能連牌照都沒有。

今天，智譜在中關(guān)村論壇上發(fā)布它們首個集深度研究能力和操作能力于一體、并且直接上線客戶端的最新 Agent 產(chǎn)品 AutoGLM “沉思” ，驗(yàn)證了這一趨勢的發(fā)生。智譜發(fā)布的 Agent 打響了模型廠商反擊的第一槍，也意味著 Agent 的競爭進(jìn)一步加劇。

1
大模型與 RL 才是 Agent 的核心

Agent 的機(jī)會，追根到底，還是大模型公司的機(jī)會。所謂的模型即產(chǎn)品，無論是說未來的模型自己即可成為產(chǎn)品本身也好，還是說未來的產(chǎn)品都是模型也好，這兩種說法都是只有視角的差別，卻不能否認(rèn)一個事實(shí)，模型和產(chǎn)品二者密不可分。

Agent 這一概念起初來自于強(qiáng)化學(xué)習(xí)，并不是有了大模型之后才有的概念。市場上現(xiàn)在流行的一些產(chǎn)品，只是workflow的堆積，其實(shí)更多是魚目混珠。

具有自我學(xué)習(xí)和決策能力的Agent，其起源可以追溯到AlphaGo的問世。在此之前，傳統(tǒng)游戲 AI，如打敗人類國際象棋世界冠軍的超級計(jì)算機(jī)“深藍(lán)”，依賴的是人類棋譜和專家編寫的評估函數(shù)，并非具備人一樣的思維，更別提比人聰明。

AlphaGo 劃時(shí)代的意義在于，它是直接通過深度神經(jīng)網(wǎng)絡(luò)，直接從數(shù)據(jù)中學(xué)習(xí)棋局評估和落子策略的。它有自我學(xué)習(xí)的能力，擺脫了對人工經(jīng)驗(yàn)規(guī)則的路徑依賴，第一次證明了數(shù)據(jù)驅(qū)動+強(qiáng)化學(xué)習(xí)的范式，可以突破人類經(jīng)驗(yàn)的局限。強(qiáng)化學(xué)習(xí)的基本原理

這種能力遷移的底層邏輯，正是當(dāng)前大模型 Agent追求的核心目標(biāo)——讓 AI 在復(fù)雜開放環(huán)境中自主進(jìn)化。能達(dá)成這一目的，最重要的手段，就是強(qiáng)化學(xué)習(xí)。

沒有強(qiáng)化學(xué)習(xí)，就做不了Agent。OpenAI 的 Deep Research團(tuán)隊(duì)在訪談中多次強(qiáng)調(diào)，基于強(qiáng)化學(xué)習(xí)的端到端訓(xùn)練是當(dāng)前Agent技術(shù)革命的核心。因?yàn)閺?qiáng)化學(xué)習(xí)能夠解決傳統(tǒng)AI系統(tǒng)在復(fù)雜場景下的靈活性難題與泛化能力瓶頸。

到 2023 年文本與多模態(tài)大模型的能力大幅提升后，大模型與強(qiáng)化學(xué)習(xí)技術(shù)強(qiáng)強(qiáng)融合，又給 Agent 帶來了新的想象力：基礎(chǔ)模型提供基礎(chǔ)的語言理解、任務(wù)拆分與推理能力，此外強(qiáng)化學(xué)習(xí)又能在 Agent 從大模型分出來后針對某個具體崗位強(qiáng)化其細(xì)分能力。

一位強(qiáng)化學(xué)習(xí)研究員向 AI 科技評論這樣描述 AlphaGo 和當(dāng)前 Agent 的區(qū)別，他說，以前用強(qiáng)化學(xué)習(xí)訓(xùn)練AlphaGo，就像是在訓(xùn)練單細(xì)胞生物，雖然也能取得令人驚詫的效果，但單細(xì)胞生物只能完成一項(xiàng)任務(wù)?，F(xiàn)在用大模型與強(qiáng)化學(xué)習(xí)訓(xùn)練Agent，更像是訓(xùn)練人類。

目前基座模型提供的模型能力，相當(dāng)于一位接受了通識教育的大學(xué)畢業(yè)生，有著基本的人文素質(zhì)，但是還沒有足夠的職業(yè)技能；那么經(jīng)過了強(qiáng)化學(xué)習(xí)的大模型 Agent ，就像是一個接受了職業(yè)培訓(xùn)的大學(xué)生，已經(jīng)能夠走上工作崗位，處理實(shí)際問題了。

2024 年智能體已進(jìn)入“千體大戰(zhàn)”，但直到 R1 的出現(xiàn)，強(qiáng)化學(xué)習(xí)的地位提升，模型的長鏈路思考推理能力增強(qiáng)，OpenAI 發(fā)布 Deep Research、Monica 團(tuán)隊(duì)發(fā)布 Manus 后，Agent 才有了執(zhí)行完整工作流程的可能。

OpenAI 作為大模型創(chuàng)新者所提出的 Deep Research 在過去數(shù)月也驗(yàn)證了其新的商業(yè)可行性。

OpenAI 自己掌握基礎(chǔ)模型，模型與 Agent 均掌握在自己的手上，對 Agent 的定價(jià)也有了更大的自主權(quán)，Deep Research 定價(jià)月付 200 美金可以悉數(shù)收入囊中；相比之下，沒有掌握基礎(chǔ)模型的純 Agent 團(tuán)隊(duì)在定價(jià)時(shí)受到模型 API 價(jià)格浮動與模型能力穩(wěn)定性等多方面的影響。

也因此，Agent 逐漸成為基礎(chǔ)模型廠商的必爭之地，2025 注定是 Agent 爆發(fā)的一年。作為培養(yǎng) Agent 的大學(xué)所在地，智譜同時(shí)掌握模型與產(chǎn)品，能夠?qū)?Agent 進(jìn)行完全自主權(quán)的定價(jià)。當(dāng)前對 Agent 定價(jià)的標(biāo)準(zhǔn)，業(yè)內(nèi)還沒有形成統(tǒng)一共識，但圈內(nèi)已有討論，如：模型公司將自己的 Agent 以月、日或次數(shù)的形式向需要 Agent 的用戶收費(fèi)，或定制 Agent 服務(wù)。

在這種情況下，由于各個基礎(chǔ)模型的能力有所差異，其培養(yǎng)的“畢業(yè)生”能力也有差異，收費(fèi)的等級也自然不一。模型即產(chǎn)品，這意味著，大模型公司通過 Agent 或?qū)⒅匦芦@取“AI 能力收費(fèi)”的主動權(quán)，而不是單純?yōu)榈谌疆a(chǎn)品與應(yīng)用團(tuán)隊(duì)提供交付服務(wù)。Agent 也或?qū)⒊蔀?AI 2.0 時(shí)代的新分水嶺。

2
第一個做 Agent 的國產(chǎn)大模型

如上文所言，Agent的關(guān)卡主要有兩個，第一是要有基座模型，第二則是要有強(qiáng)化學(xué)習(xí)的能力。

大部分專門做Agent的公司是沒有基座模型的研發(fā)能力，擁有強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)的也是寥寥無幾。唯一的機(jī)會，就是不斷用工程能力，優(yōu)化自己的產(chǎn)品體驗(yàn)，或者用差異性的產(chǎn)品定位，來做出一款功能上有所創(chuàng)新的產(chǎn)品。

但是由于缺乏最底層的模型能力，這種做法也只是給他們在于大模型公司的競賽中稍微爭取一些時(shí)間。這就造成了，能夠訓(xùn)練模型的公司，在開發(fā)Agent時(shí)，往往也能夠取得事半功倍的效果。

智譜AI是國內(nèi)最早著手研究和發(fā)布Agent產(chǎn)品的團(tuán)隊(duì)，在經(jīng)驗(yàn)上遠(yuǎn)超同儕。

根據(jù)一些公開資料顯示，智譜清言是國內(nèi)最早具備了Function Call（函數(shù)調(diào)用）能力的模型產(chǎn)品，在今年1月16日就上線了這項(xiàng)能力，它能夠允許大語言模型動態(tài)調(diào)用外部函數(shù)或API，以完成特定任務(wù)，是Agent的基礎(chǔ)能力之一；

而在此一年之前，智譜清言上線了GLMs個性化智能體定制功能，為后續(xù)開發(fā)自主智能體打下了良好的基礎(chǔ)；

而且智譜AI還是最早推出設(shè)備操控智能體AutoGLM的公司，去年十一月的Agent OpenDay上，智譜AI的CEO張鵬當(dāng)場展示了在AI Agent方面最新成果，一句話就在手機(jī)端完成了建群發(fā)紅包這一任務(wù)，同時(shí)還演示了手機(jī)遠(yuǎn)程只會電腦自動向群聊中發(fā)送文件。

而今天在智譜清言PC端全新上線的自主智能體AutoGLM沉思，還學(xué)會了自己掙錢。在中關(guān)村論壇現(xiàn)場，它能夠自動打開某網(wǎng)站，搜索有償征稿信息，然后按照征稿要求寫出對應(yīng)的文章，并且自動發(fā)送到指定郵箱。

國外的通用Agent產(chǎn)品已經(jīng)相繼問世。Anthropic在去年10月22日就推出了computer use，能夠觀看屏幕截圖，實(shí)現(xiàn)移動光標(biāo)、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作。

OpenAI也于2025年1月23日正式發(fā)布了其最新研發(fā)的智能體Operator，2月2日又推出了名為Deep Research，幫助用戶進(jìn)行多步驟的互聯(lián)網(wǎng)研究，完成復(fù)雜任務(wù)。

國內(nèi)的通用Agent產(chǎn)品尚屬罕見。Manus發(fā)布時(shí)，作為國內(nèi)首個同類產(chǎn)品，就曾備受關(guān)注。但是Manus此前一直未開放使用，讓中國用戶更為好奇，Agent的功能到底有多強(qiáng)大。

在這次中關(guān)村論壇上，智譜AI發(fā)布的最新Agent產(chǎn)品AutoGLM沉思，能力主要體現(xiàn)在三個方面：1、模擬人的思考，尤其是像人一樣的深度研究和反思；2、能夠像人一樣感知這個世界；3、能夠像人一樣使用工具。

OpenAI Deep Research與智譜AutoGLM沉思兩個產(chǎn)品，有不少可以對比之處。

根據(jù)官方介紹，Deep Research由一個優(yōu)化版的 o3 模型驅(qū)動，專注于網(wǎng)頁瀏覽和數(shù)據(jù)分析，并基于端到端強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。它能做到在互聯(lián)網(wǎng)上跨模態(tài)搜索、解讀和分析大量文本、圖片及 PDF 文件，同時(shí)根據(jù)實(shí)時(shí)信息動態(tài)調(diào)整搜索策略。

AutoGLM沉思背后的推理模型 GLM-Z1-Air，也是智譜基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的新一代推理模型，面對復(fù)雜、開放問題，能夠進(jìn)行推理和反思，為Agent提供了強(qiáng)大的推理、規(guī)劃與反思能力。這款模型效果比肩DeepSeek-R1，提速8倍，價(jià)格是R1的1/30，可以在消費(fèi)級顯卡上運(yùn)行。

此外，智譜還推出一個學(xué)習(xí)者免費(fèi)版本GLM-Z1-Flash，輕量級，速度更快，完全免費(fèi)調(diào)用。

除網(wǎng)絡(luò)搜索外，Deep Research還可以分析用戶上傳的文件并提取關(guān)鍵內(nèi)容；使用Python工具制作數(shù)據(jù)可視化圖表，將這些圖表和網(wǎng)站抓取的圖片整合到回復(fù)中；為了保證研究結(jié)果的可靠性，系統(tǒng)也會嚴(yán)格標(biāo)注信息來源，精確引用原文中的相關(guān)段落。

AutoGLM沉思更進(jìn)一步，除了深度研究能力，還有操作能力，真正做到了一邊思考，一遍行動。它能夠像人類一樣拆解復(fù)雜問題，一邊推理，一邊搜索，瀏覽數(shù)十甚至上百個網(wǎng)頁，查看如知網(wǎng)、小紅書、公眾號、京東、巨潮資訊等優(yōu)質(zhì)但不對外開放API的信源，同時(shí)具有多模態(tài)理解能力，能夠理解網(wǎng)頁上的圖文信息，使研究更充分。最后它能總結(jié)出調(diào)理清晰的長文報(bào)告，并提供所有引用來源，讓AI輸出的內(nèi)容切實(shí)可查。

現(xiàn)在AutoGLM沉思還是preview版本，更多支持research相關(guān)場景，在未來的兩周將增加更多的Agent執(zhí)行能力。

最顯著的區(qū)別可能是二者的價(jià)格。Deep Research每月訂閱費(fèi)用為200美元，每月限120次查詢機(jī)會。而智譜清言上的沉思功能是免費(fèi)開放給所有用戶的?？梢韵胍?，大部分用戶都是首次體驗(yàn)到真正的自主性Agent。

智譜AI的模型研發(fā)能力有目共睹。現(xiàn)在“AutoGLM沉思”從內(nèi)到外的所有模型技術(shù)都是國產(chǎn)自研，包括負(fù)責(zé)推理規(guī)劃的推理模型GLM-Z1-Air、基模GLM-4-Air0414；再到負(fù)責(zé)執(zhí)行的AutoGLM，每個模型均為智譜自研，并且將于4月14日開源。

3
通往AGI的未來

有人稱，AGI要稱為AGI，那么它的標(biāo)準(zhǔn)就是要能替代80%的人類工作，也就是實(shí)現(xiàn)80%以上的人類能力。而Agent是達(dá)成這個任務(wù)的基本AGI載體。

無論是數(shù)據(jù)分析，還是內(nèi)容報(bào)告，亦或是長文總結(jié)，Agent能力正在逐漸與人類的需求接軌。這將創(chuàng)造出一個全新的賽道，改變?nèi)藱C(jī)交互的形態(tài)，甚至達(dá)到我們現(xiàn)在還無法想象的程度。

人類利用Agent完成連續(xù)多步驟復(fù)雜任務(wù)的執(zhí)行。最開始，這些任務(wù)可能只是純粹的數(shù)字任務(wù)，接下來，Agent的影響將會逐步蔓延至物理世界，我們生活中的一些簡單事務(wù)可以先由Agent接管，比如每天的打車、訂外賣、訂酒店機(jī)票，更進(jìn)一步地來說，Agent還能幫我們完成更多現(xiàn)實(shí)世界中的工作，比如找人修水管燈泡等等。

我們正處于AGI的前夜。Agent正如其名，很快就會成為人類的數(shù)字代理。大模型公司的第二場戰(zhàn)斗才剛剛打響。除了模型能力，好的Agent產(chǎn)品才是接下來競爭的關(guān)鍵。往前來看，Manus在空中打了一記發(fā)令槍，把Agent的概念普及到了大眾的認(rèn)知中。往后來看，其他國產(chǎn)大模型公司對這類產(chǎn)品，可能還缺乏經(jīng)驗(yàn)，目前還沒有同類公司的競品出現(xiàn)。

歸根結(jié)底，作為一款C端產(chǎn)品，如果能夠恰好在用戶已經(jīng)充滿期待的時(shí)候，正好出現(xiàn)在大眾面前，仍然將獲得極大的先發(fā)優(yōu)勢。在諸強(qiáng)圍俟的情況下，智譜今天先拔頭籌。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

二維馬曉寧

編輯

發(fā)私信

當(dāng)月熱門文章