0
本文作者: 二維馬曉寧 | 2025-03-31 11:12 |
雷峰網(wǎng)訊 3月27日,OpenAI發(fā)布GPT-4o原生圖像生成功能,效果炸裂令人震撼,以至于這兩天在網(wǎng)上出現(xiàn)了一個(gè)很流行的段子:
如果兩個(gè)人都在前年開始投身 AI 圖像生成領(lǐng)域,一個(gè)人花大量時(shí)間和金錢投入 ComfyUI 和工作流的研究,另一個(gè)人兩年都在游山玩水,那么 GPT-4o 發(fā)布更新之后,他們?nèi)匀徽驹诹送黄鹋芫€上。
這個(gè)段子說(shuō)出了不少創(chuàng)業(yè)者內(nèi)心的恐慌。換句話說(shuō),你很難說(shuō)服自己(和投資人)相信,你不只是一直在一架上升中的電梯里做俯臥撐。
每當(dāng)基座模型能力突破某個(gè)臨界點(diǎn),此前以工程優(yōu)化能力作為賣點(diǎn)、從而實(shí)現(xiàn)某個(gè)類型能力的應(yīng)用,就立刻失去價(jià)值。盡管“模型無(wú)關(guān)”的思想出現(xiàn),但事實(shí)上基于模型開發(fā)的上層應(yīng)用始終沒(méi)有擺脫基座大模型的支配。文生圖產(chǎn)品如此,近日來(lái)火熱的 Agent 也如此。
雖然 Manus 掀起了 Agent 的熱度,但不少業(yè)內(nèi)人認(rèn)為,“如果一個(gè) Agent 團(tuán)隊(duì)沒(méi)有基座模型與強(qiáng)化學(xué)習(xí)技術(shù),只是單純的產(chǎn)品人員做 Agent,那么最終必然被模型公司吞噬?!?/p>
這個(gè)觀點(diǎn)并非悚然聽聞:因?yàn)榻Y(jié)合了大模型與強(qiáng)化學(xué)習(xí)技術(shù)的 Agent 本質(zhì)上就是人工智能時(shí)代的“AI Being”(類似于 Human Being),可以完成從理解任務(wù)、思考推理、決策執(zhí)行的全流程。區(qū)分于過(guò)往的 AI 工具,前者只能完成一個(gè)環(huán)節(jié)、且需要由人來(lái)指導(dǎo),終極 Agent 則完全自主、且能執(zhí)行完整個(gè)流程、繼而代替一個(gè)工種。
由于 Agent 基于大模型與強(qiáng)化學(xué)習(xí),那么不難想象:如果說(shuō) Agent 是一個(gè)個(gè)“畢業(yè)生”,掌握基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)的大模型公司就是正規(guī)大學(xué),只掌握強(qiáng)化學(xué)習(xí)、不掌握基礎(chǔ)模型的團(tuán)隊(duì)就是課外輔導(dǎo)班,而基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)都不掌握的純 Agent 公司則很可能連牌照都沒(méi)有。
今天,智譜在中關(guān)村論壇上發(fā)布它們首個(gè)集深度研究能力和操作能力于一體、并且直接上線客戶端的最新 Agent 產(chǎn)品 AutoGLM “沉思” ,驗(yàn)證了這一趨勢(shì)的發(fā)生。智譜發(fā)布的 Agent 打響了模型廠商反擊的第一槍,也意味著 Agent 的競(jìng)爭(zhēng)進(jìn)一步加劇。
1
大模型與 RL 才是 Agent 的核心
Agent 的機(jī)會(huì),追根到底,還是大模型公司的機(jī)會(huì)。所謂的模型即產(chǎn)品,無(wú)論是說(shuō)未來(lái)的模型自己即可成為產(chǎn)品本身也好,還是說(shuō)未來(lái)的產(chǎn)品都是模型也好,這兩種說(shuō)法都是只有視角的差別,卻不能否認(rèn)一個(gè)事實(shí),模型和產(chǎn)品二者密不可分。
Agent 這一概念起初來(lái)自于強(qiáng)化學(xué)習(xí),并不是有了大模型之后才有的概念。市場(chǎng)上現(xiàn)在流行的一些產(chǎn)品,只是workflow的堆積,其實(shí)更多是魚目混珠。
具有自我學(xué)習(xí)和決策能力的Agent,其起源可以追溯到AlphaGo的問(wèn)世。在此之前,傳統(tǒng)游戲 AI,如打敗人類國(guó)際象棋世界冠軍的超級(jí)計(jì)算機(jī)“深藍(lán)”,依賴的是人類棋譜和專家編寫的評(píng)估函數(shù),并非具備人一樣的思維,更別提比人聰明。
AlphaGo 劃時(shí)代的意義在于,它是直接通過(guò)深度神經(jīng)網(wǎng)絡(luò),直接從數(shù)據(jù)中學(xué)習(xí)棋局評(píng)估和落子策略的。它有自我學(xué)習(xí)的能力,擺脫了對(duì)人工經(jīng)驗(yàn)規(guī)則的路徑依賴,第一次證明了數(shù)據(jù)驅(qū)動(dòng)+強(qiáng)化學(xué)習(xí)的范式,可以突破人類經(jīng)驗(yàn)的局限。強(qiáng)化學(xué)習(xí)的基本原理
這種能力遷移的底層邏輯,正是當(dāng)前大模型 Agent追求的核心目標(biāo)——讓 AI 在復(fù)雜開放環(huán)境中自主進(jìn)化。能達(dá)成這一目的,最重要的手段,就是強(qiáng)化學(xué)習(xí)。
沒(méi)有強(qiáng)化學(xué)習(xí),就做不了Agent。OpenAI 的 Deep Research團(tuán)隊(duì)在訪談中多次強(qiáng)調(diào),基于強(qiáng)化學(xué)習(xí)的端到端訓(xùn)練是當(dāng)前Agent技術(shù)革命的核心。因?yàn)閺?qiáng)化學(xué)習(xí)能夠解決傳統(tǒng)AI系統(tǒng)在復(fù)雜場(chǎng)景下的靈活性難題與泛化能力瓶頸。
到 2023 年文本與多模態(tài)大模型的能力大幅提升后,大模型與強(qiáng)化學(xué)習(xí)技術(shù)強(qiáng)強(qiáng)融合,又給 Agent 帶來(lái)了新的想象力:基礎(chǔ)模型提供基礎(chǔ)的語(yǔ)言理解、任務(wù)拆分與推理能力,此外強(qiáng)化學(xué)習(xí)又能在 Agent 從大模型分出來(lái)后針對(duì)某個(gè)具體崗位強(qiáng)化其細(xì)分能力。
一位強(qiáng)化學(xué)習(xí)研究員向 AI 科技評(píng)論這樣描述 AlphaGo 和當(dāng)前 Agent 的區(qū)別,他說(shuō),以前用強(qiáng)化學(xué)習(xí)訓(xùn)練AlphaGo,就像是在訓(xùn)練單細(xì)胞生物,雖然也能取得令人驚詫的效果,但單細(xì)胞生物只能完成一項(xiàng)任務(wù)。現(xiàn)在用大模型與強(qiáng)化學(xué)習(xí)訓(xùn)練Agent,更像是訓(xùn)練人類。
目前基座模型提供的模型能力,相當(dāng)于一位接受了通識(shí)教育的大學(xué)畢業(yè)生,有著基本的人文素質(zhì),但是還沒(méi)有足夠的職業(yè)技能;那么經(jīng)過(guò)了強(qiáng)化學(xué)習(xí)的大模型 Agent ,就像是一個(gè)接受了職業(yè)培訓(xùn)的大學(xué)生,已經(jīng)能夠走上工作崗位,處理實(shí)際問(wèn)題了。
2024 年智能體已進(jìn)入“千體大戰(zhàn)”,但直到 R1 的出現(xiàn),強(qiáng)化學(xué)習(xí)的地位提升,模型的長(zhǎng)鏈路思考推理能力增強(qiáng),OpenAI 發(fā)布 Deep Research、Monica 團(tuán)隊(duì)發(fā)布 Manus 后,Agent 才有了執(zhí)行完整工作流程的可能。
OpenAI 作為大模型創(chuàng)新者所提出的 Deep Research 在過(guò)去數(shù)月也驗(yàn)證了其新的商業(yè)可行性。
OpenAI 自己掌握基礎(chǔ)模型,模型與 Agent 均掌握在自己的手上,對(duì) Agent 的定價(jià)也有了更大的自主權(quán),Deep Research 定價(jià)月付 200 美金可以悉數(shù)收入囊中;相比之下,沒(méi)有掌握基礎(chǔ)模型的純 Agent 團(tuán)隊(duì)在定價(jià)時(shí)受到模型 API 價(jià)格浮動(dòng)與模型能力穩(wěn)定性等多方面的影響。
也因此,Agent 逐漸成為基礎(chǔ)模型廠商的必爭(zhēng)之地,2025 注定是 Agent 爆發(fā)的一年。作為培養(yǎng) Agent 的大學(xué)所在地,智譜同時(shí)掌握模型與產(chǎn)品,能夠?qū)?Agent 進(jìn)行完全自主權(quán)的定價(jià)。當(dāng)前對(duì) Agent 定價(jià)的標(biāo)準(zhǔn),業(yè)內(nèi)還沒(méi)有形成統(tǒng)一共識(shí),但圈內(nèi)已有討論,如:模型公司將自己的 Agent 以月、日或次數(shù)的形式向需要 Agent 的用戶收費(fèi),或定制 Agent 服務(wù)。
在這種情況下,由于各個(gè)基礎(chǔ)模型的能力有所差異,其培養(yǎng)的“畢業(yè)生”能力也有差異,收費(fèi)的等級(jí)也自然不一。模型即產(chǎn)品,這意味著,大模型公司通過(guò) Agent 或?qū)⒅匦芦@取“AI 能力收費(fèi)”的主動(dòng)權(quán),而不是單純?yōu)榈谌疆a(chǎn)品與應(yīng)用團(tuán)隊(duì)提供交付服務(wù)。Agent 也或?qū)⒊蔀?AI 2.0 時(shí)代的新分水嶺。
2
第一個(gè)做 Agent 的國(guó)產(chǎn)大模型
如上文所言,Agent的關(guān)卡主要有兩個(gè),第一是要有基座模型,第二則是要有強(qiáng)化學(xué)習(xí)的能力。
大部分專門做Agent的公司是沒(méi)有基座模型的研發(fā)能力,擁有強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)的也是寥寥無(wú)幾。唯一的機(jī)會(huì),就是不斷用工程能力,優(yōu)化自己的產(chǎn)品體驗(yàn),或者用差異性的產(chǎn)品定位,來(lái)做出一款功能上有所創(chuàng)新的產(chǎn)品。
但是由于缺乏最底層的模型能力,這種做法也只是給他們?cè)谟诖竽P凸镜母?jìng)賽中稍微爭(zhēng)取一些時(shí)間。這就造成了,能夠訓(xùn)練模型的公司,在開發(fā)Agent時(shí),往往也能夠取得事半功倍的效果。
智譜AI是國(guó)內(nèi)最早著手研究和發(fā)布Agent產(chǎn)品的團(tuán)隊(duì),在經(jīng)驗(yàn)上遠(yuǎn)超同儕。
根據(jù)一些公開資料顯示,智譜清言是國(guó)內(nèi)最早具備了Function Call(函數(shù)調(diào)用)能力的模型產(chǎn)品,在今年1月16日就上線了這項(xiàng)能力,它能夠允許大語(yǔ)言模型動(dòng)態(tài)調(diào)用外部函數(shù)或API,以完成特定任務(wù),是Agent的基礎(chǔ)能力之一;
而在此一年之前,智譜清言上線了GLMs個(gè)性化智能體定制功能,為后續(xù)開發(fā)自主智能體打下了良好的基礎(chǔ);
而且智譜AI還是最早推出設(shè)備操控智能體AutoGLM的公司,去年十一月的Agent OpenDay上,智譜AI的CEO張鵬當(dāng)場(chǎng)展示了在AI Agent方面最新成果,一句話就在手機(jī)端完成了建群發(fā)紅包這一任務(wù),同時(shí)還演示了手機(jī)遠(yuǎn)程只會(huì)電腦自動(dòng)向群聊中發(fā)送文件。
而今天在智譜清言PC端全新上線的自主智能體AutoGLM沉思,還學(xué)會(huì)了自己掙錢。在中關(guān)村論壇現(xiàn)場(chǎng),它能夠自動(dòng)打開某網(wǎng)站,搜索有償征稿信息,然后按照征稿要求寫出對(duì)應(yīng)的文章,并且自動(dòng)發(fā)送到指定郵箱。
國(guó)外的通用Agent產(chǎn)品已經(jīng)相繼問(wèn)世。Anthropic在去年10月22日就推出了computer use,能夠觀看屏幕截圖,實(shí)現(xiàn)移動(dòng)光標(biāo)、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作。
OpenAI也于2025年1月23日正式發(fā)布了其最新研發(fā)的智能體Operator,2月2日又推出了名為Deep Research,幫助用戶進(jìn)行多步驟的互聯(lián)網(wǎng)研究,完成復(fù)雜任務(wù)。
國(guó)內(nèi)的通用Agent產(chǎn)品尚屬罕見(jiàn)。Manus發(fā)布時(shí),作為國(guó)內(nèi)首個(gè)同類產(chǎn)品,就曾備受關(guān)注。但是Manus此前一直未開放使用,讓中國(guó)用戶更為好奇,Agent的功能到底有多強(qiáng)大。
在這次中關(guān)村論壇上,智譜AI發(fā)布的最新Agent產(chǎn)品AutoGLM沉思,能力主要體現(xiàn)在三個(gè)方面:1、模擬人的思考,尤其是像人一樣的深度研究和反思;2、能夠像人一樣感知這個(gè)世界;3、能夠像人一樣使用工具。
OpenAI Deep Research與智譜AutoGLM沉思兩個(gè)產(chǎn)品,有不少可以對(duì)比之處。
根據(jù)官方介紹,Deep Research由一個(gè)優(yōu)化版的 o3 模型驅(qū)動(dòng),專注于網(wǎng)頁(yè)瀏覽和數(shù)據(jù)分析,并基于端到端強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。它能做到在互聯(lián)網(wǎng)上跨模態(tài)搜索、解讀和分析大量文本、圖片及 PDF 文件,同時(shí)根據(jù)實(shí)時(shí)信息動(dòng)態(tài)調(diào)整搜索策略。
AutoGLM沉思背后的推理模型 GLM-Z1-Air,也是智譜基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的新一代推理模型,面對(duì)復(fù)雜、開放問(wèn)題,能夠進(jìn)行推理和反思,為Agent提供了強(qiáng)大的推理、規(guī)劃與反思能力。這款模型效果比肩DeepSeek-R1,提速8倍,價(jià)格是R1的1/30,可以在消費(fèi)級(jí)顯卡上運(yùn)行。
此外,智譜還推出一個(gè)學(xué)習(xí)者免費(fèi)版本GLM-Z1-Flash,輕量級(jí),速度更快,完全免費(fèi)調(diào)用。
除網(wǎng)絡(luò)搜索外,Deep Research還可以分析用戶上傳的文件并提取關(guān)鍵內(nèi)容;使用Python工具制作數(shù)據(jù)可視化圖表,將這些圖表和網(wǎng)站抓取的圖片整合到回復(fù)中;為了保證研究結(jié)果的可靠性,系統(tǒng)也會(huì)嚴(yán)格標(biāo)注信息來(lái)源,精確引用原文中的相關(guān)段落。
AutoGLM沉思更進(jìn)一步,除了深度研究能力,還有操作能力,真正做到了一邊思考,一遍行動(dòng)。它能夠像人類一樣拆解復(fù)雜問(wèn)題,一邊推理,一邊搜索,瀏覽數(shù)十甚至上百個(gè)網(wǎng)頁(yè),查看如知網(wǎng)、小紅書、公眾號(hào)、京東、巨潮資訊等優(yōu)質(zhì)但不對(duì)外開放API的信源,同時(shí)具有多模態(tài)理解能力,能夠理解網(wǎng)頁(yè)上的圖文信息,使研究更充分。最后它能總結(jié)出調(diào)理清晰的長(zhǎng)文報(bào)告,并提供所有引用來(lái)源,讓AI輸出的內(nèi)容切實(shí)可查。
現(xiàn)在AutoGLM沉思還是preview版本,更多支持research相關(guān)場(chǎng)景,在未來(lái)的兩周將增加更多的Agent執(zhí)行能力。
最顯著的區(qū)別可能是二者的價(jià)格。Deep Research每月訂閱費(fèi)用為200美元,每月限120次查詢機(jī)會(huì)。而智譜清言上的沉思功能是免費(fèi)開放給所有用戶的??梢韵胍?jiàn),大部分用戶都是首次體驗(yàn)到真正的自主性Agent。
智譜AI的模型研發(fā)能力有目共睹?,F(xiàn)在“AutoGLM沉思”從內(nèi)到外的所有模型技術(shù)都是國(guó)產(chǎn)自研,包括負(fù)責(zé)推理規(guī)劃的推理模型GLM-Z1-Air、基模GLM-4-Air0414;再到負(fù)責(zé)執(zhí)行的AutoGLM,每個(gè)模型均為智譜自研,并且將于4月14日開源。
3
通往AGI的未來(lái)
有人稱,AGI要稱為AGI,那么它的標(biāo)準(zhǔn)就是要能替代80%的人類工作,也就是實(shí)現(xiàn)80%以上的人類能力。而Agent是達(dá)成這個(gè)任務(wù)的基本AGI載體。
無(wú)論是數(shù)據(jù)分析,還是內(nèi)容報(bào)告,亦或是長(zhǎng)文總結(jié),Agent能力正在逐漸與人類的需求接軌。這將創(chuàng)造出一個(gè)全新的賽道,改變?nèi)藱C(jī)交互的形態(tài),甚至達(dá)到我們現(xiàn)在還無(wú)法想象的程度。
人類利用Agent完成連續(xù)多步驟復(fù)雜任務(wù)的執(zhí)行。最開始,這些任務(wù)可能只是純粹的數(shù)字任務(wù),接下來(lái),Agent的影響將會(huì)逐步蔓延至物理世界,我們生活中的一些簡(jiǎn)單事務(wù)可以先由Agent接管,比如每天的打車、訂外賣、訂酒店機(jī)票,更進(jìn)一步地來(lái)說(shuō),Agent還能幫我們完成更多現(xiàn)實(shí)世界中的工作,比如找人修水管燈泡等等。
我們正處于AGI的前夜。Agent正如其名,很快就會(huì)成為人類的數(shù)字代理。大模型公司的第二場(chǎng)戰(zhàn)斗才剛剛打響。除了模型能力,好的Agent產(chǎn)品才是接下來(lái)競(jìng)爭(zhēng)的關(guān)鍵。往前來(lái)看,Manus在空中打了一記發(fā)令槍,把Agent的概念普及到了大眾的認(rèn)知中。往后來(lái)看,其他國(guó)產(chǎn)大模型公司對(duì)這類產(chǎn)品,可能還缺乏經(jīng)驗(yàn),目前還沒(méi)有同類公司的競(jìng)品出現(xiàn)。
歸根結(jié)底,作為一款C端產(chǎn)品,如果能夠恰好在用戶已經(jīng)充滿期待的時(shí)候,正好出現(xiàn)在大眾面前,仍然將獲得極大的先發(fā)優(yōu)勢(shì)。在諸強(qiáng)圍俟的情況下,智譜今天先拔頭籌。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。