丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

Pokee.ai 朱哲清:用 RL 搭建智能體的「骨骼與神經(jīng)」| AI 產(chǎn)品十人談

本文作者: 鄭佳美   2025-05-08 11:09
導(dǎo)語:智能體,不是生成力,而是行動力。

在 Pokee.ai 內(nèi)測之前,我們就先感受了一把這款 Agent 的能力。

“你發(fā)給我一個郵件就行,我的 Agent 能自動生成日程表?!痹诟煺芮寮s電話會議的時候,微信那頭的這個人如是說。

他是知乎和小紅書的雙料活躍用戶,同時也是強化學(xué)習(xí)界冉冉升起的新星。他和團隊 2023 年 12 月份就發(fā)布了開源強化學(xué)習(xí)框架 Pearl,上線首日即在 Github 上收獲了 540 star,目前更是升至 2.8k。

2016 年,AlphaGo 擊敗李世石的那個晚上,還是少年的朱哲清捧著手機,靜靜坐在杜克大學(xué)教堂前,意識到AI已經(jīng)走向了真實世界。他開始接觸強化學(xué)習(xí)(RL),從此就成為了RL的忠實信徒,即使在這一技術(shù)路線陷入最低谷時也從未想過放棄。

后來他在Meta帶領(lǐng)邊緣化的 RL 團隊逆勢突圍,將強化學(xué)習(xí)真正部署在廣告競價、推薦系統(tǒng)和自動內(nèi)容生成等核心業(yè)務(wù)中,每年為公司創(chuàng)造數(shù)億美元的增益。

在 Meta 升職到 E7 后,朱哲清還是無法忘記他長期思考的本質(zhì)問題:這在面對那么多不同類型的問題時,有沒有一種 RL 路徑,可以做到真正通用的智能體?懷揣著這個問題,在半年多前結(jié)束了他 7 年半的 Meta 生涯,成為了一名 AI Agent 創(chuàng)業(yè)者。

創(chuàng)業(yè)并不容易,在我們的聊天中,他承認自己創(chuàng)業(yè)這半年來完全沒有休息過,團隊 4 個人,搞定了模型架構(gòu)、自動化、訓(xùn)練、部署,再到 infra、產(chǎn)品等所有工作,這才在 4 月份的最后兩天推出了這款內(nèi)測版本的 Pokee.ai。

借此機會,《AI 產(chǎn)品十人談》系列選擇對話朱哲清,詳細探討了他對強化學(xué)習(xí)與 Agent 的思考、探索與實踐。談到創(chuàng)業(yè),這位一項冷靜的強化學(xué)習(xí)研究者也忍不住激動起來,畢竟一切正如他在知乎上所寫下的:

這波AGI的浪潮真的很大,親自踏浪才不會后悔。

以下是 AI 科技評論與朱哲清的對話實錄,作者進行了不改原意的編輯整理:


一個堅定的 RL 信仰者與他的 ASI 野心

AI 科技評論:從你的學(xué)術(shù)背景和工作經(jīng)歷來看,你一直在做強化學(xué)習(xí)相關(guān)的研究和實踐。你是從什么時候開始接觸強化學(xué)習(xí)的?

朱哲清:我接觸強化學(xué)習(xí)非常早,大概是在 2016 年,本科二年級的時候。當時我開始學(xué)習(xí)和研究一些 RL 相關(guān)的內(nèi)容,尤其是偏 Planning 方向的東西。

李世石和 AlphaGo 對戰(zhàn)的比賽對我影響非常深。當時我正在上關(guān)于強化學(xué)習(xí)的 AI 課程,AlphaGo 比賽之后,這門課突然爆滿。可以說,那是 RL 第一次在大眾層面迎來真正的高光時刻,AI 第一次在圍棋上戰(zhàn)勝人類,徹底改變了人們對人工智能的看法。隨后幾年里,圍繞 AlphaStar 在星際爭霸等復(fù)雜游戲中的突破,讓更多人關(guān)注起 RL。但很快我也親歷了這個領(lǐng)域的“冷卻期”。

當我正式進入工作后,發(fā)現(xiàn)強化學(xué)習(xí)的熱度開始逐漸回落,甚至可以說是急轉(zhuǎn)直下。原因其實很現(xiàn)實,RL 始終難以脫離“游戲環(huán)境”。它的訓(xùn)練強依賴環(huán)境的構(gòu)建和反饋機制,而這些在真實世界中是很難完整設(shè)定的。比如圍棋、電子游戲都有明確定義的規(guī)則和反饋路徑:你下什么棋會導(dǎo)致什么后果,系統(tǒng)可以清晰反饋。

但現(xiàn)實世界的任務(wù)場景,比如搜索排序、內(nèi)容推薦、或者安卓平臺上的用戶行為建模,它們的反饋往往不是人為規(guī)定好的。這就意味著我們很難構(gòu)建出一個訓(xùn)練環(huán)境去承接 RL 的策略優(yōu)化過程。包括 Alphago 項目的核心成員 David Silver 在那之后也一直嘗試把這些技術(shù)遷移到真實世界中,但最終仍不得不退回到更明確反饋機制的任務(wù),比如數(shù)學(xué)證明之類。

所以,在 AlphaGo 之后雖然曾有一波 RL 熱潮,但由于真實落地太難,這波熱度很快就降溫了。真正把 RL 帶回大家視野的,其實是 RLHF 的興起。從 2017年、2018 年開始,直到 2022 年之前,RL基本處于一個低谷期。在這段時間里,大多數(shù)研究者其實都遠離了這個方向。彼時的行業(yè)主流觀點認為,Transformer 已經(jīng)能解決一切,算法不再重要,數(shù)據(jù)和大模型參數(shù)才是關(guān)鍵,RL 似乎已經(jīng)“過時”了。

但是我沒有放棄,一直堅定地認為 RL 仍有價值,關(guān)鍵是找到它真正適合的落地路徑。在 Meta 工作的那幾年,我見證了整個 RL 團隊從高峰走向邊緣。當時 Meta 的 RL 團隊從二十幾人一路縮減到三個人,公司甚至打算把這個團隊解散。我在那個時間點主動請纓,“把這個團隊交給我試試。如果我做不好,你怎么處理我都可以。但如果我?guī)У闷饋恚M憬o我繼續(xù)發(fā)展的空間。”

就這樣,我從三個人開始,一點一點把團隊重新帶起來,最后回到了十幾人的規(guī)模??梢哉f,我完整經(jīng)歷了整個 RL 從爆發(fā)、低谷、再到新一輪復(fù)蘇的全過程。而我們的“復(fù)蘇”甚至比 RLHF 那一波重新火起來還要早一些。

AI 科技評論:你堅信 RL 的理由是什么呢?

朱哲清:核心原因其實很簡單。我的判斷是,單靠“預(yù)測”并不足以完成復(fù)雜任務(wù)。我舉一個例子:

比如你要做一個關(guān)于“人工智能與強化學(xué)習(xí)關(guān)系”的專題報道,要寫三四篇文章。你有兩種方式來展開這個任務(wù)。

第一種是“走到哪算哪”的思路:你不設(shè)定清晰的最終目標,只是每寫一篇就基于當前內(nèi)容預(yù)測下一篇,比如第一篇寫強化學(xué)習(xí)的概念,第二篇自然而然談應(yīng)用,第三篇再講現(xiàn)實中的實例……路徑是發(fā)散的,沒有明確終點。

第二種則是“目標驅(qū)動式”的思考:你的明確目標是讓讀者理解強化學(xué)習(xí)在人工智能中的重要性?;谶@個目標,你會倒推:首先列舉一些強化學(xué)習(xí)的應(yīng)用案例,比如 AlphaGo、AlphaStar,再進一步引申到現(xiàn)實場景中的價值,最后討論強化學(xué)習(xí)相對于其他算法的獨特優(yōu)勢。

這兩種思維路徑本質(zhì)上完全不同。而后者——以目標為導(dǎo)向、倒推任務(wù)路徑,才是人類解決復(fù)雜問題時的典型模式。你不可能靠“走到哪算哪”的隨機推進,來系統(tǒng)地完成一個復(fù)雜的項目。

強化學(xué)習(xí)的本質(zhì)優(yōu)勢就在這里:它的思維結(jié)構(gòu)(thinking structure)是圍繞“目標驅(qū)動”的。只有圍繞明確目標,不斷調(diào)整策略、規(guī)劃路徑,才能真正攻克復(fù)雜問題。

所以當時我就認定,即使未來模型變得再大、訓(xùn)練數(shù)據(jù)再多,如果它們沒有明確的目標驅(qū)動、沒有基于獎勵機制去主動規(guī)劃和執(zhí)行的能力,就永遠無法真正完成復(fù)雜任務(wù)。這就是我當年堅持 RL 的底層邏輯。

AI 科技評論:所以你在 Meta 證明了你對 RL 的堅持是正確的?

朱哲清:我接手之前,RL 團隊同時對接多個項目,只做咨詢式的工作,成果非常少,地位也很邊緣化。我接手之后做了一個非常果斷的決定:只保留一個項目,集中所有資源,把這個項目做到真正有說服力、有價值、有成果。結(jié)果就是,我們給公司帶來了每年 5 億美元以上收入潛力的應(yīng)用點。

AI 科技評論:你覺得你做對了什么?

朱哲清:這背后其實有一個前提,就是你自己必須對 RL 有非常深刻的認知,不僅要懂算法,還要能夠真正落地到復(fù)雜的、真實的應(yīng)用場景中。

我們確實看到了很多 RL 算法逐漸出現(xiàn)通用性的跡象,但離真正的一以貫之的通用 RL 框架,還差很遠。我們想要追尋的是,打造一種能夠從頭到尾用 RL 邏輯貫穿的通用 Agent。不管面對什么任務(wù)、什么問題,只要把任務(wù)丟給 Agent,它就能自主規(guī)劃、自主解決。

這其中更本質(zhì)的問題就是:在面對那么多不同類型的問題時,有沒有一種 RL 路徑,是可以做到真正通用的?這是我在 2024 年 10 月離開 Meta 之前,我們團隊一直在探索的核心議題。

AI 科技評論:其實你一直都在尋找一種真正底層通用、能夠大范圍解決問題的 RL 框架?

朱哲清:因為 RL 本身有很多天然的限制,比如線下學(xué)習(xí)的問題,你可以從數(shù)據(jù)集中學(xué)到一定的東西,但線下數(shù)據(jù)和真實環(huán)境差異巨大。并且線下學(xué)到的策略如何安全且高效地應(yīng)用到線上?兩者差異怎么修正?線上運行后,如何持續(xù)收集新數(shù)據(jù),不斷訓(xùn)練優(yōu)化,且避免性能退化?

所有這些問題,如果每次都靠單獨的 trick 和特殊設(shè)定去解決,就永遠不可能有真正通用的RL方法。所以我們想要的是一整套統(tǒng)一的結(jié)構(gòu)性解決方案。從我的角度看,RL 其實是一個被嚴重低估、也被低度開發(fā)的方向,目前它大多數(shù)時間仍處在一個“輔助工具”的角色。

無論是 OpenAI 的 RLHF,還是 DeepMind 推出的一些模型,它們大多數(shù)都是在已有的預(yù)訓(xùn)練模型基礎(chǔ)上進行增強,比如,我已經(jīng)有一個不錯的大模型,然后通過 RLHF 這種方式,讓它在某個維度上“更好”,比如提高用戶滿意度、優(yōu)化輸出表現(xiàn)等等。所以目前的 RL 更多是一種“增強器”,不是主角。

AI 科技評論:你是覺得它還沒有成為“主導(dǎo)智能”的那部分技術(shù)。

朱哲清:從我個人理解來看,現(xiàn)在這波 AI,已經(jīng)可以說達到了“近人類級別智能”(human-level intelligence)的 80%~90%。雖然 AGI(通用人工智能)這個概念非常模糊,但我們可以先不去定義它。那下一步呢?很多人談的是“ Superhuman Intelligence”(超人類智能)。如果真要往這個方向走,我認為強化學(xué)習(xí)是繞不開的路徑。

因為大型語言模型最擅長的是知識回憶和模仿,它能提出建議、生成文本,但它缺乏“結(jié)構(gòu)化解決問題”的能力,也就是它沒有“主動性”或“目標驅(qū)動性”。而 RL 的本質(zhì),就是解決目標導(dǎo)向的問題。你不能靠“模仿”去解決從未見過的復(fù)雜任務(wù)。你要有策略、目標、反饋機制,要能在未知環(huán)境中自主探索和優(yōu)化。這才是真正的智能。

而且我個人覺得,現(xiàn)在很多程序員、算法工程師的基礎(chǔ)工作,包括模型微調(diào)、推理部署,這些事情很快都會被 AI 自動化工具所替代。甚至連預(yù)期管理、內(nèi)容生成類工作,也都會被“會表達、會規(guī)劃”的AI接管。這意味著,下一代智能突破口的研發(fā),是最值得花時間的事。

這也是我為什么選擇離開 Meta,去做我現(xiàn)在這家公司。我們現(xiàn)在在做的,不只是工具產(chǎn)品,而是在構(gòu)建一個“能力系統(tǒng)”。先通過工具+規(guī)劃去接近智能體的標準,然后逐步擴展它的工具庫、操作空間和決策深度。目標不是像人一樣完成任務(wù),而是超過人類在某些任務(wù)中的策略選擇和規(guī)劃能力。

這就是我所理解的“通向 Superhuman Intelligence ”的路徑。

什么才是下一代的Agent?

AI 科技評論:談?wù)勀愕倪@款 AI Agent 產(chǎn)品 Pokee.ai 吧。

朱哲清:Pokee.ai 是一款具備強執(zhí)行力的通用 AI Agent,它不是停留在“生成內(nèi)容”層面的助手,而是一個能真正動手完成復(fù)雜任務(wù)的智能執(zhí)行體。你只需要用自然語言下達一個指令,比如“生成一組社交媒體內(nèi)容并發(fā)布”,Pokee.ai 就能在沒有任何腳本配置的前提下,自動調(diào)用合適的工具,完成從內(nèi)容創(chuàng)作、圖片生成、格式適配到平臺發(fā)布的全過程。

而且,這種執(zhí)行力不止于社媒內(nèi)容,工程團隊已經(jīng)用它來自動生成 Zoom 會議紀要,也能通過一句“搭建一個 AI Agent 網(wǎng)站”,讓它自動創(chuàng)建 GitHub 倉庫,寫出 HTML+JS 頁面,并發(fā)布到 GitHub Pages,全流程無需開發(fā)者手動介入。

除此之外,Pokee.ai 還能在商業(yè)場景中提升效率,比如我安排一個團隊會議,只需告訴它我要周五開個關(guān)于 AI Agent 市場趨勢的會議,它就會幫我完成調(diào)研、搜圖、做幻燈片、安排日程、發(fā)送日歷邀請,并附上資料鏈接,原本要我花幾個小時做完的準備工作,現(xiàn)在只需幾分鐘就能搞定。

更關(guān)鍵的是,在我們做過的對比實驗中,Pokee.ai 在面對成千上萬的工具時依然保持了超過 97% 的執(zhí)行準確率,而其他基于 LLM 的 Agent 在工具數(shù)超過 500 時就會顯著下降,幾乎不可用。Pokee.ai 的優(yōu)勢在于它的可擴展性和穩(wěn)定性,不論工具數(shù)量如何擴展,它的響應(yīng)成本幾乎不變,這使它成為真正有機會覆蓋全網(wǎng)服務(wù)的 Agent 架構(gòu)。

未來,我們也會開放 API 和 SDK,讓每個團隊、每位開發(fā)者都能擁有屬于自己的 Pokee Agent,用最自然的方式去指揮最復(fù)雜的任務(wù)。

AI 科技評論:聽起來你現(xiàn)在做的 AI Agent,不只是工程產(chǎn)品,更像是在研究“下一代智能體”。

朱哲清:是的,我們現(xiàn)在團隊其實一直是在兩條腿走路。一方面是做“早期產(chǎn)品”——比如用戶能體驗到的 Agent 系統(tǒng),它可以幫你規(guī)劃、執(zhí)行任務(wù),有清晰的人機交互流程,也可以支持外部的應(yīng)用落地。這部分要服務(wù)好市場,滿足用戶的期待,不能偏離“智能體該有的樣子”。

另一方面,我個人其實把很大一部分精力都投在了 research 上。我們現(xiàn)在的很多核心代碼,包括 RL 訓(xùn)練、模型結(jié)構(gòu)設(shè)計,其實都是我親自寫的。我大概把時間一半花在技術(shù)產(chǎn)品、商業(yè)和團隊溝通上;另一半全在研究上。

我們現(xiàn)在一直在推進的方向,同時也是團隊最重要、我個人最長期關(guān)注的目標就是:到底有沒有一套通用的 RL 結(jié)構(gòu),能夠橫跨多個場景真正做出“具身智能體”?

AI 科技評論:所以你們一開始其實是先做一個技術(shù)落地證明,對吧?

朱哲清:對,我們剛開始做 Pokee.ai 的時候,核心目標是先證明這個技術(shù)能打硬仗。那時候無論是投資人還是業(yè)界大部分人,對 “RL+Agent” 到底意味著什么,其實都還很模糊。甚至連 “Agent” 這個詞具體指什么,很多人都搞不清楚。我印象很深,當時和投資人聊時,他們經(jīng)常會反復(fù)問:“你這個技術(shù)方向到底在做什么?”、“Agent 能落地成什么樣?”、“你們怎么打算實現(xiàn)?”

所以我們公司成立的兩個月之內(nèi),就完成了一個電商場景下的 Agent 系統(tǒng)落地:我們把 SDK、API、GraphQL、Command Line 這些全都接入到了我們的 Agent 系統(tǒng)中,ToB 和ToC 兩側(cè)都可以覆蓋。并且這個項目在兩個月內(nèi)就做完了,完成度非常高。對比來看,別人可能要花一年才能做出來的產(chǎn)品,我們在短時間內(nèi)就做得功能更全、更穩(wěn)定。這其實已經(jīng)是很強的技術(shù)證明了。

但我們沒有止步于此。我們很快意識到,要證明這個 Agent 是真正“通用”的,僅靠幾十上百個工具還遠遠不夠。于是我們很快擴展到了上千、上萬個工具級別的調(diào)用能力,專門來訓(xùn)練和驗證我們的 Agent 是否具備普適性的規(guī)劃和調(diào)度能力。

AI 科技評論:目前你們用的這個模型,是一個什么樣的模型?是完全自研的嗎?

朱哲清:我們沒有使用任何開源機構(gòu)的模型,所有模型都是完全自主訓(xùn)練的。

我們的架構(gòu)是這樣的:我們有一個小型語言模型作為人機交互界面,相當于是我們的“ UI 層”,用于理解用戶指令和上下文。但真正的“決策邏輯”和“行動執(zhí)行”部分,全部是基于我們自研的強化學(xué)習(xí)結(jié)構(gòu)來完成的。

AI 科技評論:為什么一定要自己預(yù)訓(xùn)練語言模型?是覺得現(xiàn)成的大模型不好用嗎?

朱哲清:其實我們做的并不是一個語言模型,我們的強化學(xué)習(xí)模型本質(zhì)上是為決策而設(shè)計的,而不是用來生成自然語言的?,F(xiàn)在很多人采用的方法是直接套用別人的大語言模型,然后在外面再加一層 RL 層,去控制調(diào)用或交互。這種方式乍看之下效率高,但我們評估下來發(fā)現(xiàn),用“殼”套語言模型來做 Agent,無法達到商用級別的精度和魯棒性。

首先是成本問題,我們自研模型的成本大概是同等規(guī)模語言模型的十分之一。其次,從設(shè)計哲學(xué)上說,我們認為當前語言模型在“決策建?!鄙洗嬖诒举|(zhì)問題。比如,大模型做決策通常是一個“ token-by-token ”的生成過程,也就是一個字一個字地生成輸出。但如果你真的是在進行一個復(fù)雜、多步、有規(guī)劃的任務(wù)決策——那就根本不應(yīng)該是這么個結(jié)構(gòu)。我們認為從底層邏輯上,這種設(shè)計就不對。

所以我們重構(gòu)了整個系統(tǒng),不是語言生成驅(qū)動的,而是由強化學(xué)習(xí)驅(qū)動的結(jié)構(gòu)化決策系統(tǒng)。

AI 科技評論:那現(xiàn)在很多人可能做得比“純套殼”更多一點,會嘗試對 LLM 做后訓(xùn)練,比如基于 RL 做一定程度的定制優(yōu)化,你怎么看這種方式?

朱哲清:也不能說這種方式完全不可取,它在某些場景確實比“直接套殼”要強。但關(guān)鍵問題是,后訓(xùn)練的目標是什么?你到底要解決什么問題?你得從頭去解構(gòu)這個系統(tǒng),只有把整個系統(tǒng)邏輯重新定義并重建,你才有可能做出一個真正“決策能力強”的 Agent。

現(xiàn)在大家在做 RL 時都默認是在語言模型架構(gòu)上訓(xùn)練 LLM,這會把整個問題想得太狹窄。我們選擇跳出這種范式,用自己的方式去重構(gòu)決策架構(gòu),并借助 RL 去解決真正核心的規(guī)劃與執(zhí)行問題。

AI 科技評論:如果是大模型公司自己來做 Agent,會不會更有優(yōu)勢?

朱哲清:我覺得這要具體看你想做的 Agent 是什么類型。如果你定義的 Agent 只是處理語言相關(guān)任務(wù),比如整理、檢索、總結(jié)、推理這類,那么大型語言模型公司確實有很大優(yōu)勢。因為他們在語言理解和生成上的技術(shù)積累非常深厚。

但如果你定義的 Agent 是那種能在真實世界中行動、調(diào)用工具、與環(huán)境發(fā)生交互的智能體,那么單純依賴語言模型是不夠的。因為這時候,Agent 的決策空間、動作層、狀態(tài)層,已經(jīng)完全超出了文字表述,它們涉及的是復(fù)雜環(huán)境建模、工具鏈調(diào)用、狀態(tài)變更,這些內(nèi)容和語言的直接關(guān)系并不大。

舉個例子:如果你要做一個供應(yīng)鏈管理 Agent,處理的是倉庫、運輸、庫存的路徑規(guī)劃,狀態(tài)是網(wǎng)狀圖,不是文字。那么你的 Agent 需要理解和操作復(fù)雜結(jié)構(gòu)化數(shù)據(jù),而不僅僅是生成幾段自然語言,在這種情況下,大模型公司在語言方面的積累優(yōu)勢就不明顯了。所以,到底誰有優(yōu)勢,要看你定義的 Agent 是哪種類型。

AI 科技評論:那你覺得,未來有沒有可能出現(xiàn)一種真正“通用”的 Agent?比如它既能做供應(yīng)鏈優(yōu)化,也能處理日常生活任務(wù)?

朱哲清:我認為不會存在一個單一的 Super Agent 來做所有事情。更可能出現(xiàn)的是一種分層結(jié)構(gòu):頂層有一個統(tǒng)一調(diào)度的總控 Agent(中央調(diào)度器),它根據(jù)用戶輸入分配任務(wù)給專業(yè)的垂類或者服務(wù)方的 Agent,各自處理特定領(lǐng)域的問題,比如供應(yīng)鏈、內(nèi)容創(chuàng)作、信息檢索、金融決策、客戶服務(wù)等等。

現(xiàn)在大家說的“多體 Agent”(multi-agent systems),其實跟學(xué)術(shù)界的定義還有點差距。真正學(xué)術(shù)意義上的 multi-agent,指的是多個智能體之間要么有通信協(xié)調(diào),要么是互相競爭或協(xié)作去共同完成復(fù)雜任務(wù)。目前市面上的“多體 Agent”,更多是簡單的任務(wù)分工,但這種多體結(jié)構(gòu),確實是未來實現(xiàn)通用智能體的重要路徑。

如果這樣發(fā)展下去,我認為未來的形態(tài)可能是:用戶不再需要手動使用各種 App、工具。只需要給系統(tǒng)輸入一個自然語言指令或目標,比如:“幫我完成這個項目”、“幫我制定旅行計劃”。后臺有一整套分布式、模塊化的 Agent 體系,自動完成從信息檢索、決策規(guī)劃、到實際執(zhí)行的全部步驟。

就像今天的互聯(lián)網(wǎng),前端是瀏覽器,后端是各種網(wǎng)頁和應(yīng)用。未來的 Agent 體系,就是一個沒有界面的“無形互聯(lián)網(wǎng)”。用戶只需要給出目標,不再需要關(guān)注工具細節(jié)和操作過程。

雷峰網(wǎng) AI 科技評論:在 Agent 的終極形態(tài)下, Browser 可能會被取代嗎?

朱哲清:Browser 在今天可以理解為是人與互聯(lián)網(wǎng)交互的一種通用前端。但如果未來 Agent 直接與智能體對接、交互,那么人作為中介、通過瀏覽器訪問網(wǎng)站的這個過程就失去意義了。

我的觀點是,長期來看,瀏覽器這種前端形態(tài)可能會消失,因為未來網(wǎng)絡(luò)中的接口將主要是 Agent to Agent 的接口。人不再需要直接面對網(wǎng)頁或 APP 界面,而是通過自己的 Agent,發(fā)出需求,由 Agent 與 其他 Agent 進行交互和任務(wù)協(xié)作。

所以,未來互聯(lián)網(wǎng)可能是以智能體交互為核心的新網(wǎng)絡(luò)體系,而不是依靠前端瀏覽器來組織信息。

AI 科技評論:那未來 Agent 與 Agent 之間的接口,主要是依靠 MCP 來完成的嗎?

朱哲清:也不一定。雖然我們也會支持 MCP,但 MCP 是不是最后統(tǒng)一的標準,這點目前還不好說。但可以肯定的是,MCP 起到了推動的作用——至少讓大家有了一套可以使用的基礎(chǔ)接口,不至于完全沒有標準。

未來我們也會提供自己的更簡化版接口,希望把智能體之間的連接做得更輕量、更無感、更通用,而不僅僅是基于現(xiàn)在 MCP 這種復(fù)雜的模式。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論:在你看來,Agent 到底是什么?你有自己的定義嗎?

朱哲清:我的理解是這樣的:Agent 的核心在于“感知”和“執(zhí)行”。如果一個 Agent 不能自主執(zhí)行,或者說它做完一件事情以后,對環(huán)境沒有產(chǎn)生任何實際變化,那么在我看來,它只是一個生成型 Agent,而不是真正的執(zhí)行型Agent。

我舉個簡單的例子:如果你寫了一篇文章,但它既沒有發(fā)表在任何平臺上,也沒有被人閱讀,也沒有后續(xù)交互,那它就只是一個生成行為。但如果你寫完文章后,自己決策在哪個平臺發(fā)布,發(fā)布后根據(jù)用戶反饋不斷調(diào)整優(yōu)化,這樣使得你的賬號粉絲數(shù)、曝光量發(fā)生變化——那么你的行為就對世界產(chǎn)生了不可逆的影響。

所以,一個真正的 Agent,必須滿足兩個標準:它的行為必須能對環(huán)境產(chǎn)生實際的、不可逆的影響,并且要能自主規(guī)劃并執(zhí)行任務(wù)。如果一個系統(tǒng)只是生成內(nèi)容,真正決策和執(zhí)行還是靠人來完成,那么它在我這里就不算是真正意義上的Agent。

比如說,一個用戶只要說“幫我運營我的公眾號”,Agent 自己去檢索工具、規(guī)劃路徑、完成執(zhí)行,用戶無需知道有哪些工具、也無需干預(yù)具體步驟。這才是我們理解的下一代 Agent 的形態(tài)。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Pokee.ai 朱哲清:用 RL 搭建智能體的「骨骼與神經(jīng)」| AI 產(chǎn)品十人談

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說