丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

關(guān)于Agent的非共識與真金白銀

本文作者: 梁丙鑒   2025-06-30 16:52
導(dǎo)語:客戶不為 Agent 買單,只給結(jié)果付費。

雷峰網(wǎng)訊 自 2024 年底 Anthropic 發(fā)布 MCP,將 AI 與 API 連接,人造大腦從此便有了“手腳”。從 AutoGPT、Manus 到各類垂直的新Agent產(chǎn)品,短短月余間智能體百花齊放,諸多創(chuàng)業(yè)公司走完了從技術(shù)突破到產(chǎn)品落地的長路。昨日還是科幻故事中的幻影,今天便已觸手可及。

產(chǎn)品與生態(tài)碰撞,期望與信心交織,2025年終被冠以“Agent 元年”之稱。

2025年6月14日,雷峰網(wǎng)、AI科技評論 GAIR Live 品牌舉辦了一場主題為“Agent 元年已至,我們會有自己的智能助理嗎”的線上圓桌沙龍。

圓桌主持人為明勢創(chuàng)投合伙人夏令,并邀請了 AutoAgents.ai 創(chuàng)始人兼 CEO 楊勁松、Pokee.ai 創(chuàng)始人朱哲清、ANP 開源技術(shù)社區(qū)發(fā)起人常高偉、艾語智能創(chuàng)始人張?zhí)鞓罚黄疬M(jìn)行了一場深度討論。

關(guān)于Agent的非共識與真金白銀

Agent 產(chǎn)品成為創(chuàng)業(yè)公司新寵,百花齊放之際,如何真正落地?從不同市場對 Agent 的需求出發(fā),主持人夏令與四位嘉賓探討了 Agent 的前沿技術(shù)、模型效用提升與評估方案,以及 SaaS 生態(tài)之下 Agent 產(chǎn)品戰(zhàn)略方向。

創(chuàng)業(yè)總伴隨著創(chuàng)新,四位嘉賓在對談中還分享了各自從 day one 便開始堅持的非共識。事易時移,其中有些今天仍在經(jīng)受行業(yè)的審視,也有些慢慢變成了共識,Agent 技術(shù)的脈絡(luò)就藏于其中。

Agent 商業(yè)化問題成為本次圓桌的關(guān)注焦點,幾位嘉賓分別提出了獨到見解。朱哲清指出,Agent 在很大程度上是讓 SaaS 生態(tài)更加集成化,在軟件工具高度標(biāo)準(zhǔn)化的海外市場,Agent 產(chǎn)品與 SaaS 相輔相成。

“我們暢想的未來,是任何 business 和專業(yè)用戶的 workflow 都可以被 Pokee.ai 完全取代,最終不管是生成還是執(zhí)行,都真正做到在沒有human in the loop 的情況下,也可以端到端地完成任務(wù)?!?/p>

AutoAgents.ai 的商業(yè)化思路另辟蹊徑,“賣鏟子”、“定場景”兩步走。楊勁松認(rèn)為,新技術(shù)出現(xiàn)的早期總會出現(xiàn)對相應(yīng)基礎(chǔ)設(shè)施的需求,當(dāng)頭部企業(yè)將技術(shù)應(yīng)用于具體業(yè)務(wù),就可以一窺潛在價值更大的場景。循著這一思路,AutoAgents.ai 在尋找那些 Agent 能夠提效五至十倍的場景。

“這些場景一定可以做出不一樣的東西?!睆?zhí)鞓穭t表示,Agent 商業(yè)化最核心的問題是交付結(jié)果,艾語智能追求讓客戶在傳統(tǒng)作業(yè)方式和他們的方案之間無縫切換。“甲方需要的是你幫他解決問題,而不是你用 AI 幫他解決問題?!?/p>

Agent 協(xié)作同為今年熱門話題,MCP、A2A 始于海外,先后掀起 Agent 協(xié)議熱潮。作為 ANP 開源技術(shù)社區(qū)發(fā)起人,常高偉看法冷靜:“協(xié)議受制于基模能力,沒有非常好用的智能體,智能體間的連接需求也就不會特別多?!?/p>

雖然落地為時尚早,但探索技術(shù)和構(gòu)建影響力已經(jīng)可以提上日程。ANP 正與標(biāo)準(zhǔn)化組織和開源社區(qū)合作構(gòu)建 Agent 協(xié)議生態(tài),積極在各個開源框架中尋找一席之地。

以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:

百花齊放之后,Agent 如何落地

夏令:非常高興這次沙龍有機會與大家一起探討 Agent 這個當(dāng)前最熱的話題之一。我們今天請到了四位非常重量級的嘉賓,雖然大家同在 Agent 賽道,但是深耕于不同的市場,做著不同的業(yè)務(wù)。所以相信這樣的一次對話,不管是對于聽眾還是我自己理解整個 Agent 賽道及其后續(xù)的發(fā)展,都會有非常大的幫助。

請大家先做一個自我介紹吧,作為主持人我先開個頭。我是明勢創(chuàng)投的合伙人夏令,我們基金成立于 2014 年,是一支專注在科技賽道的早期 VC。在過去的十年里,我們很有幸地成為了國內(nèi)一批技術(shù)驅(qū)動的頭部公司的早期投資人。比如我們是理想汽車最早的機構(gòu)投資人,一路陪伴它從成立到上市。在汽車電動化、智能化的趨勢中,我們投資了二三十家公司,有四五家都是天使輪,后續(xù)包括裕太微、知行科技等企業(yè)成功在國內(nèi)的科創(chuàng)板和港股上市。也是因為對汽車智能化的密切跟進(jìn),我們在 21 年就比較早地關(guān)注到了 Transformer 和端到端數(shù)據(jù)驅(qū)動這波 AI 變化的新趨勢,所以在 21 年底 22 年初的時候,我們就投資了 AI 六小龍之一 MiniMax。

我們是比較早地進(jìn)入 AI 投資賽道的基金,23 年國內(nèi) AI 應(yīng)用逐步起量之后,我們也積極布局了一批國內(nèi)的 AI 應(yīng)用公司。其中有一些大家可能已經(jīng)比較熟悉了,比如文生圖領(lǐng)域的 LiblibAI,秘塔和造夢次元。此外還有今天的嘉賓之一,做法律垂直行業(yè)的艾語智能,這些都是我們早期投資的代表性項目。我們明勢會非常認(rèn)真、積極地推動 AI Agent 相關(guān)賽道的投資,很高興今天能夠跟各位一起交流。

下面請各位嘉賓逐次來做一下介紹,我們先從楊總這邊開始。楊總是 AutoAgents.ai 的創(chuàng)始人和 CEO。

楊勁松:謝謝夏總。直播間的各位聽眾們好,我是 AutoAgents.ai 創(chuàng)始人楊勁松,我們是一家 23 年 6 月份成立的 Agent Native 公司,三位創(chuàng)始成員都來自阿里巴巴達(dá)摩院,之前是通義團(tuán)隊的同事。我們希望解決大語言模型在企業(yè)落地應(yīng)用的挑戰(zhàn),目前定位在企業(yè)級 Agent 這樣一個應(yīng)用基礎(chǔ)設(shè)施賽道。雖然現(xiàn)在有很多開源的 Agent 工具,但我們認(rèn)為既然大語言模型是用來降低技術(shù)門檻的,那我們希望 Agent 構(gòu)建和使用的門檻也可以更低,而不需要用戶再去學(xué)習(xí)一整套相關(guān)技術(shù)。

我們目前的用戶主要以大型企業(yè)為主,比如國家電網(wǎng)、三桶油,或者是一些比較頭部的企業(yè)。對我們來說,對產(chǎn)品最大的要求是 Agent 要真正做到落地、可用,而非僅僅作為一個玩具。這對 Agent 執(zhí)行長鏈條任務(wù)時的精準(zhǔn)度,以及數(shù)據(jù)安全、權(quán)限控制提出了更高的要求,這也是我們的主業(yè)。同時我們基于自己的 Agent 技術(shù),也會和行業(yè)頭部玩家合作,以合營的方式切入垂直場景,這會是我們接下來落地 Agent 的思路。目前我們通過技術(shù)驅(qū)動工程造價審計,用 Agent 直接交付審計項目結(jié)果,在這個賽道取得了比較好的效果。

夏令:好的。前段時間看了好幾篇對朱總的采訪,能看出您對于目前要做的事情非常有野心,能不能為我們介紹一下 Pokee.ai?

朱哲清:大家好,我叫 Bill。我們 Pokee.ai 是去年 10 月份剛剛成立的公司,主要目標(biāo)是希望通過強化學(xué)習(xí)把 Agent 可以使用的工具拓展到整個互聯(lián)網(wǎng)的范圍,最終不再需要額外訓(xùn)練或者是集成的 overhead。我們目前已經(jīng)有一個單一 Agent 可以集成上萬個不同工具,并且在各種不同的垂直場景里執(zhí)行任務(wù),未來一個月左右就會開始真正的公測。

Pokee.ai 團(tuán)隊的大多數(shù)成員都來自 Meta,我創(chuàng)業(yè)之前也在 Meta 負(fù)責(zé)應(yīng)用強化學(xué)習(xí)團(tuán)隊,帶了很多 Meta 內(nèi)部的大型項目,比如 RL 在廣告、推薦系統(tǒng)的落地,以及 Meta 的 RL 平臺開源項目。我從本科就開始做 RL 的理論和落地,在這個方向已經(jīng)研究了快十年,我認(rèn)為這一波 Agent 對 RL 的依賴性會持續(xù)提升。未來 Pokee.ai 也會在這個方向上有更深入的繼承和發(fā)展。

夏令:我去年也跟 Bill 總深入探討過 RL?,F(xiàn)在大家都在講,AI 進(jìn)入了下半場,RL 也會變得越來越重要。常總是 ANP 開源社區(qū)的負(fù)責(zé)人,現(xiàn)在做的事情也非常有意思,請您也為聽眾們介紹一下。

常高偉:好的。大家好,我是 ANP 開源技術(shù)社區(qū)的發(fā)起人。我們并不是一家商業(yè)化的公司,而是一個開放、中立、非營利性的技術(shù)社區(qū)。我們的目標(biāo)是成為智能體互聯(lián)網(wǎng)時代的 HTTP,而 ANP 是我們開發(fā)的一個智能體通信協(xié)議,和 MCP、A2A 比較類似。但是我們做得比較早,大概在去年三四月份就開啟了 ANP 項目,比 MCP 早了大概半年時間,比 A2A 早大概一年時間。

我們的愿景是定義智能體的聯(lián)系方式。我們一直認(rèn)為,協(xié)議是智能體連接最高效的方式,也是 AI 原生的連接方式。ANP 社區(qū)現(xiàn)在有 200 左右開發(fā)者,大部分來自于國內(nèi)的大廠,還有一線的 AI 從業(yè)者。另外我們社群現(xiàn)在大概有1100多人,在 W3C 成立了一個社區(qū)組,這是 W3C 中唯一面向智能體協(xié)議的社區(qū)組,華為、谷歌、字節(jié)、螞蟻、微軟、中國移動,還有北大、上交大、MIT 等好幾個大學(xué)都是我們社區(qū)組的成員。我們最終的目標(biāo),是構(gòu)建一個更加開放的互聯(lián)網(wǎng),我們認(rèn)為只有開放的互聯(lián)網(wǎng)才是最適合釋放 AI 的生產(chǎn)力的。

夏令:好的,謝謝。在 Agent Infra 這一層,智能體與工具之間的通信也是構(gòu)建 Agent 必不可少的環(huán)節(jié),一會可以請常總和我們重點分享一下。最后請艾語智能的創(chuàng)始人、CEO,張?zhí)鞓房倿槲覀兘榻B一下艾語的情況。

張?zhí)鞓罚褐x謝夏總又投我們,又邀請我們參加這次的活動。首先我們的定位是做法律 Agent,這個場景下中美的情況有很大差異。我們認(rèn)為法律 Agent 在中國市場的落地,應(yīng)該更多地聚焦在細(xì)分市場以及復(fù)雜場景里,直接交付結(jié)果。我們現(xiàn)在選擇了兩個落地的應(yīng)用場景,一是針對網(wǎng)貸逾期客戶提起 AI 立案之后的調(diào)解服務(wù),目前這塊業(yè)務(wù)已經(jīng)與 40 多家金融機構(gòu)進(jìn)行了合作。二是知識產(chǎn)權(quán)侵權(quán)行為的發(fā)現(xiàn)和追索。

我自己的 background 是在復(fù)旦讀計算機,算是已經(jīng)做了三代 AI。我最早在 MSRA 做圖像識別,16 年我們做了神經(jīng)網(wǎng)絡(luò),就開始應(yīng)用在信貸的風(fēng)控上,現(xiàn)在又開始做法律 Agent。這一輪 AI 興起的時候我特別激動,因為我看到了它和前兩代 AI 之間的巨大差異,并且 AI 真的走向了智能。另外我們一直在創(chuàng)業(yè),一家公司做到了 Pre IPO,還有兩家賣掉了,算是 AI 老兵和持續(xù)的創(chuàng)業(yè)者。再次感謝夏令總的邀請,很高興能跟大家做深入的交流。

夏令:感謝四位嘉賓對自己和公司業(yè)務(wù)情況的介紹。我們可以看到大家聚焦于 Agent 賽道不同的業(yè)務(wù)和環(huán)節(jié),每一家都很有代表性。比如說 Bill 總這邊,Pokee.ai 的定位是什么?您對于 toC 的通用 Agent 有什么看法,可能的機會在哪?以及大家最關(guān)心的問題,和 Manus 相比我們的特色是什么?這些問題希望可以聽到您進(jìn)一步的分享。

朱哲清:好的。首先我們不是一家單純 toC 的公司,而且大多數(shù)的 use case 都不是 toC。我們目前公開發(fā)布的 demo 更側(cè)重于 to professional 的能力,同時有一些 enterprise 客戶現(xiàn)在已經(jīng)開始通過我們背后的 API 和 SDK 和我們做集成了。

我們暢想的未來,是任何 business 和專業(yè)用戶的 workflow 都可以被 Pokee.ai 的 API call 或者 SDK 的集成完全取代。比如對于企業(yè)來說,原來從 market research(市場調(diào)研)到 reporting(報告生成),到 slide sheet(PPT 和 Excel)的集成和制作,再到 marketing content(營銷內(nèi)容),甚至于最后發(fā)布到各種社交媒體網(wǎng)站上的這一整套工作流,都可以由一個 prompt 加一個 API call 完成。不一定要用前端來完成整個操作,我們的目標(biāo)是提供一個基礎(chǔ)的 Agent 平臺,使任何開發(fā)者或者 professionals 可以在不需要自己手動集成工具和 promoting 的情況下,就能夠完成一個非常復(fù)雜的工作流的構(gòu)建以及執(zhí)行。最終不管是生成還是執(zhí)行,都真正做到在沒有 human-in-the-loop 的情況下,也可以端到端地完成任務(wù)。

相比之下,Manus 的定位更多地偏向一款 consumer facing 的產(chǎn)品。而我們的目標(biāo)并非完全 toC,而是希望取代互聯(lián)網(wǎng)上所有冗長的、人的工作流,構(gòu)建一個完全自動化的互聯(lián)網(wǎng)世界。

夏令:對于 Manus 這種 toC 的產(chǎn)品來講,完成任務(wù)的過程中其實是 Agent 自己做 plan。而 Pokee.ai 希望能夠解決更多個性化的任務(wù),而不僅僅聚焦在某一個場景、某一類客戶,所以考慮到場景和客戶的差異性,我們選擇提供一個平臺,支持企業(yè)用戶構(gòu)建適合自己的 workflow,然后讓 Agent 具備任務(wù)規(guī)劃和完成任務(wù)的能力。不知道這種理解是不是正確。

朱哲清:是的。Pokee.ai 和 Manus 有一個很大的區(qū)分點,那就是我們所集成的能力應(yīng)該遠(yuǎn)超現(xiàn)在市面上的大多數(shù)Agent。我們集成的工具幾乎包括了海外的所有社交媒體、文檔工具和 chat 工具,比如 WhatsApp、Messenger、Slack 等等,所以我們所能夠執(zhí)行的場景是非常多的,而且這些執(zhí)行場景就是目前企業(yè)和商業(yè)用戶最需要的工作流中的瓶頸。比如說你是一個個人用戶或者商業(yè)用戶,即使你有了 ChatGPT、Manus 和各種各樣的生成式 Agent,在你完成所有生成任務(wù)后,把內(nèi)容 deploy 到相應(yīng)平臺上這個環(huán)節(jié)還是需要人來做。這是目前幾乎所有 Agent 閉環(huán)當(dāng)中缺失的一部分,而我們可以替人做到這一點。

夏令:明白。我們知道北美有非常多的創(chuàng)業(yè)公司會選擇特定的垂直場景耕耘,比如 SDR 是銷售的一個小環(huán)節(jié),都有非常多的 AI 創(chuàng)業(yè)公司在深入,提供相應(yīng)的 AI 產(chǎn)品?,F(xiàn)在和過去的區(qū)別,不過是從 SaaS 變成了 toB 的 Agent。您覺得 Pokee.ai 做的事情和這些產(chǎn)品之間是什么樣的關(guān)系?

朱哲清:首先是 SDR(銷售開發(fā)代表)場景下,比如 Artisan、ElevenX 或者 Hyperbound 這些公司,它們非常聚焦于一個垂類,而且?guī)缀醪恍枰魏蔚墓ぞ呒?。它們只需要能發(fā) Email,有 video chat 這種功能就可以了,有些甚至不能讀取Email。大多數(shù)這類 Agent 公司還沒有完全用 MCP 來 build up,很多時候都是手動完成 integration 以后,再用LLM 處理,去看這個進(jìn)來的 text 是什么樣的 intention,然后去找對應(yīng)的 function,手動 construct function call,然后再去 call 那個 function。不需要 authentication(認(rèn)證)的集成還好一點,如果你需要 authentication 集成,比如 Google Workspace、Microsoft ecosystem,這些東西對于所有企業(yè)來說都是特別頭疼的事情。

我們的不同就在于,任何 Developer 或者 Business 都可以把那層最復(fù)雜的 integration 和工具調(diào)用全部 shield 掉,不再需要操心這一部分。你只需要知道自己想干什么,把這個 prompt 輸進(jìn)來,Pokee.ai 都可以幫你解決。之前一個時代,是各種 language model 或者 vision model 通過 API prompting 去完成生成,而我們現(xiàn)在希望通過prompt 完成從生成到執(zhí)行的整個閉環(huán)。您剛才提到的 AI marketing 這種垂類 Agent,未來如果要做得更復(fù)雜、真正打通端到端的話,他們可以 build on top of us。

我舉個例子。AI SDR 現(xiàn)在可以收發(fā)郵件、看 calendar,但如果用戶想寫進(jìn) CRM 怎么辦?如果要構(gòu)建一個 database 怎么辦?要做 analysis 怎么辦?不可能每一家 AiSDR 都手動去構(gòu)建自己的 database和 analysis system,這些系統(tǒng)都有現(xiàn)有的解決方案,他們只需要 call Pokee.ai,說我已經(jīng)完成了 inbound,得到了這些信息,你幫我寫入 database,做個分析,最后寫一個 report 給到某一個 employee。這些東西完全可以通過一個 prompt 來完成,所以從 ecosystem 的角度來說,我們給這些公司提供了一個 unify 的、to usage 的 solution。

夏令:好的。Bill 總這邊主要從美國市場的角度來看,構(gòu)想一個 Agent 產(chǎn)品如何在企業(yè)里落地,再逐步走向面向企業(yè)的定制化 Agent 平臺。不同創(chuàng)業(yè)公司的切入視角不一樣,所在國家的需求場景也不一樣。楊總做的是面向國內(nèi)市場的 Agent,也是要在不同行業(yè)、不同崗位落地。您能不能來講一講,同樣是做 toB 的 Agent 平臺,相較于 Pokee.ai 或者 Glean,咱們的思路是什么樣的?從落地的情況來看,中國企業(yè)更需要什么樣的 Agent 產(chǎn)品或者 Agent 平臺?

楊勁松:好嘞。首先澄清一下,我們其實也是面向全球的,也有一批海外客戶。我們作為創(chuàng)業(yè)者都是技術(shù)背景,但從用戶視角來看,他們并不關(guān)注產(chǎn)品底層到底是 MCP 還是什么,關(guān)鍵還是能解決什么問題。目前 Agent 產(chǎn)品在國內(nèi)有比較明確的擴散路徑,掏錢的以國央企業(yè)、大企業(yè)為主,小企業(yè)更多還是嘗鮮,真正投入生產(chǎn)的相對還比較少。我們最開始就選擇這個方向切入,原因就是大企業(yè)能夠投入比較大的資金預(yù)算把事情跑通,然后建立自己的競爭力。未來每個企業(yè)都會圍繞自己的核心生產(chǎn)業(yè)務(wù)去打造一系列大模型或者 Agent,我們的定位就是企業(yè)級 Agent 構(gòu)建平臺。其實產(chǎn)品具體叫什么名字,只是技術(shù)上的定位,從企業(yè)的角度來說,他們想要的是自身生產(chǎn)價值鏈上的每一個環(huán)節(jié)都可以更高效,或者以更低的成本實現(xiàn)。我們的邏輯就是解決這些核心訴求,客戶會比較關(guān)心我們具體集成哪些工具、什么方案最高效或者成本最低。

我想先講一下我們和 Glean 這類產(chǎn)品的區(qū)別。Glean 最開始是做企業(yè)內(nèi)搜,我們認(rèn)為內(nèi)搜確實很重要,但是對于企業(yè)更重要的是業(yè)務(wù)的精準(zhǔn)執(zhí)行,也就是如何基于企業(yè)內(nèi)部已有的上下文,把業(yè)務(wù)流程完整地執(zhí)行下來,這是我們比較強調(diào)的功能。我們判斷未來 Agent 要在企業(yè)內(nèi)部做到相對可用的話,需要先完成端到端的優(yōu)化,就是從底層的模型到中間層的工具,以及上層的業(yè)務(wù)和數(shù)據(jù),都要實現(xiàn)比較好的整合,最終才會有比較好的效果。

比如剛才說到,我們在和一些行業(yè)頭部公司做垂直場景。對于底層的模型,我們就會基于特定領(lǐng)域進(jìn)行微調(diào),讓它能夠在這個領(lǐng)域里做更好的任務(wù)規(guī)劃和場景應(yīng)用。然后在工具這一層,每個行業(yè)都有一些典型的工具,僅僅把工具和模型進(jìn)行簡單的連接是不夠的。這里有很多的挑戰(zhàn)要解決,有一些是通過接口,還有一些可能要添加數(shù)據(jù),對模型做上下文嵌入式的輔助,讓它能夠更好地應(yīng)用工具。朱總那個方案,我們覺得也是一個思路。但是對接企業(yè)的時候,如果按照 OpenAI 那套 RFT 的思路,企業(yè)每增加一個工具,訓(xùn)練成本都會增加一個量級,所以我認(rèn)為這對于大部分行業(yè)都不會特別適用。

我們現(xiàn)在針對供應(yīng)鏈通過上下文嵌入進(jìn)行工具整合,做到了完全可用,再往上就到了數(shù)據(jù)和業(yè)務(wù)場景。對于這個部分,我反倒覺得垂直行業(yè)里的價值會更大。因為在工具層面大家會慢慢趨同,你的技術(shù)能領(lǐng)先半年可能就已經(jīng)很不錯了,更大的差距源于在供應(yīng)層面能不能基于客戶的業(yè)務(wù)或者用戶使用 Agent 的結(jié)果,產(chǎn)生一些可以建立飛輪的數(shù)據(jù)。因此我們比較關(guān)心的是盡量讓 Agent 投入生產(chǎn),然后基于用戶使用過程中的反饋,尤其是對于規(guī)劃層面的反饋數(shù)據(jù)優(yōu)化底層模型。這種端到端的優(yōu)化會和拿腳手架搓出來的東西有非常明顯的區(qū)別。

我們最終的目標(biāo)是可以在若干個垂直場景里構(gòu)建這個領(lǐng)域的最強 Agent,現(xiàn)在我們在特別細(xì)分的小場景下已經(jīng)可以直接交付結(jié)果,但是對于天花板更高的垂直場景,這其實需要一個漸進(jìn)的過程。我們會基于工具和數(shù)據(jù)不斷迭代,逼近這個目標(biāo)。一旦我們在一個垂直場景里構(gòu)建了垂類最強 Agent,讓它擁有超過人類專家的水平,同時又達(dá)到了比較好的規(guī)模的話,基本上就可以把這個垂直場景比較大的價值吃掉了。這是我們的思路。

夏令:好的。我們來到天樂總這邊。同樣是做 toB 的 Agent,天樂總又和前面兩家顯著不同,我們艾語智能并不是服務(wù)于更細(xì)分的一個行業(yè)或若干場景,而是變成了新型的律所。您能不能也為我們介紹一下,跟海外做法律服務(wù)的 Agent 公司相比,特別是大家比較熟悉的 Harvey,艾語智能有什么不同?

張?zhí)鞓罚何矣X得在整個行業(yè)里,Harvey 是一家特別值得我們學(xué)習(xí)和了解的公司。他們是 OpenAI 在 22 年投資的,到現(xiàn)在也就兩年多時間,但是最新估值可能已經(jīng)到 50 億了。Harvey 從 day one 就特別強調(diào)用 LLM 而非上一代 AI 技術(shù)解決法律問題,而且完成的效果非常好。它早期的切入點就是為律所和律師提供法律服務(wù)工具,比如訴狀的生成、法律文書的識別等等。我們看過 Harvey 很多視頻的 demo,從結(jié)果角度來說,生成質(zhì)量確實非常好。但是客觀來講,我認(rèn)為生成效果好的根源在于 LLM 技術(shù)和法律行業(yè)的匹配程度高,在復(fù)雜文本場景下 LLM 的生成效果天然地就會更好。所以今天我也會建議大家,選擇大于努力,這是我在公司說得最多的一句話。而且大家要盡量快速地看到效果再落地,所以可以多嘗試一些法律+AI 的方向。

去年整個美國市場,法律 AI 的投資總額是 21 億美金。從單個公司的估值最高,以及投資數(shù)量和規(guī)模來說,可以證明法律或者復(fù)雜文本和 LLM 技術(shù)的匹配程度確實非常高。但是中國和美國市場的情況差異非常大。比如美國律師的收入大概是每年 10 萬到 15 萬美金,而中國律師可能只有兩三萬美金,付費能力和付費意愿有很大差異。所以我們在落地一個商業(yè)模式的時候,一定要客觀地考慮到中國的國情。另外兩個市場對 AI 的認(rèn)知和付費能力不一樣,那一樣的東西是什么?是對法律服務(wù)的需求。所以我們選擇直接針對律師或者律所的甲方,比如我們現(xiàn)在面向金融機構(gòu),交付法律服務(wù)的結(jié)果。我們認(rèn)為這樣更觸及法律服務(wù)的本質(zhì),而且長期來看模型能力會越來越強,交付結(jié)果是有可能實現(xiàn)的,所以選擇這樣一條切入路徑。

我們創(chuàng)業(yè) 13 年了,每次創(chuàng)業(yè)都會選擇一個新的市場,或者傳統(tǒng)服務(wù)沒有服務(wù)好的市場切入。這種選擇背后的邏輯是,我們認(rèn)為一個行業(yè)更緊迫、更缺乏好的服務(wù)的需求,更應(yīng)該被 AI 解決。所以我們這次切入市場,就選擇了一個傳統(tǒng)律師服務(wù)不了的事情,就是線上的無抵押網(wǎng)絡(luò)信貸。這些客戶的單筆金額都太小了,律師做 50 萬、 100 萬的案子都覺得麻煩,而我們做的都是一兩萬的。我們的客戶可以完全通過 AI 線上提起立案、跟進(jìn)流程、制定更長的分期還款計劃,然后用機器跟進(jìn)分期結(jié)果。大家總說國內(nèi)的市場卷,我們覺得避免卷最好的方式,就是去做一件新的事情??焖俚厍羞M(jìn)去,沒有人競爭,也就不卷了。另外我們在公司經(jīng)常討論一個問題,就是技術(shù)平權(quán)。AI 的發(fā)展速度很快,技術(shù)透明度也很高,在這個過程中對我們來說更本質(zhì)的問題是什么?我覺得應(yīng)該更關(guān)注商業(yè)模式本身。用戶最本質(zhì)的需求是一個更好的結(jié)果,所以我們在選擇切入路徑的時候,選擇直接交付結(jié)果。

站在整個創(chuàng)業(yè)的角度來看,首先我非常反對不關(guān)注海外。我認(rèn)為美國的 AI 落地是有先進(jìn)性的,應(yīng)該去關(guān)注他們在技術(shù)上面到底解決了什么樣的問題。但是中美的商業(yè)環(huán)境差異又是極大的,一定要選擇適合中國的商業(yè)落地方法。大家總說卷,我能給大家最貼心的建議就是創(chuàng)新,做一件不一樣的事情,然后去交付結(jié)果。

我想分享一個 Harvey CEO 今年 3 月份的訪談。他們是一個非常典型的 by license 或者 by SaaS 的商業(yè)模式,但是他們 CEO 在今年 3 月份的訪談中提到,未來他們會開拓更復(fù)雜的一些場景,比如并購?fù)顿Y,并且按照效果來 take rate。很多時候我們看到的其它機構(gòu)的商業(yè)模式,大部分是昨天的商業(yè)模式。Harvey 是 23 年開始落地的,你 23 年讓我去交付結(jié)果,我覺得我也做不到,因為 LLM 本身的能力就不夠。但是長期來看,隨著模型的能力變強,Agent 的能力變強,更重要的還是從商業(yè)的角度看客戶需要什么,以及選擇一個傳統(tǒng)方案沒有服務(wù)好的市場。所以我想說,大家不要做存量市場,要盡量做新增的市場,并且伴隨著技術(shù)能力的提升,往交付結(jié)果的方向調(diào)整。我們從 day one 就逼著公司必須交付結(jié)果,用這樣的方式往前推進(jìn)。這在中國可能是更好、更適合的落地方式。

夏令:天樂總講得還是很詳細(xì)的。艾語這家公司服務(wù)的不是律所,它自己就是一個新型律所,所以它交付的是結(jié)果。下面這個問題想請??傉勔徽?。我覺得從 3 月份開始,MCP 在國內(nèi)外就非?;?,后來 Google 也推出了自己的 A2A。咱們的 ANP 解決的也是智能體之間的交互問題,從切入方向和特點上,大家有什么區(qū)別,您能不能簡要地說一下。

常高偉:好的。A2A 是今年 4 月初發(fā)布的一個協(xié)議,因為谷歌的體量和影響力是非常大的,所以它發(fā)布之后,把整個行業(yè)又在智能體協(xié)議上帶火了一把。我們和 A2A 其實有很多相似點。首先我們解決的問題是一樣的,都是為了解決智能體的協(xié)作問題。除此之外,我們和谷歌有一個共同的認(rèn)知,那就是 MCP 可能并不太適合用于智能體之間的連接和協(xié)作。智能體的連接協(xié)作,應(yīng)該是個 P2P 架構(gòu),但 MCP 可能是 CS 架構(gòu)。我們和 A2A 還有一個相同點,就是我們在很多技術(shù)上也是相似的。比如在智能體的發(fā)現(xiàn)和描述上,我們用的是類似的技術(shù),不過我們做得比谷歌更早。

我們和 A2A 在不同點上也蠻多的,最大的不同點就是出發(fā)點不一樣。我們希望解決的問題是,智能體在一個不可信的互聯(lián)網(wǎng)環(huán)境中怎么進(jìn)行協(xié)作。而谷歌雖然并沒有在官網(wǎng)中明說,但是從技術(shù)、生態(tài)以及谷歌 CEO 的訪談中都可以看出,A2A 的出發(fā)點是解決智能體在企業(yè)之間以及企業(yè)內(nèi)部的協(xié)作。谷歌 CEO 前段時間有個訪談,他認(rèn)為智能體最早應(yīng)該會在企業(yè)內(nèi)部落地。另外從生態(tài)來說,谷歌有 50 家公司,這 50 家公司全部是做 B 端業(yè)務(wù)的。最后我們回到技術(shù)本身,A2A 這種交互模式并不太適合在互聯(lián)網(wǎng)上協(xié)作,因為它是一個任務(wù)分包的模式。

什么叫任務(wù)分包呢?就相當(dāng)于我把一個大任務(wù)分成了若干小任務(wù),然后讓遠(yuǎn)端的智能體來處理。在互聯(lián)網(wǎng)中,這種模式天然地具有很高的個人隱私泄露風(fēng)險。比如說我要訂個酒店,我必須告訴遠(yuǎn)端智能體我喜歡什么、不喜歡什么,那我的隱私就通過任務(wù)的上下文被泄露了。在這一點上,我們的交互方式和 MCP 有點類似。我們把遠(yuǎn)端信息拉到本地進(jìn)行處理和決策,這樣就不需要把隱私信息交給其他人。

除此之外,我們和 A2A 還有一個最大的不同點,就是身份。剛才朱總介紹過,一個智能體要連接到谷歌、Meta 是非常非常難的。這涉及到智能體協(xié)議非常非常核心的問題,那就是智能體的身份。智能體之間要進(jìn)行通信,首先要解決的問題就是我是誰和你是誰。我們在研究過程中發(fā)現(xiàn),MCP 和 A2A 并沒有完全解決這個問題。比如 A2A ,他們用了一個帶外的方案,所謂帶外是指用其它途徑、協(xié)議來解決身份問題。比如我有個身份中心,智能體每次和另外一個智能體交互的時候,就去身份中心拿一個令牌,然后通過 A2A 協(xié)議把令牌傳過去。這個方案非常有意思,我認(rèn)為用在在企業(yè)內(nèi)部是非常不錯的,但是在互聯(lián)網(wǎng)當(dāng)中可能不太適用。因為互聯(lián)網(wǎng)中沒有一個大的身份中心可以解決身份問題,而且用在互聯(lián)網(wǎng)中,這個方案的成本還是有點高。

可以說身份就是我們在技術(shù)上區(qū)別于 MCP 和 A2A 最大的地方。MCP 用的其實是一個中心化的身份,而我們用的是 DID 身份,類似于去中心化身份的技術(shù)。不過和區(qū)塊鏈還不一樣,我們使用的是 Web 技術(shù),類似于 Email,一個郵箱可以和互聯(lián)網(wǎng)中所有的郵箱進(jìn)行互通。比如說你有 163 的郵箱,那你不需要再去申請 QQ 賬號或者 Gmail 賬號,就能和 QQ 郵箱或者 Gmail 郵箱互通。這是我們做的最大的創(chuàng)新。張總剛才的話我非常認(rèn)可,要想不卷就得做創(chuàng)新的東西。

Agent 創(chuàng)業(yè),從非共識出發(fā)

夏令:創(chuàng)業(yè)是必須要創(chuàng)新的,同時作為創(chuàng)業(yè)者,也必須要有自己堅持的非共識。下面一個問題,我想請大家談?wù)?,如果說我們現(xiàn)在有一個堅持的非共識,那會是什么。我們這次的順序反過來,請常總先講。

常高偉:在去年三四月份的時候,我們就堅定了一個非共識,那就是智能體之間要協(xié)作,協(xié)議肯定是最高效、最原生的方式。智能體最擅長處理的就是直接的、底層的數(shù)據(jù),而承載這些數(shù)據(jù)最好的方式就是協(xié)議,這是我們堅持的第一個非共識。這一點目前也在慢慢變成行業(yè)的準(zhǔn)共識。

另外一個非共識就是智能體互聯(lián)網(wǎng)。我們認(rèn)為 Agentic web 就是智能體化的 Web,這是互聯(lián)網(wǎng)的未來。當(dāng)未來的互聯(lián)網(wǎng)中有越來越多的智能體,現(xiàn)在的互聯(lián)網(wǎng)結(jié)構(gòu)會發(fā)生一些非常大的改變。現(xiàn)在有很多互聯(lián)網(wǎng)平臺,比如微信、淘寶、拼多多,未來是否真的有必要存在?如果我有一個個人助手,企業(yè)也有一個智能體,那么我的個人助手是否可以通過協(xié)議直接連接到企業(yè)的智能體,幫我完成預(yù)訂酒店、點外賣、買衣服這些操作?我認(rèn)為未來,互聯(lián)網(wǎng)的連接方式會從以平臺為中心的封閉的生態(tài),回歸到以協(xié)議為中心的開放連接,這是我們現(xiàn)在堅持的另一個非共識。

可以說這是我們現(xiàn)在堅持的一個最大的非共識。現(xiàn)在整個行業(yè)中,看到這個非共識的人可能并不是特別多,認(rèn)可的人也不是特別多。但是前段時間,微軟的一場發(fā)布會就提到了一個叫 Agentic web 的概念,他們也認(rèn)為未來的互聯(lián)網(wǎng)應(yīng)該是一個開放的互聯(lián)網(wǎng)。

張?zhí)鞓罚何蚁胝剝蓚€非共識。去年 o1 出來之后我想了很多,我覺得 o1 出來代表著 AI 進(jìn)入了下一個階段,當(dāng)時整個行業(yè)覺得 AI 能做的事情已經(jīng)很多了,創(chuàng)業(yè)的機會也變多了。但是我個人覺得,o1 對于人類整體來說是一件受益的事情,但是對于創(chuàng)業(yè)公司來說,其實機會減少了,未來有很多場景可能會直接通過大模型或者更通用的 Agent 實現(xiàn)。所以我覺得從 o1 出來之后,大家應(yīng)該更多地思考一些商業(yè)上面的事情,比如什么場景是適合的、要如何切入。我會覺得這個場景是復(fù)雜文書和復(fù)雜流程,另外一定要選擇更難的場景,深入地做,這樣才會更有價值。這是在商業(yè)上,我們堅持的第一個非共識。

另外我最近找了很多論文的一作,和他們討論了一個問題。對于 AI,很多時候我們盯著怎么讓大模型變得越來越聰明這個問題,特別是 DeepSeek 出現(xiàn)以后,大家通過 RL 讓模型的推理能力和邏輯性持續(xù)地變強。但是現(xiàn)實世界的任務(wù)需要兩件事,第一件是聰明,第二件是有經(jīng)驗,這兩件事本質(zhì)上并不一樣。聰明更像是從一個高中生變成愛因斯坦,但是有經(jīng)驗,更像是在作業(yè)過程中有非常詳細(xì)的標(biāo)準(zhǔn),在遇到 corner case 的時候有指導(dǎo)我們應(yīng)該如何去做的百科全書。

我覺得在技術(shù)路徑上,未來的趨勢是讓模型的推理能力變得越來越強,但是我們在實際應(yīng)用過程中會想,我們真的需要一個愛因斯坦來幫我們完成律師的所有工作嗎?其實是不需要的。我們需要的是一個受過非常良好教育的法律專業(yè)智能體,它在日常工作過程中會變得越來越有經(jīng)驗,能夠總結(jié)出如何把工作變得高效的方案,在遇到 corner case 的時候能找到更好的方法。所以我們現(xiàn)在會覺得,還是要找到一些方法讓模型變得更有經(jīng)驗,而不是單純地變得更聰明,并且在有經(jīng)驗這條路徑上可以做到自學(xué)習(xí)和自優(yōu)化。而且我們認(rèn)為讓模型變得有經(jīng)驗和變聰明是 totally different,變聰明可能是在參數(shù)層面上要做很多優(yōu)化,但是變得有經(jīng)驗,嚴(yán)格意義上來說不應(yīng)該改變模型本身,而是有一個非常 detail 的百科全書外掛式的經(jīng)驗,然后讓模型充分地使用。這是我想說的第二個非共識,就是我認(rèn)為在 AI 應(yīng)用落地之后,可能有經(jīng)驗會比更聰明更有價值。

夏令:天樂總這個觀點跟 OpenAI 的姚順雨的觀點比較像,就是說我們已經(jīng)把模型訓(xùn)練得可以在奧賽拿金牌了,但是它卻還記不好賬。那楊總,接下來想聽您談?wù)劇?/p>

楊勁松:我想分享一個我們自己也踩過的坑,也是目前行業(yè)里比較非共識的一點。我們最開始追求 Agent 在底層技術(shù)和理論上的創(chuàng)新,比如說所謂的多智能體協(xié)作。但我們在實踐的過程中會發(fā)現(xiàn),對于一項之前由人類完成的工作,比如說寫一個軟件,按照我們?nèi)祟惖姆止ぐ?Agent 也分成產(chǎn)品經(jīng)理、UI 設(shè)計師或者開發(fā)者這么幾個角色,這種做法在模型能力達(dá)到一定水平之后,效果可能并沒有那么明顯了,反而可能限制 Agent 的發(fā)揮。

我們有另外一個思路提升模型的工作效果,就是想辦法讓模型更多次地動用智力。人在完成一項任務(wù)的時候,大腦會工作非常多次,可能我說這一句話大腦會轉(zhuǎn)三四次,做一個工作大腦會運作幾百上千次。對于模型,我們現(xiàn)在也通過提高工作密度和不同維度的對抗來提升它的效果,說白了就是讓模型從不同角度反復(fù)地對同一個工作內(nèi)容進(jìn)行加工,來提升輸出結(jié)果的質(zhì)量,這樣效果反而會比角色分工更好。

由這個思路延伸,這里還有一個效率問題。主流 Agent 系統(tǒng)是串行結(jié)構(gòu),消耗時間是要乘上去的,同時有些任務(wù)的幻覺和錯誤會被放大。用我們現(xiàn)在的思路,如果有一個共享的 working memory,然后多路地、對抗地去完成任務(wù),最后的質(zhì)量就會比較好。這算是一個小小的非共識。

朱哲清:其實我去年年底的時候跟很多投資人聊,大家都覺得 Pokee.ai 這個方向根本不能做,但它現(xiàn)在已經(jīng)慢慢變成了共識,所以非共識這件事很難說。

我想沿著天樂總剛剛說的,從產(chǎn)品邏輯來講,聰明跟經(jīng)驗從理論上來說就是 generality vs adapt to like a specific field(通用性vs特定性),也就是說只是訓(xùn)練方式的區(qū)別。它們可能是完全一模一樣的模型,當(dāng)這個模型的 generalization capability(通用能力) 非常強的情況下,它可能是一個完全通用的模型,當(dāng)你需要將它 adapt 到法律這個領(lǐng)域,你可能需要順序 overfit 到只有法律方面的知識,把剩下的知識屏蔽掉。

我覺得大多數(shù)的套殼應(yīng)用,或者說大多數(shù) vertical(垂直領(lǐng)域)的公司,其實都需要走這么一步。通用 Agent 本身的核心訓(xùn)練數(shù)據(jù)是讓它對于語言、數(shù)學(xué)和邏輯具有基本概念,也就是形成 A 和 B 是不能能夠推到 C 這么一個簡單的邏輯鏈,然后通過 autoregressive 加 RL 的方式來幫助它構(gòu)建這樣一個邏輯鏈。

要把這種邏輯鏈轉(zhuǎn)化到一些特有的領(lǐng)域里,其實是需要做一些 fine tuning 的,這就是天樂總所說的有經(jīng)驗。但是我覺得單純讓模型本身有經(jīng)驗可能是不夠的。因為有大量的法律文獻(xiàn),你不可能指望一個模型把它完全記下來,還保證不出現(xiàn)任何幻覺。國內(nèi)的法律體系全都是條例,可能會相對好記,但海外的判例法體系會導(dǎo)致 retrieval(檢索)能力變得非常非常重要。未來的經(jīng)驗可能在很大程度上來自于 retrieval 能力,而 retrieval 單靠 RAG 可能還解決不了。

RAG 的核心問題在于,我需要通過 similarity metric(相似性度量)這種固定關(guān)系,從 retrieval 的 seed 或者 prompt 里找到一個巨大的 groups 里相關(guān)的文字或者圖片。這個尋找的過程可能不是一個固定的 a 對 b 的關(guān)系,而可能是一個非常復(fù)雜的,甚至于是推理的關(guān)系。我之前給很多投資人舉過一個例子。大家都在問,為什么不能直接用 RAG 來解決最簡單的推薦系統(tǒng)的問題?假設(shè)一個人想去夏威夷旅游,那他需要購買的東西是非常多樣化的,他可能需要簡單的泳衣、泳褲,也有可能想去登山、想去潛水、想去坐直升機。每一樣?xùn)|西都會跟夏威夷有關(guān),但是你沒有辦法通過一個單一的 distance metric(距離度量)來找到所有內(nèi)容。當(dāng)你只有一個單一的 distance metric 的時候,你找到的東西都是類似的,所以這當(dāng)中就要有一個推理的過程。我覺得特別是在企業(yè)環(huán)境和特有領(lǐng)域下,未來的 Agent 要在這個方面花大功夫。也就是它的 retrieval 過程不只是簡單地找相似性,而是要帶著推理去做 retrieval,這是很難的。

張?zhí)鞓罚褐拔乙哺目傆懻撨^這個問題。我從 day one 就覺得 RAG 這個方式局限性極高,是一個非常過渡的方案。我想分享一下我們覺得什么是經(jīng)驗。首先基于法律這個場景,條款內(nèi)容其實是很少的一部分,美國的判例還多一些,國內(nèi)的條款我們的模型已經(jīng)可以解決得非常好了。但是在作業(yè)過程中,我們覺得還有大量業(yè)務(wù)經(jīng)驗性的信息需要挖掘出來。什么叫業(yè)務(wù)上的經(jīng)驗?我給您舉個例子。比如我們會涉及到開庭,中國的法院是有些有線上開庭設(shè)備,有些沒有,那我們有一條經(jīng)驗就是,遇到?jīng)]有線上開庭設(shè)備的法院,我們的成本就高,所以我們可能會少接這個法院的案件。還有些案件,法院是上午開會,下午打電話,那我們就會等下午再跟法院聯(lián)系。

所以你會發(fā)現(xiàn),其實我們在去年做對了一件事情,就是做垂直細(xì)分領(lǐng)域應(yīng)該從 day one 就開始做 evaluation。實際上我們每天要對所有的結(jié)果做 evaluation,而且我們現(xiàn)在在 evaluation 這件事情上是 freely 的,更多地交給模型,它們會自己挖掘出來更多的信息。在一個細(xì)分的場景里,整個組織在作業(yè)過程中提高的就是這些小細(xì)節(jié)。實際上我們每天產(chǎn)生的經(jīng)驗是極多、極零散的,而且比人類組織的效率高很多。我一天能開多少會,模型能開多少會?模型一天能總結(jié) 700 條經(jīng)驗,但是想要讓這 700 條經(jīng)驗通過 RL 或者 post train 的方式再訓(xùn)練進(jìn)模型,我覺得這是不 work 的。

所以我們覺得,可能通過一些更松散的結(jié)構(gòu),一定要和模型本身的訓(xùn)練解耦合,才能保證每天產(chǎn)生大量的經(jīng)驗。而且這些經(jīng)驗有可能今天 work,明天就不 work,然后所以我們還會快速地刪減。我一直在公司內(nèi)部說,它特別像是用一個聰明的模型翻百科全書,這個匹配過程肯定不是個 RAG,而是一個復(fù)雜的、邏輯性的匹配過程,然后再去提煉出來。無非是效率低一點,那效率低一點就搞并發(fā)嘛,把壓力都給阿里云。我們就是每天晚上跑并發(fā),每天用阿里的夜場 API,一到晚上就開始調(diào)模型,把這些東西全部歸納好,白天再去用。我們大概是這個思路。

朱哲清:強化學(xué)習(xí)有兩個目的,第一是目標(biāo)驅(qū)動的模型推理,第二個其實算非共識,就是在 generalization capability 方面,用 RL 做出來的推理模型要比常規(guī)的 control base planning(基于控制的規(guī)劃)方案訓(xùn)練出來的更強。RL 的泛化性其實就是在現(xiàn)有的所有技術(shù)之內(nèi)做一個規(guī)劃性模型,它能達(dá)到的泛化性是最強的。目標(biāo)驅(qū)動的推理和在規(guī)劃層面上更強的泛化性,這兩件事情是現(xiàn)在在大模型上取得成功的核心。那從這兩點來說,大模型就不應(yīng)該去嘗試 memorize(記憶)任何東西。用 RL 來達(dá)到 memorization 的唯一方式是,只有把這個東西一模一樣地搬出來了,才能給它 reward。但這件事情本身就是錯的,因為我的目標(biāo)是在非常繁雜、不同的 input 情況下,能夠推理出我想要的結(jié)果,而不是一模一樣地照搬原來已經(jīng)有的東西。這種東西應(yīng)該用 autoregressive 的 Pre-training 來完成。如果在 Pre-training 的情況下已經(jīng)完成不了了,你再倒逼這個模型嘗試 overfit 到能夠把原始的經(jīng)驗原封不動輸出,它就會損失大量的這個模型本身的能力,這是一件本末倒置的事情。大模型真正應(yīng)該要做到的事情,是在經(jīng)驗層面上只要給到這個 prompt,它能夠把 prompt 所對應(yīng)的內(nèi)容給找出來,我們不需要它能夠從零開始做這件事情,這是不 make sense 的。

楊勁松:對。我稍微補充一句,其實把經(jīng)驗再訓(xùn)進(jìn)模型這個問題,現(xiàn)在在實踐上有一種解法,我們現(xiàn)在叫所謂的 Agentic RAG,實際上就是有點推理性質(zhì)的 RAG。它并不是去廣泛地做搜索,而是先基于業(yè)務(wù)邏輯做一些推理,然后把相關(guān)的經(jīng)驗拉回來,給模型提升效果。

朱哲清:是的,這是一個非?;鸬?research topic。但是這個東西用 RL 來做非常麻煩,因為它的整個 action space for state space(狀態(tài)空間的動作空間)是完全 dynamic。在原來的情況下,你是用一個有限 context window(上下文窗口)的文本作為 context 來做一個 state,然后去做 decision making,這整個過程相對比較 tractable(可控)。如果用一個完全 open space 的corpus(語料庫),或者一個巨大的內(nèi)部 graph,想辦法用 RL 來解其實是個非常復(fù)雜的問題,所以目前還沒有什么特別好的 RL 的 Agentic RAG 解決方案,更多的是拿已經(jīng)用 RL 訓(xùn)練完的 reasoning model 加一個簡單的 chain of thought,一步一步去找哪些部分是相關(guān)的,然后進(jìn)行 reasoning 的過程。

我再補充另外一個 anecdote(趣聞),對天樂總可能會有點幫助。其實美國有好多家做法律的公司,他們有類似的經(jīng)驗,就是某個地方的地檢和某些地方的法院,對于某一種案例有什么樣的偏好,他們自己有一個幾乎像是數(shù)據(jù)庫一樣的東西。他們收集好這個數(shù)據(jù)庫以后,在決策要到某個地檢和法院去提交這個案子的時候,就可以有選擇性。這跟你所得到的經(jīng)驗完全一致,就是說很多經(jīng)驗沒辦法從一個 offline 的數(shù)據(jù)庫,或者從哪些數(shù)據(jù)里面拿到,都需要在實際的實踐過程當(dāng)中得到。

張?zhí)鞓罚浩鋵嵔?jīng)驗的數(shù)學(xué)表達(dá)很簡單,我們就兩列,一列叫 trigger,一列叫 action,說白了就是遇到什么事該怎么干。我們正在構(gòu)建一個底層的、非常簡潔的經(jīng)驗數(shù)據(jù)庫,最后會發(fā)現(xiàn)整個公司下面就是一個超級模型,有一堆 action,叫立案的工具,相當(dāng)于手和腳,然后還有一個巨大的、非常 detail 的百科全書,告訴模型遇到什么事該怎么辦。所以我們會覺得,我們最終的形態(tài)可能是一個超級腦子有一堆 action,然后還有一個大百科全書。這個大百科全書其實才是核心,它需要能夠持續(xù)地優(yōu)化和挖掘經(jīng)驗。

更好的模型效用,更好的效用評估

夏令:現(xiàn)在大家用 RL 實現(xiàn)更好的 planning,然后做泛化,同時大家也在探討,實際落地的過程中到底怎么樣把經(jīng)驗?zāi)眠^來,讓這個模型真的有效。所以下一個問題也想請教大家,我們現(xiàn)在是怎么評估模型效用的,以及如何讓效用真正發(fā)揮出來,這塊有沒有值得分享的經(jīng)驗?我們請 Bill 總先開始。

朱哲清:我們公司在這個地方是有一些 secret sause 的,因為如果完全靠 self-training 和 self-learning,完全沒有 self-evaluation 方式的話,這個東西完全 intractable。我可以分享一些比較簡單的事情,首先是至少在目前的 function calling 層面上,普通的 LLM 在 evaluation 的能力上已經(jīng)非常好了,大家可以依賴普通 LLM 對于本身就單一 function calling 的能力進(jìn)行簡單的 violation,這是可以做到的。我舉個例子,比如說你要構(gòu)建一個 Agent workflow,當(dāng)一個工具被調(diào)用以后,你想知道它是不是調(diào)用正確,其實是可以讓 LLM 自己去看一眼的,這其實就是個非常簡單的 semi-automatic check,而且 stability 已經(jīng)非常高了。

除此之外,我覺得在 evaluation 過程中很重要的一點在于,當(dāng)你調(diào)用工具的時候,并不只是調(diào)用本身重要,調(diào)用完成以后那個結(jié)果也很重要,但這個結(jié)果很難 evaluate。我舉個例子,比如我要調(diào)用工具寫一個 Google doc,但那個 Google doc 寫完以后只返回給你一個link,你也不知道里面是什么,所以你要去 evaluate 整個端到端的流程,可能包括整個規(guī)劃是不是正確、是不是調(diào)用了正確的工具、是不是調(diào)用了正確 API 的 parameters、完成 parameters 的結(jié)果是不是正確,這一系列都需要它自己的 evaluation。最后那一步甚至于是最難的,因為當(dāng)你把這個東西寫入以后,就沒有辦法再修改,調(diào)出來看看到底寫沒寫對。你可能需要手動寫一些東西才能把它做好,而這一步能做對,是整個 Agent workflow 能端到端地打通的一個關(guān)鍵。不管是走垂直路線還是走通用路線,這個東西都是值得大家注意的。

夏令:非常好。楊總這邊也在做非常多的實際落地,也特別想聽聽您對于模型評估和效用有什么看法。

楊勁松:我們的評估其實更多地面向用戶場景,所以實際上不能說它是一個標(biāo)準(zhǔn)化東西,而是偏向 customer specific 的評估方式。我們自己進(jìn)行評估,主要圍繞通用能力,比如 Agent 的準(zhǔn)確度。但在客戶層面,我們會基于應(yīng)用場景下客戶的項目范圍,確定 Agent 的核心任務(wù)和主鏈路,通過所謂客戶提供的方式把任務(wù)常見的數(shù)據(jù)進(jìn)行整理,包括它的輸入和準(zhǔn)確答案。然后我們會有一個自動化工具來進(jìn)行評估,類似于你來答題我來查的思路。

不同客戶的關(guān)注維度也不一樣,比如有的是準(zhǔn)確度,模型可以不回答,但只要回答就必須是準(zhǔn)確的。也有的客戶要模型把整個推理過程進(jìn)行展現(xiàn),他們自己做判斷和確認(rèn)。所以評估也要根據(jù)場景需求做不同的設(shè)定,我們的自動化評估工具會針對每一類場景做調(diào)整和改動,收集到對應(yīng)的測試 case。從迭代產(chǎn)品的角度來說,有一些常規(guī)的 case 會在每一次迭代以后用于驗證。我們根據(jù)執(zhí)行任務(wù)的鏈路長短,對驗證問題也做了分層,嘗試讓它不斷提升,達(dá)到更可用的狀態(tài)。如果模型在某一個場景上有了突破,我們就會發(fā)布一些新的能力。

張?zhí)鞓罚何覍@個事情還挺有感觸的。首先我們?yōu)槭裁匆u估模型?還是希望模型變得會越來越好,交付的結(jié)果越來越好。但是在實踐過程中,我想給大家的一個建議是,先想人類法則,再想 AI 法則。這是啥意思呢?我給大家舉一個場景,

我們有一個用 AI 在微信里跟借款人溝通分期還款的過程,在這件事情上,話術(shù)在提升到一定程度以后對效果的增益就很小了。最后我們的解決方案就是把借款人拉到一個群里,群里好幾個角色,有人唱紅臉,有人唱白臉。比如有人會說,哥你要不就還錢吧,別因為這個事再把房子給查封了。然后另外一個 Agent 可能就是律師的角色,就說反正我們一直在推流程,你愛還不還。所以我想分享的事情是什么呢?就是尤其在創(chuàng)業(yè)這件事情上,大家不要一味地追求 AI,天天做 evaluation 讓它在話術(shù)上做得有多好,一定要去想想商業(yè)模式或者其它維度上,還有沒有創(chuàng)新可做。

第二件事情是,其實我們在 day one 的時候就很難采用傳統(tǒng)方案,比如先確定一個結(jié)果,然后去做 evaluation,再去完成。法律服務(wù)不像數(shù)學(xué)或者 coding 問題一樣,是有一個準(zhǔn)確結(jié)果的。早期我們確實沒有找到特別好的方法,但是現(xiàn)在我們會把完整的信息更 freely 地全部交給模型,然后也不做過多的干預(yù),讓它根據(jù)借款人歷史的溝通記錄、微信記錄、法院信息,自己評估怎么做更好。

在這個過程里我們也找到了很多 Aha Moment。比如說我們內(nèi)部會區(qū)分 good case、bad case,有一種情況是借款人分期 12 期,還了 10 期就不還了,那這到底是一個 good case 還是 bad case?這個問題上模型給出的結(jié)果就特別好,它說如果分期的金額很少,還了 10 期,后面 2 期不還了,那借款人可能是惡意的,這就是一個 bad case。但如果每期的金額很大,借款人還了 10 期,那已經(jīng)挺不容易了,這就應(yīng)該是一個 good case。所以在這整個流程里,我們會覺得還是要更少地 control,然后把更多、更全面的信息扔給模型,這樣可能會有相對好的結(jié)果。

夏令:明白。??傋龅氖侵悄荏w之間的通信,本質(zhì)是為了讓智能體之間能夠協(xié)作起來。從協(xié)作成本和效率這個角度來講,您這邊有沒有比較好的評估方法,或者您看到了什么問題?

常高偉:我們在評估方面的研究暫時并不多,目前更關(guān)心的還是連接和通信的效率。比如兩個智能體在協(xié)作的時候需要收發(fā)數(shù)據(jù),那么雙方對數(shù)據(jù)理解的一致性要如何才能更高,以及智能體是否能夠直接地、低成本地連接到其它智能體,這些是我們目前更關(guān)心的問題。

Agent 商業(yè)化前途何在

夏令:Agent 的商業(yè)化這個問題,相信也是大家都非常關(guān)心的。大家能夠感受到,在中國做 toB 的 SaaS 工具,其實是非常有挑戰(zhàn)的。優(yōu)質(zhì)的客戶少,客單價小,市場環(huán)境也不是特別友好。所以我想請楊總和天樂總重點分享一下,因為兩位都是做 to B的,如何在中國這個 toB 環(huán)境下,讓 Agent 取得比較好的商業(yè)化效果?從商業(yè)模式來講,如何和客戶形成比較好的合作關(guān)系?從價值層面來講,如何創(chuàng)造客戶愿意付費的價值?我們請楊總先來談?wù)劇?/p>

楊勁松:我首先簡單介紹一下我們商業(yè)化的成果。我們做到了一年大概千萬左右的收入,今年大概會有四五倍的增長,所以我認(rèn)為 Agent 商業(yè)化這件事情還是可以做的,這是基本的背景。具體來講,大家對 Agent 市場的判斷基本上是十倍于云的體量。以前 SaaS 很難做大,可能是因為市場規(guī)模就相對較小,但 Agent 的市場規(guī)模是比以前更大的。

從具體的商業(yè)化思路來講,不確定我們對大家有沒有借鑒意義。我們的想法是在一項新技術(shù)出現(xiàn)的早期,有一個市場是所謂的賣鏟子。對于 Agent 來說,Agent 基礎(chǔ)設(shè)施或者構(gòu)建 Agent 需要的一套工具鏈,就是鏟子的需求,我們在商業(yè)化早期主要就是做這塊市場。雖然那個時候已經(jīng)有了很多的開源工具,但是我們差異化的點在于,一家相對嚴(yán)肅的企業(yè)如果所有核心應(yīng)用都通過開源工具去構(gòu)建,他們可能是不太好接受的。所以我們就面向他們對鏟子的需求,通過這個過程,再挖掘可以靠交付結(jié)果收費的應(yīng)用場景。如果你的工具沒有被客戶用起來,其實這些應(yīng)用場景是很難自己找到的。

自己拿著鏟子找垂直場景、驗證可行性,其一是速度比較慢,其二是時間窗口比較短。我們的做法是先賣出去一批鏟子,等若干大的企業(yè)、行業(yè)用起來,就觀察到存在部分場景 Agent 已經(jīng)可以部分地做到端到端,或者在人的輔助下能實現(xiàn)效率五倍到十倍的提升,這些場景是一定可以做出一些不一樣的東西的。所以我們的商業(yè)化思路就是,第一步賣鏟子,鏟子進(jìn)入行業(yè)以后會定義出來垂直場景,我們就聚焦在這幾個點上用結(jié)果計收。

我們現(xiàn)在切入了一個場景,就是通過 Agent 進(jìn)行審計。這是一個非常細(xì)分的市場,最頭部審計公司的市場占有率有只有 1%。為什么這么分散?因為這個行業(yè)高度依賴人工專家親自去到現(xiàn)場,做很多的 paperwork。這些專家很值錢,一個審計項目報價大幾十萬是很常見的,利潤率也很高。在這個場景里,Agent 可以創(chuàng)造的價值就是原本需要全部由人完成的 paperwork,我們通過 Agent 完成大部分的中間結(jié)果,人只起到驗證性,或者最終簽字蓋章的作用。從提升效率的角度來說,我們算下來相當(dāng)于節(jié)省了 10 倍以上的人力。這種場景是很有可能按照結(jié)果計收的。如果提升只有百分之十幾或者二十幾,那很難按結(jié)果計收,但如果有 10 倍的提升,你甚至可以直接進(jìn)入這個行業(yè),做一個新玩家。鏟子是一個基礎(chǔ),我們的思路就是識別這些場景,然后切入。

夏令:明白。我自己經(jīng)歷過之前國內(nèi)那一波 SaaS 的商業(yè)化,所以 23 年下半年的時候我也比較感觸,toB 要在中國落地的話,很多用戶就是更愿意為結(jié)果,而不是為效率工具買單。可能在一段時間內(nèi),國內(nèi)的 toB 服務(wù)領(lǐng)域還會是這樣。

我們都比較認(rèn)可,商業(yè)化最好的方式是交付結(jié)果,讓用戶為結(jié)果買單。這個問題也想和天樂總探討一下,那就是這個路徑會不會變相地成為一種人力外包業(yè)務(wù)?從您的經(jīng)驗來看,Agent 交付結(jié)果和傳統(tǒng)的人力外包,在商業(yè)上有哪些顯著的不同?以及可以規(guī)避以前的哪些問題?

張?zhí)鞓罚何矣X得我們比較幸運的一點是,我們算是做了三代 AI。最早在微軟做圖像識別,后來做卷積神經(jīng)網(wǎng)絡(luò)的那一套東西。我認(rèn)為今天的商業(yè)模式一定是跟著 AI 的,要和當(dāng)前的技術(shù)強相關(guān)。幾年前沒有大模型的時候,我覺得 AI 還是只有工具屬性,中國的 SaaS 生態(tài)也不夠好。但是今天我們看到 Agent 和 LLM 的能力已經(jīng)大幅增強了,這種時候就更應(yīng)該在結(jié)果上選擇一種自然的商業(yè)化方式。

第二點,我們在交付結(jié)果的時候是不是像以前的人力外包公司一樣,這個問題我想分成兩個維度來談。首先對于甲方,我們盡量讓自己看起來和傳統(tǒng)方案是一樣的,讓他們的切換成本最低。尤其是跟金融機構(gòu)談合作的時候,我們不怎么強調(diào) AI,這對他們來說不重要,重要的是我們能交付結(jié)果。我們會非常關(guān)注甲方能不能在傳統(tǒng)作業(yè)方式和我們的方案之間無縫切換,甲方需要的是你幫他解決問題,而不是你用 AI 幫他解決問題。實實在在地解決問題,這是最核心的。

其次,我們覺得 AI 最好的模式不是 Chatbot。早期 OpenAI 的 Chatbot 完全限制了 AI 的能力,o1 出現(xiàn)之后,我們認(rèn)為 AI 最強的能力是 planning,所以去年我們就一直在做 planning,這是我們做對了的事情。但做得不對的事情是,我們沒把 planning 做透,沒有在整個作業(yè)過程里把 planning 的能力充分發(fā)揮出來。我們目前的基礎(chǔ)方案是,有一個 planning 能力非常強的 Agent 進(jìn)行整個案件和任務(wù)流程的規(guī)劃,把每天的日程、跟各方的溝通內(nèi)容形成 task。我們內(nèi)部嚴(yán)格意義上都是 task 交互,機器一直在下達(dá) task,Agent 和人也是拿著 task 工作,這樣人和機器就能在一個體系里更好地執(zhí)行。

我們認(rèn)為最終的結(jié)果應(yīng)該是 Agent 把人替代掉,但是這個過程的中間狀態(tài)很重要,因為組織不可能完全沒有人,也不可能 day one 就一下子把人全換成機器。我們現(xiàn)在用機器進(jìn)行規(guī)劃,然后盡量平滑掉人和機器之間的差異性,就是為了慢慢降低人的占比。但我們也不是要做純粹的無人化,因為我們在這個過程中發(fā)現(xiàn)有很多崗位,其實沒辦法用 Agent 替代。比如我最開始覺得郵寄文件這項工作好像很容易被替代,但是后來發(fā)現(xiàn)這個崗位的工作其實非常麻煩,他不光需要從 call EMS,還需要修打印機、換紙,是挺難替代的。我們公司最應(yīng)該被替代的就是我。所以我覺得人機混同,然后直接交付結(jié)果,這就是最好的組織形態(tài)。

Agents 生態(tài)如何建立

夏令:下面希望跟大家探討一下生態(tài)問題,這方面主要想請 Bill 總和??傉?wù)?。首?Bill 總的重點還是服務(wù)海外的企業(yè)級客戶,相比于中國客戶,美國企業(yè)的信息化程度和 SaaS 滲透率是相當(dāng)高的。我們之前看過一些調(diào)查,很多美國企業(yè)會購買三四十個不同的 SaaS 工具,Agent 進(jìn)入企業(yè)之后也不會把這些 SaaS 全部替換掉,而是成為生態(tài)的一部分。所以我們的產(chǎn)品要怎么融入企業(yè)生態(tài)以及海外的 Agent 生態(tài),Bill 總有沒有初步的設(shè)想?

朱哲清:我一直有這么一個觀點,不知道大家會不會同意,那就是在海外,SaaS 和 Agent 之間是沒有沖突的。Agent 在很大程度上是把 SaaS 的生態(tài)做得更加集成化,原來企業(yè)可能需要對各個 SaaS 單獨集成,然后讓員工熟悉怎么使用這些工具。未來如果由 Agent 集成所有的 SaaS 工具,這就變成了一個 single prompt 的問題,員工只要知道怎么 prompt,就可以調(diào)用所有的 SaaS 工具,這可能是 Agent 在海外生態(tài)的優(yōu)勢。

我對國內(nèi)的生態(tài)不是很熟悉,但是據(jù)我了解,國內(nèi)很多時候是外包公司直接進(jìn)入某個公司 build 一個 solution,然后這家公司直接使用,最后每一家公司都做了自己的集成,但是沒有統(tǒng)一的接口。這就導(dǎo)致即使有了 Agent,Agent 還是要從零開始重復(fù)構(gòu)建功能,Agent 在一家公司串聯(lián)以后,沒辦法在另一家公司也能串聯(lián)。海外生態(tài)可以保證大多數(shù)公司的 SaaS 服務(wù)體系都類似,一個 Agent 在 A 公司成立,那它在 B 公司大概率也成立,這是我目前看到的海內(nèi)外生態(tài)的最大區(qū)別。

我舉個簡單的例子,海外幾乎所有公司都在用 JIRA 作為 SaaS management tool。如果說到 sales,那幾乎所有公司都在用 Salesforce 的 CRM。所有公司 financial 的 bills 都是通過 Bill.com、NetSuite 或者 SAP 來完成。這一系列工具全部都是標(biāo)準(zhǔn)化的,只要你的 Agent 知道怎么調(diào)用這些工具,就可以把整個工作流全都串起來。但據(jù)我了解,除非可以把所有集成公司全部打通,讓大家都用一套接口,否則這件事情在國內(nèi)很難完成。

張?zhí)鞓罚含F(xiàn)在國內(nèi)的很多技術(shù)方案是做一套 RPA,嘚嘚點完,然后交付結(jié)果。

夏令:楊總對這塊是不是比較有經(jīng)驗?

楊勁松:我們現(xiàn)在可以看到一個變化,那就是各個大廠都在試圖建立自己的 MCP 協(xié)議聯(lián)盟,這會倒逼 SaaS 廠商,至少頭部 SaaS 廠商開放自己的核心能力。這樣不管是哪一家,最后肯定會有一個 Agent 入口來調(diào)配這些工具。但是在這個事情發(fā)生之前,至少目前國內(nèi)生態(tài)還是非常封閉的,和海外生態(tài)會相差幾個量級。

朱哲清:是的。我們在海外集成了很多工具,雖然有些工具也挺難集成,需要很多 approve process,但我們還是把它打通了。其實去年年底我們嘗試了解過國內(nèi)生態(tài),但是后來直接放棄了,因為這件事情不太可能由我們完成。

楊勁松:其實我覺得 RPA 思路可能會稍微弱一點,如果純粹從打通生態(tài)的角度來說,現(xiàn)在有一種基于多模態(tài)模型的方案可能會更通用,也會更快。其實對于海外生態(tài),我有一點很好奇,就是像 Zapia 這種集成了幾千個工具的產(chǎn)品,進(jìn)去之后主要的優(yōu)勢是什么?

朱哲清:從 MCP 的角度來說,現(xiàn)在市面上有超過 15, 000 個 MCP,其中可用的不到 200 個,大多數(shù)都是 complete trash。即便是那兩百個我們 evaluate 出來已經(jīng)可用的 MCP,它們的 input 和 output 也是跟整個 context 完全無法銜接的。也就是說,這些工具是基于以前非 AI native 的 API 做出來的。所以首先,構(gòu)建一個相對比較 AI native 的工具鏈就很重要。

第二點是工具調(diào)用的問題。Zapia 集成了將近 8, 000 個工具,但是如果仔細(xì)去看,會發(fā)現(xiàn)它在每一個平臺上的集成都很有限,比如說 Facebook page,它只有兩三個 function,可以 post 一個 text,可以 fetch 一些 comments。但是真正的 Agent workflow,是當(dāng)一家公司有 marketing 的需求,它可以橫跨整個媒體矩陣發(fā)帖,監(jiān)控所有的comments、likes、轉(zhuǎn)發(fā),然后再基于所有的 comments、likes、轉(zhuǎn)發(fā)實時觀察、決策哪些值得回復(fù)。如果有必要的話,這個 Agent 還應(yīng)該可以發(fā) Email 給我,讓我找真人去回復(fù),或者發(fā)一個 coupon 出去。這種級別的 Agent workflow 才是真正的企業(yè)級需求,但是目前 Zapier 完全沒有辦法做到,所以它的集成都非常 high level。

然后第三點是構(gòu)建方式。它目前的構(gòu)建方式是 fixed workflows,也就是某個 function 的 output 和下一個 function 的 input 必須是固定的關(guān)系。如果你要把整個 workflow 稍微改一改,那就得從頭開始構(gòu)建整個workflow,這也是一個巨大的包袱。我們在做 Pokee.ai 的時候,希望把這些問題都規(guī)避掉,做到這一點的前提是整個規(guī)劃過程得靠模型能力完成。而拿模型能力直接從零開始 plan 一個二十幾步的 workflow 是不現(xiàn)實的,所以我們建了一個自己的 foundation model,把 planning 和工具調(diào)用過程變成我們自己的模型的任務(wù)。當(dāng)這個最難的部分去掉之后,語言模型唯一的任務(wù)就變成了理解用戶需求。

夏令:好的。下面一個問題想請教??偅褪侵悄荏w之間的通信應(yīng)該也非常依賴生態(tài)。您目前在做開源社區(qū),從構(gòu)建 Agent 之間的通信和協(xié)作的角度來講,您對打造生態(tài)有什么想法和見解?

常高偉:我先回應(yīng)一下朱總剛才的觀點。首先我們也比較認(rèn)可當(dāng)前的協(xié)議整體可能還處于早期階段,智能體之間的連接和協(xié)作還不是特別強烈的需求。第二我們也非常認(rèn)可 AI native 的連接,我認(rèn)為在現(xiàn)有的系統(tǒng)上可能有辦法解決,但是會比較困難。未來有沒有可能有其它系統(tǒng),比如企業(yè)軟件或者我們使用的軟件慢慢智能體化之后,出現(xiàn)更多 AI 原生的連接,這個時候可能會有更簡單的解決方案。我特別看好這個方向,我們也正在做這樣的嘗試。

555

回到生態(tài)的問題上,我們在通過幾個不同的渠道構(gòu)建生態(tài)。第一個渠道是通過標(biāo)準(zhǔn)化組織打造影響力,比如我們現(xiàn)在和 W3C 合作還蠻多的,我們在里面也成了一個智能體協(xié)議相關(guān)的社區(qū)組,有很多國內(nèi)外的大廠都在里面。我認(rèn)為現(xiàn)階段要談落地的話,可能還比較早期,但是在影響力和技術(shù)的探索上,確實已經(jīng)可以著手去做了。我們能看到其他的標(biāo)準(zhǔn)化組織也在做這樣的事情,比如 IETF、思科、IEEE,大家都在考慮智能體協(xié)議應(yīng)該怎么做。

另一個渠道是開源社區(qū)。目前我們一方面在自己做開源項目,圍繞我們的協(xié)議開發(fā)一些軟件,讓這個協(xié)議更加好用。同時我們也會和其他開源社區(qū)合作,做一些開源框架的設(shè)計,觀察我們的協(xié)議怎么更好地融入他們的開源框架里。未來,我們希望自己的協(xié)議能夠支持大部分的開源框架。

我們認(rèn)為目前智能體協(xié)議最大的瓶頸,可能在于基模能力的限制,也就是還沒有一個非常好用的智能體,所以智能體之間的連接需求也不是特別多。但我認(rèn)為這個瓶頸遲早是能夠突破的,所以我們更關(guān)心的是和標(biāo)準(zhǔn)化組織以及開源社區(qū)的溝通和合作。在國內(nèi)以及國外,我們都在推進(jìn)這方面的事情。

長上下文與動態(tài)記憶,Agent 走向未來

夏令:不同業(yè)務(wù)場景對 Agent 技術(shù)的突破也有不一樣的期待。下一個問題,想請大家分享一下最期待的 Agent 技術(shù)突破分別是什么。我們從??傞_始。

常高偉:我們用最先進(jìn)的模型測試協(xié)議調(diào)用能力,發(fā)現(xiàn)它們對協(xié)議的理解能力已經(jīng)非常強了,調(diào)用的準(zhǔn)確度也非常高,在 95% 以上。對我們來說,目前最大的問題就是耗時太長,成本也比較高。

訪問速度問題比如用 ANP 協(xié)議定酒店,我告訴 Agent 我想找西湖周邊的酒店,它會幫我找二十幾家,并且查看未來一個月的時間里這家酒店的房源,找到之后再預(yù)定下單。這一整套操作下來需要 5~6 分鐘,時間還是非常長的,所以我們現(xiàn)在比較關(guān)心的就是智能體的反應(yīng)速度什么時候能提高。另外還有成本,我認(rèn)為這個問題和協(xié)議非常相關(guān)。因為不管使用哪種協(xié)議,對上下文的消耗都是非常非常大的。如果成本降不下來,就會成為阻礙協(xié)議落地的關(guān)鍵點。

夏令:好的。天樂總最期待哪塊技術(shù)的突破?

張?zhí)鞓罚菏紫任艺J(rèn)為,未來我們公司的狀態(tài)是一個很聰明的 Agent 去調(diào)度一堆 action 的工具,目前 action 對于我們是一個工程問題,只要花時間就能解決得相對好,但是在經(jīng)驗上,我剛才也提到從 day one 開始我就覺得 RAG 機制不本質(zhì)。我最近在看 memory 相關(guān)的論文,想找到做信息 retrieval 更有效的方式。我覺得 memory 有一個很重要的邏輯在于遺忘,人是會忘掉一些東西的,模型應(yīng)該有一本百科全書,但百科全書里面也有一些 rubbish。我們希望構(gòu)建一層 memory,把匹配的效率、retrieval 效率和正確率大幅提升,并且實現(xiàn)自動地記憶和遺忘,甚至還要修正。

夏令:明白。楊總您最關(guān)心的是什么?

楊勁松:有兩塊。首先是張總剛剛提到的 memory,我也覺得其實目前行業(yè)里并沒有做得特別好的相關(guān)實踐。第二塊是上下文。目前的 Agent 對于大部分復(fù)雜任務(wù),可能工作一段時間之后上下文就斷掉了,需要通過一些工程化手段來恢復(fù)斷點,然后再繼續(xù),這種模式限制了很多 Agent 完成復(fù)雜、長鏈路、高價值任務(wù)的可能性。動態(tài)記憶可能是這個問題的解法之一,這兩項技術(shù)具有相關(guān)性。

夏令:這里我想插一句。對于 OpenAI 和 DeepSeek 來說,它們都是 128K 的上下文長度。從目前來看,大概什么數(shù)值的 long context 對您來說可能是夠用的?

楊勁松:首先這 128K 其實大部分都是輸入的 context,輸出的長度會小很多。我們覺得首先最好能先到百萬級別,但肯定是越長越好。我覺得更重要的是能不能出現(xiàn)一種新的機制,讓上下文不再是一個瓶頸,而是可以從模型側(cè)不斷拓展。我看到有些項目在底層做 memory 的基礎(chǔ)設(shè)施,這可能是一種方法。但是我們看現(xiàn)在的 Coding Agent,Sonnet 因為上下文更長,任務(wù)質(zhì)量就會好很多,用動態(tài)記憶的話,其實上下文在中間就斷掉了,那任務(wù)質(zhì)量一下就降低了。

夏令:是的。這還不是單純的上下文長度問題,背后還涉及到成本。另外上下文長了之后,海底撈針,我們還要考慮命中率的問題。

楊勁松:是的。

夏令:朱總最近在硅谷,您比較關(guān)注和期待的技術(shù)前沿是哪一塊?

朱哲清:其實現(xiàn)在有很多東西都在并行發(fā)展,其中很多可能和我們今天聊的沒有太大關(guān)系,但既然大家都講到了 memory 跟 context,那我再補充一點。在別的訪談中,我提到過自己一個叫 large concept model(大型概念模型)的 line of research(研究方向),意思就是在生成的時候,并不是以 token by token generation 的方式,而是以 concept embedding(概念嵌入)的方式去做 autoregressive generation。然后會有一個 decoder,把 concept embedding decode 成一段或者一句話,這樣就可以把整個 retrieval 以及生成的過程,當(dāng)然還有上下文長度給極致地壓縮。這是因為對語義理解來說,我們并不需要每個 token 或者每一個詞都展示出來,才能知道語義是什么,很多時候模糊的語義就足以用來完成所有的 inference 以及問答了。

另外從生成速度以及成本來說,diffusion model text(擴散模型文本生成)可能是一個值得大家關(guān)注的方向,原因在于它的生成不再是以一個完全 token level  autoregressive  的方式,而是在整個 text 的整個 output corpus level(語料庫級輸出)進(jìn)行 autoregressive generation。這樣一來,它生成所需的 information 就更少,compression(壓縮)更多,整體的效率也會提高。我覺得如果這兩條線未來能有比較大的突破,那生成的 context 以及 speed 都會有比較大的進(jìn)展。

夏令:下面是今天的最后一個問題。因為大家都在創(chuàng)業(yè),也都很關(guān)注這個行業(yè)里其它技術(shù)和產(chǎn)品的進(jìn)展,可不可以每人分享一個自己最近的 Aha Moment?我們從 Bill 總這邊開始。

朱哲清:這還真問倒我了。我覺得最近出來的產(chǎn)品同質(zhì)化比較嚴(yán)重,還真沒有什么特別的 Aha Moment。

夏令:那技術(shù)上有沒有一些 paper 讓你印象很深刻?

朱哲清:要說最近的 paper 還真有幾篇。首先是 RL 相關(guān),特別是跟 RL fine tuning 相關(guān)的 paper。最近有一篇 paper 說 random reward function(隨機獎勵函數(shù))也可以幫助一個 RL base solution 找到更優(yōu)的 policy。

其實很多年前就有一篇文章說,當(dāng)你拿同一個 RL 算法做 30 次實驗,至少可以得到 5~6 次實驗結(jié)果是 state-of-the-art,剩下的實驗都是 complete trash,這篇 paper 也有點類似的感覺。RL 算法的穩(wěn)定度本身就不夠,在進(jìn)入 LLM 時代之前就是這樣?,F(xiàn)在我們拿了很多我們認(rèn)為可能已經(jīng)是做到了最好的 RL 算法放進(jìn) LLM,然后大家用各種各樣的 hack 嘗試得到更好的 LLM 放進(jìn) production,但其實這整個背后的理論以及 RL 算法體系的構(gòu)建都還不是很成熟,這是值得大家關(guān)注的一點。

在 LLM 這個生態(tài)系統(tǒng)中,RL 未來的發(fā)展空間是非常非常大的,而大家對技術(shù)的了解又很不夠。比如當(dāng)年 GRPO 出來的時候,大家都覺得它是更好的RL算法,但事實上它是一個從 PPO 退化而來的 RL算法,所以我覺得這當(dāng)中的 gap 以及可以探索的方向是非常非常多的。

夏令:好的。楊總這邊有沒有什么可以分享的?

楊勁松:我就講一個產(chǎn)品上讓我比較驚艷的點,它來自一款我們可能已經(jīng)有點忽視的產(chǎn)品,就是 ChatGPT。它在去年晚些時候上線了一個記憶能力,給了我所謂的 Aha Moment。我之前用 ChatGPT 做了很多對外演講稿的潤色,做這件事情的時候我會把 OKR 給它,所以它基本上對我這個人的畫像已經(jīng)熟悉到了恐怖的程度,比如它知道我是從哪所學(xué)校畢業(yè)的,目前在做什么方向的創(chuàng)業(yè),以及我們創(chuàng)業(yè)的定位和打法。今天我們討論的幾個問題,如果我讓它站在我的角度思考,然后給我一個大概的 context,那他輸出的 bullet point 會和我自己的想法差別非常小,這是一個我覺得非??膳碌捏w驗。

雖然就產(chǎn)品本身我們沒有看到它任何界面上的調(diào)整和變化,但是從用戶體驗和粘性來講,我肯定不會再去找什么 Claude 或者是 Gemini。我們之間的記憶已經(jīng)被拆解到它的思考里面了,那它的效果肯定是更好的。如果未來我們的產(chǎn)品,也可以把過往和用戶交流中有價值的信息融入服務(wù),產(chǎn)生粘性,那也會是挺可怕的一件事情。

夏令:這個我也有同感。ChatGPT 也準(zhǔn)確地知道我是一個投科技的風(fēng)險投資人,還說什么我人生路演 PPT 的標(biāo)題應(yīng)該寫“投資未來:從神經(jīng)網(wǎng)絡(luò)到孕育新生”,這個彩虹屁真是可以。天樂總最近有沒有感受到一些 Aha Moment?

張?zhí)鞓罚何也皇枪ЬS啊,Pokee.ai 這個產(chǎn)品對我來說算是一個 Aha Moment。

朱哲清:謝謝謝謝,有點震驚到我了。

張?zhí)鞓罚捍_實是這樣。Manus 出來之后我特別認(rèn)真地學(xué)了好幾天,我覺得它確實把我們以前想到的一些事情非常好地工程化了,但是后續(xù)我個人覺得沒有特別多新意。你們發(fā)布 Pokee.ai 的時候談到了一個問題,就是未來會有很多的 tools 讓我們在日常場景調(diào)用。我當(dāng)時想了一下,我們的 tools 現(xiàn)在可能沒有那么多,但是長期來看確實會越來越多,那當(dāng)我們真的到了有大量 tools 的時候,如何能夠有效地調(diào)用。我覺得用 RL 的方式去解決,這個還挺有意思的。

另外一個 Aha Moment 是在我個人的興趣方面,就是文生 3D。有一個產(chǎn)品叫 AdamCAD,是一家美國公司做的。我最早是做圖形學(xué)的,那時候我們做高性能計算,我覺得文生 3D 的價值非常大。如果我們有足夠多非常好的 3D model,那就可以把整個世界 construct 出來。我覺得它是在結(jié)構(gòu)性地碾壓今天很多應(yīng)用,還挺有意思的。

夏令:好的。??傋罱惺裁?Aha Moment?

常高偉:我這個不是最近,應(yīng)該是在一兩個月之前。我們在調(diào)協(xié)議的時候是讓模型驅(qū)動協(xié)議的生成,收到響應(yīng)之后也不會用代碼來處理,而是直接把響應(yīng)給到模型。在這個調(diào)聯(lián)的過程當(dāng)中我們發(fā)現(xiàn)了一個非常有意思的現(xiàn)象,一直到那天晚上都很激動。就是模型第一次發(fā)起請求的時候,對協(xié)議的理解有問題,發(fā)送給另一端的時候少帶了一個城市的字段。另一端發(fā)現(xiàn)之后,就直接返回了錯誤,告訴它你沒有帶城市,所以這次請求是失敗的。我當(dāng)時在看日志,我本來以為模型到這就會把這次流程結(jié)束掉,結(jié)果模型沒有結(jié)束。我們沒想到這個模型又把請求修改了一下,修改成功之后又發(fā)送過去,然后第二次請求就成功了,這整個流程居然走完了。

夏令:它在自我迭代。

常高偉:是的,自我迭代。雖然我們通過分析也能夠明白這件事情,但是真正看到它這樣做的時候,感覺是很不一樣的。我認(rèn)為包括我們現(xiàn)在在用的很多軟件在內(nèi),未來可能都不需要太多代碼,完全可以把復(fù)雜度內(nèi)化到模型里,我們給它幾個工具,再讓它學(xué)習(xí)怎么收發(fā)協(xié)議就夠了。模型未來有可能可以自己慢慢學(xué)習(xí),未來的智能體有可能就是模型加工具能力。比如說內(nèi)存有沒有可能也變成一個可調(diào)用的工具,智能體自己就可以學(xué)會寫內(nèi)存,非常有可能。這是最近一兩個月讓我非常興奮的一點,我認(rèn)為它對軟件形態(tài)也會有很大的改變。

朱哲清:內(nèi)存和硬件調(diào)用這件事情,其實微軟、高通、英特爾內(nèi)部都在做。未來硬件的調(diào)用會由 Agent 來完成這件事情,可能已經(jīng)變成了一個共識,在硬件廠商里是一件非常 common 的事情。我認(rèn)識一些硬件廠商的 VP,他們希望能夠盡可能把硬件上的軟件極簡化,使得整個硬件更可控。

夏令:Agent 確實應(yīng)該能成為 OS,因為 OS 本身的功能就包括更好地兼容和調(diào)用不同的硬件或硬件模塊。

朱哲清:對對。

夏令:今天聽了大家兩個小時的分享,我覺得收獲還是非常大的。我們各位嘉賓的觀點從 AI 的技術(shù)框架到落地應(yīng)用,以及未發(fā)展的趨勢,都有相互關(guān)聯(lián)的脈絡(luò),很開心能夠和大家一起交流。因為時間關(guān)系,今天線上聽眾的提問就只抽取一個問題,我們看到這個提問是留給常總的。這位聽眾希望進(jìn)一步了解一下,ANP 或者 A2A 跟 MCP 的區(qū)別是什么,它們分別更適合應(yīng)用于什么樣的場景?這塊能不能請??傇贋槲覀冞M(jìn)行一下補充?

常高偉:好的。我們先回到問題本身。首先我們一直認(rèn)為,MCP 在設(shè)計之初是為了解決模型連接工具和連接資源的問題,假設(shè)你在 GitHub 上有一個代碼倉庫,或者在谷歌上有個文檔,這個時候用 MCP 進(jìn)行連接是最合適的方案。而 A2A 和 ANP 的是用于連接智能體的,假如未來我們每個人都有一個智能助理,那這個時候我要給夏總發(fā)消息,我想直接找到夏總,夏總也想直接找到我,那 A2A 或者 ANP 就是更加合適的方式。一個是智能體之間的協(xié)議,一個是智能體和工具、資源之間的協(xié)議,這是它們最大的差異。

夏令:謝謝常總。今天非常感謝大家的時間,也再次感謝雷峰網(wǎng)和 AI 科技評論主辦的這次活動。也希望后續(xù)能夠在線下有更多時間跟大家交流,共建這樣一個屬于 AI Agent 的全新的創(chuàng)業(yè)時代。謝謝大家。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說