丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

Babel 張海龍:AI Agent 將鑄就一支“鋼鐵雄師”

本文作者: 賴文昕 2024-04-02 09:57
導語:導語:AI 程序員只是一個開始,數(shù)字員工才能解放生產(chǎn)力。

作者:賴文昕

編輯:陳彩嫻


在剛剛結束的英偉達 GTC 大會上,CEO 黃仁勛描繪了一幅在 AI 大模型影響下軟件開發(fā)的新藍圖:未來做軟件不太可能重頭開始寫一大堆代碼。

“很可能你會組建一支 AI 團隊?!秉S仁勛稱。

自大模型成為潮流起,“AI 團隊”的藍圖便早已初見端倪, AI Agent 賽道也成為了科技巨頭與創(chuàng)業(yè)公司多方角逐的兵家必爭之地。

3月13日,由華人創(chuàng)始團隊 Cognition AI 發(fā)布的全球首個 AI 程序員 Devin,徹底點燃了業(yè)界對 AI Agent 與應用的熱情,更掀起了一波由 AI 引發(fā)的失業(yè)焦慮與對于“AI 是否會取代人類”的終極討論。

在這場“風暴”之中,Babel 團隊站在了極靠近中心的位置——產(chǎn)品 Babel 同樣定位為 AI 程序員,是 Devin 的直接競品,團隊也是目前國內唯一一個聚焦 Coding Agent 的初創(chuàng)企業(yè)。目前,Babel 瞄準的是海外市場。

Babel 能夠根據(jù)需求自主規(guī)劃任務、編寫和調試代碼、研究新問題、進行自動化測試、迭代開發(fā)并在必要時尋求人類幫助。

例如,當被要求集成新發(fā)布的 Claude 3 這一超出了大模型固有知識范圍的任務時,Babel 會自主搜索SDK,找到文檔,編寫代碼,然后進行測試和驗證。最后,它會交付一個經(jīng)過測試且可用的 Claude 3 集成模塊。

Babel 旨在開發(fā)者的工作負擔,讓開發(fā)者有更多時間處理創(chuàng)造性工作和解決復雜問題。

“我堅持認為 AI 會替代初級程序員?!盉abel 的創(chuàng)始人兼 CEO 張海龍說。

3月初,張海龍從深圳坐早班機去北京見投資人。前一天晚上,同事說 Babel 更新了,張海龍便在五點半起床后輸入了 Babel 后臺管理系統(tǒng)的需求,飛機一落地,項目就已完成了。

那是他們第一次完整跑通如此復雜的需求。如果同一個項目找外包團隊來完成,想要拿到一個可運行的、通過測試的交付成果,大致需要一周的時間。

在決心做 Babel 前,張海龍的經(jīng)歷一直圍繞著軟件工程,并未真正進入過 AI 領域。

本科就讀于復旦大學軟件工程系,研究生就讀于卡耐基梅隆大學(簡稱“CMU”)的計算機學院,張海龍畢業(yè)后便在甲骨文任職高級軟件工程師。

2010年張海龍回國創(chuàng)業(yè),聯(lián)合創(chuàng)辦了開源中國社區(qū)。2014年,他又創(chuàng)辦了國內領先的開發(fā)者工具 SaaS CODING,隨后在2019年被騰訊收購。

ChatGPT 的橫空出世與底層模型的突破讓張海龍突然意識到,未來十年所有的創(chuàng)業(yè)機會都和 AI 相關。帶領著 CODING 時期的精銳,張海龍的第四次創(chuàng)業(yè)殺入了 Coding Agent 賽道。

以下是雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論與張海龍的對話。


Devin發(fā)布后,投資人有信心了

AI 科技評論:你有預料到會有 Devin 這樣的競品出現(xiàn)嗎?

張海龍:我其實沒有那么驚訝,因為這事我們能想到,別人也能想到。創(chuàng)業(yè)從來不是因為有特別牛的想法,關鍵是如何實現(xiàn)。

Devin 出來之前我們就確定要干 Coding Agent,但并沒有引起大的反響,很多人質疑是不是有點過于超前和理想主義。我們要花很大的精力去說服投資人這個方向是對的,側面意味著中國投資人其實信心不足,對于看起來特別超前的東西,第一個問題就是海外有沒有對標。

Devin 出來后大家發(fā)現(xiàn)很快可以看到產(chǎn)品,對于行業(yè)和賽道來講都是利好的。


AI 科技評論:那你怎么看 Devin?

張海龍:其實大家對同一個問題解決的深度不同。

Babel 張海龍:AI Agent 將鑄就一支“鋼鐵雄師”

類比自動駕駛,L1是 Google 這類純搜索,需要自己去組織信息;L2 是 ChatGPT 和 Copilot 這類 Prompt,可以直接問內置很多能力的 AI,AI 以用戶想要的方式提供信息;

L3 是 Synthetic Search 綜合搜索,相當于把前兩者融合了,Perplexity 和 Devv.ai 就屬于這一類,只不過 Devv.ai 聚焦 Coding,是一個垂直的 Perplexity;L4 則是 Issue Level Coding,目前看來 Devin 屬于 L4,L5 是 Project Level Coding。

從語言選擇上來講,就可以看到 Devin 和我們團隊的背景差異。Devin 選擇 Python,我們選擇 NodeJS,Python 是科學計算,但其實對軟件工程不友好,我們選擇 NodeJS 是因為業(yè)界做工程、做網(wǎng)站它就是最牛、用戶量最廣、生態(tài)最好的。

雖然大家的切入點不同,但都是先把一個語言做好?,F(xiàn)在還是用 demo、演示視頻比劃,真刀真槍的競爭還要看誰能更快地開放使用,拿到真實的用戶反饋。


AI 科技評論:那 Babel 屬于 L4 還是 L5 呢?

張海龍:Babel 是從 L5 開始探索的,現(xiàn)在在一些更窄的領域里面,比如只做后端、一些常規(guī)項目開發(fā),已經(jīng)初步驗證可行。但要使其受眾面更廣,要先解決 L4 的問題,所以我們計劃優(yōu)先發(fā)布一個 L4 的產(chǎn)品,叫 Gru.ai。

Gru.ai 是從 Babel 里面拆出來的一個 Agent,我們是在做 Babel 這個 L5 項目的過程中發(fā)現(xiàn) Agent Team 里面需要一個 Agent 能夠解決具體的技術問題。

這個問題是抽象的、不含有業(yè)務上下文、純粹的技術問題,比如問 Claude 3 的 API 怎么調,它就會給一段經(jīng)過測試的代碼。我們會先把 Gru.ai 單獨拉出來去服務客戶。


AI 科技評論:所以你們最近要開始推出產(chǎn)品了。

張海龍:我們會先開放小規(guī)模使用,現(xiàn)在要解決最后一些產(chǎn)品化問題,之前都在開發(fā)功能,沒有在搞穩(wěn)定性。

用戶對于 AI Developer 和 Agent 的容忍度還是挺高的,只要不是完全不能用或者特別傻,都還是知道潛力在哪的,所以我們沒有打算做到 100% 完美再推出,因為這不可能、也沒意義,還是會盡早放出來,讓大家先起碼在一小部分問題上面看到它能解決問題。


AI 科技評論:為什么選擇從 Agent 切入?目前最成功的應該是 Copilot 模式?

張海龍:在編程這個領域,最大的成本是人,所有的商業(yè)都圍繞人展開,從傳統(tǒng)的培訓、獵頭、外包,到通過提供生產(chǎn)工具提高人的生產(chǎn)效率的 VSCode, Copilot 等等工具。

開發(fā)者的日常除了造火箭,還有擰螺絲,Copilot 的邏輯就是把開發(fā)者的螺絲刀換成電鉆,讓開發(fā)者擰的又快又好,但 Babel 的邏輯是給開發(fā)者配個小弟,開發(fā)者只要造火箭就行了,擰螺絲的事兒都是小弟干。

所以 Copilot 是一個更好的工具,但 Babel Agent 就是那個生產(chǎn)力,這是兩件完全不一樣的事情。

Copilot 是一個已經(jīng)驗證成功的商業(yè)模式,但它離模型太近,離模型太近的商業(yè)模式對創(chuàng)業(yè)公司來說,離天堂也太近。我認為真正留給創(chuàng)業(yè)公司的機會就是 Agent。Agent 是模型能力 + 行業(yè) Know How + 復雜工程,創(chuàng)業(yè)公司還是有機會做出領先優(yōu)勢的。

當然這些心得我們也是探索出來的, Stephen Wolfram 的《What Is ChatGPT Doing...and Why Dose IT Work? 》給了我很多啟發(fā)。


AI 科技評論:中國 2B 的 SaaS 創(chuàng)業(yè)企業(yè)似乎沒有成功過,所以 Babel 是要走出海戰(zhàn)略嗎?

張海龍:作為一家替代程序員的公司,自然是哪里有程序員,哪里程序員貴我們去哪里,當前最大和最貴的初級程序員市場在美國,這當然是我們的首選目標。

至于國內市場,你提到國內 2B 創(chuàng)業(yè)的問題,確實存在,這是由于中國的整個 2B 市場仍然是大 B 驅動的,所以最終往往走向銷售型/定制化的不歸路,不少人說過再也不想趟大 B 這個坑,我們在騰訊也干了 3 年服務大 B,也干的很痛苦。

但是從另外一方面說,中國軟件的定制化程度是最高的,這是 Babel 擅長的事情,但目前國內的大模型能力無法支撐,需要至少達到 GPT-4 的水平,我們才有希望服務國內用戶。


AI Developer 是工程,不是算法

AI 科技評論:Babel 是基于 GPT-4 Turbo 搭建的,為什么會選擇它?當紅炸子雞 Claude3 表現(xiàn)會更好嗎?

張海龍:我們團隊做了個開源項目 LLM-RGB,用來測評當前市面上的大模型是否達到了 Babel 需要的最低標準。LLM-RGB 并不是一個全方位的測評,只關注開發(fā)領域。

從我們測評的結果來看,可以說在 Turbo 出現(xiàn)之前,L4 都不成立。Turbo 在上下文長度有巨大的擴展,號稱 128K,實測可能在 50K 左右。Devin 目前信息不明朗,但目測也是 GPT-4,magic.dev 則是明確自己做模型。

Claude3 出來以后,我們測試過,不需要修改任何代碼/Prompts,Babel Agents 可以完美地基于 Claude3 Opus 運行,并且效果比 GPT-4 更好,但是 Claude3 Opus 太貴、太慢,暫時無法實際采用。

對于 Babel 來說,底層的模型誰好用誰,切換成本并不高。把自己做到模型無關,才能搭上最快的火車。


AI 科技評論:那 AI Developer 不需要自己的大模型嗎?

張海龍:這涉及了公司的路徑選擇,我認為在 AI Developer 賽道自己做模型是錯誤的,意味著市面上所有的模型公司都是競品,而我們更愿意站在巨人的肩上做事情。

有人會青睞小模型或垂直模型,但我持相反意見,因為只有大模型能帶來智力,而智力是不分寫代碼寫得好還是打官司打得好,是底層的東西。


AI 科技評論:你之前的經(jīng)歷并沒有和 AI 強相關,做 AI Developer 有遇到什么技術難題嗎?

張海龍:其實技術上的困難沒有那么多,做 AI Developer 不是個科學或算法問題,是個工程問題,科學部分 GPT 已經(jīng)幫忙做完了,工程問題是我們團隊擅長的。

一個模型就像一個剛畢業(yè)的大學生,聰明,有知識,但沒法去企業(yè)里直接創(chuàng)造價值,我們要思考的是如何把一個聰明的模型變成一個聰明的工程師。

這個過程中最難的不是碰到了技術問題,而是不知道要解什么技術問題,因為這件事情沒有人做過。摸著石頭過河,畢竟也沒有可以參考的對象、工程方法論。

而且可用的基礎設施也有限,比如當前市面上的 Multi Agent 框架一旦深入細節(jié)就會發(fā)現(xiàn)問題,還是得自己做。


AI 科技評論:你提到工程是 Babel 團隊擅長的,你覺得這是你們的最大優(yōu)勢嗎?

張海龍:工程能力可以幫助我們積累一些早期優(yōu)勢,但 AI 公司最大的優(yōu)勢來源于“數(shù)字化的經(jīng)驗積累”?;ヂ?lián)網(wǎng)上所有公開信息都是結果,比如stark overflow 上的回答,Github 上的代碼,都是結果。很少有人把思考的過程和真正的經(jīng)驗數(shù)字化,這也是員工的價值所在。

為什么老員工寶貴?就是因為很多知識經(jīng)驗,他的命題邏輯、解題思路和解題過程在大腦里不可傳遞。很多厲害的程序員在工作的時候都恨不得自己有分身術,給他多少人手都不解決問題,就是源于這種經(jīng)驗的不可傳遞性。

但 Agent 的經(jīng)驗可以順便傳,可以復制 100 個 Agent,同時服務 100 個客戶,并行做 100 個項目。整合經(jīng)驗接著做第 101 個的時候,就是質的飛躍了。

Developer 賽道本質是個工程問題,不是算法問題,畢竟不是搞大模型。所以 Devin 的團隊雖然光環(huán)很大,但在這個賽道的實際表現(xiàn)有待觀察。人才的核心是團隊的 chemistry,現(xiàn)在 AI 賽道上特別喜歡頂著各種頭銜干活。雖說絕對的智商和學術上的權威很重要,但是也沒有那么重要,不然 GPT 就是 Google 做出來的了。我們和 CodeGen,Pythagora 的團隊基本都是干了很多年工程的人,從團隊優(yōu)勢上,我更相信我們這個成分的團隊更有優(yōu)勢。

同時,過去創(chuàng)業(yè)踩坑過程積累的經(jīng)驗也讓我經(jīng)常會反思,現(xiàn)在可以更好站在一個第三者視角審視我們項目的 vision、團隊和狀態(tài),在一個新型的領域創(chuàng)業(yè),面對技術和商業(yè)的雙重不確定性,這種觀察者的視角也會讓我們少走些彎路。


AI 科技評論:那目前在 AI Developer 賽道創(chuàng)業(yè)面臨著什么挑戰(zhàn)呢?

張海龍:第一,行業(yè)競爭非常激烈,因為所有人都要往 L5 走,少說有 20 個競爭對手是拿過風險投資的,所以融資能力也很重要。

但客觀來說,中國現(xiàn)在的融資環(huán)境確實差得很遠,對于中國團隊的競爭是極其不利的。但有利的地方在于中國團隊的工程經(jīng)驗高于外國團隊,我們各種非標項目、定制化開發(fā)、私有化、端到端全都干過。

第二是大模型太貴,所以依賴底層模型的進化,GPT-4 至少得再降價 10 倍,大規(guī)模開放才具有真正的可能性。不解決成本問題的話整個賽道都會完蛋。

Coding Agent 創(chuàng)業(yè)對所有人都挺難的,但會有一種扮演上帝的感覺,很有成就感。我們最初做一頁紙需求還做得磕磕巴巴,但現(xiàn)在已經(jīng)能處理大概四五頁紙的需求了,產(chǎn)品的每一次演進都能帶來正反饋,這種感覺真的太爽了。


數(shù)字員工崛起,人類失業(yè)?

AI 科技評論:你提到近幾個月 Babel 的很多想象逐漸變成了現(xiàn)實,那對于未來的 Babel,你的想象或者規(guī)劃是什么?

張海龍:Babel 到最后比較好的狀態(tài)是成為一個賣 Agent 人頭的外包公司。

比如我們以一個月 1, 000 美金賣出 Agent 后,客戶負責它耗費的電力、算力各種成本,相當于從外包招了個人進來,讓小弟幫干活。Babel 會持續(xù)升級這個小弟,讓小弟更聰明、干活干得更好、配套上各種工具環(huán)境,就是相當于數(shù)字員工。


AI 科技評論:那你也認為在未來 AI 程序員會取代人類程序員吧?

張海龍:其實我現(xiàn)在已經(jīng)看到了 AI Developer取代人類這件事了。

我們團隊只有 10 個人,沒人開發(fā)管理后臺這種非核心業(yè)務,所以我變成了要去負責后臺系統(tǒng)的人。當時我面對三種選擇,第一是自己寫代碼、從頭到尾開發(fā)系統(tǒng),但這太累了;第二是找外包;第三也就是我選擇的,用我們自己的 Agent 寫。

之前沒有 Agent 的時候,我們會找外包去處理這個問題,所以我相信對于初級程序員的替代最遲一年就會發(fā)生,我們的產(chǎn)品近期會發(fā)布,隨著后續(xù)迭代它會更成熟,在一年以后,相信可以就替代擰螺絲的初級程序員,但高級程序員是不會被替代的。

高級程序員往往擁有專業(yè)領域的非共識知識,這些知識無法通過公開領域的信息獲取。


AI 科技評論:但是高級程序員也是從初級程序員成長而來的。

張海龍:以后程序員的培養(yǎng)路徑也會跟現(xiàn)在不一樣,就像高科技種地一樣,不需要真的從種地開始學,以后所有低端培訓都可能會利空了。


AI 科技評論:除了 Coding 之外,你覺得還有哪些 Agent 會成為趨勢?

張海龍:其實從最新的融資情況來看,現(xiàn)在在法律、財務、市場等方向上都有團隊在做 Agent 了,程序員應該是數(shù)字員工這個大賽道中難度最高的一個。

我個人期待看到的是音樂和影視領域的 Agent。音樂 Agent 能全自動寫完整的歌曲,包括作詞、作曲,把詞和曲對上并且演繹出來。影視  agent 能全自動生成一個 10 分鐘的帶完整情節(jié)的短劇,不是一個個片段,而包含了鏡頭切換、故事內容和情節(jié)。

現(xiàn)在看大模型,行內人士遙遙領先、各種牽頭,但對于周邊老百姓的生活影響很小,只有當數(shù)字員工普及,人人都是 CEO,那才是真的社會性的變革。


雷峰網(wǎng)本文作者 anna042023 將持續(xù)關注AI大模型領域的人事、企業(yè)、商業(yè)應用以及行業(yè)發(fā)展趨勢,歡迎添加交流,互通有無。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

Babel 張海龍:AI Agent 將鑄就一支“鋼鐵雄師”

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說