0
本文作者: 劉潔 | 2024-10-14 10:18 |
七月初,OpenAI 一篇博文讓AI智能體的熱潮席卷全球,業(yè)界對(duì) AI 智能體的興趣達(dá)到了一個(gè)新的高度。
智能體被視為大模型之后的又一熱點(diǎn)。如在雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))公眾號(hào) AI 科技評(píng)論之前“具身智能十人談”欄目對(duì)聯(lián)想 CTO 芮勇的專訪中,芮勇就認(rèn)為,AI 發(fā)展的三部曲是從小模型到大模型,再到智能體。這也是聯(lián)想很早就關(guān)注到了 OpenAI,并快速跟進(jìn)智能體研究的原因。
首先要搞明白一個(gè)問(wèn)題:AI 智能體和我們熟悉的 AI 助手到底有什么不同?
表面上看,它們似乎都是幫助我們完成任務(wù)的工具???LangChain 的創(chuàng)始人 Harrison Chase 告訴我們,差別其實(shí)非常大。
AI 智能體指的是一個(gè)可以觀察周遭環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的自主實(shí)體。通俗地說(shuō),就是一個(gè)具備 AI 能力的主體,可以是硬件也可以是軟件,但一般都是軟件程序,比如 LangChain。
LangChain 是一個(gè)開(kāi)源框架,它的特別之處在于,你只需幾行代碼就可以快速搭建 AI 應(yīng)用。這讓創(chuàng)建復(fù)雜的智能體變得像搭積木一樣簡(jiǎn)單。
Harrison Chase 創(chuàng)立了同名公司 LangChain 后,還陸續(xù)推出了 LangGraoh 和 LangSmith 用于解決更復(fù)雜的問(wèn)題。
問(wèn)題來(lái)了:這些智能體真的比 AI 助手更強(qiáng)大嗎?
對(duì)此,Harrison Chase 的觀點(diǎn)非常明確。他認(rèn)為,AI 助手的核心在于輔助人類做決策,而智能體的核心則是自主行動(dòng),獨(dú)立決策。
AI 助手就像副駕駛座上的幫手,幫你指路、拿東西;而 AI 智能體則是司機(jī),它能夠自己決定路線和速度,獨(dú)立工作、處理一系列任務(wù),完全不需要人類的每一步指引。
早期的 AI 智能體,比如 BabyAGI 和 AutoGPT,曾被質(zhì)疑為換湯不換藥的 AI 助手炒作版。因?yàn)樗鼈兊娜蝿?wù)過(guò)于籠統(tǒng)、缺乏明確的規(guī)則,而實(shí)際上,企業(yè)真正需要的是能夠根據(jù)具體需求定制的智能體。
而當(dāng)今正火熱的另一個(gè)概念“具身智能”,其本身也是一種有身體并支持物理交互的智能體。LangChain 智能體是旨在增強(qiáng) LLM 能力的強(qiáng)大組件,使它們進(jìn)行決策和采取行動(dòng),從而實(shí)現(xiàn)更高級(jí)的智能形式。
Harrison Chase 把從用戶輸入到輸出,LLM 在調(diào)用中處理和流轉(zhuǎn)信息的整個(gè)過(guò)程稱為“認(rèn)知架構(gòu)”,并表示定制的認(rèn)知架構(gòu)能讓 AI 智能體根據(jù)需求反復(fù)執(zhí)行相同的任務(wù),自動(dòng)化大量繁瑣的事務(wù),實(shí)現(xiàn)用戶操作的極致簡(jiǎn)化。
當(dāng)然,AI 智能體能做的不止是流水線工作這么簡(jiǎn)單,在幫助用戶給繁瑣的工作做減法的同時(shí),Harrison Chase 還特別關(guān)注用戶體驗(yàn),通過(guò)定制做了新的加法。
一方面,AI 智能體能和用戶互動(dòng),給用戶更貼心的私人定制服務(wù),另一方面它們還能根據(jù)用戶反饋不斷優(yōu)化,越用越智能,讓用戶可以完全放手丟給 AI 智能體去處理。
不過(guò),對(duì)于那些目標(biāo)是做通用認(rèn)知架構(gòu)的企業(yè)來(lái)說(shuō),沒(méi)必要費(fèi)心去提升認(rèn)知架構(gòu)的水平。只有那些盯準(zhǔn)定制化需求的企業(yè)才需要像上個(gè)世紀(jì)的啤酒廠商一樣,必須花大力氣去搞自己的發(fā)電系統(tǒng),才能讓自己的啤酒味道更好。
目前,AI 智能體的研究仍然處于起步階段,普林斯頓的研究表明,他們的智能體能解決 12.5%的 GitHub 問(wèn)題,而依賴檢索增強(qiáng)生成(RAG)時(shí)只有3.8%。
但是 Harrison Chase 非??春?AI 智能體在客戶支持和編碼方面的潛力,尤其是編碼。
在成熟的AI智能體的協(xié)助下,人人都能成為軟件開(kāi)發(fā)工程師。
一個(gè)不會(huì)寫(xiě)代碼的設(shè)計(jì)師,只要告訴 AI 智能體想要一款特定功能的應(yīng)用程序,智能體就能根據(jù)需求自動(dòng)生成代碼,把創(chuàng)意變成現(xiàn)實(shí)。這將徹底改變我們工作和創(chuàng)造的方式。
Harrison Chase 認(rèn)為未來(lái)的工作,將不再被日?,嵤吕_,而是讓 AI 智能體承擔(dān)繁重的任務(wù),人們只需要專注于創(chuàng)造和享受生活。
在紅杉資本的播客中,Harrison Chase 還綜合技術(shù)和產(chǎn)品,分享了更多他關(guān)于 AI 智能體的訓(xùn)練、演變和未來(lái)前景的見(jiàn)解。
完整播客內(nèi)容可以點(diǎn)擊以下鏈接一鍵收聽(tīng),雷峰網(wǎng)也對(duì)播客內(nèi)容做了不改原意的精編處理,整理出文字版提供給大家:
https://www.sequoiacap.com/podcast/training-data-harrison-chase/
Sonya Huang:智能體(Agent)是當(dāng)前大家都非常關(guān)注的話題。自從 LLM(大語(yǔ)言模型)興起以來(lái),你一直在智能體構(gòu)建的前沿。能給我們介紹一下智能體的定義嗎?
Harrison Chase:要定義智能體其實(shí)有些棘手。人們可能對(duì)它有不同的理解,這很正常,因?yàn)槲覀冞€處在 LLM 和智能體相關(guān)發(fā)展的早期階段。
我個(gè)人的理解是,智能體是由LLM決定應(yīng)用程序的控制流程。
舉個(gè)例子,在傳統(tǒng)的 RAG(檢索增強(qiáng)生成)鏈中,流程是預(yù)設(shè)的:生成搜索查詢、檢索文檔、生成答案,最后反饋給用戶。
而智能體則將 LLM 放在中心,讓它自主決定下一步的行動(dòng)。有時(shí)它會(huì)發(fā)起搜索,有時(shí)直接回復(fù)用戶,甚至可能多次查詢,直到得出答案。LLM 能動(dòng)態(tài)決定整個(gè)流程。
工具的使用也是智能體的重要特征。當(dāng) LLM 決定行動(dòng)時(shí),它通常會(huì)調(diào)用不同的工具來(lái)實(shí)現(xiàn)。此外,記憶也是關(guān)鍵,當(dāng) LLM 確定下一步時(shí),它需要記住之前的操作。
總的來(lái)說(shuō),智能體的核心就是讓 LLM 決定應(yīng)用程序的控制流程。
Pat Grady:你提到的很多都和“決策”有關(guān),我想知道智能體是否就是一種行動(dòng)方式?這兩者是否相輔相成?智能體的行為是否更偏向某一方面?
Harrison Chase:我認(rèn)為它們確實(shí)是相輔相成的。智能體的很多行為本質(zhì)上是在決定如何采取行動(dòng),而這個(gè)過(guò)程的難點(diǎn)在于找到正確的行動(dòng)。因此,解決“決策”問(wèn)題通常也能解決“行動(dòng)”問(wèn)題。一旦決策確定,LLM 系統(tǒng)就會(huì)執(zhí)行相應(yīng)的行動(dòng)并反饋結(jié)果。
Sonya Huang:智能體與鏈的主要區(qū)別在于 LLM 自主決定下一步,而不是預(yù)先設(shè)定步驟。這種區(qū)分是否準(zhǔn)確?
Harrison Chase:是的,這是一個(gè)很好的描述。不過(guò),實(shí)際上有不同的層次。比如,簡(jiǎn)單的路由器可能做的是鏈中的路徑選擇,雖然 LLM 依然在決策,但這只是基礎(chǔ)應(yīng)用。而完全自主的智能體則是另一種極端。整體來(lái)看,確實(shí)存在一些細(xì)微的差別和灰色地帶。
Sonya Huang:明白了,智能體的范圍從部分控制到完全自主決策都有,這很有趣。你覺(jué)得 LangChain 在智能體生態(tài)系統(tǒng)中扮演了什么角色?
Harrison Chase:我們現(xiàn)在的重點(diǎn)是讓人們更容易創(chuàng)建介于這兩者之間的智能體。我們發(fā)現(xiàn),最有效的智能體通常位于這個(gè)中間地帶。盡管完全自主的智能體吸引人,且已有原型,但它們常常偏離預(yù)期。因此,我們的工作集中在“編排層”,以便構(gòu)建靈活但仍有一定約束的智能體。如果你想深入了解,我們可以再討論。但總的來(lái)說(shuō),LangChain 的愿景是成為一個(gè)編排框架。
Sonya Huang:我記得在2023年3月左右,像 BabyAGI 和 AutoGPT 這樣的自主智能體引起了很多關(guān)注,但它們的首批迭代似乎沒(méi)有達(dá)到人們的期望。你認(rèn)為原因是什么?現(xiàn)在智能體的炒作周期處于什么階段?
Harrison Chase:確實(shí),AutoGPT 的出現(xiàn)開(kāi)啟了智能體的炒作周期,尤其是在 GitHub 上受歡迎。這個(gè)熱潮從 2023 年春季持續(xù)到夏季,之后稍微降溫。到了 2024 年,我們開(kāi)始看到一些實(shí)用的應(yīng)用,比如 LangChain 與 Elastic 的合作,推出了 Elastic Assistant 和 Elastic Agent 等生產(chǎn)級(jí)智能體。這些應(yīng)用,如 Klarna 的客戶支持機(jī)器人,引發(fā)了更多討論。此外,Devon 和 Cira 等公司也在智能體領(lǐng)域進(jìn)行嘗試。
關(guān)于 AutoGPT 未能完全成功的原因,我認(rèn)為主要是它們過(guò)于籠統(tǒng),缺乏明確的任務(wù)和規(guī)則。企業(yè)希望智能體能完成更具體的工作,而不僅僅是模糊的自主智能體。因此,我們看到的智能體更多像是定制的認(rèn)知架構(gòu),盡管靈活,但需要更多的工程投入和開(kāi)發(fā)時(shí)間,這也是這些系統(tǒng)一年前還未出現(xiàn)的原因。
Sonya Huang:你前面提到了“認(rèn)知架構(gòu)”,我很喜歡你對(duì)它的思考方式。能否解釋一下,什么是認(rèn)知架構(gòu)?我們應(yīng)該如何理解它?有沒(méi)有一個(gè)合適的思維框架?
Harrison Chase:是的,我理解的認(rèn)知架構(gòu),基本上是指在使用大語(yǔ)言模型(LLM)時(shí),你的系統(tǒng)架構(gòu)是什么樣的。
如果你正在構(gòu)建一個(gè)應(yīng)用,其中涉及多個(gè)算法步驟,你是如何利用這些算法的?你是否用它們生成最終答案?還是用它們?cè)诓煌蝿?wù)間進(jìn)行選擇?是否有非常復(fù)雜的分支,甚至包含多個(gè)循環(huán)?
這些都是認(rèn)知架構(gòu)的不同表現(xiàn)形式。認(rèn)知架構(gòu)其實(shí)就是指,從用戶輸入到輸出,LLM在調(diào)用過(guò)程中如何處理和流轉(zhuǎn)信息。
尤其是在把智能體投入生產(chǎn)時(shí),我們發(fā)現(xiàn)流程通常是根據(jù)具體應(yīng)用需求而定制的。
例如,某個(gè)應(yīng)用可能需要先進(jìn)行一些特定的檢查,再執(zhí)行幾個(gè)步驟,每個(gè)步驟又可能包含循環(huán)或分支。這就像是你在畫(huà)一張流程圖,而這種定制化的流程越來(lái)越普遍,因?yàn)槿藗兿M悄荏w在應(yīng)用中更可控。
我之所以稱它為“認(rèn)知架構(gòu)”,是因?yàn)長(zhǎng)LM的核心優(yōu)勢(shì)在于它的推理能力,你可以通過(guò)編碼這種認(rèn)知心理模型,將其變成軟件系統(tǒng)中的某種架構(gòu)。
Pat Grady:你覺(jué)得這是未來(lái)的發(fā)展方向嗎?我聽(tīng)到了兩點(diǎn),一是非常定制化,二是它聽(tīng)起來(lái)更像是硬編碼的。你認(rèn)為這是我們當(dāng)前的方向,還是暫時(shí)的解決方案?未來(lái)會(huì)出現(xiàn)更優(yōu)雅的架構(gòu),或者一系列標(biāo)準(zhǔn)化的參考架構(gòu)嗎?
Harrison Chase:這是個(gè)很好的問(wèn)題,我花了很多時(shí)間在思考這個(gè)。我認(rèn)為,在極端情況下,如果模型在規(guī)劃上非常強(qiáng)大且可靠,你可能只需要一個(gè)簡(jiǎn)單的 for 循環(huán),反復(fù)調(diào)用 LLM 來(lái)決定下一步該做什么,然后執(zhí)行操作并再次循環(huán)。
所有你希望模型遵循的約束都可以通過(guò)提示傳達(dá),而模型也會(huì)按你預(yù)期的方式執(zhí)行。盡管我相信模型在推理和規(guī)劃方面會(huì)越來(lái)越好,但我不認(rèn)為它們會(huì)完全取代手動(dòng)構(gòu)建的架構(gòu)。
首先是效率問(wèn)題。如果你知道某個(gè)步驟總是需要在另一步驟之后執(zhí)行,那么你可以直接把它們按順序安排好。
其次是可靠性,尤其是在企業(yè)環(huán)境中,人們需要一定的保障,確保關(guān)鍵步驟按預(yù)期執(zhí)行。
因此,我認(rèn)為雖然構(gòu)建這些架構(gòu)可能會(huì)變得更容易,但它們?nèi)匀粫?huì)有一定復(fù)雜性。
從架構(gòu)的角度看,你可以認(rèn)為“在循環(huán)中運(yùn)行 LLM”是一種非常簡(jiǎn)單但通用的認(rèn)知架構(gòu)。而我們?cè)趯?shí)際生產(chǎn)中看到的更多是定制化、復(fù)雜的架構(gòu)。
我覺(jué)得隨著時(shí)間推移,通用規(guī)劃和反思功能會(huì)被直接訓(xùn)練到模型中,但那些需要高度定制的規(guī)劃、反思和控制功能依然不會(huì)被取代。
Sonya Huang:可以這樣理解:LLM可以完成通用的智能體推理,但在具體領(lǐng)域中,你還需要定制化的推理能力。這些是無(wú)法完全內(nèi)置到通用模型中的。
Harrison Chase:完全正確。自定義認(rèn)知架構(gòu)的核心思想在于,你讓人類來(lái)承擔(dān)規(guī)劃責(zé)任,而不是完全依賴 LLM。
盡管某些規(guī)劃功能可能會(huì)越來(lái)越接近模型和提示,但很多任務(wù)的規(guī)劃過(guò)程依然復(fù)雜,無(wú)法完全自動(dòng)化。我們還需要時(shí)間,才能發(fā)展出高度可靠、即插即用的解決方案。
Sonya Huang:我相信智能體將成為人工智能的新潮流,我們正從 AI 助手轉(zhuǎn)向 AI 智能體。你同意嗎?為什么?
Harrison Chase:我基本同意。智能體的潛力在于,傳統(tǒng)的 AI 助手依賴人類輸入,任務(wù)能力有限。而智能體能更獨(dú)立地行動(dòng),偶爾與用戶互動(dòng),這使它們能自主處理更多任務(wù)。
但賦予它們更多自主性也帶來(lái)了風(fēng)險(xiǎn),例如可能出現(xiàn)偏差或錯(cuò)誤。因此,找到自主性與可靠性之間的平衡將是一個(gè)重要的挑戰(zhàn)。
Pat Grady:你在 AI Ascent 上提到了用戶體驗(yàn)。通常,我們認(rèn)為它與架構(gòu)位于光譜的兩端——架構(gòu)是幕后工作,而用戶體驗(yàn)是前端展示。
但現(xiàn)在似乎情況有所不同,用戶體驗(yàn)實(shí)際上可以影響架構(gòu)的有效性。比如,當(dāng)出現(xiàn)問(wèn)題時(shí),你可以像 Devin 一樣,回溯到規(guī)劃過(guò)程中出錯(cuò)的地方。
你能談?wù)動(dòng)脩趔w驗(yàn)在智能體或 LLM 中的重要性嗎?另外,你覺(jué)得有哪些有趣的發(fā)展?
Harrison Chase:用戶體驗(yàn)在當(dāng)前非常重要,因?yàn)?LLM 并不完美,時(shí)常出錯(cuò)。聊天模式特別有效,它允許用戶實(shí)時(shí)查看模型的反應(yīng),并及時(shí)糾正錯(cuò)誤或追問(wèn)細(xì)節(jié)。雖然這種模式已成為主流,但它的局限在于依然需要用戶的持續(xù)反饋,更多是一種“助手”的體驗(yàn)。
如果能減少用戶的介入,讓 AI 自動(dòng)完成更多任務(wù),將帶來(lái)巨大的變革。
不過(guò),如何在自動(dòng)化和用戶參與之間找到平衡是個(gè)難題。一些有趣的想法正在嘗試解決這個(gè)問(wèn)題。例如,創(chuàng)建一個(gè)智能體透明度列表,讓用戶清晰了解AI執(zhí)行的每一步。如果某個(gè)步驟出錯(cuò),用戶可以直接回溯并調(diào)整指令。
另一個(gè)創(chuàng)新的想法是引入“收件箱”體驗(yàn),讓智能體在后臺(tái)并行運(yùn)行,當(dāng)需要人類幫助時(shí),它可以像發(fā)郵件一樣提醒用戶,這樣用戶就可以在合適的時(shí)機(jī)介入,而不必全程監(jiān)控。
在協(xié)作方面,智能體可以先起草文檔,用戶作為審閱者提供反饋。實(shí)時(shí)互動(dòng)的體驗(yàn)也很吸引人。
例如,用戶在評(píng)論時(shí),智能體能夠立即修復(fù)問(wèn)題,就像在 Google Docs 中一樣。這種互動(dòng)方式能夠增強(qiáng)用戶體驗(yàn),使AI真正成為高效的工作伙伴。
Pat Grady:你提到的關(guān)于智能體如何從交互中學(xué)習(xí),真的很有意思。如果我每次都要重復(fù)給同一個(gè)反饋,那體驗(yàn)就會(huì)變得很糟糕,對(duì)吧?系統(tǒng)該如何提升這種反饋機(jī)制?
Harrison Chase:確實(shí)!如果我們不斷給智能體相同的反饋,而它卻不改進(jìn),那無(wú)疑會(huì)讓人沮喪。因此,系統(tǒng)的架構(gòu)需要能夠從這些反饋中學(xué)習(xí),不僅僅是修復(fù)當(dāng)前的問(wèn)題,還能積累經(jīng)驗(yàn),避免將來(lái)再犯。
這方面的進(jìn)展雖然還處于早期階段,但我們已經(jīng)花了很多時(shí)間在思考這些問(wèn)題上,并相信隨著技術(shù)的進(jìn)步,智能體會(huì)變得越來(lái)越“聰明”,從而帶來(lái)更流暢的用戶體驗(yàn)。
Sonya Huang:在過(guò)去六個(gè)月,智能體領(lǐng)域取得了顯著進(jìn)展。普林斯頓的研究表明,他們的智能體能解決 12.5% 的 GitHub 問(wèn)題,而依賴檢索增強(qiáng)生成(RAG)時(shí)只有 3.8%。
盡管有所進(jìn)步,但 12.5% 仍不足以取代實(shí)習(xí)生。你認(rèn)為智能體的發(fā)展到了哪個(gè)階段?它們能否在面向客戶的環(huán)境中可靠部署?
Harrison Chase:是的,SWE 智能體相對(duì)通用,可以處理多種 GitHub 問(wèn)題。定制智能體的可靠性雖然沒(méi)有達(dá)到“99.999%”,但已經(jīng)足夠在生產(chǎn)環(huán)境中使用。例如,Elastic 的智能體已在多個(gè)項(xiàng)目中應(yīng)用。雖然我沒(méi)有具體的可靠性數(shù)據(jù),但它們足夠可靠,可以上線。通用智能體面臨更大挑戰(zhàn),需要更長(zhǎng)的上下文窗口和更好的推理能力才能廣泛應(yīng)用。
Sonya Huang:你提到過(guò)思路鏈(Chain of Thought)等技術(shù),能分享認(rèn)知架構(gòu)對(duì)智能體性能的影響嗎?你認(rèn)為最有前途的認(rèn)知架構(gòu)是什么?
Harrison Chase:AutoGPT 等項(xiàng)目沒(méi)有成功的一個(gè)原因是早期 LLM 無(wú)法明確推理第一步該做什么。思路鏈等技術(shù)為模型提供了更好的推理空間。
姚舜宇的 ReAct 論文是第一個(gè)專門(mén)用于智能體的認(rèn)知架構(gòu)之一。ReAct 結(jié)合了推理和行動(dòng),讓模型不僅執(zhí)行動(dòng)作,還能進(jìn)行推理,從而提高其能力?,F(xiàn)在,隨著模型訓(xùn)練的深入,顯式推理步驟變得不再那么必要。
當(dāng)前主要挑戰(zhàn)在于長(zhǎng)期規(guī)劃和執(zhí)行,模型在這方面表現(xiàn)不佳,需要認(rèn)知架構(gòu)幫助生成計(jì)劃并逐步執(zhí)行。反思則幫助判斷任務(wù)是否完成。
總的來(lái)說(shuō),規(guī)劃和推理是目前最重要的通用認(rèn)知架構(gòu),未來(lái)隨著訓(xùn)練改進(jìn),這些問(wèn)題將得到更好的解決。
Sonya Huang:你提到杰夫·貝索斯說(shuō)過(guò)“專注于讓你的啤酒更好”。這讓我想到早期許多啤酒廠選擇自己發(fā)電。今天很多公司面臨類似問(wèn)題:是否需要控制認(rèn)知架構(gòu)來(lái)提升業(yè)務(wù)?構(gòu)建和優(yōu)化這些架構(gòu)真的能“讓你的啤酒更好”,還是應(yīng)該放棄控制,專注于用戶界面和產(chǎn)品開(kāi)發(fā)?
Harrison Chase:這取決于你構(gòu)建的認(rèn)知架構(gòu)類型。如果是通用架構(gòu),可能不會(huì)直接提升業(yè)務(wù)。未來(lái),模型提供商會(huì)專注于通用的規(guī)劃和認(rèn)知架構(gòu),企業(yè)可以直接使用這些來(lái)解決問(wèn)題。但如果是高度定制的架構(gòu),反映了特定的業(yè)務(wù)流程或最佳實(shí)踐,那它確實(shí)能提升業(yè)務(wù),尤其在依賴這些應(yīng)用的領(lǐng)域。
定制的業(yè)務(wù)邏輯和認(rèn)知模型可以顯著提高系統(tǒng)表現(xiàn),個(gè)性化后更加精確和高效。盡管用戶體驗(yàn)和界面設(shè)計(jì)依然重要,但定制化智能體顯然是企業(yè)的一個(gè)重要優(yōu)勢(shì)。我認(rèn)為通用和定制之間有很大的區(qū)別。
Sonya Huang:我們能聊聊 LangSmith 和 LangGraph 嗎?你們解決了哪些問(wèn)題?特別是在智能體管理方面,你們的產(chǎn)品如何幫助人們更好地管理狀態(tài)和提高智能體的可控性?
Harrison Chase:當(dāng)然可以。LangChain 的推出解決了關(guān)鍵問(wèn)題,尤其是標(biāo)準(zhǔn)化各個(gè)組件的接口。這讓我們能夠與多種模型、向量存儲(chǔ)、工具和數(shù)據(jù)庫(kù)進(jìn)行廣泛集成,這也是LangChain受歡迎的重要原因。
LangChain 還提供了一系列高級(jí)接口,使用戶可以輕松使用功能,如 RAG(檢索增強(qiáng)生成)和 SQL 問(wèn)答,同時(shí)動(dòng)態(tài)構(gòu)建鏈的運(yùn)行時(shí)間也較短。我們把這些“鏈”視為有向無(wú)環(huán)圖(DAG),這一點(diǎn)很重要。
LangGraph 解決了與可定制和可控的循環(huán)元素相關(guān)的問(wèn)題。循環(huán)引入了新挑戰(zhàn),比如設(shè)計(jì)持久化層,以便恢復(fù)狀態(tài)并讓循環(huán)在后臺(tái)異步運(yùn)行。因此,我們關(guān)注如何有效部署長(zhǎng)期、循環(huán)和人機(jī)交互的應(yīng)用程序。
關(guān)于 LangSmith,自公司成立以來(lái)我們就一直在研究它,專注于 LLM 應(yīng)用的可觀察性和測(cè)試。
我們發(fā)現(xiàn),LLM 作為核心時(shí),其固有的不確定性使得可觀察性和測(cè)試尤為重要,以確保能自信地投入生產(chǎn)。LangSmith 的設(shè)計(jì)使其能夠與 LangChain 無(wú)縫配合。
此外,LangSmith 還提供了提示中心,幫助用戶管理和手動(dòng)審查提示。這在整個(gè)過(guò)程中顯得尤其重要,因?yàn)槲覀冃枰鞔_ LLM 輸出的新內(nèi)容。
可觀察性是 LLM 的顯著特征,而測(cè)試的復(fù)雜性也在增加。因此,我們希望人們能更頻繁地審查內(nèi)容,而不僅僅局限于傳統(tǒng)的軟件測(cè)試。LangSmith 提供的工具和路由正是為了解決這些挑戰(zhàn)。
Pat Grady:你是否有一種啟發(fā)式的方法來(lái)評(píng)估現(xiàn)有的可觀察性、測(cè)試和填空,看看它們?cè)诙啻蟪潭壬线m用于 LLM?哪些特征使得現(xiàn)有 LLM 與之前的模型有顯著不同,以至于你們需要開(kāi)發(fā)新產(chǎn)品、新架構(gòu)或新方法?
Harrison Chase:是的,這確實(shí)是一個(gè)值得深入思考的問(wèn)題。尤其是在可觀察性和測(cè)試方面,LLM 的復(fù)雜性讓我們必須創(chuàng)新。雖然像 Datadog 這樣的工具可以很好地監(jiān)控,但要深入分析多步驟的應(yīng)用程序,LangSmith 能提供更精細(xì)的痕跡分析,幫助更好地調(diào)試和應(yīng)對(duì) LLM 的不確定性。
測(cè)試方面也很有趣。在傳統(tǒng)軟件測(cè)試中,通常只關(guān)注結(jié)果是否通過(guò),而不進(jìn)行成對(duì)比較。然而,LLM 評(píng)估中,像 LLMSYS 這種工具允許并排比較兩個(gè)模型,這種方式在 LLM 測(cè)試中尤為關(guān)鍵。
另一個(gè)挑戰(zhàn)是,LLM測(cè)試中你不會(huì)總是有100%的通過(guò)率,因此跟蹤進(jìn)展非常重要,確保你在不斷進(jìn)步,而不是退步。相比傳統(tǒng)測(cè)試的通過(guò)/失敗判斷,LLM的測(cè)試需要更細(xì)致的跟蹤和分析。
最后,人類的參與至關(guān)重要。盡管我們希望系統(tǒng)自動(dòng)化運(yùn)行,但人工干預(yù)往往更可靠。這和軟件測(cè)試中簡(jiǎn)單的等式驗(yàn)證非常不同,我們需要引入人類判斷,使測(cè)試更加精確且靈活。
Pat Grady:在深入討論智能體構(gòu)建細(xì)節(jié)前,我想問(wèn)一個(gè)問(wèn)題。我們的創(chuàng)始人唐·瓦倫丁有一個(gè)著名的提問(wèn)“那又怎樣?”如果自主智能體完美運(yùn)作,那又怎樣?這對(duì)世界有什么影響?我們的生活將如何不同?
Harrison Chase:從更高層面來(lái)看,這意味著我們?nèi)祟悓⒖梢躁P(guān)注不同的事情。
現(xiàn)階段,很多行業(yè)都依賴重復(fù)性、機(jī)械性的工作,而智能體的想法是自動(dòng)化其中的大部分,從而讓我們能夠?qū)W⒂诟邔哟蔚膯?wèn)題。我們可以利用智能體的輸出進(jìn)行更多創(chuàng)造性和高杠桿的工作,像公司運(yùn)營(yíng)中的許多職能可以外包給智能體。
你可以想象自己扮演首席執(zhí)行官的角色,而智能體負(fù)責(zé)營(yíng)銷、銷售等其他職能,自動(dòng)化大量重復(fù)性工作,讓你有更多時(shí)間進(jìn)行戰(zhàn)略思考或產(chǎn)品開(kāi)發(fā)。這將使我們自由地做我們擅長(zhǎng)的、有興趣的事情,擺脫那些不太愿意做的機(jī)械工作。
Pat Grady:你有沒(méi)有看到任何現(xiàn)實(shí)中的例子,或者有什么正在開(kāi)發(fā)中的有趣項(xiàng)目?
Harrison Chase:目前兩個(gè)最受關(guān)注的智能體領(lǐng)域是客戶支持和編碼。
客戶支持是一個(gè)很好的例子,很多公司都需要外包這類服務(wù),而智能體可以高效地替代這部分工作,這會(huì)非常有力。
至于編碼,它更復(fù)雜,涉及許多創(chuàng)造性和產(chǎn)品定位的思考。雖然某些編碼任務(wù)確實(shí)限制了人的創(chuàng)造力,但如果有智能體可以自動(dòng)完成這些編碼任務(wù),像我媽媽有一個(gè)網(wǎng)站的想法但不會(huì)編程,這樣的智能體就能讓她把更多精力放在網(wǎng)站的想法和范圍上,而代碼部分可以自動(dòng)生成。
客戶支持智能體已經(jīng)開(kāi)始發(fā)揮作用,而在編碼領(lǐng)域,也有許多新進(jìn)展,盡管它還未完全成熟,但許多人正開(kāi)展有趣的項(xiàng)目。
Pat Grady:你提到的編碼問(wèn)題很有趣,因?yàn)檫@是我們對(duì)人工智能抱有樂(lè)觀態(tài)度的原因之一。AI有可能縮短從想法到執(zhí)行的距離,讓創(chuàng)造性的想法更容易變成現(xiàn)實(shí)。像 Figma 的 Dylan 經(jīng)常談?wù)撨@一點(diǎn)。
Harrison Chase:是的,自動(dòng)化可以消除那些阻礙創(chuàng)作的東西,這種“從想法到現(xiàn)實(shí)”的轉(zhuǎn)換非常吸引人。在生成式 AI 時(shí)代和智能體時(shí)代,“構(gòu)建者”的定義將發(fā)生變化。
今天的軟件構(gòu)建者大多是工程師,或者需要雇傭工程師。而未來(lái),借助智能體和生成式 AI,構(gòu)建者可以構(gòu)建更多的東西,因?yàn)樗麄兛梢缘统杀镜乩弥悄荏w,獲得所需的知識(shí)和能力。這相當(dāng)于讓智能體商品化了情報(bào),意味著更多人可以成為構(gòu)建者。
Pat Grady:我很好奇,對(duì)于那些試圖使用 LLMs 構(gòu)建產(chǎn)品或 AI 的開(kāi)發(fā)人員來(lái)說(shuō),有哪些問(wèn)題是你們目前沒(méi)有直接解決,但未來(lái)可能會(huì)考慮的?
Harrison Chase:是的,確實(shí)有兩個(gè)主要領(lǐng)域。一個(gè)是模型層,另一個(gè)是數(shù)據(jù)庫(kù)層。
比如,我們并不打算構(gòu)建矢量數(shù)據(jù)庫(kù),但關(guān)于如何存儲(chǔ)數(shù)據(jù),這是個(gè)非常有趣的問(wèn)題。不過(guò),這并不是我們現(xiàn)在的重點(diǎn)。我們也不構(gòu)建基礎(chǔ)模型,也不專注于微調(diào)。
我們更多是想幫助開(kāi)發(fā)者在數(shù)據(jù)管理上簡(jiǎn)化工作流程,但并不打算為了微調(diào)去搭建基礎(chǔ)設(shè)施。
有很多公司,比如 Fireworks,正在專門(mén)做這些事,這真的很有趣。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這些問(wèn)題處于技術(shù)堆棧的底層。
同時(shí),另一個(gè)值得思考的問(wèn)題是,如果智能體真的像我們?cè)O(shè)想的那樣變得更加普遍,將會(huì)出現(xiàn)哪些新的基礎(chǔ)性問(wèn)題?所以說(shuō)實(shí)話,現(xiàn)在就說(shuō)我們未來(lái)會(huì)做什么或者不會(huì)做什么還為時(shí)尚早。因?yàn)槲覀儸F(xiàn)在離一個(gè)完全可靠的智能體經(jīng)濟(jì)系統(tǒng)還有一段距離。
不過(guò),有些概念已經(jīng)很吸引人了,比如智能體的身份驗(yàn)證、授權(quán)、支付等基礎(chǔ)設(shè)施。
想象一下,未來(lái)的某天,智能體給人類支付服務(wù)費(fèi)用,而不是相反!這種場(chǎng)景真的讓人興奮。如果智能體真的像我們想象的那樣流行起來(lái),我們需要什么樣的工具和基礎(chǔ)設(shè)施來(lái)支持這一切?
這些問(wèn)題和開(kāi)發(fā)者社區(qū)中構(gòu)建 LLM 應(yīng)用程序的需求有些不同。LLM 應(yīng)用已經(jīng)在這里了,智能體正在逐步成熟,但整個(gè)智能體生態(tài)系統(tǒng)還沒(méi)有完全成型。這會(huì)是一個(gè)非常有趣的發(fā)展方向。
Sonya Huang:你剛才提到微調(diào),說(shuō)你們目前不打算深入這個(gè)領(lǐng)域??雌饋?lái)提示工程和微調(diào)常常被認(rèn)為是互相替代的工具。你怎么看現(xiàn)在提示與微調(diào)的使用方式?你覺(jué)得未來(lái)的走向會(huì)怎樣?
Harrison Chase:其實(shí),我并不認(rèn)為微調(diào)和認(rèn)知架構(gòu)是互相替代的。相反,我覺(jué)得它們?cè)诤芏喾矫媸腔パa(bǔ)的。
當(dāng)你有更定制化的認(rèn)知架構(gòu)時(shí),智能體每個(gè)部分或節(jié)點(diǎn)的職責(zé)變得更加具體明確。而在這種情況下,微調(diào)就顯得格外有用。因?yàn)楫?dāng)你明確了每個(gè)模塊的工作范圍時(shí),微調(diào)就可以進(jìn)一步優(yōu)化這些模塊的表現(xiàn)。
所以我覺(jué)得微調(diào)和架構(gòu)的關(guān)系并不是互相競(jìng)爭(zhēng)的,而是各司其職,互相增強(qiáng)的。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。