0
本文作者: 何思思 | 2023-08-23 14:13 |
作者丨何思思
編輯丨林覺民
2023 年 8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。
大會共開設(shè)10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會是在大模型技術(shù)爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。
在第一天的大模型時代的超級基建專場上,Zilliz創(chuàng)始人兼CEO星爵進行了以“向量數(shù)據(jù)庫作為新一代基礎(chǔ)設(shè)施如何為大模型提供語義存儲”為主題的精彩演講。
過去的每個十年,AI都邁向一個新的階段。星爵指出,受限于研發(fā)成本和開發(fā)難度,過去十年全球僅有1%的開發(fā)者專注于AI領(lǐng)域的研發(fā)工作,但如今有了大模型和向量數(shù)據(jù)庫作為能力基座,一個AI 應用的開發(fā)僅僅需要兩三個工程師一個周末的時間便可完成。
“忽如一夜春風來,千樹萬樹梨花開?!睂τ诖竽P?,星爵如此評價道。除此之外,星爵還強調(diào)了向量數(shù)據(jù)庫之于大模型的重要性。他認為,向量數(shù)據(jù)庫承擔著大模型數(shù)據(jù)片外存儲的重任,不管是圖片、視頻語言還是生物學中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語義。
回到大模型目前落地遇到的最主要困境,即數(shù)據(jù)實時性和私域?qū)S袛?shù)據(jù)的問題,學術(shù)界和工業(yè)界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學到更多的知識;二是通過Vector search的方法,把最新的私域知識存在向量數(shù)據(jù)庫中,需要時在向量數(shù)據(jù)庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本角度出發(fā),向量數(shù)據(jù)庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發(fā)者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業(yè)務(wù)中的實際效果。
以下是星爵的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))作了不改變原意的編輯及整理
星爵:謝謝主持人,特別開心能來到新加坡跟大家交流,今天我分享的主題是關(guān)于向量數(shù)據(jù)庫作為新一代為 AI 時代提供語義存儲的基礎(chǔ)設(shè)施有哪些機會和挑戰(zhàn)。
我們都知道過去十多年AI發(fā)展的特別快,基本上每隔十年都會來到一個新的階段。如果我們把時間線拉得更長一點,過去十年最大的革命浪潮是什么?是移動計算。
十年前硅谷有一個很常見的現(xiàn)象:一群狂熱的開發(fā)者利用周末的時間,甚至24小時內(nèi)就能做出一個移動應用程序,這也是為什么我們經(jīng)常說十年前涌現(xiàn)了一波很好的AI開發(fā)浪潮,年紀稍長的人可能都知道在上一次移動計算的浪潮開始前,開發(fā)一個移動應用程序是相當復雜的,比如當時諾基亞的塞班程序,從編譯器到工具開發(fā)起來困難重重。
上一代的移動開發(fā)主要以安卓和iOS為代表,它極大地簡化了移動的開發(fā)棧,使得數(shù)以千萬計的開發(fā)人員涌入進來,他們只需選擇一個開發(fā)平臺,以類似MongoDB的數(shù)據(jù)存儲管理,再加上類似Figma、 Sketch的設(shè)計工具,就可以用一個周末的時間做出一個移動開發(fā)程序,這就是我們過去十年AI發(fā)展的結(jié)果。
但隨著AI工具棧復雜程度的提高,也相應地帶來了很多問題:
一方面,企業(yè)要想做一個AI程序,需要在幾百個項目中挑出幾十個項目,從運維、調(diào)優(yōu)、訓練到最后的部署都需要花費大量的人力、物力、財力。
另一方面,對工業(yè)界的AI應用方來說,成本是居高不下的。此外,AI 應用開發(fā)程序的復雜程度也極大地限制了開發(fā)人員的進入。根據(jù)過往十年全球GitHub的數(shù)據(jù)顯示,全球僅有不到1%的開發(fā)者從事AI開發(fā)工作,也就是說全球工程師的數(shù)量不足100萬,所以我們會發(fā)現(xiàn)AI開發(fā)工程師通常會輕輕松松地拿到豐厚的報酬、股票期權(quán)甚至是更好的跳槽機會,但其實這對整個AI行業(yè)的發(fā)展是非常不利的。
怎么改變?
今年上半年整個AI行業(yè)發(fā)生了翻天覆地的變化,可以用“忽如一夜春風來,千樹萬樹梨花開”形容。還是拿今年3月份在硅谷看到的現(xiàn)象舉例:很多AI開發(fā)的愛好者常常聚集起來,用一個周末的時間做出一款應用程序。在研發(fā)過程中,他們基本會用很簡單的工具棧;接著選一個類似ChatGPT的大模型平臺管理包括文本、圖片、視頻、知識庫等在內(nèi)的數(shù)據(jù);隨后他們會找一個系統(tǒng)做向量數(shù)據(jù)庫,把數(shù)據(jù)用語義的方式管理起來,提供一個很好的語義檢索;最后還他們需要Prompt Engineer提出很好的問題,這樣就能保證三個人的小組在周末就輕輕松松地做出一個基于大語言模型的應用開發(fā)程序。
我們把這套開發(fā)工具棧提煉成“CVP stack”,C代表類似 ChatGPT 這樣的開發(fā)平臺,它后面有大模型,有一套完整API生態(tài);V 代表Vector Database 向量數(shù)據(jù)庫,負責數(shù)據(jù)的語義檢索和管理;P代表 Prompt Engineer,他們負責把業(yè)務(wù)邏輯用大語言模型能夠理解的語義方式表達出來。
過去半年,國內(nèi)出現(xiàn)了一些增長很快的開源的開發(fā)框架,本質(zhì)上都是圍繞CVP stack 所展開的更簡化的開發(fā)工具。我們有一個預測:CVP stack能極大地降低開發(fā)成本。因為未來不只會有大模型,還會有多語言模型,跨模態(tài)模型,跨領(lǐng)域模型,這些模型都會極大地簡化開發(fā)程度,包括向量數(shù)據(jù)庫、Prompt Engineer都能開發(fā)出各種各樣的應用程序,這就會驅(qū)使大量開發(fā)者涌入AI應用程序開發(fā)這個賽道。
我相信未來三年一定會有越來越多的人擁抱 AI 開發(fā)。其實現(xiàn)在我們也已經(jīng)看到這個趨勢,比如做一個APP,一個網(wǎng)站或者一個startup,基本是無大模型、無AI不成 startup,大家都在考慮把自己做的應用程序用大模型重做一次,這就意味著未來AI開發(fā)會變地越來越民主化。
向量數(shù)據(jù)庫的應用場景:私域知識庫、應用開發(fā)程序、數(shù)據(jù)處理
我還想著重跟大家分享一下,為什么向量數(shù)據(jù)庫承擔了大模型數(shù)據(jù)片外存儲的重任?
如果打開一個神經(jīng)網(wǎng)絡(luò),我們可以看到里面每個節(jié)點傳輸數(shù)據(jù)的權(quán)重,這就是我們說的向量。 所以大語言模型中傳輸數(shù)據(jù)的基本單元,你就可以認為向量是一個最基本的語義的傳輸單元,不管是圖片、視頻語言還是生物學中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語義。
向量其實已經(jīng)成為了非結(jié)構(gòu)化數(shù)據(jù)在AI中語義表達的一種最根本的表達形式和基本的數(shù)據(jù)單元,這就是為什么要把各種各樣的數(shù)據(jù)向量化后,存在向量數(shù)據(jù)庫中,等到需要時再在向量數(shù)據(jù)庫中做語義的檢索和管理。
如果回到大模型目前落地遇到的最主要困境,即數(shù)據(jù)實時性和私域?qū)S袛?shù)據(jù)的問題,學術(shù)界和工業(yè)界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學到更多的知識;二是通過Vector search的方法,把最新的私域知識存在向量數(shù)據(jù)庫中,需要時在向量數(shù)據(jù)庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本角度出發(fā),向量數(shù)據(jù)庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發(fā)者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業(yè)務(wù)中的實際效果。
所以一個最簡單的總結(jié)就是,大語言模型負責計算,向量數(shù)據(jù)庫負責存儲尤其是語義存儲。在過去半年時間里,向量數(shù)據(jù)庫也涌現(xiàn)出了一系列的應用場景,我們總結(jié)為四類:
用向量數(shù)據(jù)庫構(gòu)建各行業(yè)各企業(yè)的私域知識庫。我們知道每個企業(yè)都有很多數(shù)據(jù),包括Word 文檔、會議摘要、PDF、產(chǎn)品說明書等,這些其實都可以通過向量化的方式提取語義放到向量數(shù)據(jù)庫中,當和大語言模型交互時,就可以把相應領(lǐng)域的相關(guān)知識,作為一個prompt 傳給大語言模型。
當然我們肯定不想把所有的知識都傳給大模型,因為所有知識庫加起可能有幾百萬、幾千萬甚至上億個token,所以就需要精確定位到和“我”提問的問題上下相關(guān)的內(nèi)容,定位越精準,就意味著可以用越少的token、越經(jīng)濟的方法得到你想要的結(jié)果。
那通過向量數(shù)據(jù)庫檢索的方式就可以從你的私域知識庫中找到相關(guān)的片段,然后把它構(gòu)建為 prompt的一部分傳遞給大語言模型,從而得到一個更好的結(jié)果,這就解決了大語言模型在某些領(lǐng)域“胡說八道”的現(xiàn)象。
同時大語言模型重新訓練一次的更新速度是非常慢的,像GPT其實是基于2021年9月之前的知識構(gòu)建的,更新訓練模型時通常會涉及到整個模型的全訓練、調(diào)優(yōu)以及收斂等,成本非常高,這時就可以把實時增量的知識通過向量數(shù)據(jù)庫的方式供給大模型。
第二,用大語言模型+向量數(shù)據(jù)庫+Prompt Engineer (CVP Stack)的方式,構(gòu)建基于大語言模型的應用開發(fā)程序。其實我們在調(diào)用OpenAI時發(fā)現(xiàn),大模型有時候產(chǎn)生出來的問題非常好,那這些問題實質(zhì)上就可以成為知識庫的一部分。
在這個過程中,我們會思考如果用向量數(shù)據(jù)庫的方式把這些知識緩存下來,這樣下次再需要獲得同類知識時,就不需要再次調(diào)用大模型,我們把這個能力稱為基于語義的新一代緩存。 我們知道上一段的緩存基本上是基于Memory Cache、Redis,本質(zhì)上是基于關(guān)鍵字匹配的一個正定的緩存。
而在大語言模型中,同樣的問題可以有不同的答案且每個答案都是正確的,不同但類似的問題,也可以得到相同的答案甚至類似的答案。也就是說不同的人在問相同的問題時,有不同的問法,這就需要通過向量數(shù)據(jù)庫提供一個模糊語義的檢索和匹配?;谶@樣的需求,今年我們開源了一個GPTCache的項目,僅 4 個多月時間已經(jīng)在Git Hub上收獲了5000顆Star,全球范圍內(nèi)擁有100 多家企業(yè)級用戶。
第三,用戶在調(diào)用大語言模型時肯定希望模型越用越好,且越來越能理解用戶的需求,甚至可以預測接下來會發(fā)生什么。所以我們在使用的過程中,大模型會把歷史的交互情況緩存下來,以便為下一次交互提供上下文的參考。上下文越來越多時,相應的管理工作也會變得相當復雜,這時向量數(shù)據(jù)庫就可以存儲你每次的交互內(nèi)容、個性定制話題,從而讓大模型越來越了解你。
第四,在訓練大語言模型的過程中,要灌入各種各樣的數(shù)據(jù),這時就會涉及數(shù)據(jù)對齊,數(shù)據(jù)清洗、數(shù)據(jù)處理等工作,實際上這些工作已經(jīng)可以用向量數(shù)據(jù)庫的方式做預處理了。
向量數(shù)據(jù)庫的下一個殺手锏級應用:AI Agent
當我們看到向量數(shù)據(jù)的這些場景時,也會好奇AI的下一個殺手級應用是什么?向量數(shù)據(jù)庫的下一個殺手锏級的應用在哪里?
其實從今天上午到現(xiàn)在,大家不止一次提到了AI Agent。大概三個月前在Hacker News上就引發(fā)了一場非常激烈的討論,這是我當天做的截屏,大概持續(xù)了幾個小時,這應該是當天討論最熱的一個Topic。
Auto-GPT基本兩個多月就在GitHub上收獲了十四萬顆star,是有史以來最快達到這個成績的一個項目,斯坦福的這篇論文也指明了無數(shù)工程師、大學研究人員下一代研發(fā)的方向等。此外,一些領(lǐng)先的企業(yè)也已經(jīng)開始做相關(guān)探索。比如現(xiàn)在商業(yè)化領(lǐng)域已經(jīng)出現(xiàn)了類似名人明星的代理,我們可以跟他們聊天互動等。
其實,AI Agent 本質(zhì)上是AI從Copilot 走向Autopilot 的一個必然階段。比如現(xiàn)在不管是微軟的代碼生成,還是微軟PPT的輔助工具都可能叫做Copilot。但是我覺得下一步如果這些智能代理能具備很強的推理能力、很強的感知能力、很好的記憶力,它就一定能進行自我迭代、自我演化,真正成為一個Autopilot。那在我們向更強大的AI Agent演進的過程中,向量數(shù)據(jù)庫將承擔一個類似人類的長期記憶的角色。
我們都知道人的大腦有很多分區(qū),人有一項最基本的能力,就是能夠記憶。我們記得我們背的第一首古詩是什么、記得十年前我們跟某個人的對話是什么樣的,記得當時是什么樣的場景得出了什么樣的結(jié)論等等。相應地,在AI Agent的演進過程中,向量數(shù)據(jù)庫就提供了長期記憶,也就是類似人類的海馬體的功能。
總體而言,我認為,新一代AI的篇章剛剛展開,未來一定會出現(xiàn)跨模態(tài)、多模態(tài)、甚至跨領(lǐng)域的大模型。Zilliz從2018年開始做向量數(shù)據(jù)庫,我們也希望能和更多的AI科研人員、創(chuàng)業(yè)者、工程師們一起探討AI發(fā)展以及未來AI的邊界,謝謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。