0
本文作者: 何思思 | 2023-08-23 14:13 |
作者丨何思思
編輯丨林覺(jué)民
2023 年 8月14日,第七屆GAIR全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店正式開(kāi)幕。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦。
大會(huì)共開(kāi)設(shè)10個(gè)主題論壇,聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會(huì)是在大模型技術(shù)爆炸時(shí)代,首個(gè)出海的AI頂級(jí)論壇,也是中國(guó)人工智能影響力的一次跨境溢出。
在第一天的大模型時(shí)代的超級(jí)基建專(zhuān)場(chǎng)上,Zilliz創(chuàng)始人兼CEO星爵進(jìn)行了以“向量數(shù)據(jù)庫(kù)作為新一代基礎(chǔ)設(shè)施如何為大模型提供語(yǔ)義存儲(chǔ)”為主題的精彩演講。
過(guò)去的每個(gè)十年,AI都邁向一個(gè)新的階段。星爵指出,受限于研發(fā)成本和開(kāi)發(fā)難度,過(guò)去十年全球僅有1%的開(kāi)發(fā)者專(zhuān)注于AI領(lǐng)域的研發(fā)工作,但如今有了大模型和向量數(shù)據(jù)庫(kù)作為能力基座,一個(gè)AI 應(yīng)用的開(kāi)發(fā)僅僅需要兩三個(gè)工程師一個(gè)周末的時(shí)間便可完成。
“忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)?!睂?duì)于大模型,星爵如此評(píng)價(jià)道。除此之外,星爵還強(qiáng)調(diào)了向量數(shù)據(jù)庫(kù)之于大模型的重要性。他認(rèn)為,向量數(shù)據(jù)庫(kù)承擔(dān)著大模型數(shù)據(jù)片外存儲(chǔ)的重任,不管是圖片、視頻語(yǔ)言還是生物學(xué)中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語(yǔ)義。
回到大模型目前落地遇到的最主要困境,即數(shù)據(jù)實(shí)時(shí)性和私域?qū)S袛?shù)據(jù)的問(wèn)題,學(xué)術(shù)界和工業(yè)界存在兩種解決方案,一是通過(guò)Fine tuning的方式迭代演進(jìn),讓大模型學(xué)到更多的知識(shí);二是通過(guò)Vector search的方法,把最新的私域知識(shí)存在向量數(shù)據(jù)庫(kù)中,需要時(shí)在向量數(shù)據(jù)庫(kù)中做基于語(yǔ)義的向量檢索,這兩種方法都可以為大模型提供更加精準(zhǔn)的答案。
但是從成本角度出發(fā),向量數(shù)據(jù)庫(kù)的成本是Fine tuning的1/ 1000。所以大模型廠商都無(wú)一例外地推薦開(kāi)發(fā)者使用向量檢索的方式做知識(shí)庫(kù)管理,以便和模型有一個(gè)更好交互,降低落地使用成本的同時(shí),提升在業(yè)務(wù)中的實(shí)際效果。
以下是星爵的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作了不改變?cè)獾木庉嫾罢?/strong>
星爵:謝謝主持人,特別開(kāi)心能來(lái)到新加坡跟大家交流,今天我分享的主題是關(guān)于向量數(shù)據(jù)庫(kù)作為新一代為 AI 時(shí)代提供語(yǔ)義存儲(chǔ)的基礎(chǔ)設(shè)施有哪些機(jī)會(huì)和挑戰(zhàn)。
我們都知道過(guò)去十多年AI發(fā)展的特別快,基本上每隔十年都會(huì)來(lái)到一個(gè)新的階段。如果我們把時(shí)間線拉得更長(zhǎng)一點(diǎn),過(guò)去十年最大的革命浪潮是什么?是移動(dòng)計(jì)算。
十年前硅谷有一個(gè)很常見(jiàn)的現(xiàn)象:一群狂熱的開(kāi)發(fā)者利用周末的時(shí)間,甚至24小時(shí)內(nèi)就能做出一個(gè)移動(dòng)應(yīng)用程序,這也是為什么我們經(jīng)常說(shuō)十年前涌現(xiàn)了一波很好的AI開(kāi)發(fā)浪潮,年紀(jì)稍長(zhǎng)的人可能都知道在上一次移動(dòng)計(jì)算的浪潮開(kāi)始前,開(kāi)發(fā)一個(gè)移動(dòng)應(yīng)用程序是相當(dāng)復(fù)雜的,比如當(dāng)時(shí)諾基亞的塞班程序,從編譯器到工具開(kāi)發(fā)起來(lái)困難重重。
上一代的移動(dòng)開(kāi)發(fā)主要以安卓和iOS為代表,它極大地簡(jiǎn)化了移動(dòng)的開(kāi)發(fā)棧,使得數(shù)以千萬(wàn)計(jì)的開(kāi)發(fā)人員涌入進(jìn)來(lái),他們只需選擇一個(gè)開(kāi)發(fā)平臺(tái),以類(lèi)似MongoDB的數(shù)據(jù)存儲(chǔ)管理,再加上類(lèi)似Figma、 Sketch的設(shè)計(jì)工具,就可以用一個(gè)周末的時(shí)間做出一個(gè)移動(dòng)開(kāi)發(fā)程序,這就是我們過(guò)去十年AI發(fā)展的結(jié)果。
但隨著AI工具棧復(fù)雜程度的提高,也相應(yīng)地帶來(lái)了很多問(wèn)題:
一方面,企業(yè)要想做一個(gè)AI程序,需要在幾百個(gè)項(xiàng)目中挑出幾十個(gè)項(xiàng)目,從運(yùn)維、調(diào)優(yōu)、訓(xùn)練到最后的部署都需要花費(fèi)大量的人力、物力、財(cái)力。
另一方面,對(duì)工業(yè)界的AI應(yīng)用方來(lái)說(shuō),成本是居高不下的。此外,AI 應(yīng)用開(kāi)發(fā)程序的復(fù)雜程度也極大地限制了開(kāi)發(fā)人員的進(jìn)入。根據(jù)過(guò)往十年全球GitHub的數(shù)據(jù)顯示,全球僅有不到1%的開(kāi)發(fā)者從事AI開(kāi)發(fā)工作,也就是說(shuō)全球工程師的數(shù)量不足100萬(wàn),所以我們會(huì)發(fā)現(xiàn)AI開(kāi)發(fā)工程師通常會(huì)輕輕松松地拿到豐厚的報(bào)酬、股票期權(quán)甚至是更好的跳槽機(jī)會(huì),但其實(shí)這對(duì)整個(gè)AI行業(yè)的發(fā)展是非常不利的。
怎么改變?
今年上半年整個(gè)AI行業(yè)發(fā)生了翻天覆地的變化,可以用“忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)”形容。還是拿今年3月份在硅谷看到的現(xiàn)象舉例:很多AI開(kāi)發(fā)的愛(ài)好者常常聚集起來(lái),用一個(gè)周末的時(shí)間做出一款應(yīng)用程序。在研發(fā)過(guò)程中,他們基本會(huì)用很簡(jiǎn)單的工具棧;接著選一個(gè)類(lèi)似ChatGPT的大模型平臺(tái)管理包括文本、圖片、視頻、知識(shí)庫(kù)等在內(nèi)的數(shù)據(jù);隨后他們會(huì)找一個(gè)系統(tǒng)做向量數(shù)據(jù)庫(kù),把數(shù)據(jù)用語(yǔ)義的方式管理起來(lái),提供一個(gè)很好的語(yǔ)義檢索;最后還他們需要Prompt Engineer提出很好的問(wèn)題,這樣就能保證三個(gè)人的小組在周末就輕輕松松地做出一個(gè)基于大語(yǔ)言模型的應(yīng)用開(kāi)發(fā)程序。
我們把這套開(kāi)發(fā)工具棧提煉成“CVP stack”,C代表類(lèi)似 ChatGPT 這樣的開(kāi)發(fā)平臺(tái),它后面有大模型,有一套完整API生態(tài);V 代表Vector Database 向量數(shù)據(jù)庫(kù),負(fù)責(zé)數(shù)據(jù)的語(yǔ)義檢索和管理;P代表 Prompt Engineer,他們負(fù)責(zé)把業(yè)務(wù)邏輯用大語(yǔ)言模型能夠理解的語(yǔ)義方式表達(dá)出來(lái)。
過(guò)去半年,國(guó)內(nèi)出現(xiàn)了一些增長(zhǎng)很快的開(kāi)源的開(kāi)發(fā)框架,本質(zhì)上都是圍繞CVP stack 所展開(kāi)的更簡(jiǎn)化的開(kāi)發(fā)工具。我們有一個(gè)預(yù)測(cè):CVP stack能極大地降低開(kāi)發(fā)成本。因?yàn)槲磥?lái)不只會(huì)有大模型,還會(huì)有多語(yǔ)言模型,跨模態(tài)模型,跨領(lǐng)域模型,這些模型都會(huì)極大地簡(jiǎn)化開(kāi)發(fā)程度,包括向量數(shù)據(jù)庫(kù)、Prompt Engineer都能開(kāi)發(fā)出各種各樣的應(yīng)用程序,這就會(huì)驅(qū)使大量開(kāi)發(fā)者涌入AI應(yīng)用程序開(kāi)發(fā)這個(gè)賽道。
我相信未來(lái)三年一定會(huì)有越來(lái)越多的人擁抱 AI 開(kāi)發(fā)。其實(shí)現(xiàn)在我們也已經(jīng)看到這個(gè)趨勢(shì),比如做一個(gè)APP,一個(gè)網(wǎng)站或者一個(gè)startup,基本是無(wú)大模型、無(wú)AI不成 startup,大家都在考慮把自己做的應(yīng)用程序用大模型重做一次,這就意味著未來(lái)AI開(kāi)發(fā)會(huì)變地越來(lái)越民主化。
向量數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景:私域知識(shí)庫(kù)、應(yīng)用開(kāi)發(fā)程序、數(shù)據(jù)處理
我還想著重跟大家分享一下,為什么向量數(shù)據(jù)庫(kù)承擔(dān)了大模型數(shù)據(jù)片外存儲(chǔ)的重任?
如果打開(kāi)一個(gè)神經(jīng)網(wǎng)絡(luò),我們可以看到里面每個(gè)節(jié)點(diǎn)傳輸數(shù)據(jù)的權(quán)重,這就是我們說(shuō)的向量。 所以大語(yǔ)言模型中傳輸數(shù)據(jù)的基本單元,你就可以認(rèn)為向量是一個(gè)最基本的語(yǔ)義的傳輸單元,不管是圖片、視頻語(yǔ)言還是生物學(xué)中蛋白質(zhì)的三維結(jié)構(gòu),都可以用向量的方式表征它的語(yǔ)義。
向量其實(shí)已經(jīng)成為了非結(jié)構(gòu)化數(shù)據(jù)在AI中語(yǔ)義表達(dá)的一種最根本的表達(dá)形式和基本的數(shù)據(jù)單元,這就是為什么要把各種各樣的數(shù)據(jù)向量化后,存在向量數(shù)據(jù)庫(kù)中,等到需要時(shí)再在向量數(shù)據(jù)庫(kù)中做語(yǔ)義的檢索和管理。
如果回到大模型目前落地遇到的最主要困境,即數(shù)據(jù)實(shí)時(shí)性和私域?qū)S袛?shù)據(jù)的問(wèn)題,學(xué)術(shù)界和工業(yè)界存在兩種解決方案,一是通過(guò)Fine tuning的方式迭代演進(jìn),讓大模型學(xué)到更多的知識(shí);二是通過(guò)Vector search的方法,把最新的私域知識(shí)存在向量數(shù)據(jù)庫(kù)中,需要時(shí)在向量數(shù)據(jù)庫(kù)中做基于語(yǔ)義的向量檢索,這兩種方法都可以為大模型提供更加精準(zhǔn)的答案。
但是從成本角度出發(fā),向量數(shù)據(jù)庫(kù)的成本是Fine tuning的1/ 1000。所以大模型廠商都無(wú)一例外地推薦開(kāi)發(fā)者使用向量檢索的方式做知識(shí)庫(kù)管理,以便和模型有一個(gè)更好交互,降低落地使用成本的同時(shí),提升在業(yè)務(wù)中的實(shí)際效果。
所以一個(gè)最簡(jiǎn)單的總結(jié)就是,大語(yǔ)言模型負(fù)責(zé)計(jì)算,向量數(shù)據(jù)庫(kù)負(fù)責(zé)存儲(chǔ)尤其是語(yǔ)義存儲(chǔ)。在過(guò)去半年時(shí)間里,向量數(shù)據(jù)庫(kù)也涌現(xiàn)出了一系列的應(yīng)用場(chǎng)景,我們總結(jié)為四類(lèi):
用向量數(shù)據(jù)庫(kù)構(gòu)建各行業(yè)各企業(yè)的私域知識(shí)庫(kù)。我們知道每個(gè)企業(yè)都有很多數(shù)據(jù),包括Word 文檔、會(huì)議摘要、PDF、產(chǎn)品說(shuō)明書(shū)等,這些其實(shí)都可以通過(guò)向量化的方式提取語(yǔ)義放到向量數(shù)據(jù)庫(kù)中,當(dāng)和大語(yǔ)言模型交互時(shí),就可以把相應(yīng)領(lǐng)域的相關(guān)知識(shí),作為一個(gè)prompt 傳給大語(yǔ)言模型。
當(dāng)然我們肯定不想把所有的知識(shí)都傳給大模型,因?yàn)樗兄R(shí)庫(kù)加起可能有幾百萬(wàn)、幾千萬(wàn)甚至上億個(gè)token,所以就需要精確定位到和“我”提問(wèn)的問(wèn)題上下相關(guān)的內(nèi)容,定位越精準(zhǔn),就意味著可以用越少的token、越經(jīng)濟(jì)的方法得到你想要的結(jié)果。
那通過(guò)向量數(shù)據(jù)庫(kù)檢索的方式就可以從你的私域知識(shí)庫(kù)中找到相關(guān)的片段,然后把它構(gòu)建為 prompt的一部分傳遞給大語(yǔ)言模型,從而得到一個(gè)更好的結(jié)果,這就解決了大語(yǔ)言模型在某些領(lǐng)域“胡說(shuō)八道”的現(xiàn)象。
同時(shí)大語(yǔ)言模型重新訓(xùn)練一次的更新速度是非常慢的,像GPT其實(shí)是基于2021年9月之前的知識(shí)構(gòu)建的,更新訓(xùn)練模型時(shí)通常會(huì)涉及到整個(gè)模型的全訓(xùn)練、調(diào)優(yōu)以及收斂等,成本非常高,這時(shí)就可以把實(shí)時(shí)增量的知識(shí)通過(guò)向量數(shù)據(jù)庫(kù)的方式供給大模型。
第二,用大語(yǔ)言模型+向量數(shù)據(jù)庫(kù)+Prompt Engineer (CVP Stack)的方式,構(gòu)建基于大語(yǔ)言模型的應(yīng)用開(kāi)發(fā)程序。其實(shí)我們?cè)谡{(diào)用OpenAI時(shí)發(fā)現(xiàn),大模型有時(shí)候產(chǎn)生出來(lái)的問(wèn)題非常好,那這些問(wèn)題實(shí)質(zhì)上就可以成為知識(shí)庫(kù)的一部分。
在這個(gè)過(guò)程中,我們會(huì)思考如果用向量數(shù)據(jù)庫(kù)的方式把這些知識(shí)緩存下來(lái),這樣下次再需要獲得同類(lèi)知識(shí)時(shí),就不需要再次調(diào)用大模型,我們把這個(gè)能力稱(chēng)為基于語(yǔ)義的新一代緩存。 我們知道上一段的緩存基本上是基于Memory Cache、Redis,本質(zhì)上是基于關(guān)鍵字匹配的一個(gè)正定的緩存。
而在大語(yǔ)言模型中,同樣的問(wèn)題可以有不同的答案且每個(gè)答案都是正確的,不同但類(lèi)似的問(wèn)題,也可以得到相同的答案甚至類(lèi)似的答案。也就是說(shuō)不同的人在問(wèn)相同的問(wèn)題時(shí),有不同的問(wèn)法,這就需要通過(guò)向量數(shù)據(jù)庫(kù)提供一個(gè)模糊語(yǔ)義的檢索和匹配?;谶@樣的需求,今年我們開(kāi)源了一個(gè)GPTCache的項(xiàng)目,僅 4 個(gè)多月時(shí)間已經(jīng)在Git Hub上收獲了5000顆Star,全球范圍內(nèi)擁有100 多家企業(yè)級(jí)用戶。
第三,用戶在調(diào)用大語(yǔ)言模型時(shí)肯定希望模型越用越好,且越來(lái)越能理解用戶的需求,甚至可以預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。所以我們?cè)谑褂玫倪^(guò)程中,大模型會(huì)把歷史的交互情況緩存下來(lái),以便為下一次交互提供上下文的參考。上下文越來(lái)越多時(shí),相應(yīng)的管理工作也會(huì)變得相當(dāng)復(fù)雜,這時(shí)向量數(shù)據(jù)庫(kù)就可以存儲(chǔ)你每次的交互內(nèi)容、個(gè)性定制話題,從而讓大模型越來(lái)越了解你。
第四,在訓(xùn)練大語(yǔ)言模型的過(guò)程中,要灌入各種各樣的數(shù)據(jù),這時(shí)就會(huì)涉及數(shù)據(jù)對(duì)齊,數(shù)據(jù)清洗、數(shù)據(jù)處理等工作,實(shí)際上這些工作已經(jīng)可以用向量數(shù)據(jù)庫(kù)的方式做預(yù)處理了。
向量數(shù)據(jù)庫(kù)的下一個(gè)殺手锏級(jí)應(yīng)用:AI Agent
當(dāng)我們看到向量數(shù)據(jù)的這些場(chǎng)景時(shí),也會(huì)好奇AI的下一個(gè)殺手級(jí)應(yīng)用是什么?向量數(shù)據(jù)庫(kù)的下一個(gè)殺手锏級(jí)的應(yīng)用在哪里?
其實(shí)從今天上午到現(xiàn)在,大家不止一次提到了AI Agent。大概三個(gè)月前在Hacker News上就引發(fā)了一場(chǎng)非常激烈的討論,這是我當(dāng)天做的截屏,大概持續(xù)了幾個(gè)小時(shí),這應(yīng)該是當(dāng)天討論最熱的一個(gè)Topic。
Auto-GPT基本兩個(gè)多月就在GitHub上收獲了十四萬(wàn)顆star,是有史以來(lái)最快達(dá)到這個(gè)成績(jī)的一個(gè)項(xiàng)目,斯坦福的這篇論文也指明了無(wú)數(shù)工程師、大學(xué)研究人員下一代研發(fā)的方向等。此外,一些領(lǐng)先的企業(yè)也已經(jīng)開(kāi)始做相關(guān)探索。比如現(xiàn)在商業(yè)化領(lǐng)域已經(jīng)出現(xiàn)了類(lèi)似名人明星的代理,我們可以跟他們聊天互動(dòng)等。
其實(shí),AI Agent 本質(zhì)上是AI從Copilot 走向Autopilot 的一個(gè)必然階段。比如現(xiàn)在不管是微軟的代碼生成,還是微軟PPT的輔助工具都可能叫做Copilot。但是我覺(jué)得下一步如果這些智能代理能具備很強(qiáng)的推理能力、很強(qiáng)的感知能力、很好的記憶力,它就一定能進(jìn)行自我迭代、自我演化,真正成為一個(gè)Autopilot。那在我們向更強(qiáng)大的AI Agent演進(jìn)的過(guò)程中,向量數(shù)據(jù)庫(kù)將承擔(dān)一個(gè)類(lèi)似人類(lèi)的長(zhǎng)期記憶的角色。
我們都知道人的大腦有很多分區(qū),人有一項(xiàng)最基本的能力,就是能夠記憶。我們記得我們背的第一首古詩(shī)是什么、記得十年前我們跟某個(gè)人的對(duì)話是什么樣的,記得當(dāng)時(shí)是什么樣的場(chǎng)景得出了什么樣的結(jié)論等等。相應(yīng)地,在AI Agent的演進(jìn)過(guò)程中,向量數(shù)據(jù)庫(kù)就提供了長(zhǎng)期記憶,也就是類(lèi)似人類(lèi)的海馬體的功能。
總體而言,我認(rèn)為,新一代AI的篇章剛剛展開(kāi),未來(lái)一定會(huì)出現(xiàn)跨模態(tài)、多模態(tài)、甚至跨領(lǐng)域的大模型。Zilliz從2018年開(kāi)始做向量數(shù)據(jù)庫(kù),我們也希望能和更多的AI科研人員、創(chuàng)業(yè)者、工程師們一起探討AI發(fā)展以及未來(lái)AI的邊界,謝謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。