0
本文作者: 何思思 | 2023-07-11 16:06 |
向量數(shù)據(jù)庫(kù)已經(jīng)成為除大模型之外的又一熱詞。
眾所周知,數(shù)據(jù)是構(gòu)建大模型的三大要素之一,所以從一定程度上來(lái)說(shuō),向量數(shù)據(jù)庫(kù)能突破大模型在時(shí)間和空間上的限制,為企業(yè)利用數(shù)據(jù)價(jià)值帶來(lái)更多的幫助。
也有人形象比喻道,大模型是人的“大腦”,向量數(shù)據(jù)庫(kù)就像“海馬體”一樣,能夠?yàn)榇竽P吞峁伴L(zhǎng)期記憶”。
談到向量數(shù)據(jù)庫(kù),還要從大模型說(shuō)起。
目前對(duì)于大模型業(yè)界有兩種聲音:一種認(rèn)為大模型會(huì)吞噬著現(xiàn)有的資源,吞噬我們的崗位,這種聲音表達(dá)了對(duì)大模型的擔(dān)憂和恐懼。另一種則對(duì)大模型充滿期待,認(rèn)為大模型會(huì)帶來(lái)新的技術(shù)變革,進(jìn)而提升社會(huì)生產(chǎn)力。
其實(shí)從現(xiàn)在來(lái)看,這兩種聲音都沒(méi)有對(duì)錯(cuò)。
對(duì)此,騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云表示,騰訊云團(tuán)隊(duì)一定意義上也關(guān)心第一種聲音,很可能會(huì)成為第一波被替換的程序員。在這種情況下?lián)鷳n是解決不了問(wèn)題的,我們經(jīng)常激勵(lì)自己要有更大的勇氣迎接大模型,迎接這個(gè)新時(shí)代的到來(lái)。
在他看來(lái),大模型相當(dāng)一個(gè)智能處理器,有了它之后,不需要大量的程序員編寫(xiě)程序調(diào)用底層GPU,用自然語(yǔ)言就可以和大模型交互,讓大模型為我所用,從而釋放更大的生產(chǎn)力。技術(shù)側(cè),隨著大模型這個(gè)智能處理器的普及,算力的使用方式也會(huì)發(fā)生變化。
大模型之于社會(huì)、之于企業(yè)、之于個(gè)人的意義早已不言而喻,但在其帶來(lái)紅利的同時(shí),也會(huì)在一定程度上加劇企業(yè)之間的競(jìng)爭(zhēng),而競(jìng)爭(zhēng)的焦點(diǎn)就是數(shù)據(jù)。
用羅云的話講,誰(shuí)能夠更好的利用數(shù)據(jù),更好的把數(shù)據(jù)沉淀到自己的工程里,更好的讓數(shù)據(jù)接入到大模型和整個(gè)AI體系誰(shuí)就有可能走在最前列。
羅云把數(shù)據(jù)競(jìng)爭(zhēng)核心歸結(jié)為以下兩點(diǎn):
一是,大模型如何更好的管理企業(yè)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),目前企業(yè)產(chǎn)生的數(shù)據(jù)80%是非結(jié)構(gòu)化的,我們通常會(huì)選擇通過(guò)預(yù)訓(xùn)練的方式把數(shù)據(jù)沉淀到大模型中,讓大模型變得無(wú)所不知,但是與之而來(lái)的是高昂的成本問(wèn)題。
二是,如何保障企業(yè)數(shù)據(jù)的私密性,數(shù)據(jù)在空間和時(shí)間上會(huì)有很大的限制,一方面企業(yè)很難把自己具有核心競(jìng)爭(zhēng)力的數(shù)據(jù)放到大模型中去訓(xùn)練,另一方面數(shù)據(jù)很難做到秒、天級(jí)別的更新。這時(shí)候我們向量數(shù)據(jù)庫(kù)其實(shí)就變得非常重要,要去彌補(bǔ)大模型在時(shí)間上和空間上的限制。
為了解決以上問(wèn)題,企業(yè)的處理方式是通過(guò)向量化的方式把非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)到向量數(shù)據(jù)庫(kù)中。以數(shù)據(jù)更新的時(shí)效性為例,假如我們想要了解一周股市的變化,以現(xiàn)在通用大模型或者行業(yè)大模型的發(fā)展情況來(lái)看,是很難快速的更新一周的內(nèi)容的。
但有了向量數(shù)據(jù)庫(kù)后,企業(yè)可以先把一周的新聞通過(guò)Embedding的方式存到他們自有的向量數(shù)據(jù)庫(kù)中,有客戶問(wèn)問(wèn)題時(shí),它會(huì)從向量數(shù)據(jù)庫(kù)中檢索到與問(wèn)題相關(guān)的新聞,拿到檢索結(jié)果后做一個(gè)提示詞的工程化處理,最后傳遞給大模型完成最后的推理生成答案。
通過(guò)觀察發(fā)現(xiàn),有了向量數(shù)據(jù)庫(kù),企業(yè)有了更好運(yùn)用數(shù)據(jù),特別是覆蓋80%的非結(jié)構(gòu)化數(shù)據(jù)的能力,一定意義上向量數(shù)據(jù)庫(kù)更像是企業(yè)數(shù)據(jù)和大模型之間的橋梁。
向量數(shù)據(jù)庫(kù)之于大模型的意義已經(jīng)逐漸顯現(xiàn),但騰訊云也有自己的思考。
羅云表示,數(shù)據(jù)、向量數(shù)據(jù)庫(kù)、大模型三者怎么能更好地服務(wù)全行業(yè)是首要問(wèn)題,為此,騰訊云也重新定義了AI Native的開(kāi)發(fā)范式,提供了接入層、計(jì)算層、存儲(chǔ)層的全面AI化解決方案,使用戶在使用向量數(shù)據(jù)庫(kù)的全生命周期,都能應(yīng)用到AI能力。
其中,接入層,騰訊云向量數(shù)據(jù)庫(kù)支持自然語(yǔ)言文本的輸入,同時(shí)采用“標(biāo)量+向量”的查詢方式,支持全內(nèi)存索引;計(jì)算層,AI Native開(kāi)發(fā)范式能實(shí)現(xiàn)全量數(shù)據(jù)AI計(jì)算,一站解決企業(yè)在搭建私域知識(shí)庫(kù)時(shí)的文本切分(segment)、向量化(embedding)等難題;存儲(chǔ)層,騰訊云向量數(shù)據(jù)庫(kù)支持?jǐn)?shù)據(jù)智能存儲(chǔ)分布,讓企業(yè)存儲(chǔ)成本降低50%。
“只有向量數(shù)據(jù)庫(kù)變得更AI化,數(shù)據(jù)、向量數(shù)據(jù)庫(kù)、大模型三者才能形成一個(gè)飛輪效應(yīng),彼此之間相互拉動(dòng),相互促進(jìn),這是我們對(duì)向量數(shù)據(jù)庫(kù)未來(lái)發(fā)展的判斷。”
雷峰網(wǎng)了解到,目前騰訊云向量數(shù)據(jù)庫(kù)已經(jīng)在 QQ 瀏覽器、騰訊視頻、騰訊游戲、QQ 音樂(lè)、搜狗輸入法等 30 + 業(yè)務(wù)場(chǎng)景中應(yīng)用,并自研了分布式向量數(shù)據(jù)庫(kù)核心引擎 Olama,原名 ElasticFaiss。
并且羅云還透露道,騰訊云向量數(shù)據(jù)庫(kù)會(huì)作為一個(gè)獨(dú)立的產(chǎn)品在騰訊云官網(wǎng)進(jìn)行售賣(mài),當(dāng)然也有和其他產(chǎn)品一起售賣(mài)的可能,二者并不沖突。
談到Olama,其實(shí)早在2019年騰訊云就開(kāi)始了該技術(shù)的探索至今已經(jīng)有4年時(shí)間里。但現(xiàn)在騰訊云給 Olama的定位是騰訊云向量數(shù)據(jù)庫(kù)的底座之一,向量數(shù)據(jù)庫(kù)在Olama的基礎(chǔ)之上還有很多豐富的能力。
通過(guò)四年時(shí)間的發(fā)展,騰訊云對(duì)Olama也做了大量的改進(jìn),其一,向量索引的算法方面,把現(xiàn)在業(yè)界優(yōu)秀的向量算法集成進(jìn)來(lái),包括騰訊內(nèi)部自研的先進(jìn)的向量數(shù)據(jù)算法也會(huì)集成進(jìn)來(lái);其二,降低Olama的成本,提升穩(wěn)定性;其三更加自動(dòng)化智能化的對(duì)外提供服務(wù)。
對(duì)于是否會(huì)針對(duì)不同行業(yè)提供差異化服務(wù)?
羅云給出了否定的回復(fù)。他表示,騰訊云的向量數(shù)據(jù)庫(kù)是一個(gè)標(biāo)準(zhǔn)的平臺(tái)型產(chǎn)品,這是非常確定的。
對(duì)于是否能服務(wù)全行業(yè),羅云則認(rèn)為,二者沒(méi)有很強(qiáng)的因果關(guān)系,核心還要看哪些行業(yè)和AI的結(jié)合,更早、更快。
同時(shí),他也給出了三個(gè)有代表性的方向:
第一是做模型訓(xùn)練的企業(yè),他們需要向量數(shù)據(jù)庫(kù)加速模型訓(xùn)練、數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)積累等工作的;
第二是內(nèi)容類企業(yè),這類企業(yè)可以通過(guò)將內(nèi)容和AI更好的結(jié)合,從而給用戶提供更好的服務(wù)體驗(yàn);
第三是教培機(jī)構(gòu),通過(guò)AI的加持可以更好的和客戶交互,從而帶來(lái)交互形式上的變化。
隨著大模型火熱程度的持續(xù)攀升,向量數(shù)據(jù)庫(kù)的號(hào)角呀即將吹響,正如羅云所言,如果你看好大模型,那你一定會(huì)看好向量數(shù)據(jù)庫(kù)。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。