丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給何思思
發(fā)送

0

對話騰訊云:大模型愈發(fā)火熱,向量數(shù)據(jù)庫將進入藍海時代

本文作者: 何思思 2023-07-11 16:06
導語:大模型帶火了向量數(shù)據(jù)庫?

向量數(shù)據(jù)庫已經(jīng)成為除大模型之外的又一熱詞。

眾所周知,數(shù)據(jù)是構建大模型的三大要素之一,所以從一定程度上來說,向量數(shù)據(jù)庫能突破大模型在時間和空間上的限制,為企業(yè)利用數(shù)據(jù)價值帶來更多的幫助。

也有人形象比喻道,大模型是人的“大腦”,向量數(shù)據(jù)庫就像“海馬體”一樣,能夠為大模型提供“長期記憶”。

談到向量數(shù)據(jù)庫,還要從大模型說起。

目前對于大模型業(yè)界有兩種聲音:一種認為大模型會吞噬著現(xiàn)有的資源,吞噬我們的崗位,這種聲音表達了對大模型的擔憂和恐懼。另一種則對大模型充滿期待,認為大模型會帶來新的技術變革,進而提升社會生產(chǎn)力。

其實從現(xiàn)在來看,這兩種聲音都沒有對錯。

對此,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云表示,騰訊云團隊一定意義上也關心第一種聲音,很可能會成為第一波被替換的程序員。在這種情況下?lián)鷳n是解決不了問題的,我們經(jīng)常激勵自己要有更大的勇氣迎接大模型,迎接這個新時代的到來。

在他看來,大模型相當一個智能處理器,有了它之后,不需要大量的程序員編寫程序調用底層GPU,用自然語言就可以和大模型交互,讓大模型為我所用,從而釋放更大的生產(chǎn)力。技術側,隨著大模型這個智能處理器的普及,算力的使用方式也會發(fā)生變化。

大模型之于社會、之于企業(yè)、之于個人的意義早已不言而喻,但在其帶來紅利的同時,也會在一定程度上加劇企業(yè)之間的競爭,而競爭的焦點就是數(shù)據(jù)。

用羅云的話講,誰能夠更好的利用數(shù)據(jù),更好的把數(shù)據(jù)沉淀到自己的工程里,更好的讓數(shù)據(jù)接入到大模型和整個AI體系誰就有可能走在最前列。

羅云把數(shù)據(jù)競爭核心歸結為以下兩點:

一是,大模型如何更好的管理企業(yè)產(chǎn)生的非結構化數(shù)據(jù),目前企業(yè)產(chǎn)生的數(shù)據(jù)80%是非結構化的,我們通常會選擇通過預訓練的方式把數(shù)據(jù)沉淀到大模型中,讓大模型變得無所不知,但是與之而來的是高昂的成本問題。

二是,如何保障企業(yè)數(shù)據(jù)的私密性,數(shù)據(jù)在空間和時間上會有很大的限制,一方面企業(yè)很難把自己具有核心競爭力的數(shù)據(jù)放到大模型中去訓練,另一方面數(shù)據(jù)很難做到秒、天級別的更新。這時候我們向量數(shù)據(jù)庫其實就變得非常重要,要去彌補大模型在時間上和空間上的限制。

為了解決以上問題,企業(yè)的處理方式是通過向量化的方式把非結構化的數(shù)據(jù)存儲到向量數(shù)據(jù)庫中。以數(shù)據(jù)更新的時效性為例,假如我們想要了解一周股市的變化,以現(xiàn)在通用大模型或者行業(yè)大模型的發(fā)展情況來看,是很難快速的更新一周的內容的。

但有了向量數(shù)據(jù)庫后,企業(yè)可以先把一周的新聞通過Embedding的方式存到他們自有的向量數(shù)據(jù)庫中,有客戶問問題時,它會從向量數(shù)據(jù)庫中檢索到與問題相關的新聞,拿到檢索結果后做一個提示詞的工程化處理,最后傳遞給大模型完成最后的推理生成答案。

通過觀察發(fā)現(xiàn),有了向量數(shù)據(jù)庫,企業(yè)有了更好運用數(shù)據(jù),特別是覆蓋80%的非結構化數(shù)據(jù)的能力,一定意義上向量數(shù)據(jù)庫更像是企業(yè)數(shù)據(jù)和大模型之間的橋梁。

向量數(shù)據(jù)庫之于大模型的意義已經(jīng)逐漸顯現(xiàn),但騰訊云也有自己的思考。

羅云表示,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者怎么能更好地服務全行業(yè)是首要問題,為此,騰訊云也重新定義了AI Native的開發(fā)范式,提供了接入層、計算層、存儲層的全面AI化解決方案,使用戶在使用向量數(shù)據(jù)庫的全生命周期,都能應用到AI能力。

對話騰訊云:大模型愈發(fā)火熱,向量數(shù)據(jù)庫將進入藍海時代

其中,接入層,騰訊云向量數(shù)據(jù)庫支持自然語言文本的輸入,同時采用“標量+向量”的查詢方式,支持全內存索引;計算層,AI Native開發(fā)范式能實現(xiàn)全量數(shù)據(jù)AI計算,一站解決企業(yè)在搭建私域知識庫時的文本切分(segment)、向量化(embedding)等難題;存儲層,騰訊云向量數(shù)據(jù)庫支持數(shù)據(jù)智能存儲分布,讓企業(yè)存儲成本降低50%。

“只有向量數(shù)據(jù)庫變得更AI化,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者才能形成一個飛輪效應,彼此之間相互拉動,相互促進,這是我們對向量數(shù)據(jù)庫未來發(fā)展的判斷。”

雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,目前騰訊云向量數(shù)據(jù)庫已經(jīng)在 QQ 瀏覽器、騰訊視頻、騰訊游戲、QQ 音樂、搜狗輸入法等 30 + 業(yè)務場景中應用,并自研了分布式向量數(shù)據(jù)庫核心引擎 Olama,原名 ElasticFaiss。

并且羅云還透露道,騰訊云向量數(shù)據(jù)庫會作為一個獨立的產(chǎn)品在騰訊云官網(wǎng)進行售賣,當然也有和其他產(chǎn)品一起售賣的可能,二者并不沖突。

談到Olama,其實早在2019年騰訊云就開始了該技術的探索至今已經(jīng)有4年時間里。但現(xiàn)在騰訊云給 Olama的定位是騰訊云向量數(shù)據(jù)庫的底座之一,向量數(shù)據(jù)庫在Olama的基礎之上還有很多豐富的能力。

通過四年時間的發(fā)展,騰訊云對Olama也做了大量的改進,其一,向量索引的算法方面,把現(xiàn)在業(yè)界優(yōu)秀的向量算法集成進來,包括騰訊內部自研的先進的向量數(shù)據(jù)算法也會集成進來;其二,降低Olama的成本,提升穩(wěn)定性;其三更加自動化智能化的對外提供服務。

對于是否會針對不同行業(yè)提供差異化服務?

羅云給出了否定的回復。他表示,騰訊云的向量數(shù)據(jù)庫是一個標準的平臺型產(chǎn)品,這是非常確定的。

對于是否能服務全行業(yè),羅云則認為,二者沒有很強的因果關系,核心還要看哪些行業(yè)和AI的結合,更早、更快。

同時,他也給出了三個有代表性的方向:

  • 第一是做模型訓練的企業(yè),他們需要向量數(shù)據(jù)庫加速模型訓練、數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)積累等工作的;

  • 第二是內容類企業(yè),這類企業(yè)可以通過將內容和AI更好的結合,從而給用戶提供更好的服務體驗;

  • 第三是教培機構,通過AI的加持可以更好的和客戶交互,從而帶來交互形式上的變化。

隨著大模型火熱程度的持續(xù)攀升,向量數(shù)據(jù)庫的號角呀即將吹響,正如羅云所言,如果你看好大模型,那你一定會看好向量數(shù)據(jù)庫。

(雷峰網(wǎng)雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章

工業(yè)口編輯

關注新基建,聚焦工業(yè)互聯(lián)網(wǎng)領域 網(wǎng)絡安全丨微信:15230152798
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說