丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
金融科技 正文
發(fā)私信給趙之齊
發(fā)送

0

對話Zilliz星爵:大模型會讓向量數(shù)據(jù)庫淪為“花架子”嗎?

本文作者: 趙之齊   2025-05-06 12:03
導(dǎo)語:傳統(tǒng)RAG已死,然后呢?


對話Zilliz星爵:大模型會讓向量數(shù)據(jù)庫淪為“花架子”嗎?

在 NVIDIA GTC 2023 大會上,黃仁勛官宣了和 Milvus 項目合作,Zilliz 被三次邀請上臺演講;大會三天之后,OpenAI 官宣和 Zilliz 合作,在發(fā)布的 chatgpt-retrieval-plugin 產(chǎn)品中接入 Milvus 和 Zilliz Cloud。

這是屬于向量數(shù)據(jù)庫公司 Zilliz 的高光時刻之一。

那一年,隨著大模型爆火,層出不窮的幻覺以及專業(yè)領(lǐng)域知識的匱乏,成了影響大模型落地的重要桎梏。而向量數(shù)據(jù)庫作為大模型的的“外部記憶外掛”,承擔(dān)了起了通過對本地知識進行語義檢索,補全大模型落地最后一塊短板的角色。

也是在這一過程中,RAG(Retrieval-Augmented Generation,檢索增強生成 )作為大模型結(jié)合向量數(shù)據(jù)庫的經(jīng)典搭配范式,成為了繼電商推薦、自動駕駛之后,向量數(shù)據(jù)庫爆發(fā)的又一超級場景。

然而,到了 2025 年,在與雷峰網(wǎng)交流時,Zilliz 的 CEO 星爵卻直言:傳統(tǒng) RAG 已死。

在他看來,隨著推理模型的進步,人們對大模型的知識搜尋不再滿足于“一次性”的檢索,而希望能對問題進行拆解,然后多次根據(jù)反饋來做精細化地搜尋,形成完整解答。

基于這一判斷,Zilliz 今年二月發(fā)布的基于 DeepResearch 理念的開源項目 DeepSearcher,一個月左右,就在 GitHub 上收到差不多 5000個 star,其火爆程度可見一斑。

在成立 Zilliz 前,星爵在 2009-2015 年間,曾任職于 Oracle,并成為了 Oracle 云數(shù)據(jù)庫產(chǎn)品的前五個創(chuàng)始工程師之一。那段經(jīng)歷,讓他親自參與了當(dāng)時全世界最先進的數(shù)據(jù)庫系統(tǒng)的建設(shè),更讓他堅定了“云是未來”的信念。

而 Oracle 的經(jīng)歷,也在他心中播下了“創(chuàng)造奇跡”的種子:2009 年 6 月,在他前去 Oracle 報道的第一天,他在電梯里遇到一位推著單車,操著一口濃厚的法國口音的工程師。他倆攀談了一陣,彼此留下了深刻的印象。接下來的兩年多時間里,星爵一直與這位工程師同在 Oralce 美國總部 400 號大樓的 7 樓工作,直到其在 2012 年離職創(chuàng)業(yè)。這位工程師名叫 Thierry Cruanes,他的創(chuàng)業(yè)項目叫 Snowflake。

“見證奇跡是有感染力的。他會逼著你不安現(xiàn)狀,然后去思考,去改變,去創(chuàng)造屬于自己的傳奇”,星爵感慨。

于是,懷抱著創(chuàng)造奇跡的夢想,星爵于 2017 年創(chuàng)立 Zilliz,在大模型風(fēng)潮尚未席卷全世界時,便已堅定地走向量數(shù)據(jù)庫這條路?!斑@個世界上存在著 80% 的非結(jié)構(gòu)化數(shù)據(jù),AI 理論上讓大規(guī)模、高效處理非結(jié)構(gòu)化數(shù)據(jù)成為可能。我很興奮,希望把握這個機會”。從起初頻頻遭投資人禮貌拒絕,到后來在 Forrester Wave? 向量數(shù)據(jù)庫報告中獲評領(lǐng)導(dǎo)者象限最高分,他把 Zilliz 的這場嘗試稱為“理想主義工程師的大冒險”。

但 Zilliz 的成長史,似乎也在不停面臨關(guān)于“存在意義”的問題:開源比起閉源的意義,向量數(shù)據(jù)庫在通用數(shù)據(jù)庫面前的意義……而在大模型越來越萬能的今天,也有人質(zhì)疑,大模型的進化是否會讓向量數(shù)據(jù)庫的作用漸失?向雷峰網(wǎng)(公眾號:雷峰網(wǎng))回顧商業(yè)化進程的同時,星爵也對此做出回應(yīng)。以下是雷峰網(wǎng)在不改變對話原意基礎(chǔ)上所做的整理。

對話Zilliz星爵:大模型會讓向量數(shù)據(jù)庫淪為“花架子”嗎?Zilliz CEO 星爵


大模型和向量數(shù)據(jù)庫:仍會互相合作

雷峰網(wǎng):有個說法,DeepSeek這樣的推理大模型出來,讓很多過去做的 RAG 瞬間變成“花架子”,向量數(shù)據(jù)庫好像沒那么有用了?

星爵:短期來看,確實一些基于公開數(shù)據(jù)構(gòu)建的 RAG 應(yīng)用可能會受到影響,但對于企業(yè)私有數(shù)據(jù)與大模型的結(jié)合場景,向量數(shù)據(jù)庫仍然是不可或缺的基礎(chǔ)設(shè)施。中期角度看,DeepSeek這類推理模型的出現(xiàn)反而會加速AI應(yīng)用的普及與爆發(fā),催生更多非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生、管理和應(yīng)用需求,這實際上會進一步擴大向量數(shù)據(jù)庫的市場空間。

長遠來看,計算與存儲的協(xié)同是計算機系統(tǒng)中永恒的基本范式。回顧歷史,在計算機發(fā)展初期,當(dāng)馮·諾依曼提出存儲計算分離架構(gòu)時,也曾有人質(zhì)疑隨著 CPU 性能的提升,存儲設(shè)備會被邊緣化。但事實證明,隨著算力的增長,存儲需求也在同步擴大。預(yù)計未來五年內(nèi),人類將產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)量可能會超過此前歷史上的總和,這更加凸顯了存算協(xié)同架構(gòu)的重要性。

雷峰網(wǎng):最近 Zilliz 在大模型應(yīng)用上也有些進展,比如 DeepSearcher 開源項目,可以介紹下嗎?

星爵:OpenAI 此前推出了 DeepResearch(深度研究)工具,它能夠通過多步驟信息收集與推理來生成專業(yè)報告。但每月 200 美元的訂閱費對許多用戶來說過于昂貴,而且該工具在處理企業(yè)本地數(shù)據(jù)方面存在效率瓶頸。看到這一痛點,我們開發(fā)出了 DeepSearcher,通過本地部署方式實現(xiàn)了類似功能。DeepSearcher 將大模型、高級搜索和研究助理功能融為一體,特別優(yōu)化了對本地數(shù)據(jù)的處理能力,使其更適合企業(yè)實際應(yīng)用場景。這一項目一經(jīng)推出就獲得了廣泛關(guān)注,在短短一個月內(nèi),GitHub 上的 Star 數(shù)量就接近 5000。

雷峰網(wǎng):為什么會看好 DeepResearch 類產(chǎn)品?

星爵:從長遠角度看,DeepResearch 這類 Agentic RAG 將會完全替代傳統(tǒng)RAG模式。傳統(tǒng) RAG 僅進行單次(one-shot)信息檢索,只適合解決相對簡單的問題。而 Agentic RAG 充分發(fā)揮了大語言模型的深度推理能力,能夠通過思維鏈將復(fù)雜問題分解為多個子任務(wù)逐步解決。在這一過程中,系統(tǒng)可以針對每個子任務(wù)通過向量數(shù)據(jù)庫進行精準(zhǔn)檢索,實現(xiàn)多輪信息獲取,大幅提升信息檢索的廣度和深度,從而顯著降低大模型產(chǎn)生幻覺的可能性。

雷峰網(wǎng):您之前說向量數(shù)據(jù)庫下一個殺手級的應(yīng)用可能是 AI Agent,目前我們距離 AI Agent 時代徹底到來還差什么?以及之后數(shù)據(jù)庫在 AI Agent 里如何更好發(fā)揮作用?

星爵:AI Agent 的本質(zhì)是幫助人類處理復(fù)雜任務(wù),或者說復(fù)合任務(wù)。這類任務(wù)往往需要多步驟推理、多輪決策,因此 Agent 需要一個可靠的記憶體系來存儲中間狀態(tài)和歷史信息,而向量數(shù)據(jù)庫恰好可以很好地承擔(dān)這個作用。向量數(shù)據(jù)庫能夠高效存儲和檢索非結(jié)構(gòu)化數(shù)據(jù),為 Agent 提供長期記憶和知識檢索能力,使其能夠在復(fù)雜任務(wù)執(zhí)行過程中保持上下文連貫性。

目前 AI Agent 領(lǐng)域面臨的主要挑戰(zhàn)并不在數(shù)據(jù)存儲這一側(cè)。Agent 技術(shù)的發(fā)展仍處于早期階段,整個行業(yè)還沒有找到真正具有顛覆性的殺手級應(yīng)用。我們尚未看到能夠在實際生產(chǎn)環(huán)境中大規(guī)模部署、并為客戶解決實際問題的應(yīng)用場景。這些場景的發(fā)掘和打磨需要工業(yè)界和學(xué)術(shù)界的共同努力。

從技術(shù)角度看,Agent 還面臨著規(guī)劃能力不足、多步驟任務(wù)協(xié)調(diào)困難、以及與現(xiàn)實世界交互能力有限等問題。這些挑戰(zhàn)需要在模型架構(gòu)、推理機制和系統(tǒng)集成等多個層面進行突破。我相信隨著大模型能力的不斷提升和應(yīng)用場景的逐步明晰,AI Agent 將逐漸成熟,而向量數(shù)據(jù)庫作為其核心基礎(chǔ)設(shè)施之一,也將在這一過程中發(fā)揮越來越重要的作用。


開源長期主義:先苦后甜

雷峰網(wǎng):您是在什么契機下想成立 Zilliz 呢?

星爵:在創(chuàng)立Zilliz之前,我很幸運地成為Oracle云數(shù)據(jù)庫的前五位創(chuàng)始工程師之一,從 2009 年就開始涉足云數(shù)據(jù)庫領(lǐng)域。這段經(jīng)歷讓我親身體驗了全球最尖端、最復(fù)雜的數(shù)據(jù)庫系統(tǒng)是如何構(gòu)建的,也讓我深信"云就是未來"。

更關(guān)鍵的是,當(dāng)我看到自己的產(chǎn)品被如此多的人使用,周圍環(huán)繞著眾多技術(shù)大牛時,自然而然也產(chǎn)生改變世界的雄心。在 Oracle 期間,我結(jié)識了許多技術(shù)領(lǐng)域的頂尖人才,其中包括 Thierry。我們共事兩年多后,他在2012年離開創(chuàng)業(yè),創(chuàng)辦了 Snowflake——后來成為納斯達克歷史上規(guī)模最大的軟件 IPO 項目。目睹這樣的奇跡發(fā)生,我熱血沸騰,也希望打造一番自己的事業(yè)。

到了 2017 年,AI 開始進入公眾視野并得到廣泛應(yīng)用,Transformer 等大模型架構(gòu)也呼之欲出。當(dāng)時我就意識到,我們的世界中有 80% 是非結(jié)構(gòu)化數(shù)據(jù),而這些數(shù)據(jù)的高效利用一直是個棘手問題。但AI技術(shù)使得大規(guī)模、高效處理這些非結(jié)構(gòu)化數(shù)據(jù)成為可能。那時,我感到一種強烈的使命感和沖動——是時候由我來推動這一領(lǐng)域的變革了。

雷峰網(wǎng):公司成立后,融資容易嗎?

星爵:Zilliz 的早期融資之路異常艱難。作為第一次創(chuàng)業(yè),我切身感受到了這個過程的挑戰(zhàn)——創(chuàng)業(yè)初期,我們長時間無法獲得任何投資,拜訪了幾十位投資人后,收到的大多是禮貌性的"項目很有意思"、"我們保持聯(lián)系"這類回應(yīng),之后就杳無音信。起步階段,我只能靠自己的積蓄來支撐項目運轉(zhuǎn),這確實是一場理想主義工程師的冒險。所幸經(jīng)過堅持不懈的努力,我們終于找到了真正能夠理解我們愿景、與我們理念相契合的投資伙伴。

雷峰網(wǎng):你是如何說服他們的?

星爵:投資人不會被說服,而是大家本就堅定地認可同一件事情。對我們來說,關(guān)鍵是找到那些已經(jīng)認同非結(jié)構(gòu)化數(shù)據(jù)巨大市場空間的投資人。真正的投資決策往往不是靠一次演講或一份 PPT 說服出來的,當(dāng)我們遇到那些已經(jīng)通過自己的研究和洞察,對AI和非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域充滿信心的投資人時,合作就水到渠成了。

雷峰網(wǎng):當(dāng)時產(chǎn)品打磨了多久落地呢?

星爵:我們的產(chǎn)品研發(fā)歷程可以追溯到 2017年。當(dāng)時我們正在探索向量數(shù)據(jù)庫技術(shù)的無人區(qū),需要從零開始構(gòu)建每一個組件。經(jīng)過近兩年的潛心研發(fā),到 2019 年底我們終于有了一個相對成熟的產(chǎn)品。2019 年 11 月 15 日,我們正式將 Milvus 開源,市場反響出乎意料地好。進入 2020 年后,我們的開源用戶社區(qū)呈現(xiàn)出爆發(fā)式增長,GitHub 上的 star 數(shù)量快速攀升,到年底已經(jīng)積累了超過 5000 名開發(fā)者和 300 多家早期企業(yè)用戶,這有力地證明了我們的產(chǎn)品價值。隨著用戶基礎(chǔ)的擴大,我們也開始看到包括智能搜索、圖片和視頻檢索、推薦系統(tǒng)、欺詐檢測和生物醫(yī)藥研發(fā)等越來越多的實際落地應(yīng)用場景,這給了我們很大信心繼續(xù)前進。

雷峰網(wǎng):但 Zilliz 是在 2023 年才開始打造商業(yè)化產(chǎn)品,為什么公司成立了五六年后才開始正式進入商業(yè)化?

星爵:作為一個基礎(chǔ)設(shè)施產(chǎn)品,數(shù)據(jù)庫系統(tǒng)的復(fù)雜性決定了它需要長期持續(xù)的技術(shù)投入和精細打磨。在 Zilliz 成立的最初幾年,我們將主要精力放在了核心技術(shù)研發(fā)和產(chǎn)品完善上。同時,們面臨著一個更大的挑戰(zhàn)——市場教育。作為全球首家專注于向量數(shù)據(jù)庫的公司,我們需要從零開始向整個行業(yè)解釋這一全新概念:什么是向量數(shù)據(jù)庫?它為什么在 AI 時代至關(guān)重要?它能解決哪些傳統(tǒng)數(shù)據(jù)庫無法應(yīng)對的挑戰(zhàn)?這種市場啟蒙工作雖然耗時費力,但對于開創(chuàng)一個新品類來說卻是不可或缺的。這也是我們選擇開源路線的核心原因之一——開源模式能夠幫助我們更快地獲得開發(fā)者社區(qū)的關(guān)注和反饋,加速產(chǎn)品迭代,同時建立起一個活躍且可持續(xù)發(fā)展的技術(shù)生態(tài)系統(tǒng)。

我們選擇在2023年才推出商業(yè)化的 Zilliz Cloud,主要基于兩個方面的考慮。一方面,經(jīng)過多年的技術(shù)積累和產(chǎn)品打磨,我們的開源產(chǎn)品 Milvus 在社區(qū)已經(jīng)取得了非常好的成績,積累了大量的用戶和應(yīng)用案例,產(chǎn)品的穩(wěn)定性和性能也得到了市場的充分驗證。另一方面,我們也恰好趕上了生成式 AI 的爆發(fā),ChatGPT 等大模型的出現(xiàn)讓向量數(shù)據(jù)庫一下子成為了AI基礎(chǔ)設(shè)施中不可或缺的組件,市場需求呈現(xiàn)出爆發(fā)式增長。這兩個因素疊加在一起,為我們的商業(yè)化提供了一個絕佳的時機和起點。

雷峰網(wǎng):一般來說開源公司商業(yè)化的進程普遍都比較慢,您如何看待這種情況呢?

星爵:開源比起閉源有更強的社區(qū)能力和創(chuàng)新的生命力,這種差異在長期發(fā)展中尤為明顯。

硅谷有一種標(biāo)志性的樹木叫紅杉,當(dāng)?shù)赜蟹浅6嗟陌倌晟踔翑?shù)千年紅杉樹林,這些樹木能夠生長到百米高度,形成壯觀的生態(tài)系統(tǒng)。做數(shù)據(jù)庫,做開源,其實就像種一棵紅杉樹,你播下種子,它可以至少長到五六十米以上,甚至更高,但前提是你要有足夠的耐心和長期主義精神。這個過程可能需要數(shù)年甚至十年以上的時間,但一旦成功,其影響力和價值將遠超短期商業(yè)化帶來的收益。

數(shù)據(jù)庫產(chǎn)品做商業(yè)化時,開發(fā)者社區(qū)其實就是最好的客戶來源和創(chuàng)新引擎。開源模式雖然前期變現(xiàn)較慢,但能夠建立起強大的用戶基礎(chǔ)和品牌影響力。就像過去十年里 Databricks 和 Snowflake 之間的競爭。Snowflake 作為完全閉源的公司,雖然前期商業(yè)化比較容易,能夠快速獲取收入,但要面對的挑戰(zhàn)是后期如何維持創(chuàng)新以及如何高效地商業(yè)化獲客。隨著時間推移,開源的優(yōu)勢逐漸顯現(xiàn)——現(xiàn)在 Databricks 技術(shù)創(chuàng)新速度和市場增長都呈現(xiàn)加速態(tài)勢,在最新的一輪融資后,它的估值幾乎超過了Snowflake一倍。如果能成功上市,市場上期望它的估值會得到進一步提升

在Zilliz的發(fā)展過程中,我們也堅持這種開源長期主義的理念。雖然短期內(nèi)可能面臨商業(yè)化進度較慢的挑戰(zhàn),但我們相信,通過持續(xù)投入和社區(qū)建設(shè),我們正在培育一棵屬于AI時代的"紅杉樹",它的根系將深入全球開發(fā)者生態(tài),最終成長為非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域的基礎(chǔ)設(shè)施。

雷峰網(wǎng):發(fā)展到現(xiàn)在,你覺得 Zilliz 的商業(yè)化有達到你的預(yù)期嗎?

星爵:從整體表現(xiàn)來看,我們的商業(yè)化進程達到了預(yù)期目標(biāo)。在過去兩年中,我們不僅見證了用戶數(shù)量的強勁增長,還實現(xiàn)了連續(xù)兩年營收三倍的增長率。截至目前,Zilliz 已經(jīng)在全球市場積累了超過一萬家企業(yè)級用戶,產(chǎn)品的累計安裝下載量已突破一億次大關(guān),而且這一數(shù)字仍在呈加速增長態(tài)勢。從市場表現(xiàn)來看,我們的商業(yè)化進程正處于一個良性循環(huán)中——用戶基礎(chǔ)的擴大帶動了收入的增長,而收入的增長又使我們能夠投入更多資源到產(chǎn)品研發(fā)和市場拓展中,進一步吸引更多用戶。

更重要的是,我們認識到,AI 這個行業(yè)的崛起才剛剛開始,我們現(xiàn)在看到的只是冰山一角。隨著生成式 AI 和大模型技術(shù)的普及,企業(yè)和開發(fā)者對高效處理非結(jié)構(gòu)化數(shù)據(jù)的需求將呈現(xiàn)爆發(fā)式增長。向量數(shù)據(jù)庫作為連接 AI 模型與海量非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵基礎(chǔ)設(shè)施,其戰(zhàn)略價值和市場空間只會越來越大。我們相信,未來幾年將是向量數(shù)據(jù)庫市場真正的黃金發(fā)展期,而 Zilliz 憑借多年的技術(shù)積累和先發(fā)優(yōu)勢,已經(jīng)做好了充分準(zhǔn)備,迎接這一波更大規(guī)模的市場機遇。


向量數(shù)據(jù)庫的不可替代:處理非結(jié)構(gòu)化數(shù)據(jù)

雷峰網(wǎng):Zilliz 是一開始就考慮海外海內(nèi)兩手抓嗎?

星爵:海內(nèi)海外對我們來說,不是兩手。全球化就是一個在硅谷工作的工程師自然的思維方式。當(dāng)你身處全球創(chuàng)新中心,你的思維方式、產(chǎn)品設(shè)計和市場定位自然而然地會超越地域限制。我們從創(chuàng)立之初就秉持全球化視野,將產(chǎn)品設(shè)計為面向全球市場的解決方案;團隊也是全球化的,分布在全球多個國家和地區(qū),這使我們能夠更好地理解和服務(wù)不同市場的需求。

雷峰網(wǎng):在海外的商業(yè)模式是什么樣的?

星爵:我們的商業(yè)模式非常清晰直接。Zilliz 本質(zhì)上是一家云數(shù)據(jù)庫公司,我們的所有營收都來自于公有云服務(wù)。我們采用根據(jù)用量的計費模式,客戶根據(jù)自己的數(shù)據(jù)規(guī)模和使用需求付費。目前,我們已經(jīng)成功部署在全球五大主流云平臺上,包括亞馬遜的 AWS、谷歌的 GCP、微軟的 Azure,以及中國市場的阿里云和騰訊云。這種多云戰(zhàn)略讓我們能夠覆蓋全球各個地區(qū)的客戶,無論他們選擇哪個云服務(wù)提供商,都能使用我們的向量數(shù)據(jù)庫服務(wù)。隨著 AI 應(yīng)用的普及,我們看到云上的向量數(shù)據(jù)庫需求呈現(xiàn)爆發(fā)式增長,這也驗證了我們"云優(yōu)先"戰(zhàn)略的正確性。

雷峰網(wǎng):云上的客戶一般是中小客戶,還是也有大客戶?之前了解到可能一些比較大的客戶,不太愿意把自己的資料放到公有云上。

星爵:我們的客戶群體非常多元化,既包括初創(chuàng)企業(yè)和中小型公司,也有眾多大型企業(yè)客戶。關(guān)于數(shù)據(jù)安全這個問題,我們確實看到企業(yè)態(tài)度正在發(fā)生顯著變化。過去,大型企業(yè)對將敏感數(shù)據(jù)遷移至公有云確實存在顧慮,主要擔(dān)憂數(shù)據(jù)安全與合規(guī)問題。針對這些顧慮,Zilliz從早期就投入大量資源獲取了多項國際權(quán)威認證,包括SoC 2、GDPR 和 HIPAA 等,這些認證能夠滿足全球各行業(yè)客戶的嚴(yán)格合規(guī)要求。

此外,我們還專門開發(fā)了"自帶云環(huán)境"(BYOC)解決方案,允許企業(yè)在自己選擇的公有云專屬區(qū)域部署我們的服務(wù),同時保持對數(shù)據(jù)的完全控制權(quán)。隨著這些解決方案的推出,我們看到越來越多的大型企業(yè)正在加速向云端遷移其AI和數(shù)據(jù)處理工作負載。

雷峰網(wǎng):那 Zilliz 在 2025 年發(fā)展的重點會是什么?

星爵:2025 年,我們的發(fā)展重點將圍繞兩大核心機遇展開。首先,隨著生成式AI的爆發(fā)式增長,向量數(shù)據(jù)庫作為處理非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵基礎(chǔ)設(shè)施,市場需求正呈現(xiàn)前所未有的增長態(tài)勢。其次,全球云計算滲透率持續(xù)提高,企業(yè)對云原生數(shù)據(jù)解決方案的接受度顯著提升。

基于這兩大趨勢,我們的戰(zhàn)略布局主要分為兩個方向:一方面,我們將繼續(xù)深耕全球開源社區(qū),進一步完善 Milvus 的功能和性能,幫助全球開發(fā)者在這波 AI 浪潮中高效處理非結(jié)構(gòu)化數(shù)據(jù)。我們計劃在 2025 年舉辦更多的開發(fā)者大會和技術(shù)研討會,建立更加活躍的技術(shù)社區(qū),并推出針對不同行業(yè)的解決方案和最佳實踐。

另一方面,我們將全力推進 Zilliz Cloud 的商業(yè)化進程,這是我們面向企業(yè)級市場的全托管云服務(wù)。與開源產(chǎn)品相比,Zilliz Cloud 提供了開箱即用的體驗、更高的性能保障、全面的安全合規(guī)認證以及專業(yè)的技術(shù)支持,能夠滿足企業(yè)在生產(chǎn)環(huán)境中的嚴(yán)苛需求。2025 年,我們將進一步擴大云服務(wù)的全球覆蓋范圍,優(yōu)化多云部署能力,并推出更多針對特定行業(yè)的垂直解決方案,如金融、醫(yī)療、零售和制造業(yè)等。

雷峰網(wǎng):那之后向量數(shù)據(jù)庫的發(fā)展會要面對什么技術(shù)挑戰(zhàn)嗎?

星爵:未來五年,隨著 AI 技術(shù)不斷深入發(fā)展,AI Agent、自動駕駛、機器人和具身智能等前沿領(lǐng)域蓬勃興起,這將徹底改變非結(jié)構(gòu)化數(shù)據(jù)處理的方式和規(guī)模。向量數(shù)據(jù)庫作為AI基礎(chǔ)設(shè)施的核心組件,將面臨前所未有的技術(shù)挑戰(zhàn)。

這些挑戰(zhàn)主要體現(xiàn)在三個關(guān)鍵維度:首先是成本效益問題。隨著企業(yè)和組織積累的非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級增長,數(shù)據(jù)存儲和處理成本正成為 AI 應(yīng)用落地的主要瓶頸。以醫(yī)療影像為例,一家大型醫(yī)院每年可能產(chǎn)生數(shù)十 PB 的醫(yī)學(xué)影像數(shù)據(jù),包括 X 光片、CT 掃描和 MRI 等,如何經(jīng)濟高效地存儲和檢索這些海量數(shù)據(jù)?我們正在探索更高效的索引結(jié)構(gòu)和壓縮算法,目標(biāo)是在保持查詢精度的同時,將成本顯著降低。

其次是實時性能挑戰(zhàn)。新興的 AI 應(yīng)用對響應(yīng)速度提出了極高要求——自動駕駛系統(tǒng)需要在毫秒級別內(nèi)完成環(huán)境感知和決策,以確保行車安全;工業(yè)機器人需要亞秒級的環(huán)境感知能力來實現(xiàn)精準(zhǔn)操作。這些場景都要求向量數(shù)據(jù)庫能夠在極短時間內(nèi)完成復(fù)雜的相似性搜索。為此,我們正在研發(fā)新一代的分布式查詢引擎和 GPU 加速技術(shù),以實現(xiàn)超大規(guī)模數(shù)據(jù)集的實時檢索。

第三是處理復(fù)雜性挑戰(zhàn)。未來的 AI Agent 將需要同時處理和關(guān)聯(lián)多種數(shù)據(jù)類型,如文本、圖像、音頻、視頻和各類傳感器數(shù)據(jù)。這種多模態(tài)數(shù)據(jù)處理能力對向量數(shù)據(jù)庫提出了全新要求。我們需要設(shè)計更靈活的數(shù)據(jù)模型和查詢語言,支持跨模態(tài)的語義理解和關(guān)聯(lián)分析。例如,一個智能客服 Agent 可能需要同時理解用戶的文字描述、上傳的圖片和語音指令,并從歷史交互記錄中找到相關(guān)信息。這種復(fù)雜的多模態(tài)查詢遠超傳統(tǒng)數(shù)據(jù)庫的能力范圍。

除了這三大挑戰(zhàn)外,我們還看到數(shù)據(jù)隱私和安全合規(guī)方面的需求日益增長。隨著全球數(shù)據(jù)保護法規(guī)的加強,如何在保障數(shù)據(jù)安全的前提下實現(xiàn)高效的向量檢索,也是我們正在積極研究的方向。我們正在開發(fā)基于聯(lián)邦學(xué)習(xí)和同態(tài)加密的安全向量檢索技術(shù),讓企業(yè)能夠在不暴露原始數(shù)據(jù)的情況下進行AI應(yīng)用開發(fā)。

雷峰網(wǎng):會擔(dān)心向量數(shù)據(jù)庫被通用數(shù)據(jù)庫合并嗎?

星爵:這個問題很有意思。雖然傳統(tǒng)數(shù)據(jù)庫廠商確實在嘗試整合向量搜索功能,但向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫本質(zhì)上是兩個不同的技術(shù)賽道。它們解決的問題、面對的挑戰(zhàn)和應(yīng)用場景有著根本性差異。

從數(shù)據(jù)處理的本質(zhì)來看,傳統(tǒng)關(guān)系型數(shù)據(jù)庫是為結(jié)構(gòu)化數(shù)據(jù)設(shè)計的,處理的是表格化的信息;而向量數(shù)據(jù)庫則專為非結(jié)構(gòu)化數(shù)據(jù)打造,處理的是圖像、視頻、長文本等復(fù)雜內(nèi)容,通過AI模型將這些數(shù)據(jù)轉(zhuǎn)換為高維向量進行存儲和檢索。

在應(yīng)用場景上,傳統(tǒng)數(shù)據(jù)庫擅長精確匹配查詢,比如"找出所有 30 歲的客戶"或"計算上個季度的總銷售額",這些都是確定性的問題。而向量數(shù)據(jù)庫則專注于相似性搜索,解決的是"找到與這張圖片相似的所有產(chǎn)品"或"檢索與這個問題語義相關(guān)的文檔"等模糊查詢問題。

這種差異就像"油改電"與原生純電平臺的區(qū)別——雖然都能實現(xiàn)電動驅(qū)動,但架構(gòu)基因、能效表現(xiàn)和擴展?jié)摿Υ嬖诖H差異。傳統(tǒng)數(shù)據(jù)庫通過插件添加向量功能,就像在燃油車架構(gòu)上強行改裝電動機,雖然能獲得電動特性,卻受限于原始設(shè)計框架,無法實現(xiàn)電池管理系統(tǒng)的深度優(yōu)化、能量回收效率的最大化,更難以支撐智能駕駛等新一代功能的全量釋放。

雷峰網(wǎng):您之前也提過,未來五年向量數(shù)據(jù)庫成本可能降低 1000 倍以上,給自己定的目標(biāo)是降低 10-100 倍,現(xiàn)在進度如何?

星爵:在成本優(yōu)化方面,我們已成功實現(xiàn)十倍的降本目標(biāo),預(yù)計到今年底將完成數(shù)十倍級的成本優(yōu)化。這輪技術(shù)突破主要來自三個維度的創(chuàng)新:首先是處理器芯片的架構(gòu)革新,其次是存儲架構(gòu)的重新設(shè)計,最后是核心算法的持續(xù)迭代。我們的核心使命是通過基礎(chǔ)設(shè)施層的創(chuàng)新,將數(shù)據(jù)管理成本壓縮到傳統(tǒng)方案的零頭水平——這在AI應(yīng)用的總成本結(jié)構(gòu)中,往往占據(jù)最關(guān)鍵的技術(shù)杠桿點。

雷峰網(wǎng):那像 Zilliz 是在 2017 年成立的,目睹 2020 年前后國產(chǎn)數(shù)據(jù)庫的創(chuàng)業(yè)大潮,您如何看待這市場環(huán)境的變化?

星爵:觀察 2020 年前后的市場格局,我認為存在三個維度的結(jié)構(gòu)性變化。首先是資本市場的認知升級,雖然出現(xiàn)階段性投資過熱,但客觀上加速了數(shù)據(jù)庫技術(shù)從學(xué)術(shù)研究到產(chǎn)業(yè)應(yīng)用的轉(zhuǎn)化周期;其次是差異化競爭格局的形成,當(dāng)多數(shù)廠商聚焦傳統(tǒng) OLAP/OLTP 賽道時,我們已經(jīng)完成 AI 原生架構(gòu)的驗證,實現(xiàn)從單機向量檢索到云原生分布式系統(tǒng)的技術(shù)跨越;第三是產(chǎn)業(yè)生態(tài)的質(zhì)變,當(dāng)時新創(chuàng)的數(shù)據(jù)庫企業(yè)雖未涉足向量計算領(lǐng)域,但共同構(gòu)建起了數(shù)據(jù)庫的人才矩陣——據(jù)工信部 2024 年白皮書顯示,中國數(shù)據(jù)庫專業(yè)人才規(guī)模較 2018 年實現(xiàn) 400% 增長,這為整個基礎(chǔ)軟件行業(yè)注入了持續(xù)創(chuàng)新動能。

需要特別指出的是,Zilliz在2018年就確立了"AI-First"的技術(shù)路線,我們的工程團隊當(dāng)時已攻克百萬級高維向量數(shù)據(jù)實時檢索的技術(shù)難關(guān)。這使得行業(yè)在 2022 年迎來生成式 AI 浪潮時,我們能夠快速推出支持千億級向量的云原生架構(gòu)。

雷峰網(wǎng):那回顧公司的發(fā)展過程,有比較大的困難需要克服嗎?

星爵:企業(yè)發(fā)展就像升級打怪,每個階段都有需要突破的關(guān)卡。如果要問 Zilliz 最需要持續(xù)投入的戰(zhàn)略重點,我認為是全球化團隊建設(shè)和組織文化融合。作為在亞歐美三大洲同步運營的科技公司,我們每天都要跨越數(shù)字時代的文化鴻溝——比如協(xié)作平臺的適配難題:北京工程師習(xí)慣微信/飛書的即時通訊生態(tài),硅谷團隊習(xí)慣 Slack 異步溝通,而慕尼黑同事則嚴(yán)格遵循郵件工作流。這種數(shù)字習(xí)慣的差異看似是工具選擇,實則是組織效率的隱形殺手。我們通過數(shù)據(jù)儀表盤發(fā)現(xiàn),中國工程師日均查看郵件次數(shù)只有歐美同事的三分之一,這容易導(dǎo)致跨時區(qū)協(xié)作出現(xiàn)信息斷層。

為解決這一問題,我們開發(fā)了自動化信息路由系統(tǒng),確保不同平臺上的重要信息能夠互通互聯(lián)。同時,我們制定了全球統(tǒng)一的溝通標(biāo)準(zhǔn)操作流程,培養(yǎng)團隊成員的跨文化理解能力。我深信,最終決定一家企業(yè)發(fā)展高度的,不是代碼行數(shù),而是人才密度和團隊協(xié)作的乘積效應(yīng)。

雷峰網(wǎng):那創(chuàng)業(yè)過程中有過后悔嗎?如果可以再重新選擇一次,您還會選擇創(chuàng)業(yè)嗎?

星爵:(笑)如果世界上有后悔藥,我要買來每天當(dāng)飯吃。創(chuàng)業(yè)路上有過無數(shù)次自我懷疑和反思的時刻,這些"后悔"也推動了我的自我成長,對昨天的自己的不滿意會敦促今天的自己變得更優(yōu)秀。不過,如果時光倒流,我依然會選擇創(chuàng)業(yè)這條路。因為在我看來,創(chuàng)業(yè)不僅僅是一種職業(yè)選擇,更是一種生活態(tài)度。每一位加入創(chuàng)業(yè)公司的同事,都是這場冒險的共同創(chuàng)造者;即便在大型企業(yè)內(nèi)部孵化新業(yè)務(wù)的同事,本質(zhì)上也是在創(chuàng)業(yè)。從更廣闊的視角看,我們每個人都是自己人生、家庭和社區(qū)的"創(chuàng)業(yè)者"——不斷探索、嘗試、失敗、總結(jié)、再出發(fā),這就是創(chuàng)業(yè)的內(nèi)核。


(作者長期關(guān)注云計算、數(shù)據(jù)庫等上下游領(lǐng)域,歡迎添加Ericazhao23討論交流。)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說