丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給胡敏
發(fā)送

0

Clickhouse「手撕」Snowflake太貴,我們與7位專家聊了聊

本文作者: 胡敏 2024-01-31 18:44
導(dǎo)語(yǔ):以Redshift、BigQuery和Snowflake為首的云數(shù)倉(cāng),該「降溫」了?

Clickhouse「手撕」Snowflake太貴,我們與7位專家聊了聊

“感謝云數(shù)據(jù)倉(cāng)庫(kù)多年來的辛勤付出,但它們引領(lǐng)的霸權(quán)時(shí)代即將落幕?!?/p>

在近期的一篇博客中,Clickhouse 產(chǎn)品VP Tanya在文章開頭便放出了這一大膽的觀點(diǎn)。Tanya稱,以Snowflake、Redshift、BigQuery為代表的云數(shù)倉(cāng)已經(jīng)不能完全滿足客戶需求,并且許多企業(yè)也已經(jīng)發(fā)現(xiàn)云數(shù)據(jù)倉(cāng)庫(kù)成本不可持續(xù)。

此觀點(diǎn)一發(fā),也引起了業(yè)內(nèi)人士諸多討論。

有人認(rèn)為,云數(shù)倉(cāng)從來就沒形成過霸權(quán)時(shí)代。而Tanya在文中所反復(fù)提到的實(shí)時(shí)數(shù)倉(cāng),也有從業(yè)者表示這并非新概念,早在十年前,實(shí)時(shí)數(shù)倉(cāng)就已經(jīng)被提過好幾撥。

還有人認(rèn)為,實(shí)時(shí)數(shù)倉(cāng)雖是一個(gè)發(fā)展趨勢(shì),但并不能完全代替?zhèn)鹘y(tǒng)數(shù)倉(cāng),與此同時(shí),市場(chǎng)對(duì)于實(shí)時(shí)數(shù)據(jù)分析需求有,但也沒那么強(qiáng)......

基于上述的一些討論,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))獨(dú)家對(duì)話了Clickhouse 產(chǎn)品VP Tanya,了解其寫作該文章的由來以及觀點(diǎn)。Tanya稱,這篇文章她想表達(dá)的含義并非是說ClickHouse可以替代所有現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景,而是希望對(duì)其進(jìn)行演進(jìn)。

同時(shí),借由這一篇文章,雷峰網(wǎng)也對(duì)話了業(yè)內(nèi)多位專家:阿里云數(shù)據(jù)庫(kù)事業(yè)部OLAP與工具高級(jí)產(chǎn)品專家薛菲、嬴圖創(chuàng)始人孫宇熙、PingCAP副總裁劉松、酷克數(shù)據(jù)副總裁魏一、Airwallex技術(shù)專家董大凡、Aloudata CEO周衛(wèi)林與他們分別聊了聊數(shù)倉(cāng)的發(fā)展趨勢(shì)、云數(shù)倉(cāng)成本、數(shù)倉(cāng)深層計(jì)算、生成式AI對(duì)數(shù)倉(cāng)影響等幾個(gè)備受關(guān)注的話題。

云數(shù)倉(cāng)的霸權(quán)時(shí)代結(jié)束了?

實(shí)時(shí)數(shù)倉(cāng)確實(shí)一個(gè)發(fā)展趨勢(shì),對(duì)話的幾名受訪者也基本同意這一觀點(diǎn)。

PingCAP副總裁劉松過往職業(yè)經(jīng)歷與數(shù)倉(cāng)息息相關(guān)。職業(yè)生涯前期他入職了Oracle,見證了以Teradata為代表的傳統(tǒng)數(shù)倉(cāng)的興起。2014年他加入阿里云后,又見證了以Snowflake、BigQuery、Redshift為代表的云數(shù)倉(cāng)快速冒頭。在他看來,數(shù)倉(cāng)的確在沿著從傳統(tǒng)數(shù)倉(cāng),到云數(shù)倉(cāng),再到實(shí)時(shí)數(shù)倉(cāng)的方向演進(jìn)。

這種的演進(jìn)背后,實(shí)際上是客戶需求的變化。

阿里云數(shù)據(jù)庫(kù)事業(yè)部OLAP與工具高級(jí)產(chǎn)品專家薛菲談到了她接觸過的一家頭部游戲企業(yè)。他們一直致力于吸引更多的玩家,并確保玩家在其平臺(tái)上獲得更好的體驗(yàn)。然而,近年來,他們獲取新客戶成本開始提升,希望獲得更實(shí)時(shí)的數(shù)據(jù),了解客戶檔案、行為,以及客戶做了哪些特定的點(diǎn)擊,以便快速調(diào)整他們的策略。

除游戲玩家有需求外,嬴圖創(chuàng)始人孫宇熙提到,他創(chuàng)業(yè)的這幾年接觸國(guó)內(nèi)外不少的金融機(jī)構(gòu)。他發(fā)現(xiàn),隨著市場(chǎng)環(huán)境變化,許多客戶,尤其是金融類客戶他們所需要的不僅是事后分析,用數(shù)據(jù)做決策,而是希望有實(shí)時(shí)分析。拿銀行為例,客戶在一邊轉(zhuǎn)賬的同時(shí),后臺(tái)做實(shí)時(shí)風(fēng)控分析的需求也越來越高漲。

“clickhouse提出要做新一代的實(shí)時(shí)數(shù)倉(cāng)?;旧蠘I(yè)界也同意這樣的一個(gè)邏輯?!睂O宇熙說道。

數(shù)倉(cāng)在朝著實(shí)時(shí)方向發(fā)展,不過新一代的實(shí)時(shí)數(shù)倉(cāng)仍不能完全代替以前的數(shù)倉(cāng)。

Airwallex技術(shù)專家董大凡作為數(shù)倉(cāng)產(chǎn)品的使用者,他表示:“即便企業(yè)使用了實(shí)時(shí)數(shù)倉(cāng),傳統(tǒng)數(shù)倉(cāng)也還是有一席之地?!?/p>

為何有一席之地?其一是實(shí)時(shí)數(shù)據(jù)分析可能帶來更高的成本。Aloudata CEO周衛(wèi)林在創(chuàng)業(yè)之前,在螞蟻金服擔(dān)任數(shù)據(jù)平臺(tái)部門負(fù)責(zé)人,他表示,實(shí)時(shí)數(shù)據(jù)分析成本增加主要有兩個(gè)原因:第一,數(shù)據(jù)越實(shí)時(shí),數(shù)據(jù)采集和更新的頻次會(huì)越高,數(shù)據(jù)預(yù)計(jì)算的比例會(huì)越低,因此對(duì)數(shù)據(jù)計(jì)算性能要求會(huì)越高,這會(huì)帶來費(fèi)用的增加;第二,通常需要實(shí)時(shí)數(shù)據(jù)的場(chǎng)景,數(shù)據(jù)分析的顆粒度會(huì)很細(xì),分析的靈活性會(huì)越高,這樣數(shù)據(jù)分析的數(shù)據(jù)量會(huì)很大,這會(huì)帶來費(fèi)用的增加。

對(duì)于一家企業(yè)來說,在追求數(shù)據(jù)時(shí)效的同時(shí),成本也是不能回避的問題。假設(shè)一個(gè)公司花了100萬(wàn),通過數(shù)據(jù)實(shí)時(shí)化能把風(fēng)控引擎的精確度從50%提升到55%,然而這5%的提升所降低的損失低于投入成本,很顯然企業(yè)投資意愿不會(huì)高漲。

因此,實(shí)時(shí)數(shù)倉(cāng)通常的場(chǎng)景應(yīng)用會(huì)比較明確,ROI 相對(duì)確定,對(duì)于不確定高的場(chǎng)景很難規(guī)模性使用實(shí)時(shí)數(shù)倉(cāng),原因是比不過傳統(tǒng)數(shù)倉(cāng)的ROI,尤其是 BI 分析場(chǎng)景上。

此外,當(dāng)下并非所有場(chǎng)景都必須要實(shí)時(shí)數(shù)據(jù)分析。就比如雙十一,交易額直接在屏幕上面毫秒級(jí)刷新固然很爽,但對(duì)于老板而言,他可能只要求第二天在辦公室里面看報(bào)表,了解雙十一交易額多少,幾點(diǎn)是高峰,他的目的不是為了實(shí)時(shí)決策,而是為了長(zhǎng)期規(guī)劃和決策。

(接下來,雷峰網(wǎng)將推出《投資人,正逃離分析型數(shù)據(jù)庫(kù)賽道》,歡迎加作者微信 mindy1857 交流。)

酷克數(shù)據(jù)副總裁魏一也表達(dá)了類似觀點(diǎn)。魏一在加入酷克數(shù)據(jù)之前,曾就職于SAP,后來在EMC/Pivotal 從事Greenplum數(shù)據(jù)庫(kù)技術(shù)研發(fā)工作,也是數(shù)倉(cāng)領(lǐng)域的資深專家。在他看來,目前企業(yè)會(huì)存在實(shí)時(shí)數(shù)據(jù)分析需求,但除此之外,企業(yè)還有批處理的需求,雖然批處理數(shù)據(jù)時(shí)效性不及實(shí)時(shí)數(shù)倉(cāng),但是成本更低。

由于企業(yè)需求的多樣化,也演化了數(shù)倉(cāng)廠商們不同的產(chǎn)品研發(fā)策略。有一部分的廠商嘗試在打造一個(gè)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái),比如說snowflake、酷克數(shù)據(jù)、PingCAP。

“對(duì)于企業(yè)決策者而言,他們一定是需要一個(gè)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)?!蔽阂徽f道。五年以前客戶做大數(shù)據(jù)分析,可能的選擇是:一個(gè)離線分析系統(tǒng)加上一個(gè)實(shí)時(shí)分析系統(tǒng)。比如離線分析選擇Hadoop,再疊加一個(gè)ClickHouse、Greenplum實(shí)時(shí)分析的產(chǎn)品。這種做法的劣勢(shì)是顯著增加了運(yùn)營(yíng)成本,因?yàn)橐M(jìn)行數(shù)據(jù)搬遷ETL操作,同時(shí)客戶還需要去管理不同的系統(tǒng)。相對(duì)地,統(tǒng)一融合的數(shù)據(jù)分析平臺(tái)的優(yōu)勢(shì)則在于,解決了由ETL導(dǎo)致的數(shù)據(jù)傳輸延遲問題,進(jìn)一步降低了數(shù)據(jù)分析的成本投入。

魏一表示,酷克數(shù)據(jù)的產(chǎn)品HashData云數(shù)倉(cāng)目前已在某國(guó)有大型銀行穩(wěn)定運(yùn)行多年,節(jié)點(diǎn)規(guī)模超過30000個(gè)。從落地運(yùn)行情況來看,客戶的數(shù)據(jù)冗余減少達(dá)到了30%以上,計(jì)算資源消耗也降低了30%。整個(gè)數(shù)據(jù)鏈路得以縮短,平均作業(yè)的完成時(shí)間加快了3個(gè)小時(shí)。

還有一部分廠商則不求做大而全的平臺(tái),只做部分需求的滿足,比如BigQuery、RedShift他們現(xiàn)在并沒有把實(shí)時(shí)數(shù)倉(cāng)作為優(yōu)先級(jí),仍是服務(wù)于傳統(tǒng)數(shù)倉(cāng)的需求。而clickhouse則是更專注在新一代實(shí)時(shí)數(shù)倉(cāng)上。

這兩種產(chǎn)品策略沒有孰好孰壞,對(duì)于客戶來說,最終還是要結(jié)合自己的需求來進(jìn)行技術(shù)、產(chǎn)品的選型。

數(shù)倉(cāng)如何解決深層計(jì)算問題?

實(shí)時(shí)數(shù)倉(cāng)所重點(diǎn)強(qiáng)調(diào)的是數(shù)據(jù)處理效率要快,那如果進(jìn)一步追問該問題,當(dāng)下的實(shí)時(shí)數(shù)倉(cāng)到底能快到什么程度?孫宇熙認(rèn)為,即便當(dāng)下的數(shù)倉(cāng)產(chǎn)品已經(jīng)讓數(shù)據(jù)分析速度有了極大突破,提升了10倍、或是100倍,但這或許并不意味著什么,市場(chǎng)可能需要到是快1萬(wàn)倍。

為什么這么說?孫宇熙舉了銀行的例子,不論是08年美國(guó)次貸危機(jī)、還是近期硅谷銀行倒閉,其實(shí)背后本質(zhì)問題都是因?yàn)榻鹑跈C(jī)構(gòu)的流動(dòng)性受到?jīng)_擊,所以流動(dòng)性一直以來是金融機(jī)構(gòu)關(guān)注的重點(diǎn)問題。08年金融危機(jī)之后,全球所有監(jiān)管機(jī)構(gòu)都在起草制定防止銀行流動(dòng)性變差的協(xié)議,而在其中,設(shè)置了一個(gè)重要的指標(biāo)叫做流動(dòng)性覆蓋率(liquidity coverage vision,縮寫LCR)LCR超過110%,你的流動(dòng)性就達(dá)標(biāo)了;如果低于110,但高于100%,那你屬于很危險(xiǎn),因?yàn)楹苋菀妆粨舸?;如果低?00%,意味著你的流動(dòng)性已經(jīng)開始出現(xiàn)嚴(yán)重的問題。

在國(guó)內(nèi),監(jiān)管機(jī)構(gòu)給出的要求是,2000億規(guī)模以上的中大型銀行都要向監(jiān)管機(jī)構(gòu)每日匯報(bào)一次LCR。“然而,讓人十分遺憾的是,我們最頭部的大型國(guó)有商業(yè)銀行當(dāng)中,幾乎沒有哪一家能每天能把 LCR 這個(gè)指標(biāo)計(jì)算一次。有的大型銀行甚至只能一個(gè)月算一次?!?/p>

為什么銀行做不到?孫宇熙認(rèn)為一個(gè)原因是,要算LCR指標(biāo),需要全行所有的數(shù)據(jù)。把所有的對(duì)公客戶、零售客戶等等客戶數(shù)據(jù)全匯總起來,很可能每日處理的數(shù)據(jù)量能達(dá)到百億,這種數(shù)據(jù)規(guī)模是驚人的。另一個(gè)原因是,目前數(shù)倉(cāng)計(jì)算需要大量的表做關(guān)聯(lián),“這種表結(jié)構(gòu)最大的問題在于它是低維的,依然是在用行和列來表達(dá)這個(gè)數(shù)據(jù),它天然就不善于去做數(shù)據(jù)之間的關(guān)聯(lián)分析。”當(dāng)用幾十張表去做關(guān)聯(lián)計(jì)算的時(shí)候,速度自然就會(huì)更慢。

在孫宇熙看來,未來數(shù)據(jù)分析效率會(huì)更快,除了表結(jié)構(gòu)之外,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該要支持其他數(shù)據(jù)計(jì)算模式,比如說圖計(jì)算。圖數(shù)據(jù)庫(kù)的好處在于它能夠執(zhí)行某些類型的查詢,不僅可能更快、更有效,而且在編寫這些查詢時(shí)語(yǔ)法更為緊湊。

嬴圖曾在一家大型商業(yè)銀行內(nèi)部做過一個(gè)實(shí)驗(yàn),這家銀行原來的LCR計(jì)算大概要算4個(gè)小時(shí),而用圖計(jì)算在2秒鐘內(nèi),即可完成,“這是一個(gè)七千倍以上的性能提升?!?/p>

實(shí)際上現(xiàn)在已經(jīng)有許多數(shù)據(jù)倉(cāng)庫(kù)支持除表結(jié)構(gòu)之外的其他數(shù)據(jù)分析,據(jù)薛菲表示,“全文搜索就是一個(gè)很好的例子。全文搜索不是結(jié)構(gòu)化數(shù)據(jù),它是一種半結(jié)構(gòu)化數(shù)據(jù)。許多數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)支持諸如JSON或XML之類的類型,可以用來完成全文搜索的應(yīng)用,比如阿里云的自研數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB。”

此外,Clickhouse也有一個(gè)名為SQL Graph的項(xiàng)目。但Tanya也表示,目前他們的優(yōu)先級(jí)放在了如何將向量搜索與傳統(tǒng)分析結(jié)合使用上,而圖計(jì)算這部分項(xiàng)目暫時(shí)尚未將其列為重點(diǎn),其最重要的原因是目前圖數(shù)據(jù)缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。從開發(fā)者的角度來看,開發(fā)圖查詢是非常困難的。

不過,當(dāng)下圖計(jì)算或圖數(shù)據(jù)庫(kù)現(xiàn)在面臨一個(gè)巨大的機(jī)會(huì),薛菲表示,可以將其與LLM(Large Language Models)結(jié)合起來?!拔磥恚琇LM可能會(huì)成為處理圖數(shù)據(jù)的新接口,因?yàn)橛米匀徽Z(yǔ)言表達(dá)關(guān)系問題要比使用尚未發(fā)明的圖標(biāo)準(zhǔn)更容易?!?/p>

LLM浪潮的崛起,也進(jìn)一步推動(dòng)了業(yè)務(wù)和應(yīng)用對(duì)向量能力的需求。薛菲稱,目前,阿里云瑤池?cái)?shù)據(jù)庫(kù)已全面擁抱向量檢索能力,包括通義行業(yè)大模型在內(nèi)的LLM就采用了企業(yè)級(jí)智能數(shù)倉(cāng)AnalyticDB作為默認(rèn)的向量檢索引擎,性能較開源增強(qiáng)了2~5倍,與全文檢索和結(jié)構(gòu)化搜索聯(lián)合進(jìn)行多路召回,加速AIGC應(yīng)用落地。

(接下來,雷峰網(wǎng)將推出《大模型會(huì)顛覆分析型數(shù)據(jù)庫(kù)?》等文章,歡迎加作者微信 mindy1857 交流。)

云數(shù)倉(cāng)到底貴不貴?

于客戶而言,性能與成本都要考量。在成本端,近期關(guān)于云數(shù)倉(cāng)到底貴不貴的話題也引發(fā)討論。包括在 Tanya的文章中也重點(diǎn)提到了關(guān)于云數(shù)倉(cāng)的成本問題,“與替代方案相比,云數(shù)據(jù)倉(cāng)庫(kù)的用戶支付 3-5 倍的費(fèi)用并不少見。”

在接受雷峰網(wǎng)采訪時(shí),她說道:“我們測(cè)試了Amazon Redshift,Google BigQuery和Snowflake三大數(shù)倉(cāng)產(chǎn)品后發(fā)現(xiàn),在資源消耗方面,這些數(shù)據(jù)倉(cāng)庫(kù)的表現(xiàn)較差,包括較少的數(shù)據(jù)壓縮和運(yùn)行查詢所需的更多內(nèi)存?!?/p>

雷峰網(wǎng)接觸的一些公司中,的確也有公司反映他們?cè)谟迷茢?shù)倉(cāng)之后,整體的數(shù)據(jù)分析成本變高了。劉松談到了他們公司的案例。過去他們內(nèi)部使用BigQuery,一年數(shù)倉(cāng)成本大概是花10萬(wàn)美金。后來選用BigQuery之后,是原來的四倍。

云數(shù)倉(cāng)為何會(huì)讓人覺得貴,這與其定價(jià)模型有關(guān)。定價(jià)模型涉及各個(gè)方面,例如數(shù)據(jù)掃描量、計(jì)算結(jié)果和資源利用率。

Tanya稱,他們?cè)鴮?duì)Google BigQuery進(jìn)行了詳細(xì)研究,Google BigQuery的定價(jià)模型,除非客戶有承諾支出,否則實(shí)際上是按照掃描的數(shù)據(jù)量收費(fèi)。但并非每個(gè)人都能做到承諾支出,同時(shí)特別對(duì)于初創(chuàng)公司在這方面確實(shí)很困難,因?yàn)樗麄兊臉I(yè)務(wù)仍在探索中,很難有公司可以承諾一個(gè)特定的資源使用水平。而且承諾支出,也并不能完全彌補(bǔ)價(jià)格差距。

而云最大的優(yōu)勢(shì)是利用云的彈性和資源調(diào)用能力,假如新手開發(fā)者發(fā)出復(fù)雜查詢語(yǔ)句——“全表掃描”,它能調(diào)動(dòng)資源,給你不斷地算,最后算出一個(gè)“天價(jià)”的計(jì)價(jià)單,你后悔也沒用。而在傳統(tǒng)數(shù)倉(cāng)中,如果數(shù)倉(cāng)做不出全表掃描的查詢,它只會(huì)死機(jī)。

到底如何解決云數(shù)倉(cāng)的成本問題?在過去的一年里,許多客戶一直在向薛菲咨詢這個(gè)問題。

在她看來,要解決成本問題可以從三個(gè)方面考慮:第一是,讓產(chǎn)品完全實(shí)現(xiàn)Serverless(無服務(wù)器)架構(gòu)。第二方面是存儲(chǔ),客戶可以使用云存儲(chǔ),利用云上不同的存儲(chǔ)類型,為那些不經(jīng)常訪問的數(shù)據(jù)降低成本。第三,即保持開放。這也是她認(rèn)為最重要的一個(gè)方向。

“云數(shù)據(jù)倉(cāng)庫(kù)之所以昂貴,其中一個(gè)原因是它們通常不是開放的,例如,過去如果用戶希望數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,那么就不能從外部計(jì)算中心以外的地方創(chuàng)建數(shù)據(jù),比如不能從Spark中提取數(shù)據(jù)。但是現(xiàn)在,我認(rèn)為許多生態(tài)系統(tǒng)都在變得更加開放,即使數(shù)據(jù)僅存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,用戶仍然可以使用自己的Spark、Presto,以及自己的機(jī)器學(xué)習(xí)平臺(tái)。在這種情況下,數(shù)據(jù)不再是冗余的。”

據(jù)阿里云向雷峰網(wǎng)透露,阿里云目前已與ClickHouse達(dá)成國(guó)內(nèi)獨(dú)家戰(zhàn)略合作,作為ClickHouse在中國(guó)獨(dú)家的云服務(wù)提供商,阿里云擁有全球最大的ClickHouse商用集群之一,可提供具備獨(dú)有企業(yè)級(jí)能力的云原生ClickHouse企業(yè)版。企業(yè)版基于存算分離架構(gòu),可按量計(jì)費(fèi),比開源自建成本降低30%+。

在魏一看來,即使云數(shù)倉(cāng)在公有云環(huán)境下可能比傳統(tǒng)數(shù)倉(cāng)更貴,但考慮到云數(shù)倉(cāng)規(guī)?;瘞淼男侍嵘齼?yōu)勢(shì),從整體來看,云數(shù)倉(cāng)肯定是要更節(jié)約成本的。

生成式AI會(huì)顛覆數(shù)倉(cāng)?

除關(guān)心成本外,今年生成式AI的席卷而來,也讓業(yè)內(nèi)人士非常關(guān)心其對(duì)數(shù)據(jù)領(lǐng)域的影響,包括一個(gè)是數(shù)據(jù)庫(kù)系統(tǒng)如何幫助人工智能(DB4AI),另一個(gè)是人工智能如何幫助數(shù)據(jù)庫(kù)系統(tǒng)(AI4DB)。

在Tanya看來,生成式AI在訓(xùn)練的過程中,有很多地方可以利用數(shù)據(jù)平臺(tái)。首先是數(shù)據(jù)集篩選與分析,需要對(duì)用于訓(xùn)練大型語(yǔ)言模型的數(shù)據(jù)集進(jìn)行篩選和分析,其中包括進(jìn)行臨時(shí)分析,以確定最適合用于訓(xùn)練的數(shù)據(jù)集。

一旦確定了訓(xùn)練所需的數(shù)據(jù)集,就需要構(gòu)建數(shù)據(jù)管道,用于將這些數(shù)據(jù)集轉(zhuǎn)換為模型訓(xùn)練所需的格式。這是一個(gè)涉及數(shù)據(jù)處理和轉(zhuǎn)換的平臺(tái)建設(shè)過程。

生成式AI模型一旦構(gòu)建完成,需要與現(xiàn)有數(shù)據(jù)集進(jìn)行整合。這可能涉及將模型產(chǎn)生的結(jié)果與現(xiàn)有數(shù)據(jù)集相結(jié)合,常見的方式是通過構(gòu)建嵌入來實(shí)現(xiàn),并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中,然后進(jìn)行向量搜索與數(shù)據(jù)分析。

“這是一個(gè)有趣的領(lǐng)域,在消費(fèi)模型的過程中,你可能需要進(jìn)行向量搜索以及其他數(shù)據(jù)分析。這可能需要在數(shù)據(jù)庫(kù)中實(shí)現(xiàn)向量搜索功能,其中存在一個(gè)討論點(diǎn),即是選擇專門的向量數(shù)據(jù)庫(kù)還是將向量搜索功能集成到傳統(tǒng)數(shù)據(jù)庫(kù)中。”

最后,生成式AI應(yīng)用程序,需要對(duì)訓(xùn)練和使用進(jìn)行觀察。你究竟如何觀察這些情況?你應(yīng)該收集哪些類型的事件?這也是一個(gè)大數(shù)據(jù)問題。

在Tanya看來,未來,訓(xùn)練、消費(fèi)和應(yīng)用可觀察性這三個(gè)領(lǐng)域可能都要用到大數(shù)據(jù)平臺(tái)。

薛菲表示,目前阿里云也在探索生成式AI與數(shù)倉(cāng)的結(jié)合,其中探索的第一件事是LLM是否可以成為數(shù)據(jù)的單一或最通用的接口,以及自然語(yǔ)言是否可以成為未來的一切接口。

“也許在未來,SQL將會(huì)過時(shí),或許SQL只對(duì)一小部分人來說還有關(guān)聯(lián)性,大多數(shù)人與數(shù)據(jù)互動(dòng)的門檻將被極大的降低,因?yàn)長(zhǎng)LM使得人們不需要了解SQL或者其他的語(yǔ)言就可以試用數(shù)據(jù)?!?/p>

第二個(gè)方向是探索AI如何更好地幫助優(yōu)化數(shù)據(jù)系統(tǒng)。

“比如它們?nèi)绾沃辉谛枰牡胤教砑铀饕?,基于AI規(guī)定如何優(yōu)化整個(gè)系統(tǒng)。也許我們只需要一個(gè)單一的數(shù)據(jù)系統(tǒng),只需關(guān)心數(shù)據(jù)源,而中間的一切都可以由機(jī)器完成。我們不需要進(jìn)行手動(dòng)ETL,不需要手動(dòng)SQL優(yōu)化。我們不需要擔(dān)心所有中間的數(shù)據(jù)建模。所有這些都可以自動(dòng)完成。”

這些暢想聽起來確實(shí)令人興奮,薛菲稱,而自今年年初以來,已經(jīng)有客戶在詢問她,如何將生成式AI融入他們的工作流程中。

他們看到客戶將業(yè)務(wù)與AI相結(jié)合的過程大概分為三個(gè)不同的階段:第一階段是試水階段,客戶在這個(gè)階段進(jìn)行初步嘗試,用企業(yè)知識(shí)庫(kù)在內(nèi)部進(jìn)行驗(yàn)證,探索大模型的能力邊界。第二階段是構(gòu)建可擴(kuò)展且價(jià)格合理的AI增強(qiáng)應(yīng)用的階段。在這個(gè)階段,客戶仍然使用原始的企業(yè)數(shù)據(jù),但通過引入LLM來增強(qiáng)其功能。第三階段是一些客戶開始探索構(gòu)建AI原生應(yīng)用程序,進(jìn)入全新的應(yīng)用領(lǐng)域。

“在試水階段,阿里云的數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB可以通過開放的生態(tài)以及解決方案模版提供快速的概念驗(yàn)證(POC),以便客戶可以輕松地與LLM連接,進(jìn)行簡(jiǎn)單的向量搜索,測(cè)試他們的想法?!毖Ψ普f。

“在構(gòu)建可擴(kuò)展的AI增強(qiáng)應(yīng)用階段,正如Tanya提出的一個(gè)關(guān)鍵問題,向量能力是作為單獨(dú)的數(shù)據(jù)庫(kù)還是與現(xiàn)有的數(shù)據(jù)庫(kù)結(jié)合?我的觀點(diǎn)認(rèn)為是后者會(huì)贏得市場(chǎng)。構(gòu)建第二階段的AI應(yīng)用必須從現(xiàn)有數(shù)據(jù)應(yīng)用中發(fā)展而來。因此,客戶的核心需求并不是單純的向量,而是向量搜索需要有機(jī)地與其他現(xiàn)有技術(shù)結(jié)合,如全文搜索和SQL。他們需要確保向量全文搜索和SQL能夠完全交織在一起,以保證AI增強(qiáng)應(yīng)用程序的順利運(yùn)行?!?/p>

薛菲表示,目前看到市場(chǎng)上有很多客戶也紛紛進(jìn)入這一階段,尤其是許多在線零售商和從事在線旅行,支持聊天機(jī)器人等服務(wù)的公司。

而對(duì)于未來,可能還會(huì)有許多的公司會(huì)邁向AI原生應(yīng)用程序的階段。“在這一階段,我們的數(shù)據(jù)存儲(chǔ)需要更深度與大語(yǔ)言模型結(jié)合?!毖Ψ普f道。目前阿里云發(fā)布了一系列新的能力,其中包括將LLM嵌入到阿里云的數(shù)據(jù)倉(cāng)庫(kù)中,或者構(gòu)建一站式平臺(tái),使數(shù)據(jù)和LLM能夠更緊密地交織在一起,使生態(tài)系統(tǒng)更加注重AI而不是數(shù)據(jù),以便他們可以構(gòu)建下一代完全AI-Native型的業(yè)務(wù)應(yīng)用。

結(jié)語(yǔ)

站在2023年年末,回顧過去一年,不論是對(duì)數(shù)倉(cāng)實(shí)時(shí)性、深層計(jì)算等技術(shù)問題的討論,還是對(duì)數(shù)倉(cāng)成本等商業(yè)化問題的討論,這些眾多議題都在激發(fā)著數(shù)據(jù)庫(kù)領(lǐng)域的活力和生機(jī)。正如古人智者所言:“滾石不生苔”,在碰撞與交流的過程中,事物才能擺脫沉寂,煥發(fā)出源源不絕的活力,迎來真正的演變。

展望未來,薛菲提出了三個(gè)方向:數(shù)據(jù)倉(cāng)庫(kù)會(huì)更加Serverless化(無服務(wù)器)、實(shí)時(shí)湖倉(cāng)融合以及數(shù)據(jù)與人工智能的深度融合。與此同時(shí),Tanya強(qiáng)調(diào)了“開放”的理念,她堅(jiān)信未來的創(chuàng)新將在廣泛開放社區(qū)的土壤中蓬勃發(fā)生。

在大模型的引領(lǐng)下、在產(chǎn)業(yè)變革的潮頭中,數(shù)據(jù)庫(kù)將持續(xù)演進(jìn),而企業(yè)對(duì)其需求也將靈活變動(dòng)。接下來,雷峰網(wǎng)也將持續(xù)推出《投資人,正逃離分析型數(shù)據(jù)庫(kù)賽道》《分析型數(shù)據(jù)庫(kù)公司相加,干不過一個(gè)李佳琪?》《大模型會(huì)顛覆分析型數(shù)據(jù)庫(kù)?》等文章,歡迎加作者微信(mindy1857)交流。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

主筆

關(guān)注云計(jì)算、企服,歡迎找我爆料。微信:mindy1857,加好友請(qǐng)備注公司、姓名及來意
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說