0
本文作者: 趙之齊 | 2025-01-20 15:14 |
國內(nèi)數(shù)據(jù)倉庫體系的形成,已有大約二三十年。然而,隨著數(shù)據(jù)量爆發(fā),傳統(tǒng)的數(shù)據(jù)管理架構(gòu)逐漸有些力不從心:
不同系統(tǒng)和組織多源異構(gòu)的數(shù)據(jù)造成數(shù)據(jù)孤島,重復(fù)搬運(yùn)開發(fā)又導(dǎo)致數(shù)據(jù)治理困難;大家曾一窩蜂涌上數(shù)據(jù)中臺,寄望讓這個(gè)企業(yè)的數(shù)字化中心完成數(shù)據(jù)集中存儲(chǔ)開發(fā)管理服務(wù)等工作,但大量的數(shù)據(jù)建模與任務(wù)運(yùn)維又對人力提出極高要求。數(shù)據(jù)中臺逐漸成為企業(yè)的成本中心。
近幾年,一個(gè)新解法漸入人們視野——數(shù)據(jù)編織。它將企業(yè)內(nèi)部散落的數(shù)據(jù)編織成一張?zhí)摂M的數(shù)據(jù)網(wǎng),有需求時(shí)才產(chǎn)生任務(wù),可以說是數(shù)據(jù)的“柔性制造”。
這是一個(gè)新興概念。Gartner 發(fā)布的《2024 年中國數(shù)據(jù)、分析和人工智能技術(shù)成熟度曲線》認(rèn)為,數(shù)據(jù)編織是一種具有前瞻性的技術(shù)理念,預(yù)計(jì)在未來 2 到 5 年內(nèi)將實(shí)現(xiàn)廣泛應(yīng)用。根據(jù) 2022 年全球行業(yè)分析師報(bào)告,預(yù)計(jì)全球數(shù)據(jù)編織市場將從 2020 年的 11 億美元,增長到 2026 年的 37 億美元,可見數(shù)據(jù)編織領(lǐng)域需求強(qiáng)勁。
成立于 2021 年的 Aloudata,是國內(nèi)將數(shù)據(jù)編織落地的生力軍。公司創(chuàng)始人兼 CEO 周衛(wèi)林近日接受雷峰網(wǎng)(公眾號:雷峰網(wǎng))采訪,分享對數(shù)據(jù)市場的觀察及團(tuán)隊(duì)將這個(gè)新興概念落地商業(yè)化的過程。作為先行者的 Aloudata 迷茫過,也多走過幾步路,如今,期望做出企業(yè)數(shù)智化領(lǐng)域“L5”工具的他們,正穩(wěn)步前進(jìn)。
Aloudata 大應(yīng)科技創(chuàng)始人&CEO 周衛(wèi)林
企業(yè)苦于數(shù)據(jù)搬運(yùn)久矣
意識到數(shù)據(jù)工程變革這件事的急迫性,是周衛(wèi)林仍在螞蟻工作的時(shí)候。
周衛(wèi)林在 2006 年進(jìn)入阿里巴巴后,在阿里數(shù)據(jù)平臺部待了五年多,2012 年調(diào)動(dòng)去螞蟻。他說道,自己在 2006-2014 年間主要工作之一便是“為數(shù)據(jù)找到更大的家”。
這并非易事:當(dāng)時(shí)數(shù)據(jù)每 18 個(gè)月就要搬一次家,往往選型半年、使用半年,接下來半年就要開始想下一代怎么做了,“阿里的數(shù)據(jù)量增長太快,當(dāng)時(shí)有互聯(lián)網(wǎng)和人口紅利,技術(shù)跟不上業(yè)務(wù)變化”。
周衛(wèi)林過去螞蟻后,螞蟻在 2013 年開始拓展余額寶、花唄、芝麻信用等金融服務(wù),再加上生活繳費(fèi)、交通出行等更豐富的便民業(yè)務(wù),數(shù)據(jù)增長速度更甚。2021 年前后,其數(shù)據(jù)量就已經(jīng)達(dá)到 EB 級別,平臺上活躍著過萬名員工,托管上千萬張表、數(shù)百萬個(gè)任務(wù),每年需要花費(fèi)巨量成本。盡管螞蟻能從數(shù)據(jù)產(chǎn)生的價(jià)值中獲益,愿意支持這項(xiàng)開支,但成本增長的斜率有時(shí)還是比營收增長的斜率陡峭太多。
2003 年畢業(yè)后就深耕數(shù)據(jù)領(lǐng)域的周衛(wèi)林感慨,中國的企業(yè)數(shù)字化浪潮中有他們這代人種下的因,但結(jié)出的果現(xiàn)在卻有副作用:數(shù)據(jù)系統(tǒng)信息密度增加,維護(hù)成本越來越高,持續(xù)的熵增到最后會(huì)導(dǎo)致系統(tǒng)崩潰,一個(gè)數(shù)據(jù)中臺往往建立三五年后就要經(jīng)歷一次或多次大型數(shù)據(jù)治理運(yùn)動(dòng)。
Data Fabric 數(shù)據(jù)編織架構(gòu)理念圖
Aloudata 的 CMO 劉靚也向雷峰網(wǎng)指出,數(shù)據(jù)中臺發(fā)展至今,已有明顯弊端。一是存算成本高,大量物理預(yù)計(jì)算意味著存在很多任務(wù)產(chǎn)出的資產(chǎn)沒人消費(fèi),造成資源浪費(fèi)。二是出現(xiàn)大量相似資產(chǎn),數(shù)據(jù)每被開發(fā)一遍就復(fù)制一份,一份數(shù)據(jù)可能會(huì)變上百份,數(shù)據(jù)資產(chǎn)背后有大量鏈路和盤根錯(cuò)節(jié)的依賴關(guān)系,如果缺乏行之有效的技術(shù)管理手段,比如離職員工留下的數(shù)據(jù)表和口徑?jīng)]能被后來者清楚理解消化,數(shù)據(jù)治理會(huì)非常困難。
三是對數(shù)據(jù)工程師能力要求很高,中間層建模時(shí)需要實(shí)現(xiàn)良好復(fù)用性,跑任務(wù)也需要很多人工運(yùn)維。數(shù)據(jù)加工所用到的每張表背后都有鏈路和復(fù)雜的依賴關(guān)系。在頭部互聯(lián)網(wǎng)公司、大型金融企業(yè)中,鏈路較長的有上百層,任何一個(gè)節(jié)點(diǎn)出問題,數(shù)據(jù)工程師就要半夜爬起來處理??梢哉f,數(shù)據(jù)中臺并沒有根本上解決大量數(shù)據(jù)分析帶來的數(shù)據(jù)管理問題。
第四,也是更重要的,建設(shè)中臺意味著大量初始投資和后期持續(xù)的投資,然而業(yè)務(wù)用數(shù)的實(shí)時(shí)性和靈活性需求仍然沒有得到很好的滿足。也因此,Gartner 在 2024 年度的《創(chuàng)新洞察:數(shù)據(jù)基礎(chǔ)設(shè)施成為中國數(shù)據(jù)與分析生態(tài)系統(tǒng)的基石》報(bào)告中指出:純技術(shù)驅(qū)動(dòng)的 "大而全 "的數(shù)據(jù)與分析平臺(如數(shù)據(jù)中臺)無法確保切實(shí)的商業(yè)回報(bào),從而失去了利益相關(guān)者的支持。
這些問題,周衛(wèi)林也都看在眼里。離開螞蟻時(shí),他四十歲,已經(jīng)是 P10, “人到四十都有個(gè)坎,我開始想我的職業(yè)生涯要在哪里結(jié)束,對行業(yè)演進(jìn)要有哪些影響。我可以在螞蟻體系里再做10年,但這很難改變行業(yè)?!?/p>
對技術(shù)懷有夢想的周衛(wèi)林,和幾位后來是 Aloudata 聯(lián)合創(chuàng)始人的同事,一起在 2021 年 5 月 9 日離開螞蟻。2021 年 5 月 10 日,Aloudata 成立。
成立后,Aloudata 便提出 NoETL 的思路。“NoETL 不是真的沒有 ETL,而是 ETL 自動(dòng)化”,劉靚解釋道。數(shù)據(jù)中臺的本質(zhì)是“數(shù)據(jù)倉庫+數(shù)據(jù)服務(wù)中間件”,依然是把數(shù)據(jù)物理搬運(yùn)后進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換,完成 ETL 過程。而 NoETL 概念下,數(shù)據(jù)不再需要物理集中同步,其集成是動(dòng)態(tài)虛擬的,用戶負(fù)責(zé)表通過業(yè)務(wù)語義來表達(dá)需求,系統(tǒng)自動(dòng)化完成 ETL 作業(yè),有“訂單”時(shí)再發(fā)起生產(chǎn),實(shí)現(xiàn)數(shù)據(jù)的“柔性制造”。周衛(wèi)林后來發(fā)現(xiàn),他們的這一思路同國際上推崇的數(shù)據(jù)編織殊途同歸。
有了這一風(fēng)向標(biāo),Aloudata 開始了在 NoETL 和數(shù)據(jù)編織道路上的探索。
數(shù)據(jù)領(lǐng)域的“自動(dòng)駕駛” 能直接從L5做起嗎?
周衛(wèi)林描述自己在阿里的工作是ETL工程師,通過寫代碼的方式解決數(shù)據(jù)分析需求;而到支付寶后,他從0到1建立一個(gè)大數(shù)據(jù)工具體系,來解決數(shù)據(jù)分析問題。
企業(yè)不死,數(shù)據(jù)不死。與其靠堆人來解決數(shù)據(jù)分析的問題,他更希望用工具來自動(dòng)化解決數(shù)據(jù)分析的問題。
Aloudata 在 5 月份成立后,同年 8 月就與招商銀行簽約,合作打磨產(chǎn)品。團(tuán)隊(duì)對商業(yè)化三步走的規(guī)劃很清晰——先跟一個(gè)頭部客戶打磨,做出最小可用的技術(shù)產(chǎn)品后,完成 PMF 驗(yàn)證,再進(jìn)行市場化推廣。第一步打磨產(chǎn)品就花費(fèi)兩三年,直到 2023 年底,Aloudata 才發(fā)布其三個(gè)商業(yè)化產(chǎn)品:國內(nèi)首個(gè)邏輯數(shù)據(jù)平臺 Aloudata AIR、全球首個(gè)算子級血緣的主動(dòng)元數(shù)據(jù)平臺 Aloudata BIG 和自動(dòng)化指標(biāo)平臺 Aloudata CAN。
Aloudata 的 CMO 劉靚介紹道,Aloudata AIR 和 Aloudata CAN 是數(shù)據(jù)編織的落地產(chǎn)品。在 Aloudata AIR 上,數(shù)據(jù)邏輯集成、不需物理搬運(yùn),只連接獲取元數(shù)據(jù)信息,了解表的結(jié)構(gòu)、數(shù)據(jù)和邏輯關(guān)系。用戶可以在邏輯集成的基礎(chǔ)上用一種 SQL 語言跨源開發(fā)邏輯視圖,無需關(guān)心任務(wù)的編排和調(diào)度,而這些虛擬表只在有被查閱或加速時(shí)才會(huì)觸發(fā)計(jì)算或同步任務(wù),是跟數(shù)據(jù)編織概念最接近的產(chǎn)品。
而 Aloudata CAN 作為一個(gè) NoETL 的指標(biāo)平臺,相當(dāng)于把數(shù)據(jù)倉庫的匯總層和應(yīng)用層都自動(dòng)化,把業(yè)務(wù)的語義和物理數(shù)據(jù)鏈路做解耦,開放所有明細(xì)以供靈活分析。劉靚指出,一般可以把數(shù)據(jù)倉庫簡單抽象成四層,包括 ODS 層、DWD 層、匯總層和應(yīng)用層,Aloudata 建議企業(yè)數(shù)倉建模只做到 DWD 層,即明細(xì)層——這時(shí)數(shù)據(jù)都還只有一份,完整干凈;Aloudata CAN 實(shí)現(xiàn)了語義表達(dá)和自動(dòng)化 ETL 等核心技術(shù)突破,進(jìn)而能夠基于 DWD 層模型實(shí)現(xiàn)指標(biāo)的配置化定義與自動(dòng)化開發(fā),賦予業(yè)務(wù)人員全部明細(xì)數(shù)據(jù)的分析自由。這是傳統(tǒng)數(shù)據(jù)開發(fā)模式無法做到的。
Aloudata BIG 則主要是自動(dòng)采集和解析元數(shù)據(jù),精細(xì)刻畫數(shù)據(jù)之間點(diǎn)和線的關(guān)系,進(jìn)而實(shí)現(xiàn)各種數(shù)據(jù)治理場景的高度自動(dòng)化。不同于傳統(tǒng)血緣工具,Aloudata BIG 能精細(xì)到某個(gè)具體字段算子級的加工邏輯。過去的鏈路就像傳統(tǒng)黃頁電話號碼,表的關(guān)系或數(shù)據(jù)改變都需要人手工回黃頁上登記;但現(xiàn)在,紙質(zhì)地圖變成能實(shí)時(shí)更新路況、細(xì)致描繪到街道、還能自動(dòng)導(dǎo)航的電子地圖。
Aloudata亮相CDIE 2024,與現(xiàn)場嘉賓交流
不過,這套產(chǎn)品的誕生并非一帆風(fēng)順。Aloudata 的宏偉目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)工程的智能化。以自動(dòng)駕駛做比喻,要實(shí)現(xiàn)無需駕駛員的完全自動(dòng)化 L5 階段,方法之一是從部分自動(dòng)化的 L2 做起,但意氣風(fēng)發(fā)的 Aloudata 團(tuán)隊(duì),起初想直接從 L5 開始做,一步跨越自動(dòng)化和智能化之間的鴻溝。
彼時(shí)是 2021 年,大模型尚未出現(xiàn),用拖拽或自然語言等方式表達(dá)數(shù)據(jù)分析需求、再完全自動(dòng)化數(shù)據(jù)處理過程,觀念太新,技術(shù)難度還太大。2022 年以來更務(wù)實(shí)的市場環(huán)境,也給這個(gè)宏大理想雪上加霜。嘗試了八九個(gè)月后,Aloudata 決定調(diào)整方向。
從“全自動(dòng)駕駛”往后退幾步,團(tuán)隊(duì)給產(chǎn)品加上“剎車油門方向盤”——降低算法的比例、增加了人可以決策的部分,讓客戶更有安全感,商業(yè)化齒輪才順利轉(zhuǎn)動(dòng)起來。
2023 年 5 月,周衛(wèi)林接受雷峰網(wǎng)的采訪時(shí)曾表示,對自己來說創(chuàng)業(yè)最難的是要避免把大廠的做事習(xí)慣帶進(jìn)來。2025 年初,再談及此,他感慨,以前在阿里和螞蟻“餅有多大,資源就有多大”,建團(tuán)隊(duì)不是問題,但創(chuàng)業(yè)公司并非如此。創(chuàng)業(yè)公司的人才畫像與大廠有所不同,后者分工很細(xì),要求人才往往更“?!薄?1 到 N,這類人才在創(chuàng)業(yè)公司可能水土不服。因此除了創(chuàng)始團(tuán)隊(duì)之外,找到更多有能力從 0 到 1 的人,比如志同道合的銷售和市場高管,補(bǔ)齊團(tuán)隊(duì)能力,是他的關(guān)鍵工作。
在商業(yè)決策上,Aloudata 也摸著石頭過河。盡管周衛(wèi)林在螞蟻時(shí)已經(jīng)以內(nèi)部乙方的角色服務(wù)各個(gè)業(yè)務(wù),但當(dāng)時(shí)不管錢,不需考慮財(cái)務(wù)模型,只需考慮產(chǎn)品價(jià)值。出來創(chuàng)業(yè)后要首先關(guān)注財(cái)務(wù)模型,把握節(jié)奏,理解企業(yè)服務(wù)本質(zhì),以及做取舍:比如當(dāng)客戶用極高的金額要求定制化開發(fā)需求時(shí),接還是不接,這是一個(gè)問題。
時(shí)至今日,Aloudata 對此已有答案:符合公司 NoETL 的方向及三款產(chǎn)品研發(fā)節(jié)奏的客戶需求,才會(huì)接下。周衛(wèi)林坦言,是過去交過的很多“學(xué)費(fèi)”,讓團(tuán)隊(duì)在自省后,能采取更接地氣、更接近創(chuàng)業(yè)公司的做法。
走過的每一步都為今日的成功注入血肉。周衛(wèi)林并不畏難,這些對別人來講的困難,在他眼中都是新鮮事、他的熱情所在。隨著對行業(yè)的認(rèn)知加深,看著簽單客戶增多,有新的小伙伴加入團(tuán)隊(duì),他成就感滿滿。
Aloudata三周年員工勛章頒發(fā)
優(yōu)先解決數(shù)字化程度 10-100 的客戶問題
在周衛(wèi)林看來,商業(yè)化的本質(zhì)邏輯大抵如此:定義好客戶的問題,有好的產(chǎn)品解決問題,客戶明白產(chǎn)品價(jià)值后,就能帶動(dòng)市場宣傳教育和品牌效應(yīng)。
定義客戶問題是第一步。在客戶選擇上,Aloudata 非常明確:優(yōu)先選擇數(shù)字化程度 10-100 的客戶。周衛(wèi)林感受到,這個(gè)區(qū)間的客戶被數(shù)據(jù)量龐大的問題困擾已久,愿意為此付費(fèi),且往往在三五分鐘內(nèi)就能聽懂 ETL 往 NoETL 轉(zhuǎn)的想法——他們對數(shù)據(jù)編織的概念已有耳聞,只是等待市場供應(yīng)商把它變現(xiàn)。
Aloudata 就這樣把先進(jìn)技術(shù)先在先進(jìn)企業(yè)里取得實(shí)效后,再進(jìn)行推廣。
不過,數(shù)據(jù)編織畢竟還很新——Gartner 和 Forrester 對數(shù)據(jù)編織的定義都仍是一套“理念”,而非成熟的工程實(shí)踐。Aloudata 手握這一與友商明顯差異化的重要武器時(shí),自然也需接過市場教育的重?fù)?dān)。
Aloudata 在過去幾年發(fā)布了多個(gè)數(shù)據(jù)編織相關(guān)白皮書。去年年底發(fā)布的《數(shù)據(jù)編織價(jià)值評估指南》,便系統(tǒng)性解答了客戶提出過的疑問。在這之中,周衛(wèi)林特別提到兩個(gè)概念:當(dāng)日需求滿足率和當(dāng)日數(shù)據(jù)動(dòng)銷率,這在數(shù)字化程度 10-100 的企業(yè)內(nèi)常常不可兼得——前者要求看數(shù)需求能被即時(shí)滿足,但若為此讓數(shù)據(jù)持續(xù)更新,很多數(shù)據(jù)當(dāng)天不一定會(huì)被業(yè)務(wù)場景使用,意味著大量算力被浪費(fèi)。NoETL 便是通過真實(shí)需求表達(dá),觸發(fā)計(jì)算和存儲(chǔ),實(shí)現(xiàn)按需計(jì)算。
周衛(wèi)林參加DataFunCon 2024活動(dòng)
Aloudata 成立的 2021 年,是美元投資和大廠人員出走創(chuàng)業(yè)浪潮的高峰。即便當(dāng)時(shí)國內(nèi)外市場對標(biāo)公司很少,投資者基本聽不懂 NoETL 的概念,但 Aloudata 團(tuán)隊(duì)符合風(fēng)投喜歡的典型畫像,且數(shù)字化市場空間前景樂觀,很快,公司便在 2021 年 6 月和 9 月完成了兩輪融資。
周衛(wèi)林做好了這筆融資要頂五年商業(yè)化周期的心理準(zhǔn)備。時(shí)至今日,他對公司商業(yè)化進(jìn)展頗為滿意。剛剛過去的2024年,公司簽約了二十幾家客戶,金融行業(yè)占比六七成。目前已有客戶涵蓋銀行、證券、品牌零售、先進(jìn)制造、醫(yī)療等多個(gè)行業(yè),包含招商銀行、民生銀行、興業(yè)銀行、平安證券、華泰證券、麥當(dāng)勞、lululemon、理想汽車等頭部客戶。
周衛(wèi)林相信,現(xiàn)在只是起步階段,Aloudata 還有上百家待簽客戶,他對新的一年信心滿滿。他向雷峰網(wǎng)表示,公司在 2024 年底已進(jìn)入商業(yè)化收獲期,收支平衡,2025 年會(huì)逐步走向盈利,預(yù)計(jì)營收能再翻三倍以上。如今互聯(lián)網(wǎng)人才外溢到各行各業(yè),周衛(wèi)林也認(rèn)為,未來目標(biāo)客戶將不再局限于數(shù)字化 10-100 的客戶群,頭部客戶的簽單和示范效應(yīng)會(huì)泛起漣漪,給腰部客戶提供指引。
Aloudata 在過去主要是專注于數(shù)據(jù)虛擬化和 ETL 工程的自動(dòng)化,未來將考慮結(jié)合大模型,發(fā)揮其語義理解能力和行動(dòng)力,提高數(shù)據(jù)處理分析效率,真正實(shí)現(xiàn)數(shù)據(jù)工程智能化。
站在大模型的肩膀上,Aloudata 距離數(shù)據(jù)工程領(lǐng)域“L5”的夢想也將更近一步。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。