0
國內數據倉庫體系的形成,已有大約二三十年。然而,隨著數據量爆發(fā),傳統(tǒng)的數據管理架構逐漸有些力不從心:
不同系統(tǒng)和組織多源異構的數據造成數據孤島,重復搬運開發(fā)又導致數據治理困難;大家曾一窩蜂涌上數據中臺,寄望讓這個企業(yè)的數字化中心完成數據集中存儲開發(fā)管理服務等工作,但大量的數據建模與任務運維又對人力提出極高要求。數據中臺逐漸成為企業(yè)的成本中心。
近幾年,一個新解法漸入人們視野——數據編織。它將企業(yè)內部散落的數據編織成一張?zhí)摂M的數據網,有需求時才產生任務,可以說是數據的“柔性制造”。
這是一個新興概念。Gartner 發(fā)布的《2024 年中國數據、分析和人工智能技術成熟度曲線》認為,數據編織是一種具有前瞻性的技術理念,預計在未來 2 到 5 年內將實現(xiàn)廣泛應用。根據 2022 年全球行業(yè)分析師報告,預計全球數據編織市場將從 2020 年的 11 億美元,增長到 2026 年的 37 億美元,可見數據編織領域需求強勁。
成立于 2021 年的 Aloudata,是國內將數據編織落地的生力軍。公司創(chuàng)始人兼 CEO 周衛(wèi)林近日接受雷峰網(公眾號:雷峰網)采訪,分享對數據市場的觀察及團隊將這個新興概念落地商業(yè)化的過程。作為先行者的 Aloudata 迷茫過,也多走過幾步路,如今,期望做出企業(yè)數智化領域“L5”工具的他們,正穩(wěn)步前進。
Aloudata 大應科技創(chuàng)始人&CEO 周衛(wèi)林
企業(yè)苦于數據搬運久矣
意識到數據工程變革這件事的急迫性,是周衛(wèi)林仍在螞蟻工作的時候。
周衛(wèi)林在 2006 年進入阿里巴巴后,在阿里數據平臺部待了五年多,2012 年調動去螞蟻。他說道,自己在 2006-2014 年間主要工作之一便是“為數據找到更大的家”。
這并非易事:當時數據每 18 個月就要搬一次家,往往選型半年、使用半年,接下來半年就要開始想下一代怎么做了,“阿里的數據量增長太快,當時有互聯(lián)網和人口紅利,技術跟不上業(yè)務變化”。
周衛(wèi)林過去螞蟻后,螞蟻在 2013 年開始拓展余額寶、花唄、芝麻信用等金融服務,再加上生活繳費、交通出行等更豐富的便民業(yè)務,數據增長速度更甚。2021 年前后,其數據量就已經達到 EB 級別,平臺上活躍著過萬名員工,托管上千萬張表、數百萬個任務,每年需要花費巨量成本。盡管螞蟻能從數據產生的價值中獲益,愿意支持這項開支,但成本增長的斜率有時還是比營收增長的斜率陡峭太多。
2003 年畢業(yè)后就深耕數據領域的周衛(wèi)林感慨,中國的企業(yè)數字化浪潮中有他們這代人種下的因,但結出的果現(xiàn)在卻有副作用:數據系統(tǒng)信息密度增加,維護成本越來越高,持續(xù)的熵增到最后會導致系統(tǒng)崩潰,一個數據中臺往往建立三五年后就要經歷一次或多次大型數據治理運動。
Data Fabric 數據編織架構理念圖
Aloudata 的 CMO 劉靚也向雷峰網指出,數據中臺發(fā)展至今,已有明顯弊端。一是存算成本高,大量物理預計算意味著存在很多任務產出的資產沒人消費,造成資源浪費。二是出現(xiàn)大量相似資產,數據每被開發(fā)一遍就復制一份,一份數據可能會變上百份,數據資產背后有大量鏈路和盤根錯節(jié)的依賴關系,如果缺乏行之有效的技術管理手段,比如離職員工留下的數據表和口徑沒能被后來者清楚理解消化,數據治理會非常困難。
三是對數據工程師能力要求很高,中間層建模時需要實現(xiàn)良好復用性,跑任務也需要很多人工運維。數據加工所用到的每張表背后都有鏈路和復雜的依賴關系。在頭部互聯(lián)網公司、大型金融企業(yè)中,鏈路較長的有上百層,任何一個節(jié)點出問題,數據工程師就要半夜爬起來處理??梢哉f,數據中臺并沒有根本上解決大量數據分析帶來的數據管理問題。
第四,也是更重要的,建設中臺意味著大量初始投資和后期持續(xù)的投資,然而業(yè)務用數的實時性和靈活性需求仍然沒有得到很好的滿足。也因此,Gartner 在 2024 年度的《創(chuàng)新洞察:數據基礎設施成為中國數據與分析生態(tài)系統(tǒng)的基石》報告中指出:純技術驅動的 "大而全 "的數據與分析平臺(如數據中臺)無法確保切實的商業(yè)回報,從而失去了利益相關者的支持。
這些問題,周衛(wèi)林也都看在眼里。離開螞蟻時,他四十歲,已經是 P10, “人到四十都有個坎,我開始想我的職業(yè)生涯要在哪里結束,對行業(yè)演進要有哪些影響。我可以在螞蟻體系里再做10年,但這很難改變行業(yè)?!?/p>
對技術懷有夢想的周衛(wèi)林,和幾位后來是 Aloudata 聯(lián)合創(chuàng)始人的同事,一起在 2021 年 5 月 9 日離開螞蟻。2021 年 5 月 10 日,Aloudata 成立。
成立后,Aloudata 便提出 NoETL 的思路。“NoETL 不是真的沒有 ETL,而是 ETL 自動化”,劉靚解釋道。數據中臺的本質是“數據倉庫+數據服務中間件”,依然是把數據物理搬運后進行數據清洗轉換,完成 ETL 過程。而 NoETL 概念下,數據不再需要物理集中同步,其集成是動態(tài)虛擬的,用戶負責表通過業(yè)務語義來表達需求,系統(tǒng)自動化完成 ETL 作業(yè),有“訂單”時再發(fā)起生產,實現(xiàn)數據的“柔性制造”。周衛(wèi)林后來發(fā)現(xiàn),他們的這一思路同國際上推崇的數據編織殊途同歸。
有了這一風向標,Aloudata 開始了在 NoETL 和數據編織道路上的探索。
數據領域的“自動駕駛” 能直接從L5做起嗎?
周衛(wèi)林描述自己在阿里的工作是ETL工程師,通過寫代碼的方式解決數據分析需求;而到支付寶后,他從0到1建立一個大數據工具體系,來解決數據分析問題。
企業(yè)不死,數據不死。與其靠堆人來解決數據分析的問題,他更希望用工具來自動化解決數據分析的問題。
Aloudata 在 5 月份成立后,同年 8 月就與招商銀行簽約,合作打磨產品。團隊對商業(yè)化三步走的規(guī)劃很清晰——先跟一個頭部客戶打磨,做出最小可用的技術產品后,完成 PMF 驗證,再進行市場化推廣。第一步打磨產品就花費兩三年,直到 2023 年底,Aloudata 才發(fā)布其三個商業(yè)化產品:國內首個邏輯數據平臺 Aloudata AIR、全球首個算子級血緣的主動元數據平臺 Aloudata BIG 和自動化指標平臺 Aloudata CAN。
Aloudata 的 CMO 劉靚介紹道,Aloudata AIR 和 Aloudata CAN 是數據編織的落地產品。在 Aloudata AIR 上,數據邏輯集成、不需物理搬運,只連接獲取元數據信息,了解表的結構、數據和邏輯關系。用戶可以在邏輯集成的基礎上用一種 SQL 語言跨源開發(fā)邏輯視圖,無需關心任務的編排和調度,而這些虛擬表只在有被查閱或加速時才會觸發(fā)計算或同步任務,是跟數據編織概念最接近的產品。
而 Aloudata CAN 作為一個 NoETL 的指標平臺,相當于把數據倉庫的匯總層和應用層都自動化,把業(yè)務的語義和物理數據鏈路做解耦,開放所有明細以供靈活分析。劉靚指出,一般可以把數據倉庫簡單抽象成四層,包括 ODS 層、DWD 層、匯總層和應用層,Aloudata 建議企業(yè)數倉建模只做到 DWD 層,即明細層——這時數據都還只有一份,完整干凈;Aloudata CAN 實現(xiàn)了語義表達和自動化 ETL 等核心技術突破,進而能夠基于 DWD 層模型實現(xiàn)指標的配置化定義與自動化開發(fā),賦予業(yè)務人員全部明細數據的分析自由。這是傳統(tǒng)數據開發(fā)模式無法做到的。
Aloudata BIG 則主要是自動采集和解析元數據,精細刻畫數據之間點和線的關系,進而實現(xiàn)各種數據治理場景的高度自動化。不同于傳統(tǒng)血緣工具,Aloudata BIG 能精細到某個具體字段算子級的加工邏輯。過去的鏈路就像傳統(tǒng)黃頁電話號碼,表的關系或數據改變都需要人手工回黃頁上登記;但現(xiàn)在,紙質地圖變成能實時更新路況、細致描繪到街道、還能自動導航的電子地圖。
Aloudata亮相CDIE 2024,與現(xiàn)場嘉賓交流
不過,這套產品的誕生并非一帆風順。Aloudata 的宏偉目標是實現(xiàn)數據工程的智能化。以自動駕駛做比喻,要實現(xiàn)無需駕駛員的完全自動化 L5 階段,方法之一是從部分自動化的 L2 做起,但意氣風發(fā)的 Aloudata 團隊,起初想直接從 L5 開始做,一步跨越自動化和智能化之間的鴻溝。
彼時是 2021 年,大模型尚未出現(xiàn),用拖拽或自然語言等方式表達數據分析需求、再完全自動化數據處理過程,觀念太新,技術難度還太大。2022 年以來更務實的市場環(huán)境,也給這個宏大理想雪上加霜。嘗試了八九個月后,Aloudata 決定調整方向。
從“全自動駕駛”往后退幾步,團隊給產品加上“剎車油門方向盤”——降低算法的比例、增加了人可以決策的部分,讓客戶更有安全感,商業(yè)化齒輪才順利轉動起來。
2023 年 5 月,周衛(wèi)林接受雷峰網的采訪時曾表示,對自己來說創(chuàng)業(yè)最難的是要避免把大廠的做事習慣帶進來。2025 年初,再談及此,他感慨,以前在阿里和螞蟻“餅有多大,資源就有多大”,建團隊不是問題,但創(chuàng)業(yè)公司并非如此。創(chuàng)業(yè)公司的人才畫像與大廠有所不同,后者分工很細,要求人才往往更“專”、從 1 到 N,這類人才在創(chuàng)業(yè)公司可能水土不服。因此除了創(chuàng)始團隊之外,找到更多有能力從 0 到 1 的人,比如志同道合的銷售和市場高管,補齊團隊能力,是他的關鍵工作。
在商業(yè)決策上,Aloudata 也摸著石頭過河。盡管周衛(wèi)林在螞蟻時已經以內部乙方的角色服務各個業(yè)務,但當時不管錢,不需考慮財務模型,只需考慮產品價值。出來創(chuàng)業(yè)后要首先關注財務模型,把握節(jié)奏,理解企業(yè)服務本質,以及做取舍:比如當客戶用極高的金額要求定制化開發(fā)需求時,接還是不接,這是一個問題。
時至今日,Aloudata 對此已有答案:符合公司 NoETL 的方向及三款產品研發(fā)節(jié)奏的客戶需求,才會接下。周衛(wèi)林坦言,是過去交過的很多“學費”,讓團隊在自省后,能采取更接地氣、更接近創(chuàng)業(yè)公司的做法。
走過的每一步都為今日的成功注入血肉。周衛(wèi)林并不畏難,這些對別人來講的困難,在他眼中都是新鮮事、他的熱情所在。隨著對行業(yè)的認知加深,看著簽單客戶增多,有新的小伙伴加入團隊,他成就感滿滿。
Aloudata三周年員工勛章頒發(fā)
優(yōu)先解決數字化程度 10-100 的客戶問題
在周衛(wèi)林看來,商業(yè)化的本質邏輯大抵如此:定義好客戶的問題,有好的產品解決問題,客戶明白產品價值后,就能帶動市場宣傳教育和品牌效應。
定義客戶問題是第一步。在客戶選擇上,Aloudata 非常明確:優(yōu)先選擇數字化程度 10-100 的客戶。周衛(wèi)林感受到,這個區(qū)間的客戶被數據量龐大的問題困擾已久,愿意為此付費,且往往在三五分鐘內就能聽懂 ETL 往 NoETL 轉的想法——他們對數據編織的概念已有耳聞,只是等待市場供應商把它變現(xiàn)。
Aloudata 就這樣把先進技術先在先進企業(yè)里取得實效后,再進行推廣。
不過,數據編織畢竟還很新——Gartner 和 Forrester 對數據編織的定義都仍是一套“理念”,而非成熟的工程實踐。Aloudata 手握這一與友商明顯差異化的重要武器時,自然也需接過市場教育的重擔。
Aloudata 在過去幾年發(fā)布了多個數據編織相關白皮書。去年年底發(fā)布的《數據編織價值評估指南》,便系統(tǒng)性解答了客戶提出過的疑問。在這之中,周衛(wèi)林特別提到兩個概念:當日需求滿足率和當日數據動銷率,這在數字化程度 10-100 的企業(yè)內常常不可兼得——前者要求看數需求能被即時滿足,但若為此讓數據持續(xù)更新,很多數據當天不一定會被業(yè)務場景使用,意味著大量算力被浪費。NoETL 便是通過真實需求表達,觸發(fā)計算和存儲,實現(xiàn)按需計算。
周衛(wèi)林參加DataFunCon 2024活動
Aloudata 成立的 2021 年,是美元投資和大廠人員出走創(chuàng)業(yè)浪潮的高峰。即便當時國內外市場對標公司很少,投資者基本聽不懂 NoETL 的概念,但 Aloudata 團隊符合風投喜歡的典型畫像,且數字化市場空間前景樂觀,很快,公司便在 2021 年 6 月和 9 月完成了兩輪融資。
周衛(wèi)林做好了這筆融資要頂五年商業(yè)化周期的心理準備。時至今日,他對公司商業(yè)化進展頗為滿意。剛剛過去的2024年,公司簽約了二十幾家客戶,金融行業(yè)占比六七成。目前已有客戶涵蓋銀行、證券、品牌零售、先進制造、醫(yī)療等多個行業(yè),包含招商銀行、民生銀行、興業(yè)銀行、平安證券、華泰證券、麥當勞、lululemon、理想汽車等頭部客戶。
周衛(wèi)林相信,現(xiàn)在只是起步階段,Aloudata 還有上百家待簽客戶,他對新的一年信心滿滿。他向雷峰網表示,公司在 2024 年底已進入商業(yè)化收獲期,收支平衡,2025 年會逐步走向盈利,預計營收能再翻三倍以上。如今互聯(lián)網人才外溢到各行各業(yè),周衛(wèi)林也認為,未來目標客戶將不再局限于數字化 10-100 的客戶群,頭部客戶的簽單和示范效應會泛起漣漪,給腰部客戶提供指引。
Aloudata 在過去主要是專注于數據虛擬化和 ETL 工程的自動化,未來將考慮結合大模型,發(fā)揮其語義理解能力和行動力,提高數據處理分析效率,真正實現(xiàn)數據工程智能化。
站在大模型的肩膀上,Aloudata 距離數據工程領域“L5”的夢想也將更近一步。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。