0
作者 | 王德清
出品 | 雷鋒網(wǎng)產(chǎn)業(yè)組
當(dāng)前,對于每一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展來說,數(shù)據(jù)起到了至關(guān)重要的作用。
“一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化”,也成為當(dāng)今諸多企業(yè)的口頭禪。
據(jù)知名咨詢機(jī)構(gòu)統(tǒng)計,到2025年全球數(shù)據(jù)總量將超過160ZB,全球數(shù)據(jù)總量的近 20% 將成為影響日常生活的關(guān)鍵數(shù)據(jù),近 10% 將變?yōu)槌P(guān)鍵數(shù)據(jù)。
隨之而來的就是,企業(yè)對于數(shù)據(jù)洞察敏捷度要求的不斷提升,同時企業(yè)也迫切需要可以利用多個數(shù)據(jù)源、使用不同的大數(shù)據(jù)分析技術(shù),快速構(gòu)建靈活友好的數(shù)據(jù)架構(gòu),解決多元化分析場景的數(shù)據(jù)需求。
基于這一洞察,日前,騰訊云首次對外展示完整云端數(shù)據(jù)湖產(chǎn)品圖譜,并推出兩款“開箱即用”數(shù)據(jù)湖產(chǎn)品——數(shù)據(jù)湖計算服務(wù)DLC和數(shù)據(jù)湖構(gòu)建DLF。
云原生智能數(shù)據(jù)湖到底具有了哪些能力?可為企業(yè)帶來哪些價值?為了探討這些問題的答案,會后,雷鋒網(wǎng)與騰訊云大數(shù)據(jù)產(chǎn)品中心副總經(jīng)理雷小平、騰訊云容器產(chǎn)品總經(jīng)理鄒輝、騰訊云AI應(yīng)用產(chǎn)品中心總經(jīng)理王磊進(jìn)行了一場對話。
眾所周知,數(shù)據(jù)湖并非是一個新的概念,早在2010年,Pentaho創(chuàng)始人兼CTO詹姆斯·狄克遜(James Dixon)就提出數(shù)據(jù)湖概念,同期Pentaho發(fā)布了開源框架的Hadoop第一版。
隨后,藍(lán)色巨人IBM、EMC等也推出了數(shù)據(jù)湖解決方案,其核心基于分布式文件系統(tǒng)建立的數(shù)據(jù)存儲方式,橫向擴(kuò)展比較強(qiáng)大,實(shí)現(xiàn)了集中統(tǒng)一管理。與此同時,基于HDFS系統(tǒng)帶來的Hadoop和Spark開源生態(tài)構(gòu)建,也在一定程度上推進(jìn)了企業(yè)數(shù)據(jù)湖的進(jìn)程。
但受限于開源軟件本身能力的限制,傳統(tǒng)數(shù)據(jù)湖技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求,無法達(dá)到數(shù)據(jù)湖架構(gòu)的理想目標(biāo)。
在雷小平看來,傳統(tǒng)的數(shù)據(jù)湖產(chǎn)品只是解決了大數(shù)據(jù)“存”的問題,在“用”的維度上并沒有產(chǎn)生更大的價值。
而伴隨著數(shù)字化時代的到來,企業(yè)用戶對于大數(shù)據(jù)產(chǎn)品有了更高的要求,需要更低廉的數(shù)據(jù)存儲成本、更精細(xì)的數(shù)據(jù)資產(chǎn)管理、可共享的數(shù)據(jù)湖元數(shù)據(jù)、更實(shí)時的數(shù)據(jù)更新頻率以及更強(qiáng)大的數(shù)據(jù)接入工具。
這直接導(dǎo)致了傳統(tǒng)數(shù)據(jù)湖產(chǎn)品難以深入企業(yè)級行業(yè)用戶。
面對著企業(yè)對于大數(shù)據(jù)工具需求的全面變化,以及以云計算為中心、以數(shù)據(jù)驅(qū)動業(yè)務(wù)及可組合式數(shù)據(jù)架構(gòu)成為數(shù)智時代的數(shù)據(jù)分析的趨勢下,云原生智能數(shù)據(jù)湖應(yīng)勢而生。
“云原生智能數(shù)據(jù)湖,能夠很好的擴(kuò)展計算和存儲資源,同時能極大地降低運(yùn)維管理難度,實(shí)現(xiàn)業(yè)務(wù)靈活部署。同時可以助力各行各業(yè)解決多元化數(shù)據(jù)分析場景的新需求,更好地激發(fā)大數(shù)據(jù)在企業(yè)數(shù)字化升級過程中的價值。”雷小平接著對雷鋒網(wǎng)表示到。
“相比過去的數(shù)據(jù)湖,云原生數(shù)據(jù)湖的優(yōu)勢主要體現(xiàn)在能夠以極低的價格共享存儲服務(wù);計算資源能夠按需擴(kuò)容,按量付費(fèi);同時隨著數(shù)據(jù)湖全鏈路解決方案的不斷完善和增強(qiáng),也在打破數(shù)據(jù)孤島、實(shí)現(xiàn)多元化數(shù)據(jù)分析等方面具有獨(dú)特優(yōu)勢。”
基于對行業(yè)的這一理解,在雷小平看來,企業(yè)需要一個具備端到端的云原生數(shù)據(jù)湖解決方案,從存儲、計算到智能的數(shù)據(jù)分析,再到偏向業(yè)務(wù)場景的各種數(shù)據(jù)應(yīng)用,通過“從下到上”的把這些能力聚合在一起,同時結(jié)合數(shù)據(jù)湖的能力去解決業(yè)務(wù)中的具體問題,并能夠快速搭建并運(yùn)用數(shù)據(jù)湖的技術(shù)架構(gòu)。
隨著技術(shù)的不斷演進(jìn),數(shù)據(jù)庫技術(shù)正在與云計算以及人工智能技術(shù)相融合,結(jié)合云計算以及人工智能的特性,云數(shù)據(jù)庫正呈現(xiàn)出更高的數(shù)據(jù)敏捷度、更優(yōu)的數(shù)據(jù)存儲分析成本,以及更極致的資源彈性能力,在打破數(shù)據(jù)孤島、實(shí)現(xiàn)多元化數(shù)據(jù)分析等方面具有獨(dú)特優(yōu)勢。
就以騰訊云原生智能數(shù)據(jù)湖為例,其產(chǎn)品矩陣包括數(shù)據(jù)湖存儲、數(shù)據(jù)湖算力調(diào)度、數(shù)據(jù)湖大數(shù)據(jù)分析、數(shù)據(jù)湖AI能力、以及數(shù)據(jù)湖應(yīng)用和云上基礎(chǔ)服務(wù)六個層面,提供一體化的全方位服務(wù)。
在存儲方面,騰訊云原生數(shù)據(jù)湖存儲以對象存儲COS服務(wù)為核心,理論上可以存儲任意規(guī)模的異構(gòu)數(shù)據(jù),具有高可靠性和高持久性,同時也支持將其他云端數(shù)據(jù)設(shè)施作為數(shù)據(jù)湖的存儲服務(wù)。
對于騰訊云對象存儲,雷鋒網(wǎng)曾在《騰訊存儲技術(shù)背后的十五年往事》一文中進(jìn)行詳細(xì)描寫過,騰訊云對象存儲COS基于新一代存儲引擎YottaStore打造,不僅具有高可用、高性能和低成本等優(yōu)勢,且在存儲可靠性、開放兼容和數(shù)據(jù)安全方面也為海量數(shù)據(jù)的存儲和管理提供了更強(qiáng)大的支持。此外,騰訊云對象存儲COS還進(jìn)一步通過“三級加速器”,提供存儲端元數(shù)據(jù)、近計算端數(shù)據(jù)緩存以及AZ級全閃存硬件加速能力,可以滿足用戶低成本、高性能、流批一體地挖掘數(shù)據(jù)資產(chǎn)價值的需求。
在算力調(diào)度方面,騰訊云彈性容器服務(wù)EKS,具備存算分離、緩存加速、彈性計算能力,既能幫助企業(yè)充分利用云上資源的彈性能力,極大減少集群空閑時期的成本浪費(fèi),也能快速、安全的提供多樣的算力資源。
據(jù)鄒輝介紹,彈性容器服務(wù)EKS不僅經(jīng)歷了三次大的技術(shù)架構(gòu)重構(gòu),同時也在騰訊云幾十萬、幾百萬臺的物理機(jī)上做了部署,實(shí)踐驗(yàn)證了其高可用和穩(wěn)定性,它既可以提供一個運(yùn)維簡單、兼容原生Kubernetes的Serverless容器平臺,也能更快更彈性更安全且無需對集群管理實(shí)現(xiàn)管理,同時更具備跨可用區(qū)的容災(zāi),容器沙箱及熱遷移等高級功能,真正實(shí)現(xiàn)了極致的資源使用靈活性。
同時,面向企業(yè)的混合云部署場景,騰訊云的EKS可以在用戶的機(jī)房中部署一個插件,當(dāng)客戶需要更多算力資源的時候,通過這一個插件就可以使用騰訊云提供的性容器服務(wù)EKS服務(wù)。
其次,在數(shù)據(jù)湖分析方面,騰訊云原生數(shù)據(jù)湖同樣既提供半托管的泛Hadoop服務(wù),滿足用戶自定義需求,也提供全托管的數(shù)據(jù)服務(wù),便于用戶獲取海量數(shù)據(jù)的洞察力。同時,用戶還可利用騰訊云提供的數(shù)據(jù)協(xié)作工具對計算服務(wù)進(jìn)行編排和調(diào)用,大幅度提升企業(yè)數(shù)據(jù)的便捷性和敏捷度。
在數(shù)據(jù)湖智能應(yīng)用方面應(yīng)用方面,騰訊云推出了基于數(shù)據(jù)湖的數(shù)據(jù)應(yīng)用服務(wù),如企業(yè)畫像、聯(lián)邦計算、商業(yè)智能分析等。同時,騰訊云數(shù)據(jù)湖更包含了豐富的AI服務(wù),能夠?yàn)閳D像處理、音頻處理、自然語言處理、視頻處理等提供有力的數(shù)據(jù)支撐。
據(jù)王磊介紹,云原生數(shù)據(jù)湖為AI的應(yīng)用提供了統(tǒng)一的數(shù)據(jù)架構(gòu),在數(shù)據(jù)收集、標(biāo)注、訓(xùn)練、推理等領(lǐng)域都能夠發(fā)揮更大的作用,而騰訊云憑借全球領(lǐng)先的技術(shù)和創(chuàng)新方案,打造了領(lǐng)先的數(shù)據(jù)湖與AI融合平臺,為更多的應(yīng)用場景提供了智能化的能力。
以騰訊云內(nèi)容安全智能服務(wù)為例,該服務(wù)基于云原生數(shù)據(jù)湖架構(gòu),以AI智能審核能力為核心,從接口輸入、輔助判斷、模型識別、客戶策略處理以及人工審核與平臺六大維度,為用戶提供了完整的內(nèi)容安全解決方案,讓客戶一次調(diào)用即可完成所有的內(nèi)容審核工作。在此基礎(chǔ)上,騰訊云也不斷通過數(shù)據(jù)湖結(jié)合AI的能力賦能客戶,在科技戰(zhàn)“疫”、OCR識別、智能票財稅等應(yīng)用場景領(lǐng)域發(fā)揮了更多的價值和作用。
當(dāng)滿足了用戶對于大數(shù)據(jù)產(chǎn)品需求之后,對于產(chǎn)品提供者來說,如何讓用戶快速的用上該產(chǎn)品則成為了下一個問題。
為了讓用戶更快的建立起數(shù)據(jù)湖環(huán)境,騰訊云原生智能數(shù)據(jù)湖還打造了兩款全新的“開箱即用”數(shù)據(jù)湖產(chǎn)品——數(shù)據(jù)湖計算服務(wù)(Data Lake Compute,簡稱:DLC)和數(shù)據(jù)湖構(gòu)建DLF(Data Lake Formation,簡稱:DLF)。
其中,數(shù)據(jù)湖計算服務(wù)DLC服務(wù)采用無服務(wù)器架構(gòu)(Serverless)設(shè)計,用戶無需關(guān)注底層架構(gòu)或維護(hù)計算資源,使用標(biāo)準(zhǔn)SQL即可完成對象存儲服務(wù)(COS)及其他云端數(shù)據(jù)設(shè)施的聯(lián)合分析計算。借助該服務(wù),用戶無需進(jìn)行傳統(tǒng)的數(shù)據(jù)分層建模,大幅縮減了海量數(shù)據(jù)分析的準(zhǔn)備時間,有效提升了企業(yè)數(shù)據(jù)敏捷度。
不僅如此,騰訊云數(shù)據(jù)湖構(gòu)建DLF則提供了數(shù)據(jù)湖的快速構(gòu)建,以及與湖上元數(shù)據(jù)管理服務(wù),能夠幫助用戶快速高效的構(gòu)建企業(yè)數(shù)據(jù)湖技術(shù)架構(gòu),包括統(tǒng)一元數(shù)據(jù)管理、多源數(shù)據(jù)入湖、任務(wù)編排、權(quán)限管理等數(shù)據(jù)湖構(gòu)建工具,借助數(shù)據(jù)湖構(gòu)建,用戶可以極大的提高數(shù)據(jù)入湖準(zhǔn)備的效率,方便的管理散落各處的孤島數(shù)據(jù)。
值得注意的是,DLF不僅可以兼容騰訊產(chǎn)品產(chǎn)生的異構(gòu)數(shù)據(jù),它也可以兼容騰訊云之外的異構(gòu)數(shù)據(jù)。
數(shù)據(jù)顯示,基于這兩款數(shù)據(jù)湖產(chǎn)品,相比于本地自建大數(shù)據(jù)集群,數(shù)據(jù)湖構(gòu)建時間減少了60%,數(shù)據(jù)分析計算性能提升35.5%,云端數(shù)據(jù)湖架構(gòu)投入使用后可使存算數(shù)據(jù)量增長75%,配合其他大數(shù)據(jù)服務(wù),在業(yè)務(wù)峰值期可以節(jié)約30%的硬件資源,以及一半的大數(shù)據(jù)工程師和運(yùn)維工程師。
對于任何大數(shù)據(jù)產(chǎn)品而言,其穩(wěn)定性的重要性是不言而喻的。
對此雷小平對雷鋒網(wǎng)表示,騰訊云此次發(fā)布的騰訊云原生數(shù)據(jù)湖產(chǎn)品在內(nèi)部經(jīng)歷過長期實(shí)踐和錘煉之后才對外發(fā)布的。
以騰訊新聞為例,騰訊新聞?chuàng)碛星|級的文章數(shù)量,每篇文章各環(huán)節(jié)數(shù)據(jù)維度達(dá)到幾百個,多維度的數(shù)據(jù)主題導(dǎo)致各個業(yè)務(wù)環(huán)節(jié)的數(shù)據(jù)量線性膨脹,也這給數(shù)據(jù)分析帶了極大的挑戰(zhàn)。
為此,基于騰訊云原生數(shù)據(jù)湖技術(shù)架構(gòu),在數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析的全數(shù)據(jù)鏈條上提供了高可靠高可用的彈性數(shù)據(jù)能力。目前已接入全量文章的索引數(shù)據(jù),文章索引達(dá)日均30-50億/100G+ ,支持準(zhǔn)實(shí)時寫入更新,業(yè)務(wù)數(shù)據(jù)鏈路延遲提升至分鐘級別,使得算力資源節(jié)約超過50%,綜合運(yùn)行成本降低了30%,大數(shù)據(jù)運(yùn)維工程師的工作量提升了100%。
“騰訊新聞的數(shù)據(jù)應(yīng)用中,既有偏離線的,也有偏實(shí)時的,更有偏批量和小部分?jǐn)?shù)據(jù)查詢的,場景十分的多樣化,而騰訊云基于多樣化的應(yīng)用場景,不斷對云原生數(shù)據(jù)湖方案進(jìn)行孵化和打磨,最終讓騰訊云原生數(shù)據(jù)湖應(yīng)勢而生?!?/p>
除此之外,騰訊云正在積極推動數(shù)據(jù)湖在政務(wù)、工業(yè)、零售等領(lǐng)域的大規(guī)模落地。
目前,騰訊云數(shù)據(jù)湖體系已服務(wù)眾多內(nèi)外部客戶,其整體算力彈性資源池已達(dá)500萬核,存儲數(shù)據(jù)超過100PB,每日分析任務(wù)數(shù)達(dá)1500萬,每日實(shí)時計算次數(shù)超過萬億,能支持上億維度的數(shù)據(jù)訓(xùn)練。
顯然,作為數(shù)智時代的數(shù)據(jù)處理的新引擎,云原生智能數(shù)據(jù)湖能夠?yàn)橛脩魩砀嗟目赡苄浴?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。