0
本文作者: 何思思 | 2022-06-14 12:14 |
如今,伴隨著數(shù)字化轉(zhuǎn)型腳步的加快,大數(shù)據(jù)已成為企業(yè)經(jīng)營管理的主要手段之一,越來越多的行業(yè)也選擇通過大數(shù)據(jù)來實(shí)現(xiàn)業(yè)績增長。
政府機(jī)構(gòu)通過大數(shù)據(jù)手段為市民提供優(yōu)質(zhì)服務(wù),改善民生;醫(yī)療公司利用大數(shù)據(jù)和認(rèn)知計(jì)算,從病人的病史和各部門醫(yī)生的處方中獲取有價(jià)值的見解;銀行通過大數(shù)據(jù)咨詢服務(wù)收集數(shù)據(jù)并進(jìn)行分析,從而提高客戶對網(wǎng)上銀行的參與度...
大數(shù)據(jù)普惠千行百業(yè)的案例比比皆是。大數(shù)據(jù)相關(guān)人士曾這樣表述道:大數(shù)據(jù)時(shí)代已經(jīng)來臨,這是一場時(shí)代的變革,只有把握好機(jī)遇,建設(shè)大數(shù)據(jù)平臺(tái)并運(yùn)用到企業(yè)中,才能不被時(shí)代所拋棄,并隨著時(shí)代的更迭演變出更適合發(fā)展的模式。
這段話說明了大數(shù)據(jù)時(shí)代到來的必然性,也說明了大數(shù)據(jù)時(shí)代下,大數(shù)據(jù)平臺(tái)建設(shè)的重要性。
大數(shù)據(jù)平臺(tái)是指以處理海量數(shù)據(jù)存儲(chǔ)、計(jì)算及不間斷流數(shù)據(jù)實(shí)時(shí)計(jì)算等場景為主的一套基礎(chǔ)設(shè)施。典型的包括Hadoop系列、Spark、Flume、Flink以及Kafka等大數(shù)據(jù)生態(tài)組件。
面對海量數(shù)據(jù)爆發(fā)式增長,越來越多的企業(yè)有了強(qiáng)烈的上云需求,在此背景下,大數(shù)據(jù)平臺(tái)又有了新的定義——云原生大數(shù)據(jù)平臺(tái)。
智領(lǐng)云CEO彭鋒表示,云原生大數(shù)據(jù)平臺(tái)的出現(xiàn)其實(shí)是在傳統(tǒng)大數(shù)據(jù)平臺(tái)的基礎(chǔ)上進(jìn)行的,主要在于傳統(tǒng)大數(shù)據(jù)平臺(tái)的搭建,開發(fā)及運(yùn)維都相對復(fù)雜。
一般來說,原始數(shù)據(jù)的誕生到價(jià)值產(chǎn)生過程中往往包括數(shù)據(jù)發(fā)現(xiàn)、集成、開發(fā)、分析等多個(gè)環(huán)節(jié),在這個(gè)過程中要想讓數(shù)據(jù)創(chuàng)造更高的價(jià)值就需要數(shù)據(jù)應(yīng)用的開發(fā)部署,服務(wù)共享,持續(xù)發(fā)布,調(diào)度運(yùn)維以及質(zhì)量監(jiān)控等一整套體系來管理。
而傳統(tǒng)大數(shù)據(jù)平臺(tái)主要集中在采集、數(shù)據(jù)組件安裝以及數(shù)據(jù)倉庫的建設(shè)方面。并且其開發(fā)管理運(yùn)營環(huán)節(jié)散布在各個(gè)大數(shù)據(jù)組件中,并沒有一個(gè)完整的管理體系。此外,更重要的是傳統(tǒng)大數(shù)據(jù)平臺(tái)中的每個(gè)組件都有自己的安裝流程和管理流程,這就增加了平臺(tái)的建設(shè)難度和復(fù)雜度。
對此,彭鋒還舉例道,如果大家在今日頭條或者抖音中點(diǎn)贊一個(gè)足球視頻,它會(huì)給你推送相關(guān)的足球新聞或者周邊產(chǎn)品。從點(diǎn)擊這個(gè)視頻開始的數(shù)據(jù)采集到最后根據(jù)用戶畫像推薦給你的內(nèi)容,中間要經(jīng)過多個(gè)大數(shù)據(jù)組件,諸如日志、數(shù)據(jù)庫、數(shù)據(jù)采集、數(shù)據(jù)倉建設(shè)、機(jī)器學(xué)習(xí)、模型服務(wù)、流式數(shù)據(jù)處理等數(shù)據(jù)應(yīng)用都是不可或缺的部分。
像下面這個(gè)簡化版的數(shù)據(jù)流水線圖展示的一樣, 依靠傳統(tǒng)大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)這個(gè)任務(wù)要去開發(fā)至少八條數(shù)據(jù)線,涉及到包括Kafka、Hive、Spark,Redis、Hadoop、Flume等內(nèi)在的多個(gè)大數(shù)據(jù)組件。
這八條數(shù)據(jù)線背后代表整個(gè)數(shù)據(jù)產(chǎn)品的八個(gè)不同的數(shù)據(jù)處理步驟,傳統(tǒng)上這些數(shù)據(jù)處理步驟都發(fā)布和運(yùn)行在不同的集群組件中, 其代碼也以不同形式存放于不同子系統(tǒng)中。一個(gè)小的應(yīng)用場景其背后數(shù)據(jù)平臺(tái)的搭建往往比想象中的復(fù)雜。
顯然傳統(tǒng)大數(shù)據(jù)平臺(tái)已不能完全適應(yīng)大數(shù)據(jù)時(shí)代下企業(yè)的運(yùn)營需求,因此云原生大數(shù)據(jù)平臺(tái)的概念開始被業(yè)界推崇。
其實(shí)云原生并不是一個(gè)新的概念,云原生是面向云而設(shè)計(jì)的應(yīng)用,采用基于云原生的技術(shù)和管理方法,可以更好地把業(yè)務(wù)生于“云”或遷移到云平臺(tái),從而享受“云”的高效和持續(xù)的服務(wù)能力,也就是讓企業(yè)的業(yè)務(wù)生于云,長于云。
相對云原生而言,云原生大數(shù)據(jù)平臺(tái)在國內(nèi)似乎是一個(gè)新的概念,并且其熱度并不算高,但在彭鋒看來,去年兩大標(biāo)志性事件的發(fā)生,預(yù)示著大數(shù)據(jù)平臺(tái)的云原生化將成為大勢所趨,一是去年3月份Apaceh的Spark支持了Kubernetes;二是去年5月份,Kafka也公開支持了Kubernetes。
同時(shí)他指出,云原生大數(shù)據(jù)平臺(tái)會(huì)呈現(xiàn)出三大趨勢:
基于Hadoop的大數(shù)據(jù)生態(tài)會(huì)逐漸遷移到K8s上,MapReduce和Yarn被K8s計(jì)算和調(diào)度框架取代,K8s可直接運(yùn)行所有大數(shù)據(jù)workload,便于多租戶管理,資源混排,提升資源使用率;
各種大數(shù)據(jù)組件都可以在K8s上直接運(yùn)行,使集成開發(fā)管理成為可能;
數(shù)據(jù)即產(chǎn)品成為可能,以往我們所看到的數(shù)據(jù)能力會(huì)以一種集成的方式體現(xiàn),這在傳統(tǒng)大數(shù)據(jù)平臺(tái)時(shí)代是無法實(shí)現(xiàn)的。
顯而易見,云原生大數(shù)據(jù)平臺(tái)的優(yōu)勢在于可以解決傳統(tǒng)大數(shù)據(jù)平臺(tái)無法解決的問題,諸如平臺(tái)建設(shè)方式效率低、開發(fā)發(fā)布流程復(fù)雜無法形成客戶的自助數(shù)據(jù)能力、系統(tǒng)性能低下導(dǎo)致的數(shù)據(jù)孤島與應(yīng)用孤島等問題。
在兩大事件的推動(dòng)下,國內(nèi)各大巨頭企業(yè)包括華為云、阿里云、騰訊云等也進(jìn)行著K8s云原生大數(shù)據(jù)平臺(tái)的具體實(shí)踐,其中值得關(guān)注的是,智領(lǐng)云就將在Mesos上所做的云原生大數(shù)據(jù)平臺(tái)全部遷移到了K8s,并發(fā)布了第一個(gè)純K8s在線數(shù)據(jù)開發(fā)平臺(tái)——BDOS Online。
彭鋒表示,對大數(shù)據(jù)平臺(tái)進(jìn)行云原生改造并非一件易事。
首先體系之間存在沖突,原來大數(shù)據(jù)體系有自己的分布式管理和內(nèi)部工作通訊機(jī)制,現(xiàn)有大數(shù)據(jù)組件對于K8s原生技術(shù)棧的使用有一定的沖突,比如Hadoop、Spark等大數(shù)據(jù)框架只能支持某一個(gè)版本的K8s;另外一個(gè)沖突體現(xiàn)在K8s需要的是存算分離,但是大數(shù)據(jù)講究的是把數(shù)據(jù)存在什么地方,計(jì)算存在什么地方。
其次,組件的安裝運(yùn)維及使用。原有大數(shù)據(jù)組件的安裝運(yùn)維流程都是通過手動(dòng)管理方式完成的,而K8s組件的運(yùn)維、安裝均使用自動(dòng)方式運(yùn)行,想要把所有大數(shù)據(jù)組件的安裝運(yùn)維方式全部改成K8s理念仍有很大挑戰(zhàn)。
再者,現(xiàn)有業(yè)務(wù)的無縫遷移?,F(xiàn)有大數(shù)據(jù)運(yùn)行著很多以前的業(yè)務(wù),包括ETL數(shù)據(jù)分析、數(shù)據(jù)倉建設(shè)等,不能為了使用K8s就把以前的業(yè)務(wù)應(yīng)用全部重寫,如何“不用重起爐灶”將其無縫遷移到K8s體系上是另外一大技術(shù)難點(diǎn)。
無論是傳統(tǒng)大數(shù)據(jù)平臺(tái)還是新興的云原生大數(shù)據(jù)平臺(tái)其最終的服務(wù)對象是客戶,一款產(chǎn)品的好壞往往取決于市場的接受度。
彭鋒表示,早期我們面臨的問題很多時(shí)候是向客戶解釋什么叫容器?什么叫云計(jì)算?云計(jì)算的好處是什么?容器發(fā)布的好處是什么等問題。大家對容器發(fā)布的復(fù)雜度,性能損耗和管理都有一定的顧慮。
而現(xiàn)在大家對云的接受程度越來越高了,大部分客戶都在尋找上云的方案。不管是私有云還是公有云,越來越多的客戶愿意把業(yè)務(wù)系統(tǒng)放在云上。如果一個(gè)解決方案不是在云上,而是使用傳統(tǒng)集群管理方式發(fā)布,客戶會(huì)有“為什么不是在云端發(fā)布,有什么原因嗎?”等類似的疑問。
目前大多數(shù)客戶采取的并非“一次上云”的方式,上云的過程可以跟現(xiàn)有業(yè)務(wù)架構(gòu),數(shù)據(jù)架構(gòu)并行,一些新的組件、新的功能也可發(fā)布到云上,然后系統(tǒng)再逐漸遷移。這種上云的好處在于可以讓客戶切身體驗(yàn)到彈性、高可用、容錯(cuò)、高效率。
彭鋒坦言,大家已經(jīng)基本認(rèn)可了云原生的體系架構(gòu),但人才方面比較欠缺。
其實(shí)除了市場認(rèn)可外,能否為企業(yè)和千行百業(yè)創(chuàng)造價(jià)值也是衡量一款產(chǎn)品的重要標(biāo)準(zhǔn)之一。
提到行業(yè)賦能,據(jù)了解,智領(lǐng)云所提供的云原生大數(shù)據(jù)平臺(tái)并不特別強(qiáng)調(diào)行業(yè)屬性,客戶在云上主要有兩種使用方式。
第一種在公有云上直接使用,主要面向中小客戶或者是大客戶中的創(chuàng)新團(tuán)隊(duì)。這種客戶的特點(diǎn)是他們不希望自己來管理一個(gè)復(fù)雜的大數(shù)據(jù)平臺(tái),但是有一些數(shù)據(jù)分析的需求,需要這種大數(shù)據(jù)業(yè)務(wù)開發(fā)的管理方式。
第二種是企業(yè)內(nèi)部使用,這種客戶大多已經(jīng)有大數(shù)據(jù)平臺(tái)或者需要搭建大數(shù)據(jù)平臺(tái),但是需要更高效的數(shù)據(jù)應(yīng)用開發(fā)能力,這類企業(yè)往往希望能夠把整個(gè)開發(fā)統(tǒng)一管理起來,并且希望能夠與現(xiàn)有的集群一起使用,這也是云原生大數(shù)據(jù)平臺(tái)的一個(gè)目標(biāo)使用場景。
正如前文所言,目前云原生大數(shù)據(jù)平臺(tái)在圈內(nèi)逐漸熱了起來,這也在一定程度上推動(dòng)了各個(gè)大數(shù)據(jù)平臺(tái)廠商進(jìn)行云原生大數(shù)據(jù)平臺(tái)的具體實(shí)踐。如今,智領(lǐng)云發(fā)布的國內(nèi)第一款純K8s在線數(shù)據(jù)平臺(tái)——BDOS Online,正填補(bǔ)了國內(nèi)同類產(chǎn)品的空白。
當(dāng)然,從無到有,從傳統(tǒng)到云原生,云原生大數(shù)據(jù)平臺(tái)仍需要很長的一段時(shí)間去驗(yàn)證。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。