0
今天全世界市值前五的公司,即蘋果、亞馬遜、谷歌、微軟和Facebook,有一個(gè)共同的特點(diǎn),它們是掌握世界上最多數(shù)據(jù)、也最會(huì)使用數(shù)據(jù)的公司。
吳軍在《浪潮之巔》中揭示當(dāng)下工業(yè)革命的范式:現(xiàn)有產(chǎn)業(yè)+大數(shù)據(jù)=新的產(chǎn)業(yè)。
如何正確得使用大數(shù)據(jù),將公司現(xiàn)有的業(yè)務(wù)和市場(chǎng)規(guī)模變得更大,成為當(dāng)代幾乎所有企業(yè)都必須思考的一個(gè)問題。而大數(shù)據(jù)平臺(tái)便是這個(gè)問題的解決方案之一。
對(duì)此,雷鋒網(wǎng)采訪了京東數(shù)科T1大數(shù)據(jù)平臺(tái)負(fù)責(zé)人。
他和我們分享了京東數(shù)科T1大數(shù)據(jù)平臺(tái)的產(chǎn)品特點(diǎn)和技術(shù)特色、在金融領(lǐng)域的服務(wù)情況以及在具體實(shí)施過程中遇到的困難等內(nèi)容。
以下為對(duì)話實(shí)錄:
雷鋒網(wǎng):T1大數(shù)據(jù)平臺(tái)是一款什么樣的產(chǎn)品?
T1大數(shù)據(jù)平臺(tái)是一個(gè)涵蓋數(shù)據(jù)采集、加工、處理,包括數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用等一整套從底層到上層的、全生命周期的一站式大數(shù)據(jù)平臺(tái)。
平臺(tái)有兩個(gè)特點(diǎn),首先它是一站式的平臺(tái),從底層快速地幫助用戶搭建一整套的大數(shù)據(jù)體系,幫助客戶迅速完成數(shù)據(jù)的資產(chǎn)化和價(jià)值化,并且通過數(shù)據(jù)服務(wù)層的能力組合,比如數(shù)據(jù)接口或者畫像、標(biāo)簽、相關(guān)的系統(tǒng)支撐各種業(yè)務(wù)場(chǎng)景。
第二,整個(gè)大數(shù)據(jù)平臺(tái)本身是一個(gè)配置式和自動(dòng)化程度比較高的系統(tǒng),能為用戶提供良好的操作體驗(yàn),大大降低用戶操作門檻。
雷鋒網(wǎng):T1大數(shù)據(jù)平臺(tái)面向哪類型的客戶?
一般是金融機(jī)構(gòu),目前我們做的比較多的有民營銀行、股份制銀行和城商銀行,可以簡(jiǎn)單的分為三類:
第一類金融機(jī)構(gòu),目前還不具備高效的實(shí)時(shí)處理和分析功能,它們需要建設(shè)一個(gè)實(shí)時(shí)的大數(shù)據(jù)處理平臺(tái)。
比如一家中型銀行,每年產(chǎn)生的數(shù)據(jù)量可以達(dá)到數(shù)十TB,涵蓋了應(yīng)用數(shù)據(jù)、行為數(shù)據(jù)和系統(tǒng)日志等多種多樣的數(shù)據(jù)來源和格式。如果沒有合適的運(yùn)營管控工具,這些數(shù)據(jù)只能“沉睡”在后臺(tái),無法發(fā)揮價(jià)值。
第二類金融機(jī)構(gòu),具備傳統(tǒng)的數(shù)據(jù)倉庫,可以解決分析報(bào)表的需求,它們需要建設(shè)一個(gè)整體的大數(shù)據(jù)解決方案。
第三類金融機(jī)構(gòu),本身具備不錯(cuò)的大數(shù)據(jù)平臺(tái)能力,但建設(shè)的比較分散、孤立,業(yè)務(wù)之間存在gap,它們需要一些產(chǎn)品,比如數(shù)據(jù)接口或畫像系統(tǒng),在大數(shù)據(jù)平臺(tái)和應(yīng)用之間架起橋梁。
雷鋒網(wǎng):如果客戶本身已經(jīng)有大數(shù)據(jù)平臺(tái),再對(duì)接T1大數(shù)據(jù)平臺(tái),會(huì)遇到哪些問題?
客戶在已有大數(shù)據(jù)平臺(tái)上再采購集成其他的大數(shù)據(jù)產(chǎn)品,主要會(huì)碰到的是兼容適配的問題。
相對(duì)于業(yè)內(nèi)某些產(chǎn)品的封閉性和排他性,T1大數(shù)據(jù)平臺(tái)是一個(gè)開放式的架構(gòu),既可以把平臺(tái)整體輸出給用戶,也可以按需輸出某些子產(chǎn)品作為客戶的能力補(bǔ)充。
T1的子產(chǎn)品對(duì)外部依賴都做了兼容性的處理,也預(yù)留了一些對(duì)接接口,可以快速和客戶本身已有系統(tǒng)進(jìn)行對(duì)接。比如T1大數(shù)據(jù)平臺(tái)曾輸出畫像產(chǎn)品給某家客戶,需要和客戶已有的ETL系統(tǒng)進(jìn)行調(diào)度對(duì)接,由于畫像產(chǎn)品已經(jīng)預(yù)留了調(diào)度對(duì)接的接口,所以非常順利地就完成了對(duì)接工作。
雷鋒網(wǎng):金融機(jī)構(gòu)十分注重安全性問題,京東數(shù)科對(duì)此做了哪些工作?
的確,金融公司對(duì)數(shù)據(jù)的歸屬性都比較敏感,T1大數(shù)據(jù)平臺(tái)提供私有化部署的服務(wù),可以把大數(shù)據(jù)平臺(tái)部署到客戶的環(huán)境當(dāng)中,將數(shù)據(jù)劃定在一定區(qū)域中,非公司內(nèi)部人士不可能直接訪問到相關(guān)數(shù)據(jù),從機(jī)制上保證了數(shù)據(jù)安全。
在使用大數(shù)據(jù)平臺(tái)時(shí),對(duì)于企業(yè)客戶內(nèi)部的操作人員,京東數(shù)科提供數(shù)據(jù)全生命周期的安全管理服務(wù),對(duì)敏感數(shù)據(jù)進(jìn)行分級(jí)分類。這種方式下,操作人員只能接觸到一定范圍內(nèi)的數(shù)據(jù),保障了操作時(shí)的數(shù)據(jù)安全問題。
雷鋒網(wǎng):T1大數(shù)據(jù)平臺(tái)有直接對(duì)標(biāo)的產(chǎn)品嗎?國外有Cloudera,Hortonworks,國內(nèi)有神州信息、華為、星環(huán)、明略數(shù)據(jù)等大數(shù)據(jù)平臺(tái)產(chǎn)品,相比這些廠家,T1大數(shù)據(jù)平臺(tái)有哪些優(yōu)勢(shì)和劣勢(shì)?
京東數(shù)科T1大數(shù)據(jù)平臺(tái)具備實(shí)時(shí)異構(gòu)的海量數(shù)據(jù)處理能力,比如實(shí)時(shí)數(shù)據(jù)處理平臺(tái),已經(jīng)達(dá)到TB級(jí)的數(shù)據(jù)在線實(shí)時(shí)處理,并且能夠提供毫秒級(jí)的延時(shí)。
此外,京東數(shù)科T1大數(shù)據(jù)平臺(tái)還提供了一套新的數(shù)據(jù)服務(wù)架構(gòu),在以前傳統(tǒng)的架構(gòu)中只能處理結(jié)構(gòu)化的數(shù)據(jù),而T1能夠?qū)Ω鞣N結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)化的異構(gòu)數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)接入、數(shù)據(jù)整合以及數(shù)據(jù)加工處理和分析。
雷鋒網(wǎng):之前您說道,T1大數(shù)據(jù)平臺(tái)”是一個(gè)全套的解決方案,可以給我們講一講它“全”在哪里嗎?它比較特色的組件又在哪里?
T1大數(shù)據(jù)平臺(tái)的“全”主要體現(xiàn)在三個(gè)方面:一是產(chǎn)品功能覆蓋了從異構(gòu)數(shù)據(jù)的采集、存儲(chǔ)、加工和使用的數(shù)據(jù)全生命周期的端到端的整體流程,具備采集的數(shù)據(jù)類型全,采集的時(shí)效性高和使用方式靈活多樣的特點(diǎn)。
二是產(chǎn)品操作方式覆蓋了大數(shù)據(jù)技能水平的所有用戶群體,既提供了拖拽式、智能化的不需要具備專業(yè)大數(shù)據(jù)技能的便捷操作方式,也為算法工程師、數(shù)據(jù)科學(xué)家等高階用戶提供了自由式的數(shù)據(jù)探索入口,讓平臺(tái)的作用最大化。
三是在大數(shù)據(jù)價(jià)值鏈的傳遞上能夠?yàn)閿?shù)據(jù)應(yīng)用的全場(chǎng)景提供良好的支撐,數(shù)據(jù)接口、標(biāo)簽、模型等服務(wù)都可和上層數(shù)據(jù)應(yīng)用場(chǎng)景做無縫集成和對(duì)接。
有不少比較有特色的組件或功能,比如數(shù)據(jù)復(fù)制組件可以實(shí)時(shí)解析采集MySQL、Oracle、DB2、HBase和Mongodb等多種主流數(shù)據(jù)庫的數(shù)據(jù),在整個(gè)業(yè)界同類產(chǎn)品中功能也是非常領(lǐng)先和突出的。標(biāo)簽畫像組件不僅僅具備標(biāo)簽畫像的加工查看功能,還提供了和上層業(yè)務(wù)的快捷對(duì)接方式和應(yīng)用效果評(píng)估,解決了使用上“最后一公里”的問題。
雷鋒網(wǎng):對(duì)于一些本身體量較小或者目前數(shù)據(jù)量積累較少的公司,有人認(rèn)為沒有必要搭建這一套系統(tǒng),暫時(shí)先租用AWS和阿里云就夠了。對(duì)于數(shù)據(jù)量大,但數(shù)據(jù)分析需求較簡(jiǎn)單的公司,可以直接買Tableau,Splunk,HP Vertica,或者IBM DB2等軟件或服務(wù)即可。您覺得數(shù)據(jù)量或者記錄規(guī)模大概達(dá)到什么級(jí)別就必須上大數(shù)據(jù)平臺(tái)?
大數(shù)據(jù)平臺(tái)的使用可能和數(shù)據(jù)量沒有直接的關(guān)系。
有的初創(chuàng)公司或者某些行業(yè)的公司,對(duì)于數(shù)據(jù)的使用和數(shù)據(jù)歸屬性的要求沒那么高;有些公司目前的需求是解決一些業(yè)務(wù)運(yùn)營分析,它們的確可以去購買一些公共的服務(wù)。但是當(dāng)這些公司發(fā)展到一定階段之后,如果想去更好的開展一些業(yè)務(wù),比如說營銷拓客、在線個(gè)人信貸或者風(fēng)控,是需要具備大數(shù)據(jù)平臺(tái)能力的。
雷鋒網(wǎng):T1大數(shù)據(jù)平臺(tái)是開源的嗎?
T1大數(shù)據(jù)平臺(tái)的底層基于開源的生態(tài)體系來打造,這樣能幫助我們的客戶去利用到開源生態(tài)體系的一些能力,支撐業(yè)務(wù)的發(fā)展。但就產(chǎn)品本身來說,目前不開源。
雷鋒網(wǎng):T1大數(shù)據(jù)平臺(tái)從開始定制到正式使用,一般需要多長時(shí)間?
目前,T1大數(shù)據(jù)平臺(tái)已經(jīng)是非常成熟的一套標(biāo)準(zhǔn)化的產(chǎn)品。我們也提供了一鍵式安裝部署的服務(wù),可以把T1大數(shù)據(jù)平臺(tái)以標(biāo)準(zhǔn)化的方式,非常迅速的融入客戶的IT系統(tǒng)中?;旧弦恢苤畠?nèi),它就可以實(shí)現(xiàn)投產(chǎn)運(yùn)行。
雷鋒網(wǎng):您提到,一周內(nèi)可以完成產(chǎn)品的部署。那把產(chǎn)品從0到1部署到銀行原有IT系統(tǒng)的大致流程是什么樣的?你們這一周主要干哪些事?
T1大數(shù)據(jù)平臺(tái)為了保障對(duì)客戶的交付效率和體驗(yàn),更多的工夫會(huì)體現(xiàn)在這一周之外。從技術(shù)層面上,T1大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)自動(dòng)化和容器化的安裝部署模式;從交付方式上,專業(yè)的交付實(shí)施團(tuán)隊(duì)會(huì)提前和客戶規(guī)劃好部署架構(gòu),并在T1大數(shù)據(jù)平臺(tái)的自有演練環(huán)境完成部署演練,從而達(dá)到在客戶現(xiàn)場(chǎng)最快速部署落地的效果。
雷鋒網(wǎng):在這一周的部署過程中,你們需要幫銀行IT部門解決的最復(fù)雜的技術(shù)和系統(tǒng)對(duì)接問題,您認(rèn)為是什么?
在真正部署的階段前,我們會(huì)同銀行IT部門一起來解決適配和對(duì)接的問題。在銀行落地過程中,主要會(huì)碰到基礎(chǔ)環(huán)境兼容、既有系統(tǒng)對(duì)接和客戶自有工作流程的銜接等問題,相對(duì)來說既有系統(tǒng)的對(duì)接是比較復(fù)雜的部分,T1大數(shù)據(jù)平臺(tái)各個(gè)子產(chǎn)品對(duì)可能發(fā)生外部交互的功能邏輯進(jìn)行了抽象封裝,以接口化、插件化的方式實(shí)現(xiàn)最小化代價(jià)的對(duì)接。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章