0
什么是大數(shù)據(jù)?《大數(shù)據(jù)時(shí)代》的作者舍恩伯格認(rèn)為,大數(shù)據(jù)并不能定義—個(gè)確切的概念。大數(shù)據(jù)是人們獲得新的認(rèn)知,創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)是改變市場(chǎng)、組織機(jī)構(gòu),以及政府和公民關(guān)系的方法。
這是更具有人文色彩和社會(huì)意義的詮釋。顯然,也更加清楚地指明了大數(shù)據(jù)帶來的思維變革、商業(yè)變革和管理變革。
換句話說,數(shù)據(jù)給我們帶來了兩個(gè)重要的改變:更多信息、更少成本。
大數(shù)據(jù)帶來變革的同時(shí),也對(duì)數(shù)據(jù)處理的底層技術(shù)有著更高的要求。只有找到如何管控越來越多數(shù)據(jù)的方法,才能實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。
雖然,目前各行各業(yè)對(duì)大數(shù)據(jù)的研究比較火熱,但對(duì)于大數(shù)據(jù)治理的研究還處于起步階段。這尤其體現(xiàn)在對(duì)于數(shù)據(jù)治理沒有統(tǒng)一的定義。
例如,IBM對(duì)于數(shù)據(jù)治理的定義是:“數(shù)據(jù)治理是一種質(zhì)量控制規(guī)程,用于在管理、使用、改進(jìn)和保護(hù)組織信息的過程中添加新的嚴(yán)謹(jǐn)性和紀(jì)律性。”DGI 則認(rèn)為數(shù)據(jù)治理是指在企業(yè)數(shù)據(jù)管理中分配決策權(quán)和相關(guān)職責(zé)。
拋開宏觀定義不談,如果大數(shù)據(jù)技術(shù)能夠探索清楚,那么從微觀反推宏觀,顯然也使定義更加清晰。
在大數(shù)據(jù)時(shí)代,一切數(shù)據(jù)都是有意義的。因?yàn)橥ㄟ^數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等,我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。
比如,上海交通刷卡信息,分析這些刷卡記錄,可以清晰了解上海市民的出行規(guī)律,來有效改善城市交通。
但這些出行數(shù)據(jù),不是想用就能用的,需要通過“存儲(chǔ)”“計(jì)算”“智能”來對(duì)數(shù)據(jù)進(jìn)行加工和支撐,從而實(shí)現(xiàn)數(shù)據(jù)的增值。
而在這其中,最關(guān)鍵的問題不僅在數(shù)據(jù)技術(shù)本身,也在于是否實(shí)現(xiàn)兩個(gè)標(biāo)準(zhǔn):第一,數(shù)據(jù)記錄,是否足夠多,足夠有價(jià)值;第二,是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。
大數(shù)據(jù)處理技術(shù)大致可以分為五個(gè)部分:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。
以上五個(gè)部分的概念,在學(xué)術(shù)界和工業(yè)界有不同的理解。2014 年,數(shù)據(jù)挖掘大牛吳信東等人從另一個(gè)角度探索了大數(shù)據(jù)處理技術(shù)的框架——基于大數(shù)據(jù)具有異構(gòu)、自治的數(shù)據(jù)源以及復(fù)雜和演變的數(shù)據(jù)關(guān)聯(lián)等本質(zhì)特征提出了 HACE 原理,該原理從大數(shù)據(jù)的數(shù)據(jù)處理、領(lǐng)域應(yīng)用以及數(shù)據(jù)挖掘三個(gè)層次來刻畫大數(shù)據(jù)處理框架。
吳信東現(xiàn)任明略科技集團(tuán)首席科學(xué)家和明略科學(xué)院院長(zhǎng),對(duì)數(shù)據(jù)挖掘(Data Mining)、大數(shù)據(jù)知識(shí)工程(BigKE)等領(lǐng)域有很深的認(rèn)識(shí)。
吳信東聯(lián)合董丙冰,堵新政,楊威等人在軟件學(xué)報(bào)上發(fā)表了《數(shù)據(jù)治理》一文,介紹數(shù)據(jù)治理和大數(shù)據(jù)治理的概念、發(fā)展以及應(yīng)用的必要性,其次對(duì)已有的數(shù)據(jù)治理技術(shù)——數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成進(jìn)行具體的分析,并介紹了數(shù)據(jù)治理成熟度和數(shù)據(jù)治理框架設(shè)計(jì)。
“HAO 治理”模型架構(gòu)圖
此外,在這個(gè)基礎(chǔ)上明略提出了大數(shù)據(jù)“HAO 治理”模型,該模型以支持人類智能(HI)、人工智能(AI)和組織智能(OI)三者協(xié)同為目標(biāo)。
總體來說,HAO能實(shí)現(xiàn)四個(gè)需求:
1.建立全面、動(dòng)態(tài)、可配置的數(shù)據(jù)接入機(jī)制,滿足數(shù)據(jù)采集、數(shù)據(jù)匯聚、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)續(xù)傳等需求。
2. 建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理流程,形成面向數(shù)據(jù)內(nèi)容的數(shù)據(jù)規(guī)范、清洗、關(guān)聯(lián)、比對(duì)、標(biāo)識(shí)等轉(zhuǎn)換處理規(guī)范模式,為一個(gè)組織的數(shù)據(jù)融合建庫提供支撐。
3. 統(tǒng)籌建設(shè)多元集成、融合建庫的數(shù)據(jù)組織模式,按照業(yè)務(wù)類型、敏感程度、隱私內(nèi)容等關(guān)鍵要素分級(jí)分類推進(jìn)云建庫和存儲(chǔ)管理,采用特征標(biāo)簽、歸一集成等多種手段實(shí)現(xiàn)不同來源數(shù)據(jù)資源關(guān)聯(lián)融合。
4. 構(gòu)建知識(shí)圖譜分類,建設(shè)多渠道、多維度的數(shù)據(jù)服務(wù)模式,面向使用者提供查詢檢索、比對(duì)排序等基礎(chǔ)數(shù)據(jù)服務(wù),面向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務(wù)。
此文是大數(shù)據(jù)領(lǐng)域的集大成之作。從另一個(gè)層面講,明略科技用從實(shí)踐和理論證明了構(gòu)建大數(shù)據(jù)處理技術(shù)的實(shí)力。
隨著數(shù)據(jù)處理技術(shù)越來越成熟,當(dāng)前業(yè)界和學(xué)界也提出了可以衡量企業(yè)底層數(shù)據(jù)處理技術(shù)的"指標(biāo)":數(shù)據(jù)中臺(tái)。
關(guān)于數(shù)據(jù)中臺(tái)尚沒有統(tǒng)一且規(guī)范的定義,近日,吳信東在《自動(dòng)化學(xué)報(bào)》的最新一篇文章中,基于數(shù)據(jù)共享和數(shù)據(jù)價(jià)值最大化的原則,將數(shù)據(jù)中臺(tái)定義為:將一個(gè)機(jī)構(gòu) (企業(yè)、事業(yè)、或政府部門) 的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進(jìn)行管理,是從數(shù)據(jù)收集到處理應(yīng)用的一套管理機(jī)制,以期提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)廣泛的數(shù)據(jù)共享,最終實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。數(shù)據(jù)中臺(tái)建設(shè)覆蓋數(shù)據(jù)的邏輯管理和物理管理,邏輯管理包括數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)和數(shù)據(jù)之間相關(guān)性的分析,如數(shù)據(jù)倉庫;物理管理包括數(shù)據(jù)的存儲(chǔ)和檢索。
基于以上定義,明略科技將數(shù)據(jù)中臺(tái)的核心可以歸納為“數(shù)據(jù)資產(chǎn)管理”。其核心功能大概可以歸納為7個(gè)部分:
1. 數(shù)據(jù)的物理管理: 包括多源數(shù)據(jù)的采集、匯聚、存儲(chǔ)、索引和檢索。
2. 數(shù)據(jù)的邏輯管理: 包括: a)數(shù)據(jù)治理;b)數(shù)據(jù)之間的層次建模和相關(guān)性分析;
3.數(shù)據(jù)服務(wù): 用數(shù)據(jù)實(shí)現(xiàn)多樣化的用戶服務(wù)。
4.知識(shí)圖譜建設(shè): 融入機(jī)構(gòu)的知識(shí)體系和組織智能, 用以界定數(shù)據(jù)的來源和數(shù)據(jù)的服務(wù)范圍.
5. 數(shù)據(jù)資產(chǎn)管理: 對(duì)數(shù)據(jù)對(duì)象和數(shù)據(jù)服務(wù)進(jìn)行價(jià)值定義、保護(hù)、組織和管理, 實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。
6.客戶關(guān)系管理: 采集和分析用戶對(duì)數(shù)據(jù)和數(shù)據(jù)服務(wù)的使用行為, 理解和進(jìn)一步服務(wù)用戶的需求。
7.信息安全: 保證中臺(tái)上的數(shù)據(jù)和服務(wù)在物理層和邏輯層都是安全的。
顯然,明略科技的數(shù)據(jù)中臺(tái),在融合數(shù)據(jù)的基礎(chǔ)上,更要關(guān)注是否能夠積累和沉淀行業(yè)知識(shí),將數(shù)據(jù)智能和組織智能融合,形成行業(yè)智能,更敏捷更快速的響應(yīng)前端業(yè)務(wù)的變化,更好的協(xié)作創(chuàng)新。
當(dāng)前關(guān)于數(shù)據(jù)中臺(tái)建設(shè)尚處于起步階段, 面臨著技術(shù)不成熟、框架驗(yàn)證標(biāo)準(zhǔn)不一、技術(shù)人員缺乏等困難和挑戰(zhàn)。
這向企業(yè)發(fā)出了數(shù)據(jù)中臺(tái)的“破局”之問:“怎樣建設(shè)數(shù)據(jù)中臺(tái)才能滿足現(xiàn)實(shí)需求”。吳信東在《自動(dòng)化學(xué)報(bào)》中提到,必須根據(jù)數(shù)據(jù)特點(diǎn)和應(yīng)用需求調(diào)整各個(gè)模塊的具體實(shí)現(xiàn)。
例如, 在物流領(lǐng)域的數(shù)據(jù)中臺(tái)建設(shè)中, 面對(duì)數(shù)據(jù)維度高、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)量大、實(shí)時(shí)數(shù)據(jù)采集困難等問題, 需要有高性能的數(shù)據(jù)分析和計(jì)算平臺(tái), 會(huì)給現(xiàn)有數(shù)據(jù)中臺(tái)建設(shè)的技術(shù)帶來很大的挑戰(zhàn)。
根據(jù)吳信東提到的原則,回過頭來看明略科技?xì)w納的數(shù)據(jù)中臺(tái)7大核心功能,能夠回答數(shù)據(jù)中臺(tái)的“破局”之問。這7個(gè)核心功能能夠讓“從業(yè)者”看到三個(gè)前景:
1、實(shí)現(xiàn)機(jī)構(gòu)數(shù)據(jù)資產(chǎn)的高效管理和數(shù)據(jù)價(jià)值最大化: 在爆炸式數(shù)據(jù)增長(zhǎng)的時(shí)代, 海量數(shù)據(jù)的存儲(chǔ)、管理和價(jià)值的實(shí)現(xiàn)是企業(yè)面對(duì)的一個(gè)主要問題, 數(shù)據(jù)中臺(tái)可望能夠有效地盤活機(jī)構(gòu)數(shù)據(jù)資源, 將其轉(zhuǎn)化為數(shù)據(jù)資產(chǎn), 通過更貼近業(yè)務(wù)數(shù)據(jù)服務(wù) API 實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。
2. 能夠迅速根據(jù)時(shí)代變化調(diào)整機(jī)構(gòu)的發(fā)展方向和快速創(chuàng)新相應(yīng)用戶需求: 數(shù)據(jù)中臺(tái)是一個(gè)完整的數(shù)據(jù)服務(wù)體系, 為機(jī)構(gòu)帶來了數(shù)據(jù)平臺(tái)化的運(yùn)營(yíng)機(jī)制, 可望解決應(yīng)用開發(fā)與數(shù)據(jù)開發(fā)速度不匹 配的問題, 因而, 數(shù)據(jù)中臺(tái)為一個(gè)機(jī)構(gòu)根據(jù)時(shí)代發(fā)展要求調(diào)整機(jī)構(gòu)的戰(zhàn)略提供了契機(jī)。
3. 提升機(jī)構(gòu)內(nèi)團(tuán)隊(duì)協(xié)作能力: 原始機(jī)構(gòu)的業(yè)務(wù)各自發(fā)展, 可能導(dǎo)致出現(xiàn)煙囪式應(yīng)用開發(fā)和數(shù)據(jù)孤島等問題, 數(shù)據(jù)中臺(tái)的出現(xiàn), 可以將機(jī)構(gòu)的核心技術(shù)或團(tuán)隊(duì)凝聚在一起, 建設(shè)機(jī)構(gòu)內(nèi)強(qiáng)大的數(shù)據(jù)開發(fā)、運(yùn)營(yíng)等團(tuán)隊(duì), 提升機(jī)構(gòu)的團(tuán)隊(duì)的硬實(shí)力和軟實(shí)力。
產(chǎn)業(yè)應(yīng)用的背后,都是底層技術(shù)的支撐。底層技術(shù)越雄厚,行業(yè)應(yīng)用越“熟練”。
而數(shù)據(jù)中臺(tái),這一需要理論技術(shù)和實(shí)踐相結(jié)合的領(lǐng)域更是如此。例如:
在電力行業(yè),明略科技幫助某省國(guó)網(wǎng)建設(shè)自己的數(shù)據(jù)中臺(tái)。打通了136個(gè)業(yè)務(wù)系統(tǒng),接入了6300多張報(bào)表,2800多億條數(shù)據(jù)。將各個(gè)業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)打通、數(shù)據(jù)共享,構(gòu)建了具有貼源層、明細(xì)層、匯總層、集市層四層架構(gòu)的數(shù)據(jù)倉庫,支撐起全省數(shù)據(jù)服務(wù)。設(shè)計(jì)了15類實(shí)體、16種關(guān)系、68個(gè)屬性,通過從不同來源不同的結(jié)構(gòu)數(shù)據(jù)中進(jìn)行知識(shí)抽取,形成知識(shí)存入到知識(shí)圖譜,并服務(wù)于諸如停電范圍自動(dòng)計(jì)算等電力行業(yè)實(shí)際工作。工作人員只需要輸入需要計(jì)劃性維護(hù)、排故的臺(tái)區(qū),根據(jù)設(shè)備依賴關(guān)系精確計(jì)算出停電范圍。此外,明略科技還在業(yè)務(wù)側(cè)研發(fā)了智能問答助手,巡視人員通過智能問答助手就可以了解輸電線路故障解決方案。
圖注:智慧零售中臺(tái)解決方案
在零售行業(yè),明略科技的智慧零售中臺(tái),能緊緊把握住數(shù)據(jù)特點(diǎn)和應(yīng)用需求,打造柔性供應(yīng)鏈,實(shí)現(xiàn)拉動(dòng)式生產(chǎn);打通信息壁壘,協(xié)同企業(yè)各部門高效運(yùn)轉(zhuǎn);以顧客為中心,個(gè)性化精準(zhǔn)營(yíng)銷;以數(shù)據(jù)為依托,輔助企業(yè)智能決策;協(xié)助企業(yè)快速響應(yīng)并融入創(chuàng)新市場(chǎng)。
營(yíng)銷領(lǐng)域,明略科技的營(yíng)銷數(shù)據(jù)中臺(tái),能夠全方位的幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)治理、數(shù)據(jù)建模和數(shù)據(jù)服務(wù)化,涵蓋 DMP 和 CDP 所有功能,并能基于企業(yè)對(duì)于數(shù)據(jù)的管理需求和商業(yè)化應(yīng)用方向給予定制化支持。助力企業(yè)實(shí)現(xiàn)基于智能營(yíng)銷和消費(fèi)者智能運(yùn)營(yíng)及管理的數(shù)據(jù)管理、洞察分析和決策支持、數(shù)據(jù)激活、數(shù)據(jù)沉淀及數(shù)據(jù)閉環(huán)管理和應(yīng)用等全方位營(yíng)銷數(shù)字化體系。
判斷一個(gè)企業(yè)的數(shù)據(jù)治理技術(shù)的底蘊(yùn),關(guān)鍵要看這個(gè)企業(yè)的對(duì)數(shù)據(jù)中臺(tái)這一新興概念的理解。
明略科技在中臺(tái)上的優(yōu)勢(shì),恰恰在于,其本身就是大數(shù)據(jù)的軟件產(chǎn)品、平臺(tái)和智能服務(wù)商?;谧陨矶ㄎ?,恰好能實(shí)現(xiàn)上下銜接,將業(yè)務(wù)著眼于數(shù)據(jù)價(jià)值的挖掘和應(yīng)用。
在更多行業(yè)領(lǐng)域,通用能力需要橫向遷移,而新領(lǐng)域的行業(yè)知識(shí)和專家經(jīng)驗(yàn),需要用做數(shù)據(jù)治理的經(jīng)驗(yàn),再去逐漸匹配行業(yè)。
顯然,在這一點(diǎn)上,明略科技也很明確自己的方向。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。