1
本文作者: 李尊 | 2016-10-20 23:44 | 專題:2016中國計算機大會(CNCC 2016) |
編者注:陳純,計算機應(yīng)用專家,浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授,中國工程院院士。是國家教委“跨世紀(jì)優(yōu)秀人才培養(yǎng)計劃”首批入選專家,第三屆中國青年科技獎獲得者。目前是國家列車智能化工程技術(shù)研究中心主任,國務(wù)院學(xué)位委員會學(xué)科評議組成員。陳純教授長期從事計算機應(yīng)用領(lǐng)域的前沿研究工作,在著名國際學(xué)術(shù)期刊和會議發(fā)表論文160多篇,曾獲國家技術(shù)發(fā)明獎二等獎1項,國家科技進步獎二等獎2項,國家科技進步三等獎1項,省部級科學(xué)技術(shù)一等獎6項。
今天CNCC 2016在山西太原盛大開幕,開幕演講中,CCF會士、中國工程院院士、浙江大學(xué)陳純教授做了題為“流式大數(shù)據(jù)實時處理技術(shù)、平臺及應(yīng)用”的報告,以下為報告內(nèi)容精編。
各位領(lǐng)導(dǎo)、各位嘉賓、各位同仁上午好,我今天所講的題目是流式大數(shù)據(jù)實時處理技術(shù)、平臺及應(yīng)用。
流式大數(shù)據(jù)從這個角度看,可以把大數(shù)據(jù)分成兩個:一個是批式大數(shù)據(jù),另一個是流式大數(shù)據(jù)。
舉個例子來說
我們把數(shù)據(jù)當(dāng)成水庫的話,水庫里面存在的水就是批式大數(shù)據(jù),進來的水是流式大數(shù)據(jù)。
10年前,從傳統(tǒng)的三架馬車開始到現(xiàn)在組成了60、70個相關(guān)龐大的生態(tài)圈。重點我們可以看到,從2012年開始,才關(guān)注了流式大數(shù)據(jù),就是數(shù)據(jù)流的模式。在之前,所有的大數(shù)據(jù)算法和系統(tǒng)就是批式大數(shù)據(jù),從12年開始才專門針對流式大數(shù)據(jù)的組建。
由于數(shù)據(jù)流的處理,應(yīng)用場景主要是兩類:
一類是互聯(lián)網(wǎng)
另一類是移動互聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)的個性服務(wù),不斷提升用戶體驗對實時要求也是非常高的。一般要樣本性的相應(yīng),而互聯(lián)網(wǎng)的傳感數(shù)據(jù),通過智能分析來經(jīng)營決策的。這以前大數(shù)據(jù)的分享,我們可以把它分成事后的風(fēng)險和追溯,而更重要的應(yīng)用事中的分析、處理。
現(xiàn)有的解決方案主要是兩種:
一種集群式、分布式的解決方案,但是其實時響應(yīng)比較慢。
另一種是組建流式大數(shù)據(jù),即內(nèi)存計算,但它的實時相應(yīng)數(shù)據(jù)規(guī)模受限。
但是大數(shù)據(jù)的處理技術(shù),主要有四個難題。它們分別是:
可能很多臺計算機,每臺計算機多CPU,你一個任務(wù)下去,在計算機上同時進行內(nèi)存的計算,它都是可以做到分布存儲。
當(dāng)你流進水庫的實時,不僅僅是處理流的數(shù)據(jù),而且還要把你存在數(shù)據(jù)庫的數(shù)據(jù)一起建立起來。因為這個時間窗口,要重復(fù)計算問題,并且有海量數(shù)據(jù)的復(fù)雜增量要計算。
所謂大數(shù)據(jù),流式是必須要算的,解決辦法就可以從增量基礎(chǔ)上入手。
張老師說像統(tǒng)計的模型,基于規(guī)則的模型,這些模型能夠很好的結(jié)合。所以要把實施處理的分析模型分開,這樣就能針對不同的問題進行可以計算。
這四個就是最重要的四大問題,我們現(xiàn)在的研究成果——流立方的實時計算,把數(shù)據(jù)時間窗口、計算指標(biāo)加上最核心的增量計算,也就是解決分布的存儲的性能,與基于內(nèi)存的計算更好的結(jié)合在一起。
現(xiàn)在我們來介紹下流式大數(shù)據(jù)實時處理平臺,我們知道這個平臺不僅僅是流立方計算引擎。結(jié)合大數(shù)據(jù),相當(dāng)于流立方的計算引擎要從60多個組件里面,抽取部分構(gòu)成這么一個平臺,同時還要加上分布存儲、數(shù)據(jù)庫,包括大數(shù)據(jù)的云處理平臺,還有其他地方來構(gòu)成這個平臺,實際上這個平臺是非常強大的系統(tǒng)。
下面介紹有應(yīng)用,這個是流立方應(yīng)用的框架。
紅線里面都是以流式大數(shù)據(jù)存在的計算指標(biāo)、統(tǒng)計指標(biāo),左邊是有一個分析處理模型,這個模型是可以基于數(shù)學(xué)模型指導(dǎo)。所以,當(dāng)你把一個要解決的問題,比如說:
下圍棋要學(xué)習(xí),就可以把下棋的棋譜傳進來??梢栽谶@個平臺上進行計算,這是外部應(yīng)用系統(tǒng)。
它可以應(yīng)用很多,流立方實時平臺上在原有基礎(chǔ)系統(tǒng)上,做一個并行系統(tǒng)實時檢測,通過專業(yè)知識、模型來實時分析。
下面具體來看幾個案例:
金融風(fēng)控反欺詐
我們每個人刷卡、消費、支付的時候,實際上到了銀聯(lián)的風(fēng)控系統(tǒng),來判斷你是不是騙子。
原來支付系統(tǒng)很簡單,通過計算機、通過手機直接進入支付。但是你可能是受到詐騙,這個時候怎么辦?
以前的系統(tǒng)到了晚上12點,銀聯(lián)把今天的數(shù)據(jù)重新統(tǒng)計下來,會發(fā)現(xiàn)有多少詐騙。后來在互聯(lián)網(wǎng)上,每個人要發(fā)一個U盾來驗證。當(dāng)你支付的時候,要判別這個錢要不要付出去,在數(shù)據(jù)上做一個判別,就是風(fēng)控引擎。
這個風(fēng)控引擎就是抓互聯(lián)網(wǎng)詐騙的工具,目前銀聯(lián)正在使用的這個系統(tǒng)
計算只有4臺PC,可以每秒并發(fā)處理5萬。而規(guī)則有幾百萬,是通過機器學(xué)習(xí)來實現(xiàn)的。
要特別強調(diào),所謂大數(shù)據(jù)應(yīng)用,離不開這么一個架構(gòu)。因為首先,我們要知道數(shù)據(jù)最重要的是標(biāo)識數(shù)據(jù)。用手機、還是電腦進行詐騙,以前的處理就簡單——比對就好,不用的大數(shù)據(jù)規(guī)則。這種則需要去分析,所以要有標(biāo)識。因為是大數(shù)據(jù)分析,所以要有技術(shù)、設(shè)備的指南以及結(jié)合規(guī)則。
現(xiàn)在電子支付上,除了螞蟻金服和微信支付是自己做的風(fēng)控以外,基本上所有的系統(tǒng)都是基于流立方來做的。
第二個例子,是用流立方系統(tǒng)做一個反爬蟲系統(tǒng)。
現(xiàn)在所謂的大數(shù)據(jù),最開始是爬別人的數(shù)據(jù),把別人的數(shù)據(jù)爬來監(jiān)聽其商業(yè)模式。
15年、16年的時候網(wǎng)站大部分是在爬蟲在爬,遍布各類網(wǎng)站,包括銀行類、政府類、社交類等等。消耗我們資源、影響正常分訪問、增加運營成本。
現(xiàn)在用的流立方這個系統(tǒng),它可以把增加數(shù)據(jù)的服務(wù),把數(shù)據(jù)的指南、人機的識別、爬蟲的行為分析都考慮進去(用安全專家、網(wǎng)絡(luò)專家規(guī)則的形式把它考慮進去)。這個就是非常好的實時爬蟲修補了。
流立方平臺能把控基礎(chǔ)、風(fēng)控引擎,針對爬感知到所有信息。當(dāng)你做風(fēng)控系統(tǒng)的話,先對風(fēng)控模型進行觀測,再啟用風(fēng)控。
第三個案例,我想就是跟大家可能更緊密,就是鐵路的售票網(wǎng)站2306。
我們知道原來12306訂票的話,需要一個什么?圖片驗證碼。為什么要有這個圖片驗證呢?就怕的什么?黃牛來扒票、欺詐。
但是,當(dāng)我們真的去訂票的時候,復(fù)雜的驗證碼可能很麻煩?,F(xiàn)在對12306投訴最多的是我驗證碼辨別不出來,第一次驗證不出來,第二次還給你更難的圖片。因為你分辨不出來,它就認(rèn)為你是黃牛了,把更難的給你了。
這個很復(fù)雜,我們覺得好像是把黃牛打完了。但是他做了爬蟲,就眾包給大爺、大媽,所以現(xiàn)在還是沒辦法,黃牛來倒你票的時候,是給退休大媽、大爺做的。這個最后很麻煩,投訴越來越多。
那么,我們有沒有可能做出類似的人工智能,實時根據(jù)黃牛的行為分析,根據(jù)他的手機號、身份證,能定出幾百條的規(guī)則來實時處理?
這個呢,相對難度比較大。我們剛才講了,在0.1秒鐘內(nèi)通過對每位購票者的分析,也就是我們說的準(zhǔn)確畫像。但是精準(zhǔn)識別票法,要遠(yuǎn)遠(yuǎn)高于我們現(xiàn)在的識別票法。
平時的訪問量,我們做了統(tǒng)計,用戶的訪問量,在春節(jié)期間,每天是310萬。但是最可怕是爬蟲,跑蟲的訪問量每天是1500億,峰值是每秒鐘170萬。
我們現(xiàn)在的流立方,現(xiàn)在嘗試每秒40萬億,甚至能做到16臺、24臺均衡上升的。
為什么說爬蟲?可能大家不是很了解,我跟大家講一下,很多網(wǎng)站的票都是從12306買來的。用爬蟲數(shù)據(jù),把好的票留下來,通過爬蟲購票,在10分鐘以內(nèi),你沒有付錢的話沒關(guān)系,他也可以把票退回去。在網(wǎng)站上,我們沒有訂票,在9分多鐘的時候,把票退回來。在10分鐘以內(nèi)有人在網(wǎng)站訂票,真實身份證上傳的時候,把這個票馬上退回去給你交易,所以把12306購票網(wǎng)站把整個系統(tǒng)爆了。
應(yīng)用前景
應(yīng)用的前景非常的廣泛:金融、電信、交通、公安、海關(guān)、互聯(lián)網(wǎng)都可以應(yīng)用。
流數(shù)據(jù)的實時處理
流式數(shù)據(jù)的實時分析,一定是有規(guī)則、模型的東西。復(fù)雜的分析計算,加上實時這兩個結(jié)合起來,如果能做的好,一定能夠加速大數(shù)據(jù)在各個行業(yè)的應(yīng)用。
大數(shù)據(jù)
我們現(xiàn)在大數(shù)據(jù)要么就是賣數(shù)據(jù),對比數(shù)據(jù)事后不同的分析來追溯,這個非常重要。
但是我們現(xiàn)在應(yīng)用最重要,還是要結(jié)合不同的空間數(shù)據(jù)實施流數(shù)據(jù)分析。這個要有平臺才能把所有的數(shù)據(jù)(互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)還有互聯(lián)網(wǎng)+)共同體驗、提升。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。