丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給李尊
發(fā)送

1

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

導(dǎo)語(yǔ):浙江大學(xué)陳純教授三個(gè)案例帶你看懂流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)及應(yīng)用

編者注:陳純,計(jì)算機(jī)應(yīng)用專家,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,中國(guó)工程院院士。是國(guó)家教委“跨世紀(jì)優(yōu)秀人才培養(yǎng)計(jì)劃”首批入選專家,第三屆中國(guó)青年科技獎(jiǎng)獲得者。目前是國(guó)家列車智能化工程技術(shù)研究中心主任,國(guó)務(wù)院學(xué)位委員會(huì)學(xué)科評(píng)議組成員。陳純教授長(zhǎng)期從事計(jì)算機(jī)應(yīng)用領(lǐng)域的前沿研究工作,在著名國(guó)際學(xué)術(shù)期刊和會(huì)議發(fā)表論文160多篇,曾獲國(guó)家技術(shù)發(fā)明獎(jiǎng)二等獎(jiǎng)1項(xiàng),國(guó)家科技進(jìn)步獎(jiǎng)二等獎(jiǎng)2項(xiàng),國(guó)家科技進(jìn)步三等獎(jiǎng)1項(xiàng),省部級(jí)科學(xué)技術(shù)一等獎(jiǎng)6項(xiàng)。

今天CNCC 2016在山西太原盛大開(kāi)幕,開(kāi)幕演講中,CCF會(huì)士、中國(guó)工程院院士、浙江大學(xué)陳純教授做了題為“流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)及應(yīng)用”的報(bào)告,以下為報(bào)告內(nèi)容精編。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

各位領(lǐng)導(dǎo)、各位嘉賓、各位同仁上午好,我今天所講的題目是流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)及應(yīng)用。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

流式大數(shù)據(jù)

流式大數(shù)據(jù)從這個(gè)角度看,可以把大數(shù)據(jù)分成兩個(gè):一個(gè)是批式大數(shù)據(jù),另一個(gè)是流式大數(shù)據(jù)。

舉個(gè)例子來(lái)說(shuō)

我們把數(shù)據(jù)當(dāng)成水庫(kù)的話,水庫(kù)里面存在的水就是批式大數(shù)據(jù),進(jìn)來(lái)的水是流式大數(shù)據(jù)。

10年前,從傳統(tǒng)的三架馬車開(kāi)始到現(xiàn)在組成了60、70個(gè)相關(guān)龐大的生態(tài)圈。重點(diǎn)我們可以看到,從2012年開(kāi)始,才關(guān)注了流式大數(shù)據(jù),就是數(shù)據(jù)流的模式。在之前,所有的大數(shù)據(jù)算法和系統(tǒng)就是批式大數(shù)據(jù),從12年開(kāi)始才專門針對(duì)流式大數(shù)據(jù)的組建。

由于數(shù)據(jù)流的處理,應(yīng)用場(chǎng)景主要是兩類:

一類是互聯(lián)網(wǎng)

另一類是移動(dòng)互聯(lián)網(wǎng)

移動(dòng)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)的個(gè)性服務(wù),不斷提升用戶體驗(yàn)對(duì)實(shí)時(shí)要求也是非常高的。一般要樣本性的相應(yīng),而互聯(lián)網(wǎng)的傳感數(shù)據(jù),通過(guò)智能分析來(lái)經(jīng)營(yíng)決策的。這以前大數(shù)據(jù)的分享,我們可以把它分成事后的風(fēng)險(xiǎn)和追溯,而更重要的應(yīng)用事中的分析、處理。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

現(xiàn)有的解決方案主要是兩種:

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

  • 一種集群式、分布式的解決方案,但是其實(shí)時(shí)響應(yīng)比較慢。

  • 另一種是組建流式大數(shù)據(jù),即內(nèi)存計(jì)算,但它的實(shí)時(shí)相應(yīng)數(shù)據(jù)規(guī)模受限。

但是大數(shù)據(jù)的處理技術(shù),主要有四個(gè)難題。它們分別是:

  • 基于分布式內(nèi)存的運(yùn)行計(jì)算

可能很多臺(tái)計(jì)算機(jī),每臺(tái)計(jì)算機(jī)多CPU,你一個(gè)任務(wù)下去,在計(jì)算機(jī)上同時(shí)進(jìn)行內(nèi)存的計(jì)算,它都是可以做到分布存儲(chǔ)。

  • 海量歷史數(shù)據(jù)高性能的分析

當(dāng)你流進(jìn)水庫(kù)的實(shí)時(shí),不僅僅是處理流的數(shù)據(jù),而且還要把你存在數(shù)據(jù)庫(kù)的數(shù)據(jù)一起建立起來(lái)。因?yàn)檫@個(gè)時(shí)間窗口,要重復(fù)計(jì)算問(wèn)題,并且有海量數(shù)據(jù)的復(fù)雜增量要計(jì)算。

  • 數(shù)據(jù)流進(jìn)來(lái)后,怎么樣把流式數(shù)據(jù)跟歷史數(shù)據(jù)一起計(jì)算?

所謂大數(shù)據(jù),流式是必須要算的,解決辦法就可以從增量基礎(chǔ)上入手。

  • 要用模型解決實(shí)際應(yīng)用的問(wèn)題

張老師說(shuō)像統(tǒng)計(jì)的模型,基于規(guī)則的模型,這些模型能夠很好的結(jié)合。所以要把實(shí)施處理的分析模型分開(kāi),這樣就能針對(duì)不同的問(wèn)題進(jìn)行可以計(jì)算。

這四個(gè)就是最重要的四大問(wèn)題,我們現(xiàn)在的研究成果——流立方的實(shí)時(shí)計(jì)算,把數(shù)據(jù)時(shí)間窗口、計(jì)算指標(biāo)加上最核心的增量計(jì)算,也就是解決分布的存儲(chǔ)的性能,與基于內(nèi)存的計(jì)算更好的結(jié)合在一起。

流立方

現(xiàn)在我們來(lái)介紹下流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái),我們知道這個(gè)平臺(tái)不僅僅是流立方計(jì)算引擎。結(jié)合大數(shù)據(jù),相當(dāng)于流立方的計(jì)算引擎要從60多個(gè)組件里面,抽取部分構(gòu)成這么一個(gè)平臺(tái),同時(shí)還要加上分布存儲(chǔ)、數(shù)據(jù)庫(kù),包括大數(shù)據(jù)的云處理平臺(tái),還有其他地方來(lái)構(gòu)成這個(gè)平臺(tái),實(shí)際上這個(gè)平臺(tái)是非常強(qiáng)大的系統(tǒng)。

下面介紹有應(yīng)用,這個(gè)是流立方應(yīng)用的框架。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

紅線里面都是以流式大數(shù)據(jù)存在的計(jì)算指標(biāo)、統(tǒng)計(jì)指標(biāo),左邊是有一個(gè)分析處理模型,這個(gè)模型是可以基于數(shù)學(xué)模型指導(dǎo)。所以,當(dāng)你把一個(gè)要解決的問(wèn)題,比如說(shuō):

下圍棋要學(xué)習(xí),就可以把下棋的棋譜傳進(jìn)來(lái)。可以在這個(gè)平臺(tái)上進(jìn)行計(jì)算,這是外部應(yīng)用系統(tǒng)。

它可以應(yīng)用很多,流立方實(shí)時(shí)平臺(tái)上在原有基礎(chǔ)系統(tǒng)上,做一個(gè)并行系統(tǒng)實(shí)時(shí)檢測(cè),通過(guò)專業(yè)知識(shí)、模型來(lái)實(shí)時(shí)分析。

下面具體來(lái)看幾個(gè)案例:

金融風(fēng)控反欺詐

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

我們每個(gè)人刷卡、消費(fèi)、支付的時(shí)候,實(shí)際上到了銀聯(lián)的風(fēng)控系統(tǒng),來(lái)判斷你是不是騙子。

原來(lái)支付系統(tǒng)很簡(jiǎn)單,通過(guò)計(jì)算機(jī)、通過(guò)手機(jī)直接進(jìn)入支付。但是你可能是受到詐騙,這個(gè)時(shí)候怎么辦?

以前的系統(tǒng)到了晚上12點(diǎn),銀聯(lián)把今天的數(shù)據(jù)重新統(tǒng)計(jì)下來(lái),會(huì)發(fā)現(xiàn)有多少詐騙。后來(lái)在互聯(lián)網(wǎng)上,每個(gè)人要發(fā)一個(gè)U盾來(lái)驗(yàn)證。當(dāng)你支付的時(shí)候,要判別這個(gè)錢要不要付出去,在數(shù)據(jù)上做一個(gè)判別,就是風(fēng)控引擎。

這個(gè)風(fēng)控引擎就是抓互聯(lián)網(wǎng)詐騙的工具,目前銀聯(lián)正在使用的這個(gè)系統(tǒng)

計(jì)算只有4臺(tái)PC,可以每秒并發(fā)處理5萬(wàn)。而規(guī)則有幾百萬(wàn),是通過(guò)機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)的。

要特別強(qiáng)調(diào),所謂大數(shù)據(jù)應(yīng)用,離不開(kāi)這么一個(gè)架構(gòu)。因?yàn)槭紫?,我們要知道?shù)據(jù)最重要的是標(biāo)識(shí)數(shù)據(jù)。用手機(jī)、還是電腦進(jìn)行詐騙,以前的處理就簡(jiǎn)單——比對(duì)就好,不用的大數(shù)據(jù)規(guī)則。這種則需要去分析,所以要有標(biāo)識(shí)。因?yàn)槭谴髷?shù)據(jù)分析,所以要有技術(shù)、設(shè)備的指南以及結(jié)合規(guī)則。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

現(xiàn)在電子支付上,除了螞蟻金服和微信支付是自己做的風(fēng)控以外,基本上所有的系統(tǒng)都是基于流立方來(lái)做的。

反爬蟲(chóng)系統(tǒng)

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

第二個(gè)例子,是用流立方系統(tǒng)做一個(gè)反爬蟲(chóng)系統(tǒng)。

現(xiàn)在所謂的大數(shù)據(jù),最開(kāi)始是爬別人的數(shù)據(jù),把別人的數(shù)據(jù)爬來(lái)監(jiān)聽(tīng)其商業(yè)模式。

15年、16年的時(shí)候網(wǎng)站大部分是在爬蟲(chóng)在爬,遍布各類網(wǎng)站,包括銀行類、政府類、社交類等等。消耗我們資源、影響正常分訪問(wèn)、增加運(yùn)營(yíng)成本。

現(xiàn)在用的流立方這個(gè)系統(tǒng),它可以把增加數(shù)據(jù)的服務(wù),把數(shù)據(jù)的指南、人機(jī)的識(shí)別、爬蟲(chóng)的行為分析都考慮進(jìn)去(用安全專家、網(wǎng)絡(luò)專家規(guī)則的形式把它考慮進(jìn)去)。這個(gè)就是非常好的實(shí)時(shí)爬蟲(chóng)修補(bǔ)了。

流立方平臺(tái)能把控基礎(chǔ)、風(fēng)控引擎,針對(duì)爬感知到所有信息。當(dāng)你做風(fēng)控系統(tǒng)的話,先對(duì)風(fēng)控模型進(jìn)行觀測(cè),再啟用風(fēng)控。

鐵路售票網(wǎng)12306

第三個(gè)案例,我想就是跟大家可能更緊密,就是鐵路的售票網(wǎng)站2306。

我們知道原來(lái)12306訂票的話,需要一個(gè)什么?圖片驗(yàn)證碼。為什么要有這個(gè)圖片驗(yàn)證呢?就怕的什么?黃牛來(lái)扒票、欺詐。

但是,當(dāng)我們真的去訂票的時(shí)候,復(fù)雜的驗(yàn)證碼可能很麻煩。現(xiàn)在對(duì)12306投訴最多的是我驗(yàn)證碼辨別不出來(lái),第一次驗(yàn)證不出來(lái),第二次還給你更難的圖片。因?yàn)槟惴直娌怀鰜?lái),它就認(rèn)為你是黃牛了,把更難的給你了。

這個(gè)很復(fù)雜,我們覺(jué)得好像是把黃牛打完了。但是他做了爬蟲(chóng),就眾包給大爺、大媽,所以現(xiàn)在還是沒(méi)辦法,黃牛來(lái)倒你票的時(shí)候,是給退休大媽、大爺做的。這個(gè)最后很麻煩,投訴越來(lái)越多。

那么,我們有沒(méi)有可能做出類似的人工智能,實(shí)時(shí)根據(jù)黃牛的行為分析,根據(jù)他的手機(jī)號(hào)、身份證,能定出幾百條的規(guī)則來(lái)實(shí)時(shí)處理?

這個(gè)呢,相對(duì)難度比較大。我們剛才講了,在0.1秒鐘內(nèi)通過(guò)對(duì)每位購(gòu)票者的分析,也就是我們說(shuō)的準(zhǔn)確畫像。但是精準(zhǔn)識(shí)別票法,要遠(yuǎn)遠(yuǎn)高于我們現(xiàn)在的識(shí)別票法。

平時(shí)的訪問(wèn)量,我們做了統(tǒng)計(jì),用戶的訪問(wèn)量,在春節(jié)期間,每天是310萬(wàn)。但是最可怕是爬蟲(chóng),跑蟲(chóng)的訪問(wèn)量每天是1500億,峰值是每秒鐘170萬(wàn)。

我們現(xiàn)在的流立方,現(xiàn)在嘗試每秒40萬(wàn)億,甚至能做到16臺(tái)、24臺(tái)均衡上升的。

為什么說(shuō)爬蟲(chóng)?可能大家不是很了解,我跟大家講一下,很多網(wǎng)站的票都是從12306買來(lái)的。用爬蟲(chóng)數(shù)據(jù),把好的票留下來(lái),通過(guò)爬蟲(chóng)購(gòu)票,在10分鐘以內(nèi),你沒(méi)有付錢的話沒(méi)關(guān)系,他也可以把票退回去。在網(wǎng)站上,我們沒(méi)有訂票,在9分多鐘的時(shí)候,把票退回來(lái)。在10分鐘以內(nèi)有人在網(wǎng)站訂票,真實(shí)身份證上傳的時(shí)候,把這個(gè)票馬上退回去給你交易,所以把12306購(gòu)票網(wǎng)站把整個(gè)系統(tǒng)爆了。

應(yīng)用前景

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

應(yīng)用的前景非常的廣泛:金融、電信、交通、公安、海關(guān)、互聯(lián)網(wǎng)都可以應(yīng)用。

體會(huì)

  • 流數(shù)據(jù)的實(shí)時(shí)處理

流式數(shù)據(jù)的實(shí)時(shí)分析,一定是有規(guī)則、模型的東西。復(fù)雜的分析計(jì)算,加上實(shí)時(shí)這兩個(gè)結(jié)合起來(lái),如果能做的好,一定能夠加速大數(shù)據(jù)在各個(gè)行業(yè)的應(yīng)用。

  • 大數(shù)據(jù)

我們現(xiàn)在大數(shù)據(jù)要么就是賣數(shù)據(jù),對(duì)比數(shù)據(jù)事后不同的分析來(lái)追溯,這個(gè)非常重要。

但是我們現(xiàn)在應(yīng)用最重要,還是要結(jié)合不同的空間數(shù)據(jù)實(shí)施流數(shù)據(jù)分析。這個(gè)要有平臺(tái)才能把所有的數(shù)據(jù)(互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)還有互聯(lián)網(wǎng)+)共同體驗(yàn)、提升。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CNCC 2016 | 浙江大學(xué)陳純:何為流式大數(shù)據(jù)?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)