0
本文作者: 又田 | 2018-01-08 15:09 |
保守估計,互聯(lián)網(wǎng)約50%~60%的流量由網(wǎng)絡(luò)機器人貢獻(xiàn),航空票務(wù)、政府公示、社保信息、公積金信息、招聘簡歷等,都是網(wǎng)絡(luò)爬蟲的重災(zāi)區(qū)。網(wǎng)絡(luò)爬蟲不但虛耗資源,影響正常用戶體驗,還容易導(dǎo)致信息泄露,無效營銷等,企業(yè)和個人都受損。 如何建設(shè)網(wǎng)絡(luò)機器人實時立體防控體系,成為很多企業(yè)關(guān)心的問題。
本次公開課,雷鋒網(wǎng)宅客頻道(微信公眾號:letshome)邀請了邦盛科技技術(shù)總監(jiān)李白分享他和他的團隊如何利用數(shù)據(jù)、技術(shù)、規(guī)則、模型、產(chǎn)品來建設(shè)網(wǎng)絡(luò)機器人實時識別與防護體系。
嘉賓介紹
李白,浙江邦盛科技的技術(shù)總監(jiān),主要負(fù)責(zé)實時大數(shù)據(jù)處理、分析、智能決策技術(shù)領(lǐng)域的研究與實踐,致力將實時大數(shù)據(jù)賦能與業(yè)務(wù)場景的結(jié)合與落地實踐。做為資深的業(yè)務(wù)安全專家,長期專注爬蟲行為分析、識別、防護、對抗,擁有豐富的實踐經(jīng)驗和技術(shù)積累。
以下是公開課總結(jié)文實錄+視頻,在不妨礙原意的表達(dá)上,雷鋒網(wǎng)宅客頻道略有刪節(jié),視頻附在文末:
若想獲得此次公開課完整 PPT,請關(guān)注微信公眾號宅客頻道(微信ID:letshome),回復(fù)“網(wǎng)絡(luò)機器人 ”。
內(nèi)容介紹
本期雷鋒網(wǎng)硬創(chuàng)公開課包含但不限于以下內(nèi)容:
網(wǎng)絡(luò)機器人發(fā)展現(xiàn)狀趨勢及特點,以及給我們帶來的危害分析。
大數(shù)據(jù)時代,如何利用數(shù)據(jù)、技術(shù)、規(guī)則、模型、產(chǎn)品技術(shù),精準(zhǔn)識別已擬人化的網(wǎng)絡(luò)機器人。
以某大型票務(wù)網(wǎng)站威力,介紹網(wǎng)絡(luò)機器人立體識別與防控的技術(shù)架構(gòu)和運維流程。
如何從前端、后端,規(guī)則模型及運維等方面,建設(shè)網(wǎng)絡(luò)機器人實時識別與防范體系。
今天我想和大家從以下幾個方面來探討:首先要談到的是網(wǎng)絡(luò)機器人也就是各種各樣的爬蟲所帶來的風(fēng)險;在其帶來風(fēng)險的同時,市場也會有識別和防護的需求,如何識別與防護網(wǎng)絡(luò)爬蟲?我會結(jié)合具體案例來講解;另外還有攻防對抗過程中的一些心得體會,以及將來為保證解決方案持續(xù)有效我們應(yīng)該怎么做。
這是一張過去四年的網(wǎng)絡(luò)流量分布圖,可以看到非人類也就是網(wǎng)絡(luò)機器人在互聯(lián)網(wǎng)上貢獻(xiàn)的流量是持續(xù)上升的,而這些流量覆蓋領(lǐng)域也各式各樣,包括航空票務(wù)、政府公示、港口物流、招聘簡歷、金融理財、社交網(wǎng)絡(luò)……
這些網(wǎng)絡(luò)機器人所帶來的風(fēng)險可以簡單劃分為幾個方面:
對票務(wù)行業(yè)來說,網(wǎng)絡(luò)黃牛占票大行其道,企業(yè)和用戶利益受損
「薅羊毛產(chǎn)業(yè)」興盛,企業(yè)營銷經(jīng)費低效轉(zhuǎn)化
商業(yè)信息泄露,陷入不正當(dāng)競爭
對于系統(tǒng)工程師來說,暴力訪問,威脅系統(tǒng)可用性
影響真實用戶訪問體驗
網(wǎng)絡(luò)資源虛耗,流量無效轉(zhuǎn)化
也正因為上述場景下網(wǎng)絡(luò)機器人肆虐,國家開始出臺一系列法律法規(guī),總體可分為兩個層面:
一方面作為數(shù)據(jù)的擁有者,有責(zé)任和義務(wù)通過種種手段保障網(wǎng)絡(luò)數(shù)據(jù)的完整性、保密性和可用性。
另一方面從數(shù)據(jù)的爬取方來說,未經(jīng)授權(quán)爬取某些數(shù)據(jù)屬于違法行為,比如未經(jīng)授權(quán)讀取用戶手機通訊錄超過50條記錄,公司法人最高可獲刑3年;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過5萬條的,公司法人最高可獲刑7年……
網(wǎng)絡(luò)機器人即在互聯(lián)網(wǎng)環(huán)境中,通過自動化的程序?qū)崿F(xiàn)對互聯(lián)網(wǎng)數(shù)據(jù)資源、數(shù)字資產(chǎn)等信息的智能化獲取,現(xiàn)代爬蟲有三大特征:自動化、智能化、擬人化,其可以細(xì)分為數(shù)據(jù)爬蟲、占票工具、撞庫工具、比價工具、刷單工具等。
現(xiàn)代爬蟲會通過模擬真人發(fā)起請求,具體模擬有三種方式:報文模擬,終端模擬,行為模擬。
而隨著攻防不斷演進(jìn),企業(yè)對抗手段也有了變化。
具體可分為以下幾個里程:
人工運維
在這個階段,企業(yè)面臨的攻擊節(jié)奏不快,網(wǎng)站流量不大,數(shù)據(jù)吸引力沒有廣而告之。此時網(wǎng)站或企業(yè)通過人工運維,持續(xù)投入人力分析流量,根據(jù)簡單規(guī)則,建立各維度訪問主體的黑庫,持續(xù)更新。
傳統(tǒng)信息安全
隨著流量的增加,企業(yè)自然而然開始考慮運用一些網(wǎng)絡(luò)安全手段,比如網(wǎng)絡(luò)防火墻、IPS、IDS、應(yīng)用防火墻,但這些傳統(tǒng)防護手段對有著明顯爬蟲特征的網(wǎng)絡(luò)機器人有用,而隨著爬蟲愈來愈智能化、擬人化,其報文會十分接近正常人,因此這些傳統(tǒng)安全手法效果有限。
業(yè)務(wù)層應(yīng)對
在這一階段,企業(yè)防守開始走向業(yè)務(wù)層應(yīng)對,業(yè)務(wù)應(yīng)用埋點邏輯,通過驗證碼、前端混淆、服務(wù)端檢測等技術(shù),對真人與機器人進(jìn)行區(qū)分。
立體式實時識別與防護
而在目前身處的這一階段,企業(yè)需要講數(shù)據(jù)、技術(shù)、規(guī)則、模型、產(chǎn)品、服務(wù)等一系列結(jié)合起來進(jìn)行對抗。
事實上,永恒的安全是不可能的。攻防不斷演進(jìn)是機器人防護永恒的主題,其實質(zhì)是人與人,AI 與 AI 的對抗。而不管是從前端還是后端,以及風(fēng)控規(guī)則模型,包括持續(xù)運維,是一個立體式的防護。
后續(xù)我們也進(jìn)行了一些思考,首先數(shù)據(jù)要與場景結(jié)合,業(yè)務(wù)模式?jīng)Q定了模型上限。而我們需不斷通過優(yōu)化算法以及特征工程訓(xùn)練這一模型。這是一個無限逼近上限的過程,但我們在開始時就應(yīng)將上限拔高。
另外,一些與業(yè)務(wù)場景結(jié)合在一起的技術(shù)也可以抽取出來進(jìn)行訓(xùn)練,比如我們在做的一些流式大數(shù)據(jù)計算、基于規(guī)則模型的智能決策、實時的數(shù)據(jù)可視化等。
從安全合規(guī)角度更要保證內(nèi)部敏感數(shù)據(jù)不外泄,外圍輔助數(shù)據(jù)本地化。
問答環(huán)節(jié):
1.目前航企遭受的爬蟲攻擊多來自哪里?
答:主要來自同行業(yè)的競爭,比如 A 航空公司利用爬蟲占據(jù)了 B 航空公司全部低價票,而 B 公司只有高價票可售,這種情況下多數(shù)用戶會選擇其他公司(如 A 公司)購票。另外在提直降代后,一些黑代理或者一些資質(zhì)不全的代理,也要有一定的生財之道,所以其會通過各種爬蟲工具進(jìn)行占票轉(zhuǎn)而高價出售。同時 OTA 網(wǎng)站之間為了獲取更多客戶也會互相爬取對方價格保證自己合理定價。
2.運用多種手段識別打擊網(wǎng)絡(luò)機器人,如何提升準(zhǔn)確率?
答:這是一個很關(guān)鍵的問題,我們做這件事的目的就是為了提升識別準(zhǔn)確率。那要如何提升準(zhǔn)確率?我認(rèn)為一定要利用人工智能來優(yōu)化查準(zhǔn)率和查全率,比如我們會基于專家規(guī)則,以此為基礎(chǔ)通過機器學(xué)習(xí),加之以深度學(xué)習(xí)優(yōu)化模型。
另外從場景來看,也可以采用多種不同級別的管控手段,除了封IP,也考慮加入動態(tài)的驗證碼,或者限速、限流、延遲到達(dá)等等。
3.請問是否使用了決策引擎和規(guī)則引擎?
答:是的,我們使用了決策和規(guī)則雙核引擎。
視頻回放地址:http://www.mooc.ai/open/course/413
若想獲得此次公開課完整 PPT,請關(guān)注微信公眾號宅客頻道(微信ID:letshome),回復(fù)“網(wǎng)絡(luò)機器人 ”。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。