0
本文作者: 又田 | 2018-07-05 19:57 | 專題:2018 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì) |
雷鋒網(wǎng)編者按:隨著柯潔和李世石敗給了人工智能機(jī)器人,深度學(xué)習(xí)其實(shí)已經(jīng)在不同領(lǐng)域有非常顯著的發(fā)展,而京東的AI在賬號(hào)安全場(chǎng)景上已經(jīng)運(yùn)用一段時(shí)間。在6月30日舉辦的CCF-GAIR智能安全專場(chǎng)中,京東安全北美研究院院長蘇志剛Jimmy Su主要分享《機(jī)器人與對(duì)抗性機(jī)器學(xué)習(xí):不斷升級(jí)的驗(yàn)證碼戰(zhàn)斗》這個(gè)演講。
蘇志剛(JIMMY SU)加州大學(xué)伯克利分校(University of California at Berkeley) 計(jì)算機(jī)系博士,京東安全硅谷研究中心負(fù)責(zé)人,研究領(lǐng)域主要聚焦在:賬號(hào)安全、APT防御、人機(jī)識(shí)別,數(shù)據(jù)安全,AI安全應(yīng)用,大數(shù)據(jù),IoT等方面。
進(jìn)入京東之前,是火眼(FireEye)研究院總監(jiān),研發(fā)了多項(xiàng)國際先進(jìn)產(chǎn)品,領(lǐng)域包括網(wǎng)絡(luò)安全,移動(dòng)安全,反欺詐,電子郵件安全,端點(diǎn)安全等。
2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)于6月29日在深圳召開。本次大會(huì)共吸引超過2500余位 AI 業(yè)界人士參會(huì),其中包含來自全球的 140 位在人工智能領(lǐng)域享有盛譽(yù)的頂級(jí)嘉賓。
以下是他在現(xiàn)場(chǎng)的演講,雷鋒網(wǎng)做了不改變?cè)獾木庉嬚怼?/strong>
大家好,我是京東安全蘇志剛,很高興能跟大家分享京東最近的一些研究成果,今天分享的是《機(jī)器人與對(duì)抗性機(jī)器學(xué)習(xí):不斷升級(jí)的驗(yàn)證碼戰(zhàn)斗》。
眾所周知,機(jī)器學(xué)習(xí)在不同領(lǐng)域里已經(jīng)有非常顯著的發(fā)展,在圍棋方面,阿法狗已經(jīng)打敗世界冠軍柯潔。除此,深度學(xué)習(xí)還有非常豐富的場(chǎng)景,比如京東的咚咚音響、無人機(jī)、無人車等智能設(shè)備中的應(yīng)用。
隨著深度學(xué)習(xí)的廣泛應(yīng)用,攻擊的規(guī)模和復(fù)雜性都在增加。在安全層面,京東的AI在帳號(hào)安全等場(chǎng)景已經(jīng)有了深度應(yīng)用,比如,注冊(cè),登錄,以及訂單等各個(gè)業(yè)務(wù)環(huán)節(jié)。在賬號(hào)安全階段,我們通常會(huì)從三個(gè)維度來對(duì)抗黑產(chǎn)。
事前:通過黑產(chǎn)輿情監(jiān)控,風(fēng)控黑手機(jī)號(hào)、黑IP、黑產(chǎn)工具等,提取威脅信息在事前攔截。
事中:利用設(shè)備指紋、行為識(shí)別等技術(shù),甄別黑產(chǎn)和正常用戶。顧客安裝京東的APP后,我們會(huì)通過移動(dòng)SDK功能來采集設(shè)備的指紋(這也是用戶身份標(biāo)簽),在注冊(cè)階段,我們會(huì)通過生物探針檢查注冊(cè)的行為是來自人的還是機(jī)器的。用戶登錄以后,我們還會(huì)做行為分析和異常檢測(cè)。
事后:前兩階段可能做不到100%的攔截,在后續(xù)的訂單環(huán)節(jié),我們利用大數(shù)據(jù)建模功能,來進(jìn)一步辨別黑產(chǎn)和正常用戶,查找蛛絲馬跡(比如黑產(chǎn)的機(jī)器行為相似度等)在后續(xù)的訂單等環(huán)節(jié)攔截處理。比如,我們會(huì)根據(jù)從不同的IM渠道收集的黑產(chǎn)情報(bào)(包括高危地理地址、黑手機(jī)號(hào)、黑IP等)做風(fēng)控處理,在下單環(huán)節(jié)做攔截。同時(shí),我們還會(huì)根據(jù)風(fēng)控的各類問題,來查找業(yè)務(wù)漏洞,及時(shí)止損。
欺詐行為有哪些?
現(xiàn)階段的電商購物環(huán)境下,我們會(huì)看到各種欺詐行為,包括機(jī)注、刷單、黃牛、刷券、惡意訂單和虛假評(píng)論等。
黃牛
黃牛是一個(gè)非常有組織的黑產(chǎn)行為,并且有精細(xì)的分工,每一個(gè)分工都由不同團(tuán)隊(duì)完成。
第一步,黑產(chǎn)也有爬蟲,這種爬蟲會(huì)實(shí)時(shí)監(jiān)控到我們某一些促銷活動(dòng),優(yōu)惠券和商品價(jià)格等。
第二步,大黃牛會(huì)分布式的用IM,用QQ跟微信把信息發(fā)送給小黃牛完成任務(wù)。分布式是為了繞過我們的人機(jī)識(shí)別,因?yàn)樾↑S牛跟機(jī)器下單不同,他們的行為統(tǒng)計(jì)是不一樣的,用一些基礎(chǔ)的人機(jī)識(shí)別是不能識(shí)別出來的。
第三步,當(dāng)小黃牛收到任務(wù)以后,通常會(huì)用一些通用的黑產(chǎn)軟件去做登錄,定時(shí)下單。這里有一些非常成熟的工具,包括火牛跟刀鋒。
這些黑產(chǎn)軟件也會(huì)用到一些有AI技術(shù)。比如,黑產(chǎn)軟件登錄以后,會(huì)碰到不同的驗(yàn)證碼,圖片驗(yàn)證、手勢(shì)驗(yàn)證、動(dòng)作驗(yàn)證等。針對(duì)不同類型的驗(yàn)證碼里面會(huì)用一些不同的打碼平臺(tái)。
一般的數(shù)字、圖片驗(yàn)證等,有AI模型的打碼平臺(tái),通過機(jī)器就可以批量驗(yàn)證;也有人為驗(yàn)證,為的是躲過人機(jī)識(shí)別攔截,所以就出現(xiàn)了大佬在屋里喝茶收錢,小兵在偏遠(yuǎn)山區(qū),幾百個(gè)人坐在一起解驗(yàn)證碼的情況。
上面的圖片是采購黑產(chǎn)工具的地方。
這個(gè)圖片是人工打碼平臺(tái),每個(gè)人是有一個(gè)工號(hào),而且要在十秒鐘內(nèi)就把圖片驗(yàn)證碼解開,十秒鐘內(nèi)反饋給黑產(chǎn)工具,黑產(chǎn)工具就可以繼續(xù)做注冊(cè)。
注冊(cè)完成之后,也可以賣這些注冊(cè)賬號(hào),這些被賣的賬號(hào)也分不同類型,非實(shí)名帳號(hào)比較便宜,實(shí)名帳號(hào)比較貴,而這些灰產(chǎn)的銷售平臺(tái)通常是電商網(wǎng)站,也會(huì)通過社區(qū)和一些批發(fā)網(wǎng)站,這些銷售渠道也需要我們進(jìn)行實(shí)時(shí)監(jiān)控來觀察其在黑市走勢(shì)。
有了賬號(hào)以后,其中一個(gè)欺詐行為他們可以做的就是刷單,目的就是利用虛假訂單提高第三方商家的排名。再有一個(gè),就是惡意訂單,也是第三方廠商之間的惡意競(jìng)爭,這個(gè)目的就是去破壞對(duì)手促銷的活動(dòng),做惡意訂單能夠打擊第三方對(duì)手的存貨量。
最后黃牛把貨拿到手以后,再想辦法洗白兌現(xiàn),然后就把賺到的錢繼續(xù)從整個(gè)環(huán)境里跑下去。
我們的對(duì)抗方法
在黑產(chǎn)的每一個(gè)環(huán)節(jié)里我們都有機(jī)會(huì)用一些防守技術(shù)做攔截。
首先在爬蟲這層,我們會(huì)用一些反爬的技術(shù),讓黑產(chǎn)不能這么容易實(shí)時(shí)知道某一些促銷活動(dòng)的存在,如優(yōu)惠券是什么時(shí)候開始發(fā)的。
第二步,我們會(huì)滲透到大量黑產(chǎn)群里,用我們自己的爬蟲爬取信息,比如,會(huì)用NLP的技術(shù)監(jiān)控黑產(chǎn)的活動(dòng),黑產(chǎn)所用到的工具、技術(shù)等。
我們要知道實(shí)際攻擊的工具、技術(shù)跟場(chǎng)景,才能夠有效做防守。
首先會(huì)用無監(jiān)督學(xué)習(xí),做聚類,把一大波一大波的機(jī)注賬號(hào)、黃牛訂單先找出來。其次,我們會(huì)通過數(shù)據(jù)建模做行為分析,比如在PC端,我們會(huì)用到鍵盤跟鼠標(biāo)的行為作為人機(jī)識(shí)別的特征。如果在APP上,我們用什么角度掌控手機(jī)的,或者怎么樣滑動(dòng)手機(jī)的手勢(shì),還有GPS各種不同的特征等。
我們得到黑產(chǎn)工具以后,會(huì)有團(tuán)隊(duì)做黑產(chǎn)軟件的逆向,通過逆向我們發(fā)現(xiàn)黑產(chǎn)其實(shí)是用了某一些業(yè)務(wù)漏洞或者關(guān)口,進(jìn)而推動(dòng)我們做業(yè)務(wù)整改。
打擊黑產(chǎn)平臺(tái)其實(shí)就是一個(gè)AI對(duì)抗AI的過程。也會(huì)產(chǎn)生一些高對(duì)抗性的樣本,比如我們會(huì)針對(duì)黑產(chǎn)也應(yīng)用AI對(duì)抗,來給出一些樣本,正常情況下,黑產(chǎn)平臺(tái)可以正確的把這些數(shù)字都識(shí)別出來,但通過我們一些改動(dòng),新的樣本出來以后變成模型,就會(huì)識(shí)別錯(cuò)誤。但從人的肉眼其實(shí)可以很明顯看到,變化后的樣本跟原本的樣本是有差別的,所以對(duì)一個(gè)人來說還是可以驗(yàn)證成功的。
到了收貨地址這一步,我們還是有機(jī)會(huì)去攔截的,因?yàn)榈刂窌?huì)有聚類,我們發(fā)現(xiàn)黃牛收貨地址是有區(qū)域性的。一個(gè)例子,我們發(fā)現(xiàn)在湖北某一個(gè)地區(qū),持續(xù)做黃牛奶粉活動(dòng),拿到奶粉以后就會(huì)兌現(xiàn)變成現(xiàn)金。在廣東佛山有一個(gè)地方做高價(jià)手機(jī)的黃牛。因?yàn)樗泄潭▍^(qū)域比較容易讓他把手機(jī)第二次賣出,兌現(xiàn)成現(xiàn)金。
當(dāng)然這些對(duì)抗也不是一成不變的,黑產(chǎn)也在研究你,也在不斷進(jìn)步。我們觀察到這半年黑產(chǎn)技術(shù)快速迭代,攻防周期是一兩天左右。我們上一個(gè)新的策略,黑產(chǎn)會(huì)很迅速地一兩天后就出現(xiàn)新的版本。我們持續(xù)監(jiān)控黑產(chǎn)工具,可以看到迭代非常頻繁。
京東安全有非常廣泛的AI應(yīng)用場(chǎng)景,AI應(yīng)用是能讓我們高效運(yùn)作的唯一途徑,所以剛才其實(shí)我們只是看了一個(gè)例子,就是電商和黑產(chǎn)之間是有持續(xù)的高對(duì)抗性的攻防。
謝謝大家。
雷鋒網(wǎng):您怎樣看待在電商平臺(tái)間持續(xù)的黑產(chǎn)對(duì)抗中AI扮演的角色?
Jimmy Su:其實(shí)AI是一個(gè)攻防都可以用的武器,或者已經(jīng)變成攻防都必須用的武器,否則就是落后。
剛才在演講中我提到說攻擊者利用AI技術(shù)可以非常高準(zhǔn)確率的解決圖片驗(yàn)證碼。從防守的角度來說,如果不用一些AI技術(shù)對(duì)其進(jìn)行破解話,可能整個(gè)驗(yàn)證過程都會(huì)被擊破。其實(shí)驗(yàn)證過程很重要,因?yàn)樗謨刹糠?。首先在前面?huì)有一些風(fēng)控模型告訴我們,比如100個(gè)賬號(hào)是有風(fēng)險(xiǎn)的。后面就需要一個(gè)驗(yàn)證碼對(duì)這100個(gè)賬號(hào)做二次驗(yàn)證。如果驗(yàn)證碼不夠強(qiáng),可能這100個(gè)有問題的賬號(hào)中通過了99個(gè),這樣即使風(fēng)控模型識(shí)別出來了,但是還是沒有達(dá)到作用。
雷鋒網(wǎng):AI技術(shù)運(yùn)用在電商平臺(tái)狙擊黑產(chǎn)的困境是什么?
Jimmy Su:主要問題是若要做到全面防守,需要覆蓋無數(shù)可能被攻擊的點(diǎn),但其實(shí)黑產(chǎn)只需要突破一個(gè)點(diǎn),就已經(jīng)得到它想要的東西。
所以很多時(shí)候我們會(huì)看到一些,比如我們?cè)贏PP端提高了人機(jī)識(shí)別技術(shù),但很快黑產(chǎn)就會(huì)以一個(gè)PC端或者另外一個(gè)我們還沒有應(yīng)用這項(xiàng)技術(shù)的端進(jìn)來。畢竟我們這些新的技術(shù)都會(huì)從不同時(shí)間、不同的端去部署,其實(shí)我們最后要做到的就是能夠統(tǒng)一防守的技術(shù),保護(hù)所有的渠道。
但這是很難的,因?yàn)槲覀兊那婪浅6啵矔?huì)越來越多。所以,從我們的角度,我們要防住每一個(gè)漏洞,但是黑產(chǎn)其實(shí)只需要突破一個(gè)。
雷鋒網(wǎng):關(guān)于用戶隱私保護(hù)這方面京東是如何做的?
Jimmy Su:這其實(shí)是我們持續(xù)會(huì)去對(duì)抗的場(chǎng)景。很多時(shí)候某一個(gè)友商的平臺(tái)被黑產(chǎn)做了拖庫,得到了大量賬號(hào)名或者是手機(jī)號(hào)加密碼。隨后很快(大概一、兩周)我們就會(huì)看到黑產(chǎn)會(huì)用這批被拖的賬號(hào)對(duì)京東做撞庫,看一看這些賬號(hào)或者是手機(jī)號(hào),在京東能否登錄。
所以,我們?cè)谶@方面在做一些實(shí)時(shí)的撞庫攔截,我們會(huì)突然看見很多失敗的登錄。當(dāng)然,因?yàn)楹芏嗳硕紩?huì)重復(fù)使用密碼,所以也會(huì)一定比例的賬號(hào)密碼。但是我們會(huì)做一些設(shè)備指紋,以及異地登錄的檢測(cè)。如此一來,即使黑產(chǎn)得到了正確的密碼,但是它登錄設(shè)備與我們保護(hù)的這個(gè)顧客不一樣時(shí)候,我們會(huì)對(duì)它做二次驗(yàn)證。所以,很多拖庫賬號(hào)都不能進(jìn)來。
雷鋒網(wǎng):目前在我們的APP或者其他客戶端都增加了不少認(rèn)證手段確保安全性,但對(duì)用戶來說增添了操作步驟,這種適用性和安全性是否需要平衡?
Jimmy Su:肯定需要平衡。
用戶可能會(huì)擔(dān)心自己的一些敏感數(shù)據(jù)或者行為被收集,但其實(shí)我們并不會(huì)收集這種私人行為。就像剛才說的,我們會(huì)在PC注冊(cè)頁面查看用戶鼠標(biāo)和打鍵盤的行為,但不會(huì)記錄這個(gè)用戶打了哪些字或者是按了哪些鍵,我們只是通過鼠標(biāo)的加速、減速,或者打鍵盤的不同速度,去做一個(gè)用戶畫像,看看是不是這個(gè)用戶來登錄或者注冊(cè),但是敏感信息我們不會(huì)收集。這些都會(huì)在裝APP之前很明顯的告知顧客,提示我們需要收集的信息,當(dāng)然,這么做也是為了更好的保護(hù)用戶隱私。
收集上述信息比如鍵盤操作主要有兩種作用:
第一,識(shí)別是一個(gè)人的行為,不是一個(gè)機(jī)器的行為。
第二,識(shí)別是用戶本人登錄的,而不是另外一個(gè)人去盜號(hào)登錄的。一旦識(shí)別出來非正常操作會(huì)增添二次驗(yàn)證,有時(shí)候會(huì)是驗(yàn)證碼或是一個(gè)語音識(shí)別。
雷鋒網(wǎng):京東準(zhǔn)備之后如何用AI技術(shù)打擊黑產(chǎn)呢?
Jimmy Su:人機(jī)識(shí)別我們會(huì)堅(jiān)持做,之后我們會(huì)通過人機(jī)識(shí)別里面的一些特征去做用戶畫像,做到就算盜號(hào)者用我的手機(jī),有我的密碼,但他登錄進(jìn)去也會(huì)被識(shí)別出來,這個(gè)技術(shù)現(xiàn)在已經(jīng)在京東APP里面了。
還有一個(gè)需要做的就是把一些離線的深度學(xué)習(xí)模型變成是實(shí)時(shí)的。因?yàn)槲覀儼l(fā)現(xiàn)其實(shí)黑產(chǎn)的動(dòng)作很快,他有可能從注冊(cè)登錄到下單,整個(gè)流程都是自動(dòng)化的,所以現(xiàn)在很多模型都在改造成實(shí)時(shí)模型。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章