0
本文作者: 又田 | 2018-07-05 19:57 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |
雷鋒網(wǎng)編者按:隨著柯潔和李世石敗給了人工智能機器人,深度學(xué)習(xí)其實已經(jīng)在不同領(lǐng)域有非常顯著的發(fā)展,而京東的AI在賬號安全場景上已經(jīng)運用一段時間。在6月30日舉辦的CCF-GAIR智能安全專場中,京東安全北美研究院院長蘇志剛Jimmy Su主要分享《機器人與對抗性機器學(xué)習(xí):不斷升級的驗證碼戰(zhàn)斗》這個演講。
蘇志剛(JIMMY SU)加州大學(xué)伯克利分校(University of California at Berkeley) 計算機系博士,京東安全硅谷研究中心負責人,研究領(lǐng)域主要聚焦在:賬號安全、APT防御、人機識別,數(shù)據(jù)安全,AI安全應(yīng)用,大數(shù)據(jù),IoT等方面。
進入京東之前,是火眼(FireEye)研究院總監(jiān),研發(fā)了多項國際先進產(chǎn)品,領(lǐng)域包括網(wǎng)絡(luò)安全,移動安全,反欺詐,電子郵件安全,端點安全等。
2018 全球人工智能與機器人峰會(CCF-GAIR)于6月29日在深圳召開。本次大會共吸引超過2500余位 AI 業(yè)界人士參會,其中包含來自全球的 140 位在人工智能領(lǐng)域享有盛譽的頂級嘉賓。
以下是他在現(xiàn)場的演講,雷鋒網(wǎng)做了不改變原意的編輯整理。
大家好,我是京東安全蘇志剛,很高興能跟大家分享京東最近的一些研究成果,今天分享的是《機器人與對抗性機器學(xué)習(xí):不斷升級的驗證碼戰(zhàn)斗》。
眾所周知,機器學(xué)習(xí)在不同領(lǐng)域里已經(jīng)有非常顯著的發(fā)展,在圍棋方面,阿法狗已經(jīng)打敗世界冠軍柯潔。除此,深度學(xué)習(xí)還有非常豐富的場景,比如京東的咚咚音響、無人機、無人車等智能設(shè)備中的應(yīng)用。
隨著深度學(xué)習(xí)的廣泛應(yīng)用,攻擊的規(guī)模和復(fù)雜性都在增加。在安全層面,京東的AI在帳號安全等場景已經(jīng)有了深度應(yīng)用,比如,注冊,登錄,以及訂單等各個業(yè)務(wù)環(huán)節(jié)。在賬號安全階段,我們通常會從三個維度來對抗黑產(chǎn)。
事前:通過黑產(chǎn)輿情監(jiān)控,風(fēng)控黑手機號、黑IP、黑產(chǎn)工具等,提取威脅信息在事前攔截。
事中:利用設(shè)備指紋、行為識別等技術(shù),甄別黑產(chǎn)和正常用戶。顧客安裝京東的APP后,我們會通過移動SDK功能來采集設(shè)備的指紋(這也是用戶身份標簽),在注冊階段,我們會通過生物探針檢查注冊的行為是來自人的還是機器的。用戶登錄以后,我們還會做行為分析和異常檢測。
事后:前兩階段可能做不到100%的攔截,在后續(xù)的訂單環(huán)節(jié),我們利用大數(shù)據(jù)建模功能,來進一步辨別黑產(chǎn)和正常用戶,查找蛛絲馬跡(比如黑產(chǎn)的機器行為相似度等)在后續(xù)的訂單等環(huán)節(jié)攔截處理。比如,我們會根據(jù)從不同的IM渠道收集的黑產(chǎn)情報(包括高危地理地址、黑手機號、黑IP等)做風(fēng)控處理,在下單環(huán)節(jié)做攔截。同時,我們還會根據(jù)風(fēng)控的各類問題,來查找業(yè)務(wù)漏洞,及時止損。
欺詐行為有哪些?
現(xiàn)階段的電商購物環(huán)境下,我們會看到各種欺詐行為,包括機注、刷單、黃牛、刷券、惡意訂單和虛假評論等。
黃牛
黃牛是一個非常有組織的黑產(chǎn)行為,并且有精細的分工,每一個分工都由不同團隊完成。
第一步,黑產(chǎn)也有爬蟲,這種爬蟲會實時監(jiān)控到我們某一些促銷活動,優(yōu)惠券和商品價格等。
第二步,大黃牛會分布式的用IM,用QQ跟微信把信息發(fā)送給小黃牛完成任務(wù)。分布式是為了繞過我們的人機識別,因為小黃牛跟機器下單不同,他們的行為統(tǒng)計是不一樣的,用一些基礎(chǔ)的人機識別是不能識別出來的。
第三步,當小黃牛收到任務(wù)以后,通常會用一些通用的黑產(chǎn)軟件去做登錄,定時下單。這里有一些非常成熟的工具,包括火牛跟刀鋒。
這些黑產(chǎn)軟件也會用到一些有AI技術(shù)。比如,黑產(chǎn)軟件登錄以后,會碰到不同的驗證碼,圖片驗證、手勢驗證、動作驗證等。針對不同類型的驗證碼里面會用一些不同的打碼平臺。
一般的數(shù)字、圖片驗證等,有AI模型的打碼平臺,通過機器就可以批量驗證;也有人為驗證,為的是躲過人機識別攔截,所以就出現(xiàn)了大佬在屋里喝茶收錢,小兵在偏遠山區(qū),幾百個人坐在一起解驗證碼的情況。
上面的圖片是采購黑產(chǎn)工具的地方。
這個圖片是人工打碼平臺,每個人是有一個工號,而且要在十秒鐘內(nèi)就把圖片驗證碼解開,十秒鐘內(nèi)反饋給黑產(chǎn)工具,黑產(chǎn)工具就可以繼續(xù)做注冊。
注冊完成之后,也可以賣這些注冊賬號,這些被賣的賬號也分不同類型,非實名帳號比較便宜,實名帳號比較貴,而這些灰產(chǎn)的銷售平臺通常是電商網(wǎng)站,也會通過社區(qū)和一些批發(fā)網(wǎng)站,這些銷售渠道也需要我們進行實時監(jiān)控來觀察其在黑市走勢。
有了賬號以后,其中一個欺詐行為他們可以做的就是刷單,目的就是利用虛假訂單提高第三方商家的排名。再有一個,就是惡意訂單,也是第三方廠商之間的惡意競爭,這個目的就是去破壞對手促銷的活動,做惡意訂單能夠打擊第三方對手的存貨量。
最后黃牛把貨拿到手以后,再想辦法洗白兌現(xiàn),然后就把賺到的錢繼續(xù)從整個環(huán)境里跑下去。
我們的對抗方法
在黑產(chǎn)的每一個環(huán)節(jié)里我們都有機會用一些防守技術(shù)做攔截。
首先在爬蟲這層,我們會用一些反爬的技術(shù),讓黑產(chǎn)不能這么容易實時知道某一些促銷活動的存在,如優(yōu)惠券是什么時候開始發(fā)的。
第二步,我們會滲透到大量黑產(chǎn)群里,用我們自己的爬蟲爬取信息,比如,會用NLP的技術(shù)監(jiān)控黑產(chǎn)的活動,黑產(chǎn)所用到的工具、技術(shù)等。
我們要知道實際攻擊的工具、技術(shù)跟場景,才能夠有效做防守。
首先會用無監(jiān)督學(xué)習(xí),做聚類,把一大波一大波的機注賬號、黃牛訂單先找出來。其次,我們會通過數(shù)據(jù)建模做行為分析,比如在PC端,我們會用到鍵盤跟鼠標的行為作為人機識別的特征。如果在APP上,我們用什么角度掌控手機的,或者怎么樣滑動手機的手勢,還有GPS各種不同的特征等。
我們得到黑產(chǎn)工具以后,會有團隊做黑產(chǎn)軟件的逆向,通過逆向我們發(fā)現(xiàn)黑產(chǎn)其實是用了某一些業(yè)務(wù)漏洞或者關(guān)口,進而推動我們做業(yè)務(wù)整改。
打擊黑產(chǎn)平臺其實就是一個AI對抗AI的過程。也會產(chǎn)生一些高對抗性的樣本,比如我們會針對黑產(chǎn)也應(yīng)用AI對抗,來給出一些樣本,正常情況下,黑產(chǎn)平臺可以正確的把這些數(shù)字都識別出來,但通過我們一些改動,新的樣本出來以后變成模型,就會識別錯誤。但從人的肉眼其實可以很明顯看到,變化后的樣本跟原本的樣本是有差別的,所以對一個人來說還是可以驗證成功的。
到了收貨地址這一步,我們還是有機會去攔截的,因為地址會有聚類,我們發(fā)現(xiàn)黃牛收貨地址是有區(qū)域性的。一個例子,我們發(fā)現(xiàn)在湖北某一個地區(qū),持續(xù)做黃牛奶粉活動,拿到奶粉以后就會兌現(xiàn)變成現(xiàn)金。在廣東佛山有一個地方做高價手機的黃牛。因為它有固定區(qū)域比較容易讓他把手機第二次賣出,兌現(xiàn)成現(xiàn)金。
當然這些對抗也不是一成不變的,黑產(chǎn)也在研究你,也在不斷進步。我們觀察到這半年黑產(chǎn)技術(shù)快速迭代,攻防周期是一兩天左右。我們上一個新的策略,黑產(chǎn)會很迅速地一兩天后就出現(xiàn)新的版本。我們持續(xù)監(jiān)控黑產(chǎn)工具,可以看到迭代非常頻繁。
京東安全有非常廣泛的AI應(yīng)用場景,AI應(yīng)用是能讓我們高效運作的唯一途徑,所以剛才其實我們只是看了一個例子,就是電商和黑產(chǎn)之間是有持續(xù)的高對抗性的攻防。
謝謝大家。
雷鋒網(wǎng):您怎樣看待在電商平臺間持續(xù)的黑產(chǎn)對抗中AI扮演的角色?
Jimmy Su:其實AI是一個攻防都可以用的武器,或者已經(jīng)變成攻防都必須用的武器,否則就是落后。
剛才在演講中我提到說攻擊者利用AI技術(shù)可以非常高準確率的解決圖片驗證碼。從防守的角度來說,如果不用一些AI技術(shù)對其進行破解話,可能整個驗證過程都會被擊破。其實驗證過程很重要,因為它分兩部分。首先在前面會有一些風(fēng)控模型告訴我們,比如100個賬號是有風(fēng)險的。后面就需要一個驗證碼對這100個賬號做二次驗證。如果驗證碼不夠強,可能這100個有問題的賬號中通過了99個,這樣即使風(fēng)控模型識別出來了,但是還是沒有達到作用。
雷鋒網(wǎng):AI技術(shù)運用在電商平臺狙擊黑產(chǎn)的困境是什么?
Jimmy Su:主要問題是若要做到全面防守,需要覆蓋無數(shù)可能被攻擊的點,但其實黑產(chǎn)只需要突破一個點,就已經(jīng)得到它想要的東西。
所以很多時候我們會看到一些,比如我們在APP端提高了人機識別技術(shù),但很快黑產(chǎn)就會以一個PC端或者另外一個我們還沒有應(yīng)用這項技術(shù)的端進來。畢竟我們這些新的技術(shù)都會從不同時間、不同的端去部署,其實我們最后要做到的就是能夠統(tǒng)一防守的技術(shù),保護所有的渠道。
但這是很難的,因為我們的渠道非常多,也會越來越多。所以,從我們的角度,我們要防住每一個漏洞,但是黑產(chǎn)其實只需要突破一個。
雷鋒網(wǎng):關(guān)于用戶隱私保護這方面京東是如何做的?
Jimmy Su:這其實是我們持續(xù)會去對抗的場景。很多時候某一個友商的平臺被黑產(chǎn)做了拖庫,得到了大量賬號名或者是手機號加密碼。隨后很快(大概一、兩周)我們就會看到黑產(chǎn)會用這批被拖的賬號對京東做撞庫,看一看這些賬號或者是手機號,在京東能否登錄。
所以,我們在這方面在做一些實時的撞庫攔截,我們會突然看見很多失敗的登錄。當然,因為很多人都會重復(fù)使用密碼,所以也會一定比例的賬號密碼。但是我們會做一些設(shè)備指紋,以及異地登錄的檢測。如此一來,即使黑產(chǎn)得到了正確的密碼,但是它登錄設(shè)備與我們保護的這個顧客不一樣時候,我們會對它做二次驗證。所以,很多拖庫賬號都不能進來。
雷鋒網(wǎng):目前在我們的APP或者其他客戶端都增加了不少認證手段確保安全性,但對用戶來說增添了操作步驟,這種適用性和安全性是否需要平衡?
Jimmy Su:肯定需要平衡。
用戶可能會擔心自己的一些敏感數(shù)據(jù)或者行為被收集,但其實我們并不會收集這種私人行為。就像剛才說的,我們會在PC注冊頁面查看用戶鼠標和打鍵盤的行為,但不會記錄這個用戶打了哪些字或者是按了哪些鍵,我們只是通過鼠標的加速、減速,或者打鍵盤的不同速度,去做一個用戶畫像,看看是不是這個用戶來登錄或者注冊,但是敏感信息我們不會收集。這些都會在裝APP之前很明顯的告知顧客,提示我們需要收集的信息,當然,這么做也是為了更好的保護用戶隱私。
收集上述信息比如鍵盤操作主要有兩種作用:
第一,識別是一個人的行為,不是一個機器的行為。
第二,識別是用戶本人登錄的,而不是另外一個人去盜號登錄的。一旦識別出來非正常操作會增添二次驗證,有時候會是驗證碼或是一個語音識別。
雷鋒網(wǎng):京東準備之后如何用AI技術(shù)打擊黑產(chǎn)呢?
Jimmy Su:人機識別我們會堅持做,之后我們會通過人機識別里面的一些特征去做用戶畫像,做到就算盜號者用我的手機,有我的密碼,但他登錄進去也會被識別出來,這個技術(shù)現(xiàn)在已經(jīng)在京東APP里面了。
還有一個需要做的就是把一些離線的深度學(xué)習(xí)模型變成是實時的。因為我們發(fā)現(xiàn)其實黑產(chǎn)的動作很快,他有可能從注冊登錄到下單,整個流程都是自動化的,所以現(xiàn)在很多模型都在改造成實時模型。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章