京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

本文作者：又田

2018-07-05 19:57

專題：2018 CCF-GAIR 全球人工智能與機器人峰會

導語：在6月30日舉辦的CCF-GAIR智能安全專場中，京東安全北美研究院院長蘇志剛Jimmy Su主要分享《機器人與對抗性機器學習：不斷升級的驗證碼戰(zhàn)斗》這個演講。

雷鋒網(wǎng)編者按：隨著柯潔和李世石敗給了人工智能機器人，深度學習其實已經(jīng)在不同領(lǐng)域有非常顯著的發(fā)展，而京東的AI在賬號安全場景上已經(jīng)運用一段時間。在6月30日舉辦的CCF-GAIR智能安全專場中，京東安全北美研究院院長蘇志剛Jimmy Su主要分享《機器人與對抗性機器學習：不斷升級的驗證碼戰(zhàn)斗》這個演講。

蘇志剛（JIMMY SU）加州大學伯克利分校（University of California at Berkeley) 計算機系博士，京東安全硅谷研究中心負責人，研究領(lǐng)域主要聚焦在：賬號安全、APT防御、人機識別，數(shù)據(jù)安全，AI安全應用，大數(shù)據(jù)，IoT等方面。

進入京東之前，是火眼（FireEye）研究院總監(jiān)，研發(fā)了多項國際先進產(chǎn)品，領(lǐng)域包括網(wǎng)絡安全，移動安全，反欺詐，電子郵件安全，端點安全等。

2018 全球人工智能與機器人峰會（CCF-GAIR）于6月29日在深圳召開。本次大會共吸引超過2500余位 AI 業(yè)界人士參會，其中包含來自全球的 140 位在人工智能領(lǐng)域享有盛譽的頂級嘉賓。

以下是他在現(xiàn)場的演講，雷鋒網(wǎng)做了不改變原意的編輯整理。

大家好，我是京東安全蘇志剛，很高興能跟大家分享京東最近的一些研究成果，今天分享的是《機器人與對抗性機器學習：不斷升級的驗證碼戰(zhàn)斗》。

眾所周知，機器學習在不同領(lǐng)域里已經(jīng)有非常顯著的發(fā)展，在圍棋方面，阿法狗已經(jīng)打敗世界冠軍柯潔。除此，深度學習還有非常豐富的場景，比如京東的咚咚音響、無人機、無人車等智能設備中的應用。

隨著深度學習的廣泛應用，攻擊的規(guī)模和復雜性都在增加。在安全層面，京東的AI在帳號安全等場景已經(jīng)有了深度應用，比如，注冊，登錄，以及訂單等各個業(yè)務環(huán)節(jié)。在賬號安全階段，我們通常會從三個維度來對抗黑產(chǎn)。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

事前：通過黑產(chǎn)輿情監(jiān)控，風控黑手機號、黑IP、黑產(chǎn)工具等，提取威脅信息在事前攔截。

事中：利用設備指紋、行為識別等技術(shù)，甄別黑產(chǎn)和正常用戶。顧客安裝京東的APP后，我們會通過移動SDK功能來采集設備的指紋（這也是用戶身份標簽），在注冊階段，我們會通過生物探針檢查注冊的行為是來自人的還是機器的。用戶登錄以后，我們還會做行為分析和異常檢測。

事后：前兩階段可能做不到100%的攔截，在后續(xù)的訂單環(huán)節(jié)，我們利用大數(shù)據(jù)建模功能，來進一步辨別黑產(chǎn)和正常用戶，查找蛛絲馬跡（比如黑產(chǎn)的機器行為相似度等）在后續(xù)的訂單等環(huán)節(jié)攔截處理。比如，我們會根據(jù)從不同的IM渠道收集的黑產(chǎn)情報（包括高危地理地址、黑手機號、黑IP等）做風控處理，在下單環(huán)節(jié)做攔截。同時，我們還會根據(jù)風控的各類問題，來查找業(yè)務漏洞，及時止損。

欺詐行為有哪些？

現(xiàn)階段的電商購物環(huán)境下，我們會看到各種欺詐行為，包括機注、刷單、黃牛、刷券、惡意訂單和虛假評論等。

黃牛

黃牛是一個非常有組織的黑產(chǎn)行為，并且有精細的分工，每一個分工都由不同團隊完成。

第一步，黑產(chǎn)也有爬蟲，這種爬蟲會實時監(jiān)控到我們某一些促銷活動，優(yōu)惠券和商品價格等。

第二步，大黃牛會分布式的用IM，用QQ跟微信把信息發(fā)送給小黃牛完成任務。分布式是為了繞過我們的人機識別，因為小黃牛跟機器下單不同，他們的行為統(tǒng)計是不一樣的，用一些基礎的人機識別是不能識別出來的。

第三步，當小黃牛收到任務以后，通常會用一些通用的黑產(chǎn)軟件去做登錄，定時下單。這里有一些非常成熟的工具，包括火牛跟刀鋒。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

這些黑產(chǎn)軟件也會用到一些有AI技術(shù)。比如，黑產(chǎn)軟件登錄以后，會碰到不同的驗證碼，圖片驗證、手勢驗證、動作驗證等。針對不同類型的驗證碼里面會用一些不同的打碼平臺。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

一般的數(shù)字、圖片驗證等，有AI模型的打碼平臺，通過機器就可以批量驗證；也有人為驗證，為的是躲過人機識別攔截，所以就出現(xiàn)了大佬在屋里喝茶收錢，小兵在偏遠山區(qū)，幾百個人坐在一起解驗證碼的情況。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

上面的圖片是采購黑產(chǎn)工具的地方。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

這個圖片是人工打碼平臺，每個人是有一個工號，而且要在十秒鐘內(nèi)就把圖片驗證碼解開，十秒鐘內(nèi)反饋給黑產(chǎn)工具，黑產(chǎn)工具就可以繼續(xù)做注冊。

注冊完成之后，也可以賣這些注冊賬號，這些被賣的賬號也分不同類型，非實名帳號比較便宜，實名帳號比較貴，而這些灰產(chǎn)的銷售平臺通常是電商網(wǎng)站，也會通過社區(qū)和一些批發(fā)網(wǎng)站，這些銷售渠道也需要我們進行實時監(jiān)控來觀察其在黑市走勢。

京東安全硅谷研究院負責人Jimmy Su: 不斷升級的驗證碼戰(zhàn)斗丨CCF-GAIR 2018

有了賬號以后，其中一個欺詐行為他們可以做的就是刷單，目的就是利用虛假訂單提高第三方商家的排名。再有一個，就是惡意訂單，也是第三方廠商之間的惡意競爭，這個目的就是去破壞對手促銷的活動，做惡意訂單能夠打擊第三方對手的存貨量。

最后黃牛把貨拿到手以后，再想辦法洗白兌現(xiàn)，然后就把賺到的錢繼續(xù)從整個環(huán)境里跑下去。

我們的對抗方法

在黑產(chǎn)的每一個環(huán)節(jié)里我們都有機會用一些防守技術(shù)做攔截。

首先在爬蟲這層，我們會用一些反爬的技術(shù)，讓黑產(chǎn)不能這么容易實時知道某一些促銷活動的存在，如優(yōu)惠券是什么時候開始發(fā)的。

第二步，我們會滲透到大量黑產(chǎn)群里，用我們自己的爬蟲爬取信息，比如，會用NLP的技術(shù)監(jiān)控黑產(chǎn)的活動，黑產(chǎn)所用到的工具、技術(shù)等。

我們要知道實際攻擊的工具、技術(shù)跟場景，才能夠有效做防守。

首先會用無監(jiān)督學習，做聚類，把一大波一大波的機注賬號、黃牛訂單先找出來。其次，我們會通過數(shù)據(jù)建模做行為分析，比如在PC端，我們會用到鍵盤跟鼠標的行為作為人機識別的特征。如果在APP上，我們用什么角度掌控手機的，或者怎么樣滑動手機的手勢，還有GPS各種不同的特征等。

我們得到黑產(chǎn)工具以后，會有團隊做黑產(chǎn)軟件的逆向，通過逆向我們發(fā)現(xiàn)黑產(chǎn)其實是用了某一些業(yè)務漏洞或者關(guān)口，進而推動我們做業(yè)務整改。

打擊黑產(chǎn)平臺其實就是一個AI對抗AI的過程。也會產(chǎn)生一些高對抗性的樣本，比如我們會針對黑產(chǎn)也應用AI對抗，來給出一些樣本，正常情況下，黑產(chǎn)平臺可以正確的把這些數(shù)字都識別出來，但通過我們一些改動，新的樣本出來以后變成模型，就會識別錯誤。但從人的肉眼其實可以很明顯看到，變化后的樣本跟原本的樣本是有差別的，所以對一個人來說還是可以驗證成功的。

到了收貨地址這一步，我們還是有機會去攔截的，因為地址會有聚類，我們發(fā)現(xiàn)黃牛收貨地址是有區(qū)域性的。一個例子，我們發(fā)現(xiàn)在湖北某一個地區(qū)，持續(xù)做黃牛奶粉活動，拿到奶粉以后就會兌現(xiàn)變成現(xiàn)金。在廣東佛山有一個地方做高價手機的黃牛。因為它有固定區(qū)域比較容易讓他把手機第二次賣出，兌現(xiàn)成現(xiàn)金。

當然這些對抗也不是一成不變的，黑產(chǎn)也在研究你，也在不斷進步。我們觀察到這半年黑產(chǎn)技術(shù)快速迭代，攻防周期是一兩天左右。我們上一個新的策略，黑產(chǎn)會很迅速地一兩天后就出現(xiàn)新的版本。我們持續(xù)監(jiān)控黑產(chǎn)工具，可以看到迭代非常頻繁。

京東安全有非常廣泛的AI應用場景，AI應用是能讓我們高效運作的唯一途徑，所以剛才其實我們只是看了一個例子，就是電商和黑產(chǎn)之間是有持續(xù)的高對抗性的攻防。

謝謝大家。

問答部分

雷鋒網(wǎng)：您怎樣看待在電商平臺間持續(xù)的黑產(chǎn)對抗中AI扮演的角色？

Jimmy Su：其實AI是一個攻防都可以用的武器，或者已經(jīng)變成攻防都必須用的武器，否則就是落后。

剛才在演講中我提到說攻擊者利用AI技術(shù)可以非常高準確率的解決圖片驗證碼。從防守的角度來說，如果不用一些AI技術(shù)對其進行破解話，可能整個驗證過程都會被擊破。其實驗證過程很重要，因為它分兩部分。首先在前面會有一些風控模型告訴我們，比如100個賬號是有風險的。后面就需要一個驗證碼對這100個賬號做二次驗證。如果驗證碼不夠強，可能這100個有問題的賬號中通過了99個，這樣即使風控模型識別出來了，但是還是沒有達到作用。

雷鋒網(wǎng)：AI技術(shù)運用在電商平臺狙擊黑產(chǎn)的困境是什么？

Jimmy Su：主要問題是若要做到全面防守，需要覆蓋無數(shù)可能被攻擊的點，但其實黑產(chǎn)只需要突破一個點，就已經(jīng)得到它想要的東西。

所以很多時候我們會看到一些，比如我們在APP端提高了人機識別技術(shù)，但很快黑產(chǎn)就會以一個PC端或者另外一個我們還沒有應用這項技術(shù)的端進來。畢竟我們這些新的技術(shù)都會從不同時間、不同的端去部署，其實我們最后要做到的就是能夠統(tǒng)一防守的技術(shù)，保護所有的渠道。

但這是很難的，因為我們的渠道非常多，也會越來越多。所以，從我們的角度，我們要防住每一個漏洞，但是黑產(chǎn)其實只需要突破一個。

雷鋒網(wǎng)：關(guān)于用戶隱私保護這方面京東是如何做的？

Jimmy Su：這其實是我們持續(xù)會去對抗的場景。很多時候某一個友商的平臺被黑產(chǎn)做了拖庫，得到了大量賬號名或者是手機號加密碼。隨后很快（大概一、兩周）我們就會看到黑產(chǎn)會用這批被拖的賬號對京東做撞庫，看一看這些賬號或者是手機號，在京東能否登錄。

所以，我們在這方面在做一些實時的撞庫攔截，我們會突然看見很多失敗的登錄。當然，因為很多人都會重復使用密碼，所以也會一定比例的賬號密碼。但是我們會做一些設備指紋，以及異地登錄的檢測。如此一來，即使黑產(chǎn)得到了正確的密碼，但是它登錄設備與我們保護的這個顧客不一樣時候，我們會對它做二次驗證。所以，很多拖庫賬號都不能進來。

雷鋒網(wǎng)：目前在我們的APP或者其他客戶端都增加了不少認證手段確保安全性，但對用戶來說增添了操作步驟，這種適用性和安全性是否需要平衡？

Jimmy Su：肯定需要平衡。

用戶可能會擔心自己的一些敏感數(shù)據(jù)或者行為被收集，但其實我們并不會收集這種私人行為。就像剛才說的，我們會在PC注冊頁面查看用戶鼠標和打鍵盤的行為，但不會記錄這個用戶打了哪些字或者是按了哪些鍵，我們只是通過鼠標的加速、減速，或者打鍵盤的不同速度，去做一個用戶畫像，看看是不是這個用戶來登錄或者注冊，但是敏感信息我們不會收集。這些都會在裝APP之前很明顯的告知顧客，提示我們需要收集的信息，當然，這么做也是為了更好的保護用戶隱私。

收集上述信息比如鍵盤操作主要有兩種作用：

第一，識別是一個人的行為，不是一個機器的行為。

第二，識別是用戶本人登錄的，而不是另外一個人去盜號登錄的。一旦識別出來非正常操作會增添二次驗證，有時候會是驗證碼或是一個語音識別。

雷鋒網(wǎng)：京東準備之后如何用AI技術(shù)打擊黑產(chǎn)呢？

Jimmy Su：人機識別我們會堅持做，之后我們會通過人機識別里面的一些特征去做用戶畫像，做到就算盜號者用我的手機，有我的密碼，但他登錄進去也會被識別出來，這個技術(shù)現(xiàn)在已經(jīng)在京東APP里面了。

還有一個需要做的就是把一些離線的深度學習模型變成是實時的。因為我們發(fā)現(xiàn)其實黑產(chǎn)的動作很快，他有可能從注冊登錄到下單，整個流程都是自動化的，所以現(xiàn)在很多模型都在改造成實時模型。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章