0
本文作者: 又田 | 2017-09-04 13:40 |
雷鋒網(wǎng)編者按:隨著黑產(chǎn)鏈上的攻擊者們手法愈發(fā)快且專,除了在傳統(tǒng)領(lǐng)域與之進(jìn)行對抗,AI似乎也被當(dāng)做靈活性和對抗性極佳的武器引進(jìn)。古語講“以牙還牙,以眼還眼”,而在與這些黑產(chǎn)對抗過程中,安全團(tuán)隊(duì)所面臨的,或者說需要考慮的又有哪些呢?
騰訊安全平臺部總經(jīng)理?xiàng)钣略?017騰訊安全技術(shù)國際峰會中,以“AI技術(shù)在信息安全領(lǐng)域的應(yīng)用”為主題,分享了AI與安全結(jié)合,進(jìn)入安全領(lǐng)域下一階段所要思考的一些事情。
下面為楊勇在現(xiàn)場的演講,雷鋒網(wǎng)編輯在不改變原意的基礎(chǔ)上做了適當(dāng)?shù)膭h減和整理。
首先做一下自我介紹,我從事安全行業(yè)的工作已有十幾年,在安全攻防領(lǐng)域,我是一個老兵,但是在AI安全相關(guān)的領(lǐng)域,包括AI安全,我還是一個新人。其實(shí)這個領(lǐng)域很多人真正開始研究,并且付諸于工業(yè)實(shí)踐的時間都不長。這是新興的領(lǐng)域,所我今天與大家分享的內(nèi)容,更多是作為個人、安全平臺部的團(tuán)隊(duì)以及騰訊,在一段時間內(nèi)的實(shí)踐心得。
我個人判斷,這些心得并不會是AI安全領(lǐng)域最終的結(jié)論,或者是一把通向真理的鑰匙,但一定是有意義的視角。實(shí)際上,對于AI安全的發(fā)展來說,一切都是剛剛開始。
下面我先給大家放一段視頻,我覺得這段視頻很好地詮釋了AI給我們帶來了什么。
這是ABB的一個機(jī)器人,這段視頻取材于2012年,不知道大家觀看這段視頻后的感受是什么,實(shí)際上給我個人的感受是,技術(shù)的演變會給我們帶來完全不一樣的感受。
從人類歷史的發(fā)展來看,人類能在地球上成為一個TOP級的物種,實(shí)際上經(jīng)歷過一個巨大變革,就是工業(yè)革命時代。在此之前,人類的體力并不優(yōu)于這個世界上的其他物種,但在工業(yè)革命以后,人類的體力已經(jīng)遠(yuǎn)遠(yuǎn)地超越了地球上的其他物種,為什么?
因?yàn)槿祟悡碛辛藱C(jī)械,這些機(jī)械給人們帶來了遠(yuǎn)超動物的體力。比如說我們可以造出200馬力,甚至300、500馬力的汽車,這些帶來了百年來人類突飛猛進(jìn)的發(fā)展。
人類還有一個重要的能力,就是腦力。在工業(yè)革命之后,人類的腦力發(fā)生了根本性的變化和變革。我覺得AI技術(shù)的發(fā)展,未來也會給人類帶來這樣一個變革。
大家試想一下未來的世界會是什么樣的?如果人類有了250倍馬力的體力,并且有250倍的人類現(xiàn)代智慧和計(jì)算能力的腦力,用這個250倍乘上另外的250倍,這就是我覺得AI可能會給我們帶來的變化。
當(dāng)然這些變化和對未來美好的預(yù)期也會帶來一些擔(dān)憂,就像一切新興事物出現(xiàn)以后,很多人會提出擔(dān)心。比如這個視頻當(dāng)中,兩個機(jī)器人拿著兩把日本的武士刀,他們可以做到刀尖和刀尖相抵而不錯位,給大家的感受是像機(jī)器人在對著鏡子移動??梢宰龅饺绱司珳?zhǔn)并且有力。而對比人類,會顯得我們的能力與他們簡直無法相比,所以AI會不會給人類帶來很多威脅和風(fēng)險?
這是之前在各大媒體上廣泛流傳的新聞報道,講的是在2008年的UBS,曾經(jīng)有無數(shù)的交易員,他們從事著股票交易和金融交易工作。在2016年,因?yàn)槿斯ぶ悄芎瓦\(yùn)算技術(shù)的發(fā)展,不再需要那么多人類的交易員了,所以他們所在的場地已沒有那么多交易員,變得空空蕩蕩。很多人根據(jù)這幅圖片得出結(jié)論,未來AI其實(shí)對人類構(gòu)成威脅。
但是好消息是什么?因?yàn)槲冶旧硪彩且粋€技術(shù)人員,所以我有一些刨根問底的精神,我去找了一下這個文章的原始出處,表達(dá)的卻是另一種意思。他講的是曾經(jīng)2008年的時候金融非常繁榮、昌盛,所以UBS租用了很多席位去做交易,但2008年以后的金融危機(jī)導(dǎo)致其削減預(yù)算,所以搬到了更廉價的交易大廳,才空出了許多席位。雖然這是一個假消息,但并不能說明他們的擔(dān)憂是多余的。
其實(shí)大家擔(dān)憂AI會搶去我們工作,這件事情可能發(fā)生也可能沒有發(fā)生,或者在某些領(lǐng)域正在發(fā)生。但作為安全行業(yè)來說,可以感受到AI帶來的一些實(shí)實(shí)在在的好處。比如傳統(tǒng)的安全領(lǐng)域常用的密碼鑒別用戶身份,隨著AI技術(shù)的到來,諸如人臉識別的生物識別技術(shù)逐漸變成可能。
同時,當(dāng)我們把機(jī)器學(xué)習(xí)的方法用于惡意代碼的識別,其實(shí)也極大地提升了對惡意代碼的對抗和識別能力。這都是一些積極的變化,但在安全領(lǐng)域,也確實(shí)發(fā)現(xiàn)了很多問題。在此之前騰訊召開的CSS(第三屆中國互聯(lián)網(wǎng)安全領(lǐng)袖峰會)大會上,很多與會專家都談到了我上面舉的這個圖,因?yàn)槿斯ぶ悄軐?shí)際上應(yīng)用最廣泛的應(yīng)該是三個領(lǐng)域,第一個是圖像識別領(lǐng)域,第二個是語音識別領(lǐng)域,第三個是包括機(jī)器學(xué)習(xí)的通用技術(shù)的使用。
圖像識別領(lǐng)域,在我們的生活中廣泛展開,運(yùn)用到很多領(lǐng)域。實(shí)際上目前生成對抗網(wǎng)絡(luò)方面,已經(jīng)有眾多學(xué)術(shù)界的專家、學(xué)者做出一些樣例。例如左圖,這是一個交通標(biāo)志,實(shí)際上通過添加一些特定噪點(diǎn),可以讓對方對交通標(biāo)志的識別出現(xiàn)錯亂,進(jìn)行錯誤的識別。而右邊這幅圖就是在人臉識別領(lǐng)域,某大學(xué)的研究團(tuán)隊(duì)制造了一個比較特殊的研究,當(dāng)你戴著這個特殊眼鏡的時候,會引導(dǎo)機(jī)器做出錯誤判斷,把自然人A識別成自然人B。這都是學(xué)術(shù)界已經(jīng)開始發(fā)現(xiàn)并且指出的一些問題,且在特定實(shí)驗(yàn)環(huán)境上得到了驗(yàn)證。
實(shí)際上這些學(xué)術(shù)上的嘗試,確實(shí)告訴我們在大量地使用這種機(jī)器學(xué)習(xí)、算法和AI識別算法的時候,我們還有很多隱患和安全問題有待解決,這些隱患是真實(shí)存在的。
大概在一年多、兩年前我們關(guān)注到了這些變化,同時也意識到幾個問題:
第一,我們是否應(yīng)該在實(shí)踐中更多地去嘗試和探討AI技術(shù)作為實(shí)際工作中的一個技術(shù)的使用可能。
第二,隨著越來越多的業(yè)務(wù)使用,我們嘗試使用AI技術(shù)、機(jī)器學(xué)習(xí)技術(shù)的同時,是否黑客也在嘗試使用這種技術(shù)。
第三,當(dāng)將這種技術(shù)用于業(yè)務(wù)和安全建設(shè)的時候,如果進(jìn)行不恰當(dāng)?shù)厥褂茫蛘呤褂玫乃惴ù嬖谀撤N缺陷,會導(dǎo)致黑客或黑產(chǎn)利用缺陷達(dá)成一種攻擊,取得更高的獲利或效果?
這是我們的思考,所以在這一年多、兩年的時間我們進(jìn)行了一些實(shí)踐,下面我和大家分享的就是一些實(shí)踐經(jīng)驗(yàn)。
首先我講的是在業(yè)務(wù)安全領(lǐng)域的人機(jī)識別場景下的黑產(chǎn)對抗和應(yīng)用情況。
在此之前要先和大家講一下,為什么人機(jī)識別在黑產(chǎn)領(lǐng)域,或者在業(yè)務(wù)安全領(lǐng)域是很重要的事情?
上面我給了大家一個數(shù)字,45億,45億是什么?
大家都知道騰訊是基于一個社交網(wǎng)絡(luò)的公司,這是我們業(yè)務(wù)的一個基礎(chǔ)支撐體系。而基于社交網(wǎng)絡(luò)的公司,實(shí)際上不可避免地面臨賬號問題。正如大多數(shù)互聯(lián)網(wǎng)公司一樣,他們都會有自己的賬號體系。而騰訊每天所面臨的,針對賬號的攻擊、惡意嘗試,基于自動機(jī)的是多少次?這一天大概是45億次嘗試。
如果嘗試成功一個賬號,會給他多少金錢?大概是0.008人民幣。簡單地計(jì)算一下,一天3600萬。也許這個數(shù)字并不確切,但是從這一規(guī)模大家可以感受到,為什么有很多技術(shù)優(yōu)秀的人會投身在此?因?yàn)檫@是一筆非常賺錢的生意。
那為什么有黑產(chǎn)愿意付費(fèi)給這些人,用如此高的費(fèi)用去換取這些利益?
因?yàn)樯缃痪W(wǎng)絡(luò)背后的價值非常巨大,包括用戶數(shù)據(jù)、隱私,包括背后所衍生的,如電子商務(wù)、虛擬財產(chǎn)安全等擁有有巨大利益。關(guān)鍵點(diǎn)就在于此,正因?yàn)橛腥绱舜蟮睦妫圆浑y想象,從事黑產(chǎn)的人在里面的投入和技術(shù)的探索非常有動力。
大家常會聽到黑產(chǎn),黑產(chǎn)到底是什么樣?現(xiàn)代化的黑產(chǎn)又是什么樣?
我們經(jīng)常從電影、電視上看到的黑產(chǎn),更多的是一兩個極客,可能戴著墨鏡,或者頭發(fā)亂亂的,在一個黑暗的角落里敲代碼,對技術(shù)進(jìn)行滲透,但實(shí)際上還有另外一種黑產(chǎn),我很難用具體的詞匯描述,但與傳統(tǒng)意義的黑客、極客不一樣,這種黑產(chǎn)更多是以金錢為目的,而并不是以技術(shù)精神達(dá)到極致為目的。
這里的黑產(chǎn)實(shí)際上有幾大特點(diǎn)。
第一,具備工具化,是以規(guī)?;?、批量化生產(chǎn)為依托,實(shí)際上更像一個小型的工廠或工業(yè)體系。而且可以看到的是,里面有很多配套的硬件設(shè)施和設(shè)備支持。這個右側(cè)插著很多卡的圖,在國內(nèi)我們叫做貓池,實(shí)際上是一個一個貓,上面插了大量電話卡,可以實(shí)現(xiàn)電話卡的撥號。目前很多體系是基于電話卡來進(jìn)行自然人識別,但實(shí)際上在黑產(chǎn)下完全無效,因?yàn)樗麄冇袑I(yè)的設(shè)備和大量的電話卡去使用,完全可以突破這種體系。
再下面就是像墻一樣放滿各種各樣手機(jī)的設(shè)備。實(shí)際上在對抗很多自動機(jī)的場景下,大家會覺得如果我有一些模擬軟件的識別,再加上一些協(xié)議識別是可以對抗的。而現(xiàn)在已經(jīng)進(jìn)行到可以構(gòu)建這樣一個墻,裝滿真實(shí)的手機(jī),在上面進(jìn)行自動化模擬,這里的對抗實(shí)際上非常劇烈。這實(shí)際是我們抓到的一個黑產(chǎn)團(tuán)伙,通過這個團(tuán)伙可以看到對方的武器裝備非常先進(jìn),對方不是像我們想象那樣,僅有大刀、長矛,他們也有坦克、飛機(jī)、大炮。
前面所說的是硬件裝備,下面是軟環(huán)境,即研發(fā)環(huán)境的簡單陳述。大家可以看到,其本身的架構(gòu)設(shè)計(jì)有條理性,且配有豪華的硬件設(shè)施,并搭建了一個用人工智能識別驗(yàn)證碼的平臺。用人工智能實(shí)現(xiàn)驗(yàn)證碼的好處在于,可以批量化地去攻破這種賬號登錄體系。就像前面說的,每攻破一個就可以達(dá)到0.008人民幣,如果用機(jī)器跑一天可以跑多少?一天可以跑上千萬次,這是一個非常豐厚的收入回報。
同時,他搭建的這套人工智能體系是基于神經(jīng)網(wǎng)絡(luò)的,當(dāng)時查獲后我們進(jìn)行了測試,其對市面上所有的驗(yàn)證碼識別成功率很高。這個團(tuán)伙實(shí)現(xiàn)了工業(yè)化的進(jìn)步,用人工智能達(dá)到了行業(yè)的壟斷和霸主地位。據(jù)我們預(yù)估,當(dāng)時這個打碼平臺,實(shí)際占黑產(chǎn)中攻破自動機(jī)的領(lǐng)域80%左右的市場份額,可以完全壟斷了這個行業(yè)。
人工智能打碼,與以前的OCR有什么區(qū)別?OCR有很多可以做到較高的識別率,這里我給大家舉例感受一下,不僅是簡單的圖像識別問題,其中包含一些深層次的智能對抗問題。
因?yàn)轵?yàn)證碼往往是分層的,在這種情況下已經(jīng)被識別成較可能是壞人的情況下,驗(yàn)證碼較難于識辨的,或者說人類看起來有點(diǎn)費(fèi)勁。但大家還是能看出來是一串字母,這一串字母人類肉眼比較難識別,但實(shí)際上機(jī)器可以識別到95%。
那怎么辦?我們采用了一些小技巧,大家看一下上面的小字,上面的小字是中文,我在這里給大家翻譯一下,這段小字就是請你按順序輸入第5位、第2位和第3位。
目的是什么?為了避免他用人工智能圖像識別的技術(shù),把這些字母輸入識別出來以后,按順序直接輸出。所以通過我們的人機(jī)識別平臺,進(jìn)行了語義調(diào)整,讓其按次序進(jìn)入,這樣我們就可以以對抗圖像識別的能力來進(jìn)行對抗。
大家猜一猜,在使用了這個小技巧后,對方使用了神經(jīng)網(wǎng)絡(luò)的對抗體系與我們對抗時,用了多長時間攻破這個技巧?大概是一天半的時間。據(jù)我們觀測,我們構(gòu)建一個藍(lán)軍平臺一天可以做到百分之四五十。而黑產(chǎn)對于比較簡單語義的大概在一天半左右可以做到80%、90%。所以神經(jīng)網(wǎng)絡(luò)對于比較簡單的邏輯,比較相對固定的答案,或者邏輯不是很復(fù)雜的這種情況下,他的變種能力、對抗能力是非常強(qiáng)的,不僅僅是一個圖像領(lǐng)域的對抗問題,而是智力領(lǐng)域的對抗問題。
這也給我們一個深刻啟示,實(shí)際上我們傳統(tǒng)用于黑客攻防對抗的,不管是攻方還是防御方,策略對抗領(lǐng)域其實(shí)慢慢在分級,對于一些弱的邏輯和一些簡單的策略,機(jī)器會越來越有優(yōu)勢,而人類的優(yōu)勢已經(jīng)不在,人類也許需要更有想法、創(chuàng)意的領(lǐng)域,才能固守我們的領(lǐng)域,從現(xiàn)有來看,這就是一個現(xiàn)實(shí)的例證。
我剛才提到的這樣一個黑產(chǎn)領(lǐng)域的霸主、壟斷企業(yè),他大概是一個什么樣的規(guī)模?這個所謂的“企業(yè)”其實(shí)有80個人,其種有相當(dāng)一部分人是非技術(shù)人員,其中有一部分人是機(jī)器的老師,是碼工,他會先拉一批人機(jī)對抗的驗(yàn)證碼下來讓人去打,然后通過人去識別這些圖像,讓機(jī)器通過人的監(jiān)督學(xué)習(xí)這種識別能力。當(dāng)人教會以后機(jī)器后,他就不用再雇傭這些碼工,機(jī)器可以自動識別。
而這80個人,他們大概創(chuàng)造的收入是一天可以掙到30萬。請注意,這80個人里,其實(shí)有相當(dāng)一部分人的收入非常低,因?yàn)樗麄兪强头F鋵?shí)這80人的核心團(tuán)隊(duì)里,只有兩到三名是最核心的研發(fā)和搭建體系的人,這些人是真正的大頭。一旦隨著這種技術(shù)的擴(kuò)散和使用,大家想一想人機(jī)對抗領(lǐng)域面臨的挑戰(zhàn)是非常大的。
我們是如何應(yīng)對這種問題的?這個現(xiàn)象是什么時候被我們發(fā)現(xiàn)并且處置的?
大概是一年多,將近兩年多前。所以我想讓大家也感受一下,今年我們看到人工智能的話題在安全會議上,包括工業(yè)的會議上被談到越來越多。但其實(shí)黑產(chǎn),學(xué)習(xí)研究,并且付諸于實(shí)施和使用是在兩年前,將近三年前。我們可以感受到對手的能力和速度,以及他們對于技術(shù)的執(zhí)著和進(jìn)取心,我覺得是一個很大的鞭策。
所以我們受這件事的啟發(fā),在與黑產(chǎn)對抗的領(lǐng)域在慢慢反思,除了在傳統(tǒng)領(lǐng)域跟他進(jìn)行對抗,我們也嘗試引入了一些AI的技術(shù),因?yàn)橛幸痪涔旁捴v以牙還牙,以眼還眼,既然他可以實(shí)現(xiàn)如此有靈活性、對抗性的能力,那我們?yōu)槭裁床粦?yīng)用?所以我們也在使用一些技術(shù)跟他進(jìn)行對抗。
這是我們舉的一個例子,大家可以看到,我們依然是打出驗(yàn)證碼,但是因?yàn)槲覀兛梢愿鶕?jù)各種各樣的策略信息判斷出他實(shí)際上使用的是一套AI平臺。和人一樣,AI是一種智慧,這種智慧也會犯錯,所以我們也研究AI在圖形、圖片領(lǐng)域的缺陷和問題,比如CSS大會中提到的,可以進(jìn)行錯誤的引導(dǎo)和訓(xùn)練。我們嘗試把這種技術(shù)用在驗(yàn)證碼領(lǐng)域,我們發(fā)現(xiàn)在這種技術(shù)使用的時候,其實(shí)我們可以引導(dǎo)機(jī)器去做出錯誤的識別和判斷。
比如說hsql,實(shí)際上我們引導(dǎo)機(jī)器做出了錯誤的識別,把s識別成b。這種技術(shù)的使用對于人來說是一種體驗(yàn)的提升,因?yàn)槿说碾y度并沒有增加,但對于機(jī)器來說,我們會讓它進(jìn)行錯誤的判斷。
回到前面我舉的這個例子,我們曾經(jīng)用過一些小技巧,但是失敗的一個例子。我們有什么辦法讓AI不再進(jìn)行那么高效的識別?
我們把這套技術(shù)加進(jìn)了中間,并且把AI在嘗試識別的驗(yàn)證碼里加入了一些代碼進(jìn)行混淆識別,我們發(fā)現(xiàn)如果進(jìn)行適當(dāng)?shù)乃惴ㄕ{(diào)整,可以引導(dǎo)AI的錯誤識別率提升33.5%。我認(rèn)為這是一個很有潛力和研究價值的。因?yàn)楫?dāng)AI技術(shù)和機(jī)器學(xué)習(xí)技術(shù)進(jìn)入了攻擊這個領(lǐng)域,其趨勢是不可阻擋的,如果你想做好防御和對抗工作,那在這個領(lǐng)域,你保持學(xué)習(xí)進(jìn)取和創(chuàng)新探索,這是必要的。
而實(shí)際工業(yè)上的實(shí)踐結(jié)果,我們可以看到,經(jīng)過不長一段時間的探索,提升和完善空間還是很大的。請大家注意,剛才我們看到的驗(yàn)證碼實(shí)際上尺寸是非常小的,如果我們相對來說有一個比較大的人機(jī)對抗的界面和場景,這里的改善空間、完善空間和優(yōu)化空間會更大。因?yàn)楸容^小的驗(yàn)證碼做圖像對抗的戰(zhàn)場也很小,所以你優(yōu)化和對抗的空間也會很小。
第二個有趣的思路,當(dāng)我們和他們對抗的同時,我們想到了一個有趣的思路。黑客的方法往往是暴力的,不按常理出牌的套路。比如我們曾經(jīng)和黑客的人工智能對抗,我們采用了一個方法,你既然用神經(jīng)網(wǎng)絡(luò)來識別我們的字符,那我們就制造出更多的字符庫,使用更多的字符庫跟你進(jìn)行對抗。
但很不幸,我們發(fā)現(xiàn)機(jī)器的算力和人力創(chuàng)造字符的算力完全是不成比例的,而且因?yàn)樗强赡怖模运灰邪俜种氖挠臻g就可以做,他不需要做到非常高的標(biāo)準(zhǔn)。但作為防御方,如果你做不到95%、99%的防御標(biāo)準(zhǔn),你的防御可以說就是失敗的,所以這是非常不對稱的一個戰(zhàn)場,但并不意味著我們并沒有機(jī)會。因?yàn)槲覀儼l(fā)現(xiàn)就像傳統(tǒng)安全一樣,很多黑客的技術(shù)和手段稍加改善,其實(shí)對于防御非常有幫助。
比如像生成對抗網(wǎng)絡(luò)的手段,我們發(fā)現(xiàn)它其實(shí)也可以很好地來生成字庫和字體,如果我們能生成,其實(shí)我們又有了一個比較強(qiáng)大和多樣的武器庫,在這里是否也就意味著我們有非常有利的武器?
在我們實(shí)踐的過程中,我們發(fā)現(xiàn)這對于拖緩他們的攻擊效率是非常有幫助的,但我們發(fā)現(xiàn)這個思路,也不是完全有效的。因?yàn)樵贏I攻防對抗的更深層次,我們發(fā)現(xiàn)如果你在一個戰(zhàn)場與AI去進(jìn)行博弈、對抗,往往會使自己精疲力竭,為什么?
因?yàn)樵谀承╊I(lǐng)域,其實(shí)技術(shù)發(fā)展的水平是不均衡的,比如說圖像識別,實(shí)際上圖像識別領(lǐng)域已經(jīng)發(fā)展得非常非常好,如果我們在圖像的混淆和對抗上與黑客的成熟算法和成熟體系對抗,我們發(fā)現(xiàn)是非常吃虧的,所以我們引入了更多的想法,這個想法是什么?
如果一場AI的博弈,我們把自己和對手想成博弈的兩個對象,那實(shí)際上決定我們攻防成功的關(guān)鍵是什么?我覺得第一個是數(shù)據(jù),這個數(shù)據(jù)決定了天花板的高低。第二個是算法,算法決定了你有多大程度上去接近這個天花板。
所以作為騰訊這樣一個公司來說,我們就要發(fā)揮好這兩個地方的優(yōu)勢,第一個是,我們是一個對數(shù)據(jù)積累非常多的公司,我們現(xiàn)在用于此處的安全數(shù)據(jù)大概是11個P,如果我們把11個P做好,我們可以做出非常高的天花板。
第二,如果我們在算法上結(jié)合了很多數(shù)據(jù)和業(yè)務(wù)的行為數(shù)據(jù)進(jìn)行關(guān)聯(lián),實(shí)際上我們可以很大程度上接近于天花板,這是我們做的一個模型,大家可以看到,我們把多個用戶行為和黑客行為進(jìn)行了關(guān)聯(lián),然后把這種行為數(shù)據(jù)和圖像上的對抗數(shù)據(jù)結(jié)合,我們把他做成一個完整的鏈去考慮,用一個完整的時間窗去識別,如果我們不僅僅是在圖像領(lǐng)域?qū)梗以谕暾男袨殒湆?,我們發(fā)現(xiàn)正常用戶和黑客、黑產(chǎn)是有顯著性的行為差異,如果我們把這個模型建好,是真正可以抵御他的。當(dāng)然,這些也非常需要在AI的算法和數(shù)據(jù)方面的理解和建設(shè)工作。
所以總結(jié)一下,在業(yè)務(wù)安全上,其實(shí)在AI攻防這個領(lǐng)域,我們覺得實(shí)際上并沒有一個一招致敵的方法論,更多的是持續(xù)運(yùn)營的過程。
持續(xù)運(yùn)營的過程有兩個關(guān)鍵因素,第一,在數(shù)據(jù)的積累和剖析上,選擇什么樣的數(shù)據(jù),積累什么樣的數(shù)據(jù),以及你積累長時間的有效性和效率,這是非常關(guān)鍵的事。
其次,你對于數(shù)據(jù)的理解,也就是說對于業(yè)務(wù)的理解,不僅僅是基于安全層面,你也要理解本身的業(yè)務(wù),這樣對于數(shù)據(jù)的挖掘能力比較強(qiáng),你就能設(shè)計(jì)出一個更高效的算法用于線上的對抗,所以這兩個關(guān)鍵點(diǎn)是你決勝的關(guān)鍵。也就是說我們最后總結(jié)下來,就是一個持續(xù)運(yùn)營和對抗的過程。
第二個領(lǐng)域是我們傳統(tǒng)的安全領(lǐng)域,實(shí)際上在我們和大家分享的話題中,我們發(fā)現(xiàn)第一個風(fēng)控領(lǐng)域?qū)嶋H上是非常好寫、好做的,而且效果也是非常突出的。
這里還有一個案例,我并沒有跟大家分享,就是在我們的登陸領(lǐng)域,除了我們的自動機(jī)識別,還有一些登陸領(lǐng)域的惡意行為,比如說電子商務(wù)登陸上,包括一些刷單、刷粉的行為,實(shí)際上也是非常普遍的。
但這里我們引用了人工智能,大概在3個月的時間,我們把識別率提高了百分之二三十。并且機(jī)器學(xué)習(xí)的技術(shù),可以讓我們發(fā)現(xiàn)很多之前沒有發(fā)現(xiàn)的關(guān)鍵因子,可以提取出來。這些關(guān)鍵因子的引入,導(dǎo)致我們可以極大地提升識別率。但是到了傳統(tǒng)安全領(lǐng)域,我們發(fā)現(xiàn)實(shí)際上在這里去構(gòu)建攻防的技術(shù)體系是非常困難的,挑戰(zhàn)也非常多。為什么是這樣?我也跟大家去進(jìn)行一些分享。
這是我們現(xiàn)在的傳統(tǒng)安全領(lǐng)域,也就是黑客攻防領(lǐng)域的現(xiàn)狀。這個領(lǐng)域的現(xiàn)狀,我覺得可以用兩個詞來概括,第一個叫做快,第二個詞叫做專。
為什么是這樣?大家看一下這里的三幅圖,我們看到越來越多的黑客攻防攻擊,他是以數(shù)據(jù)的獲取為目的,以專業(yè)團(tuán)體非常隱蔽的滲透為目的,而且他們所有的行為是非常具有自我保護(hù)意識的。
為什么會有這樣的趨勢?先看外部環(huán)境,我們可以看到,現(xiàn)在世界上最大的公司,不管是蘋果、谷歌、騰訊,這些公司其實(shí)本質(zhì)上都是一些輕資產(chǎn)公司,但是這些輕資產(chǎn)公司具有巨大的市值,為什么?因?yàn)樗麄兊臄?shù)據(jù)是高價值的。
他們這些高價值的數(shù)據(jù),實(shí)際上當(dāng)黑客進(jìn)行攻擊的時候,是可以很容易進(jìn)行變現(xiàn)和獲取利益的,所以黑客更有動機(jī)去獲取這些數(shù)據(jù)。而為了獲取這些高價值的數(shù)據(jù),黑客也需要保護(hù)自己,因?yàn)楹苋菀妆蛔カ@受到懲處。
歷史案例我們也看到,有很多專業(yè)團(tuán)體被抓到后被公布出來。所以所有的這些趨勢,外部的打擊和趨勢會逼著他們越來越快和專業(yè),并且因?yàn)榇驌?,逼著他們越來越多地去隱藏。而因?yàn)樗麄冊絹碓蕉嗍褂昧銈浜臀垂_的技巧,越來越多的是專業(yè)的團(tuán)體,他們也適用于適者生存的法則,剩下的都是最精英的,所以他們越來越被難以發(fā)現(xiàn)。所以這個行業(yè)出現(xiàn)了一個趨勢,黑客的行為越來越非顯性化。
這是我們實(shí)際的一個現(xiàn)網(wǎng)數(shù)據(jù),在座的各位非常清楚這個漏洞,大家可以看到,這是今天我們流量監(jiān)測上的實(shí)際數(shù)據(jù),這個實(shí)際數(shù)據(jù)可以這樣解讀,大家可以看到最高的尖刺,發(fā)現(xiàn)是在什么時候?這個漏洞從公布的時候是圖表的零點(diǎn),到最高的尖刺大家猜一猜是經(jīng)過了多長時間?達(dá)到了差不多三四千次一秒。到這個尖次,就是從這個漏洞在社區(qū)公布出來到尖次,半個小時我們就達(dá)到了最高峰。半個小時以后反而下降了,然后再出現(xiàn)幾次高峰。
所以實(shí)際上當(dāng)一個漏洞公布出來,給你的反應(yīng)時間大概就是半個小時,而對方攻擊的所有對象都是我們的資產(chǎn)服務(wù)器,我可以推斷出來,有相當(dāng)一部分人已經(jīng)把核心資產(chǎn)服務(wù)器納入攻擊列表,他們?nèi)钡闹皇且粋€未公開的技巧或很新鮮的漏洞,會在半個小時內(nèi)完成漏洞進(jìn)行馬上使用,這就是我們面臨的現(xiàn)實(shí)。
因?yàn)檫@個越來越隱性化,所以我們對AI探索也是應(yīng)對這種風(fēng)險去設(shè)計(jì)的,比如說DDoS攻擊,我們現(xiàn)在發(fā)現(xiàn)也是越來越多的攻擊去給我們發(fā)包,越來越多地去模擬這種游戲。
我們在這里越來越多地模擬業(yè)務(wù)協(xié)議,實(shí)際上導(dǎo)致我們越來越難以去識別這里攻擊的行為。我們引入了AI,發(fā)現(xiàn)他給我們帶來一個很好的幫助。
帶來的這個幫助是什么?我們可以做到千人千面。所謂的千人千面就是,我們發(fā)現(xiàn)人工智能是可以學(xué)習(xí)的,既然他可以學(xué)習(xí),那我們就讓他學(xué)習(xí)各種各樣的業(yè)務(wù)。當(dāng)他學(xué)習(xí)各種各樣的業(yè)務(wù)以后,就可以做到一件事:不管你是什么樣的攻擊,不管是什么樣的模擬,因?yàn)槟愫退L得不太像,所以我們就可以把你識別出來。
并不是根據(jù)黑客上識別對方,而是根據(jù)我們擁有的巨量數(shù)據(jù),用一個比較長的時間線,讓我們的機(jī)器、安全系統(tǒng)去正確認(rèn)知一個業(yè)務(wù),然后在這個基礎(chǔ)上做識別。
為什么我們要做這件事?因?yàn)楝F(xiàn)在的DDoS其實(shí)在攻擊領(lǐng)域面對更新?lián)Q代的問題,現(xiàn)在的攻擊者不能做到精準(zhǔn)的流量控制和流量到達(dá)。如果他能做到,大家可以想象一下,現(xiàn)有的防御系統(tǒng)都是要失效的,為什么?
因?yàn)榇蠖鄶?shù)是基于特征和閾值的控制。如果他可以通過精準(zhǔn)控制,他就可以嘗試估算出你的閾值和特征,一旦他可以精準(zhǔn)控制,他就可以在每次觸發(fā)防御之前結(jié)束攻擊,但依然對業(yè)務(wù)造成損失,這樣你就會進(jìn)行一個長久的苦戰(zhàn),并且無法對損失進(jìn)行補(bǔ)齊。大家想想這個思路一旦被攻擊者掌握其實(shí)并不難實(shí)現(xiàn),如果一旦實(shí)現(xiàn),我們現(xiàn)有的防御體系都會被洞穿。
這是在滲透方面的一個案例,也是想向大家展示一下這里的挑戰(zhàn)性,這是我們抓到的兩個真實(shí)的專業(yè)團(tuán)體對我們進(jìn)行滲透的木馬,大家可以看到這兩個木馬其實(shí)代表了兩代人,或者說兩代技術(shù)。
右側(cè)的木馬代表的是比較原始的技術(shù),他實(shí)際上是一個網(wǎng)頁木馬,里面有一個很明顯的特征,黑客的后門特征非常顯性,我下面畫的這些紅框的部分都是顯性特征,用傳統(tǒng)的做法這種木馬非常好識別。而我們從今年以來抓到的大多數(shù)木馬都是像左側(cè)的木馬,并沒有非常顯性的特征,所以如果你用傳統(tǒng)的特征、閾值、方法,對這種東西的識別是非常困難的,非常容易與正常的文件混淆,并且有一個巨大的問題是,雖然云計(jì)算和這種互聯(lián)網(wǎng)企業(yè)規(guī)模的擴(kuò)大,當(dāng)你去管一個巨量、海量的業(yè)務(wù)時,你真正面臨的誤報是不可承受的,這是最大的一個挑戰(zhàn),就是黑客的非顯性化,越來越不容易跟正常業(yè)務(wù)區(qū)分,而本身的業(yè)務(wù)規(guī)模和體量又不斷增大,這是一個矛盾體,對傳統(tǒng)的安全架構(gòu)和安全思路提出了巨大的挑戰(zhàn)。
這是我們最佳實(shí)踐的一個嘗試,嚴(yán)格意義上這是一個實(shí)驗(yàn),并不是一個最佳實(shí)驗(yàn),我相信這里未來的路還很長。我們這里做的實(shí)驗(yàn)是這樣,一個是算法優(yōu)化,我們用了兩套機(jī)器學(xué)習(xí)的算法,一套是68.75%,另外一套是92.19%,發(fā)現(xiàn)都不能在實(shí)際應(yīng)用中滿足我們95%以上識別率的要求。這個是指webshell的識別,我們這里想到一個方法,根據(jù)人的特征引用變量,并把A和B兩套算法的結(jié)合,隨著新特征的引入和算法的引入,進(jìn)行權(quán)重和模型的重新搭建以后,可以達(dá)到96.88%。
所以我覺得算法的優(yōu)化,選擇什么樣的算法和特征是這里面的關(guān)鍵。其次,如何選擇算法也是在實(shí)際工業(yè)領(lǐng)域中很重要的思考點(diǎn)。
大家可以看到,我這里的這兩幅圖,如果用前面的思路,去長時間學(xué)習(xí)業(yè)務(wù),其實(shí)我們是可以做到有一個很好的幫助。大家可以看到右邊這幅圖,有幾個白點(diǎn)在模型之外,在常見的領(lǐng)域我們可以看到防御方最痛苦的是什么?
有一個巨大的難點(diǎn),你要不斷地加白名單,因?yàn)檎5臉I(yè)務(wù)和操作員的行為是異常的,但又是正常用戶的行為。對這種行為,現(xiàn)在的傳統(tǒng)方法只能不斷地加白名單,而到一定程度是有問題的。如果用機(jī)器學(xué)習(xí)的方法,實(shí)際上可以很好地去學(xué)習(xí),雖然是一個異常點(diǎn),但依然可以識別出這是一個好人,并且對壞點(diǎn)進(jìn)行標(biāo)注。所以這是在機(jī)器學(xué)習(xí)領(lǐng)域和數(shù)據(jù)保護(hù)領(lǐng)域非常大的幫助,可以幫助我們極大地釋放人力,解決傳統(tǒng)領(lǐng)域的一些白名單的運(yùn)用以及自然人的定性、定位問題。
在實(shí)際工作中這種方法論并不是完美的,也面臨一個挑戰(zhàn),深度學(xué)習(xí)在實(shí)際工作領(lǐng)域效果非常好,但是在線上的時候效率問題會非常大。尤其對于騰訊這樣一個體量的公司,或者對于Facebook或谷歌這樣的公司,運(yùn)算挑戰(zhàn)在某些場景幾乎不可接受。怎么解決?
我們也想了一些有意思的想法,就是我們用深度學(xué)習(xí)來思考,用淺度學(xué)習(xí)來檢測,我們用深度學(xué)習(xí)模型來發(fā)覺黑客攻防領(lǐng)域,或者前面提到的業(yè)務(wù)安全領(lǐng)域的一些本質(zhì)問題,一些我們沒有發(fā)現(xiàn)的特征問題,我們用它來提取。但構(gòu)建線上實(shí)時打擊模型的時候,我們引用淺度模型,這樣在效率、精準(zhǔn)度和透析事物的本質(zhì)之間取得平衡,我們覺得這是一個很好的收獲,在工業(yè)實(shí)踐中可能會對大家有參考價值的東西。
最后我進(jìn)入一個尾聲,再次跟大家總結(jié)一下,經(jīng)過我們這段時間的實(shí)踐有三個經(jīng)驗(yàn)跟大家分享。人工智能想跟安全結(jié)合,或者我們想更多地把安全領(lǐng)域進(jìn)入下一個時代,我覺得最主要的三件事是需要我們思考的。第一,數(shù)據(jù),我們需要有海量的數(shù)據(jù),需要有一個真實(shí)的戰(zhàn)場,在這個真實(shí)的戰(zhàn)場截取海量的數(shù)據(jù),去訓(xùn)練我們的AI,因?yàn)檫@決定了AI到底能走多遠(yuǎn),天花板有多高。第二個事情是算法,不僅僅要對人工智能的算法有理解,更重要的是要對業(yè)務(wù)有理解,這樣的話在構(gòu)建算法的時候,可以更有針對性,能發(fā)掘出更多的變量,這樣在識別的時候有更高精度。第三,耐心,因?yàn)檫@畢竟是一個長期對抗的過程。
作為AI來說,或者AI安全來說,我覺得我們不妨這樣想,如果我們現(xiàn)在看27年前的互聯(lián)網(wǎng),在剛剛發(fā)明的時候,我們會告訴他們你這不是真正的互聯(lián)網(wǎng),我覺得對于AI安全來說也是一樣,這條路還非常長,AI或AI安全剛剛起步,這意味著我們有無限美好未來的可能,所以希望能有更多的機(jī)會跟大家交流,我們一起去探索美好的未來,謝謝大家。
雷鋒網(wǎng)整理。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。