2
本文作者: 史中 | 2016-12-12 11:19 |
網絡世界,就像一道無盡的步行街。
而不同的網址,就像一扇扇大門,分列在街道左右。這些門背后,有摩天大廈,也有木屋小宅。
例如:
你推開“www.taobao.com”這扇門 ,就走入了琳瑯滿目的商場。
你推開“www.baidu.com”這扇門,就可以輕松把你傳送到想去的門前。
你推開“www.icbc.com.cn”這扇門,就能進入“愛存不存”的錢莊。
你推開“www.ozgbdpf.cn”這扇門,就可以看到讓自己死而無憾的最前沿科技新聞。
然而,驚悚的故事總需要一些反派。在林立的大門中,有一些不太利于社會主義和諧社會的建設。
例如:
有些門看起來樸實無華,一旦吃瓜群眾誤入,里面的木馬病毒就會趁機“上身”。
有些門掛著很像銀行的招牌,甚至走進去看也很相似。事實上那卻是騙人錢財的釣魚網站。
有些門通向地下賭場,人們錦衣玉食進去,光著屁屁出來。
有些門口點著粉色小燈,里面卻是讓你 喜聞樂見 灰飛煙滅的小發(fā)廊。
【不知為什么,突然想貼一張圖】
當你推開一扇門的時候,很可能并不知道自己將會身處險境。這時,你可能需要一只“上帝之手”,在你誤入歧途的一瞬間,把你拉回人間。
這位“全知全能”的上帝,就是百度網址安全中心所扮演的角色。
百度,注定不能做一個安靜的推薦者。因為人們期待并且要求它為推薦的結果負責。所以,在把網址鏈接呈現給用戶之前,即使是刀山油鍋,網址安全中心的童鞋們也要為用戶“嘗試”一下。
坐鎮(zhèn)國內最大的搜索引擎旗下,百度網址安全中心可謂“閱人無數”。
那么,這個安全中心究竟如何運作,其中又有什么有趣的技術呢?雷鋒網宅客頻道采訪到了百度商業(yè)安全研發(fā)部技術總監(jiān)馮景輝,他負責百度安全旗下企業(yè)安全產品的研發(fā)工作。
【百度商業(yè)安全研發(fā)部技術總監(jiān) 馮景輝】
馮景輝告訴我們,一般情況下惡意網址分為以下幾類:
這類網頁會隱藏惡意腳本,利用你的系統漏洞安裝木馬病毒。如果你的系統沒有升級到最新版本,有可能被木馬“鉆”進來。木馬一旦“進駐”就會進而獲取你的隱私信息,或者遠端控制你的電腦。
這三類網址可以統一歸為違法網址。它們所宣揚的內容本身并不合法,嚴重影響社會安定,所以顯然屬于惡意網址范疇。
而且這類網站中,很大一部分也隱藏著病毒木馬。
嚴格地說,這類網址本身的存在并不違法,但它們是詐騙環(huán)節(jié)的一部分。例如:仿冒的銀行網頁,虛假的中獎信息網頁。騙子會通過各種渠道把這些網址發(fā)送給受害人,誘騙他們填入密碼等信息,進而盜取銀行欠款,或者進一步詐騙。
【虛假的《奔跑吧兄弟》中獎網站截圖】
這些惡意網站,背后被不同的經濟模式所驅動。在金錢的誘惑面前,總會有人鋌而走險。中國境內惡意網址的數量,甚至超過了我們的人口。
根據團隊的研究,馮景輝總結了惡意網址的一些特點:
1、所有惡意網址中,數量最大的是釣魚網址。這些頁面中,有70%是“虛假中獎”“虛假購物”這類詐騙網頁,而其余30%則是針對銀行或電商的“仿冒網站”。
和所有詐騙一樣,這類網址一般是“打一槍換一個地方”。網址鏈接(URL)的平均存活時間,國際上是29小時,而在中國是33小時。
2、黃賭毒網頁的絕對數量不多,但是訪問量在所有惡意網址中所占的比例最高。和釣魚網站不同,這類網站需要“長期運營”。(看來,和人性的斗爭確實艱苦卓絕。)
3、掛馬網頁的絕對數量最少。
看上去,惡意網址都是那么地“個性鮮明”,判斷一個網址是不是屬于惡意網址似乎很簡單。但是仔細分析,你會發(fā)現至少面臨兩個巨大的技術困難。
1、在浩若煙海的網絡空間中,怎樣找到要檢測的目標?
2、面對數以億計的目標網址,如何在可控的時間內完成檢測?
馮景輝向雷鋒網宅客頻道介紹了團隊用來完成檢測任務的兩大“法寶”。
你可能會熟悉“搜索引擎爬蟲”,也就是百度搜索產品的重要技術。
回到最初的比喻,如果用街道上的門來比喻一個個網址,搜索引擎爬蟲的主要任務是把那些“門”里的大致情景記下來,然后在需要的時候呈現給用戶。為了精確,有事還會推開門拍一張廳堂的“快照”(網頁快照)。
但是,這樣的爬蟲并不能“感受”到在房間內部究竟有怎樣的“機關暗道”。這時,你需要“戰(zhàn)斗爬蟲”。
“戰(zhàn)斗爬蟲”不僅僅是“看一眼”或“拍張照”這么簡單,而是把所有的門都探索一遍。一些網頁會存在跳轉、加密?!皯?zhàn)斗爬蟲”要做的,就是利用種種技術手段,把房間中的暗門和夾層全部記錄下來。
【爬蟲基本原理】
另外,系統還面臨一個任務,那就是盡可能多地找到不同的網址用于鑒定。
馮景輝說,
爬蟲系統的輸入源,包括百度搜索的結果內容,還包括百度內部的貼吧等內容,也有手機衛(wèi)士安全客戶端報告的高危網址,還包括合作方提供的URL。
資料齊備,接下來就到了另一個關鍵時刻:檢測。
當然,檢測惡意網址最可靠的方法就是交給人工。但是,面對如此龐大的網址數量,全國人民一起上陣都未必忙得過來。
所以,這些資料會統統交給一位經驗豐富的“老刑警”來搞定,這個老刑警就是“網址安全檢測引擎”。
網址安全檢測引擎對于不同種類的惡意網址,有不同的鑒定流程。
對于惡意掛馬網頁的檢測方式,和對病毒的檢測方式非常類似。
木馬傳播到電腦上,一般都會利用漏洞,而這些漏洞都有“特征內容”。利用對這些特征的識別,就可以判斷出網頁是否有掛馬行為。但是,很多黑產也會采用加密、變形等手段增加我們的檢測難度。我們主要在對抗這些手段。
馮景輝說。
有些網頁在腳本中隱藏了惡意木馬,但是這種隱蔽方法和一些病毒類似,需要在真實的網頁環(huán)境中才會被觸發(fā)。對于這類“嫌疑網頁”,百度網址安全中心的童鞋們會利用類似“沙箱”的系統,讓網頁腳本跑在虛擬機中,讓它露出“真面目”。
對于“黃賭毒”內容的檢測,和傳統反病毒所需的技術差別很大。實際上,引擎所要做的基本任務,就是根據網頁內容把它進行分類。
這里面主要用到了一種數學技術:TF-IDF 算法。
所謂 TF-IDF 算法,簡單說來就是提取網頁內能夠表述網頁內容的關鍵詞,找到在這個網頁中出現頻繁,但是其他網頁中并不普遍的詞匯。
這種技術,往往可以幫助系統判斷一個網頁的“中心思想”,判定“黃賭毒”再適合不過。
仿冒正規(guī)網站的釣魚網站,精髓就在于“像”。
既然黑產的目的是“像”,那么對抗的技術就是“對比相似性”。這其中又主要用到一種數學算法:SIMHASH 算法。
簡單說來,SIMHASH 算法就是把一個網頁內容轉換成一個64位的“特征字”,如果兩個內容的特征字距離小于規(guī)定值,那么就判定二者相似度極高。這種算法最早由谷歌研發(fā),用于網頁搜索去重。
寫過畢業(yè)論文的童鞋都知道,從網上 Down 哪怕一段內容,都會被論文查重系統的火眼金睛發(fā)現。沒錯,老師們正是用 SIMHASH 這種“人類智慧的結晶”在和“不法學生”對抗。
然而,在釣魚網頁中,還有70%的“虛假中獎”類頁面,它們并沒有仿冒其他網頁,這對于馮景輝和團隊來說,是一個不大不小的難題。
對于這樣的問題,他們手里還有一樣“秘密武器”。
判斷一個網頁是不是“虛假中獎”頁面,對于一個人來說,可能是小菜一碟。如果可以訓練機器來模擬人的判斷,問題就會迎刃而解。
人工智能,可是百度的“招牌菜”。
馮景輝告訴雷鋒網宅客頻道,
除了一些司法上的特征,很多“虛假中獎”頁面還會有其他的特征,例如:
網頁中的圖片比例很高,呈現瀑布流狀;
而這類網頁鏈接由于頻繁變動,經常是一些和正常網址不一樣的奇怪域名。
這類網站也會引用大量的外部鏈接。
類似的特征還有很多,把這些特征參數放到深度學習引擎中,機器就可以自己總結出一套判定“虛假中獎”頁面的標準,實現自動的智能識別。
【虛假中獎網頁】
識別“高段位”的黃賭毒網頁,同樣需要這種深度學習的方法。
例如一些小說站和圖片站。對于描寫的尺度、內衣的高度(為了防止本文被判定為黃賭毒網頁,就不多說了)這些擦邊程度的判斷,只能人為地劃定標準(參考車展和 ChinaJoy 為美女“量身定做”的“兩厘米”規(guī)則。。。),然后把這些標準輸入深度學習系統,把這種讓人“心力交瘁”的工作甩給機器。
以上這種深度學習的方法, 被稱為“有監(jiān)督學習”,簡單來說,就是需要人類不斷提供一些特征標準,機器根據這些特征進行下一步總結。但是馮景輝說,他們下一步想要搞的,是“無監(jiān)督學習”。
無監(jiān)督學習,就是根本不告訴人工智能系統任何“人類總結出的特征”,僅僅是給它大量的黑白樣本,讓系統自動抽象出一些特征。人類只負責告訴機器它的判斷是對還是錯,機器根據這個結果來改進它總結的特征。
這些特征往往非常奇葩,有些以人類大腦的邏輯并不容易總結和表述。但是,這類“無法描述”的特征往往一針見血,精準異常。
連人工智能這種“原子彈”級別的武器都被抬出來了,這下該天下太平了吧?哈哈,圖樣圖森破。
充斥著黑產的賽博世界從來都是“Hard”模式。要知道,馮景輝和團隊面對的是無數“老司機”,“束手就擒”這四個字從來就不在他們的字典里。
馮景輝舉了一個最簡單的例子:
很多黑產為了躲避對違法文本內容的打擊,會把這些文本做成圖片的形式。當然,圖片上的 OCR 文字識別技術已經很成熟了。我們需要做的,就是把這種技術重新部署進我們的系統,不斷升級對抗的手段。
然而,一言不合黑產老司機就腦洞大開,新玩法層出不窮。
不要低估黑產的嗅覺。
在“林丹”事件被爆出的那一刻,反應最快的不是林丹,不是謝杏芳,而是黑產。他們手中控制了一個僵尸網站群,在第一時間把這一站群的集中引用頁面的關鍵詞都改為“林丹”,這樣,這一站群的關鍵詞都會成為林丹,被搜索引擎自動匹配關聯。
這樣,在有關林丹的消息還沒有大規(guī)模爆發(fā)的時間窗口,惡意網站就會占領搜索引擎的最佳位置。
由于平時這些黃色網站群處于“蟄伏”狀態(tài),不一定被“戰(zhàn)斗爬蟲”和“檢測引擎”發(fā)現。此時它們突然大規(guī)模跳出,借助人們對于林丹的“如火熱情”,可以大賺一票。
當然,“林丹”顯然是躺槍。最近每出現一個爆炸性的新聞,黑產都會利用流量效應迅速“撈一把”。
另外,百度搜索引擎有聯想功能,可以關聯兩個相關的詞匯。例如:人們會搜索某個明星的名字,但是名字比較復雜,很多人第一次輸入錯誤,搜索之后又更正為正確的重新搜索。這時,搜索引擎就會自動關聯這兩個詞匯。
【黑客利用木馬組建受自己控制的僵尸網絡,為黑產“顧客”提供服務】
黑產會利用機器學習的這一特性,發(fā)動手上的肉雞不斷同時搜索兩個關鍵詞,這兩個關鍵詞,一個是正常的熱點詞,另一個就是黑產頁面的關鍵詞。這樣的話,每當用戶搜索熱門關鍵詞的時候,就有可能搜索到黑產相關的頁面。
在搜索引擎改進對抗機制的同時,網址安全中心的技術團隊也會優(yōu)先排查和熱點詞相關聯的頁面是否安全。
有一些開放的平臺,允許用戶上傳信息。這時,如果黑產在上面發(fā)表了帶有有害鏈接的帖子評論,就會引發(fā)大量的點擊。這種鏈接傳播更廣,危害也會更大,需要在第一時間篩查,我們必須優(yōu)先保證可能被訪問最多的網頁是最安全的。
馮景輝說。
其實,黑產早就意識到了百度網址安全中心這類機構對于他們的圍堵,所以早就開始玩起了貓鼠游戲。
馮景輝舉了一個簡單的例子。
有些網頁在被加載之后,可能會靜默兩秒,之后惡意腳本才會執(zhí)行。
這樣的玩法,正是為了躲避檢測引擎中“沙盒”的虛擬執(zhí)行。而在得知黑產采用這種對抗策略后,馮景輝和童鞋們就在檢測方法中增加了針對性的策略。
在之后的對抗中,惡意網址從失敗中汲取了經驗,“進化”得更加智能。
例如:
某些惡意網頁會把百度和其他安全公司的 IP 列為“黑名單”,一旦發(fā)現被這些 IP 訪問,就裝作“乖寶寶”,自始至終不展開惡意行為。
于是我們發(fā)現,通過公司內部的單點去爬,可能會“中招”,于是變換 IP 繼續(xù)爬。
到后來,黑產甚至把這些大安全公司所在的省份所有的 IP 直接加入“黑名單”,
全省的 IP 都被黑產屏蔽,這時我們就利用分布在全國的機房去爬。
在對抗中,黑產發(fā)現安全人員總能找到新的方法來對抗,于是干脆采用了“斷臂求生”的方法,網頁在白天關閉,只在夜間開放。
惡意網頁分時開放的策略,在提高安全系統檢測難度的同時,意味著他們詐騙的受眾面也變小了。
馮景輝不無驕傲。
目前,百度網址安全中心的檢測結果會提供給微軟、百度、愛奇藝、小米路由器、火狐瀏覽器、新浪微博等合作伙伴。由這些終端來執(zhí)行彈窗提示、網頁屏蔽或者實時阻斷。
自由是互聯網的姿態(tài)。
互聯網的自由在于,你可以不受限制地推開每一扇門。但一扇扇形形色色的門背后,可能是溫馨浪漫的花園,也可能是蛇蝎暗藏的幻境。
存在著欺騙和攫取的互聯網,并不是天堂,它只是我們的現實在賽博世界的翻版。我們在大多數時候對自己的判斷力自信無比,但我們的父母,我們的孩子卻可能墜落陷阱。
如馮景輝所說,
百度網址安全中心,也許還沒辦法做到對惡意網址 100% 的判定。但所有的人的努力,都是為了逼迫惡意網址的領地不斷減少。
面對丑惡,埋怨從來無濟于事。在洪荒的世界里,哪怕邁出重構秩序的一小步,都值得贊嘆。
文/史中(微信ID:Fungungun,歡迎講述你的故事)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。