0
本文作者: 李勤 | 2017-07-27 19:06 |
本文作者:李勤,雷鋒網(wǎng)宅客頻道。
你聽過黑話嗎?
有!
天龍蓋地虎
寶塔鎮(zhèn)河妖
不不不,這句黑話已經(jīng)OUT很久了。
----以下是一組分割線,上下沒有關(guān)聯(lián)----
今天(7月26日),藍(lán)蓮花(Blue-Lotus)戰(zhàn)隊(duì)組建人之一的清華教授段海新介紹了一些網(wǎng)絡(luò)黑產(chǎn)的黑話更讓人大開眼界(藍(lán)蓮花有多牛,你可以搜索一下)。
下面進(jìn)入自我測試時(shí)間,如果這些黑話你都能看懂,也許你是黑產(chǎn)研究學(xué)八級,要么就是經(jīng)歷很豐富:
菠菜
平馬二中一
丁香五月天
咕嚕咕嚕出肉
段海新靦腆地介紹了一下第一個(gè)詞,“菠菜”就是“博彩”的意思,后面三個(gè)他居然沒解釋。
好奇的雷鋒網(wǎng)隨便搜索了其中一個(gè)關(guān)鍵詞,顯示出如下的搜索結(jié)果,嚇得我趕緊捂上了眼睛:
裝作看不懂的樣子,繼續(xù)聽段教授講故事。
網(wǎng)絡(luò)黑產(chǎn),無奇不有,黃賭毒尤甚。
這些黃賭毒網(wǎng)站為了在搜索界面搶占更有利的位置,往往會(huì)對一些權(quán)重較高的網(wǎng)站進(jìn)行劫持,比如以edu.cn或gov.cn結(jié)尾的網(wǎng)站。
你只是想打開一個(gè)高校的官網(wǎng)或一個(gè)政府網(wǎng)站,一不小心就進(jìn)入了不可言說的世界。
你只能感嘆一句:黑產(chǎn)推廣真是喪心病狂。
然而,這并不算什么。黃賭毒和詐騙類網(wǎng)站為了推廣自己,還會(huì)借助一種技術(shù):蜘蛛池。
蜘蛛池就是一堆由垃圾域名組成的站群,在每個(gè)站點(diǎn)下都生成海量頁面(抓一堆文本內(nèi)容相互組合),頁面模板與正常網(wǎng)頁沒多大區(qū)別。給那些未收錄的頁面,在短時(shí)間內(nèi)提供大量的真實(shí)的外鏈,入口曝光多了,被抓取幾率就大,收錄率自然也就上去了,又因?yàn)槭峭怄湥栽谂琶弦灿幸欢ǖ恼蚣臃帧?/p>
如果你再稍微了解一點(diǎn)搜索技術(shù),說白了,就是人為制造了一張不斷變大的網(wǎng),把蜘蛛困在里面,讓它不斷的爬行網(wǎng)內(nèi)的頁面。
總而言之,就是網(wǎng)絡(luò)黑產(chǎn)不斷地用各種手段推廣自己,爭奪注意力。
為了打掉黑產(chǎn)網(wǎng)站,就要研究黑產(chǎn)網(wǎng)站的 SEO!也因此,段海新發(fā)現(xiàn)了伴隨黑產(chǎn)網(wǎng)站出現(xiàn)的是“黑產(chǎn)詞”:這些網(wǎng)站總有一些關(guān)鍵詞像“標(biāo)簽”一樣地貼在自己身上。
正經(jīng)的說法是:
“黑產(chǎn)詞”是伴隨黑產(chǎn)出現(xiàn)的產(chǎn)品同義詞及違法產(chǎn)品本身的關(guān)鍵詞的統(tǒng)稱。非法商販和買家通過協(xié)定新的詞匯表示一種產(chǎn)品,以此躲避監(jiān)管。
這些隱蔽的“黑產(chǎn)詞”通常會(huì)扭曲常用詞含義,導(dǎo)致“外行人”無法理解其背后的含義,上面舉例的一些即是“黑產(chǎn)詞”。
這里有個(gè)小插曲值得一提。
清華大學(xué)有一個(gè)優(yōu)雅的小院名為“怡春院”,曾作為校機(jī)關(guān)的辦公場所,但是,扭曲的黑產(chǎn)居然把這個(gè)詞變成了……額……通過搜索引擎查詢“怡春院”這歌關(guān)鍵詞,國內(nèi)外主流搜索引擎搜出來的都是成人社區(qū)(Google除外)。
他推測,也許這些搜索引擎比較真實(shí)地反映了用戶搜索的需求。
雷鋒網(wǎng)了解到,被推廣的“黑產(chǎn)詞“可以通過自動(dòng)化方式檢測出來。人們在查詢某個(gè)商品時(shí),可能會(huì)反復(fù)觸及到多個(gè)類似“黑產(chǎn)詞”的網(wǎng)站頁面,這些頁面有可能包含惡意或欺詐內(nèi)容。
好消息是,利用搜索引擎查詢相關(guān)頁面,并結(jié)合相關(guān)搜索擴(kuò)展查詢結(jié)果,最后采用算法可將結(jié)果融合判定是否為黑產(chǎn)詞,段海新和他的研究團(tuán)隊(duì)做的就是這件事情(也許并不是為了報(bào)“怡春院”之仇)。
如何通過自動(dòng)化手段檢測一些新的黑產(chǎn)黑話?
先來了解一下黑產(chǎn)網(wǎng)站是怎么推廣的。段海新介紹,比如,毒品商家找到做非法 SEO 引擎優(yōu)化的推廣商,根據(jù)產(chǎn)品和關(guān)鍵詞進(jìn)行優(yōu)化,搜索引擎的爬蟲自動(dòng)到網(wǎng)站上抓取內(nèi)容,用戶搜索時(shí),就有可能被指向這個(gè)毒品網(wǎng)站。
因此,段海新的研究團(tuán)隊(duì)想出的對抗辦法是:
1.輸入兩部分?jǐn)?shù)據(jù),一部分是搜索引擎廠商提供的惡意URL列表,另一部分是從蜘蛛池推廣網(wǎng)站中抓取的200多萬頁面,在這些頁面中提取的關(guān)鍵詞。
2.過濾掉這些詞中的合法詞匯(白詞),然后再到搜索引擎中驗(yàn)證一次,是否觸發(fā)了搜索引擎的報(bào)警。
3.利用搜索引擎廠商的相關(guān)搜索進(jìn)行擴(kuò)展。
最終,就能找到“正確的黑話”。
看上去,三個(gè)步驟很簡單,但是隱藏了三個(gè)復(fù)雜的問題——
1.如何提取關(guān)鍵詞?
黑產(chǎn)關(guān)鍵詞可能會(huì)出現(xiàn)在黑產(chǎn)網(wǎng)站的任何一個(gè)頁面,在嘗試很多區(qū)域后,段海新發(fā)現(xiàn),明文可點(diǎn)擊區(qū)域的效果最明顯。
你要問了,如果黑產(chǎn)把黑詞放在別的地方是否可以逃避檢測?
并沒有那么容易,如果黑產(chǎn)想逃避檢測,帶來的副作用是, 搜索引擎的爬蟲也無法搜索到這些關(guān)鍵詞。
2.如何過濾白詞?
用自然語言理解的方法非常困難,但段海新的團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)簡單的方法:很多詞都是從新聞熱點(diǎn)中抓取過來,而這些新聞標(biāo)題比較長,所以我們就把超過一定長度的新聞標(biāo)題過濾掉。
3.如何判斷是白詞還是黑詞?
比如,“清華”是一個(gè)白詞,所以搜索結(jié)果比較干凈,而且搜索引擎已經(jīng)把清華的頁面標(biāo)注,但是搜索“菠菜”,三條以上的搜索結(jié)果標(biāo)注為報(bào)警,那么,這個(gè)詞就可能有問題。
因?yàn)椤跋嚓P(guān)搜索”關(guān)聯(lián)了用戶的搜索行為,用戶輸入了一個(gè)詞匯,但沒有點(diǎn)擊任何一個(gè)鏈接,又搜索了下一個(gè)詞匯,那么證明第一個(gè)詞匯和第二個(gè)詞匯是相關(guān)的;用戶搜索了一個(gè)關(guān)鍵詞,點(diǎn)擊了一個(gè)鏈接,那么證明這歌鏈接里的關(guān)鍵詞與這個(gè)搜索詞相關(guān)。
于是,段海新和研究團(tuán)隊(duì)得到了 40 萬個(gè)推廣的黑產(chǎn)詞匯,確定其中 94%為黑詞,去掉地名等"長尾"修飾詞最終得到了 1500 個(gè)左右的核心詞,手工分成了六類,并提取了相關(guān)的域名和URL 還有 100萬-200萬個(gè)。
為了驗(yàn)證這些“黑詞”是真的黑詞,他們在2個(gè)不同的搜索引擎中再次搜索新黑詞,比如,搜索“***商人”,某歌前10頁全是與賭博相關(guān)的結(jié)果,則可以證明 SEO 的效果“非常好”,這些詞是有效的新黑詞。
拿到了黑詞之后,有什么用?
(當(dāng)然是為了打掉黑產(chǎn),報(bào)“怡春院”之仇咯)
開個(gè)玩笑。
雷鋒網(wǎng)了解到,段海新和他的同事們做了一個(gè)厚厚的研究報(bào)告,來討論黑詞的“用處”,他也簡單介紹了幾個(gè)用途:
1.基于黑產(chǎn)推廣頁面留下的電話號碼,他們進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)黑產(chǎn)電話號碼歸屬地最多的是山東,徐玉玉案件發(fā)生在山東,也許不是偶然事件。
2.他們依據(jù)這些黑詞對貼吧、論壇進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)這些黑詞在貼吧和論壇普遍存在,如果將這些黑詞反饋給搜索引擎廠商,再次搜索,可以凈化搜索結(jié)果,還可以凈化論壇、網(wǎng)上商店。
3.利用現(xiàn)在擴(kuò)展的黑詞,在教育類和政府類網(wǎng)站進(jìn)行搜索,發(fā)現(xiàn)大量被攻破的網(wǎng)站。
目前,段海新的研究團(tuán)隊(duì)正在與百度合作,應(yīng)用其研究成果。
注:該文引用了段海新在2017網(wǎng)絡(luò)安全生態(tài)峰會(huì)上的部分發(fā)言,該論壇由阿里巴巴和螞蟻金服共同主辦,干貨十足。
--寫在最后的話--
阿里巴巴的小伙伴告訴雷鋒網(wǎng),阿里也在淘寶上應(yīng)用了相關(guān)對抗“黑話”的技術(shù),在實(shí)際應(yīng)用過程中,還要面對更多變得連親媽都不認(rèn)識的“黑詞”,對抗升級更可怕。
于是,雷鋒網(wǎng)決定,在接下來的某一期中,探討阿里到底應(yīng)用了哪些“黑詞”檢測與對抗技術(shù),敬請期待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。