0
本文作者: 恒亮 | 2017-01-03 19:05 |
近日,外媒 KDnuggets 刊登了一篇機(jī)器學(xué)習(xí)與網(wǎng)絡(luò)安全相關(guān)的資料大匯總,文中列出了相關(guān)數(shù)據(jù)源的獲取途徑,優(yōu)秀的論文和書籍,以及豐富的教程。大部分都是作者在日常工作和學(xué)習(xí)中親自使用并認(rèn)為值得安利的純干貨,雷鋒網(wǎng)現(xiàn)編譯總結(jié)如下。
SecRepo.com 網(wǎng)站,該網(wǎng)站匯聚了大量的與機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)源,并提供免費(fèi)下載。據(jù)網(wǎng)站首頁介紹,所有可用的數(shù)據(jù)源包含兩個部分:一是網(wǎng)站方面自己整理的,二是來自第三方的。其內(nèi)容包括互聯(lián)網(wǎng)掃描數(shù)據(jù),惡意軟件源碼,以及和網(wǎng)絡(luò)安全相關(guān)的系統(tǒng)日志等。
1. Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks
本文來自卡內(nèi)基梅隆大學(xué),分析了通用符號密碼的脆弱性,以及目前常見的密碼健壯性檢驗(yàn)的各種缺點(diǎn),甚至給出了他們在實(shí)驗(yàn)室利用神經(jīng)網(wǎng)絡(luò)算法攻破各種符號密碼的具體步驟,非常強(qiáng)大。
2. Outside the Closed World: On Using Machine Learning for Network Intrusion Detection
本文來自加州伯克利大學(xué),分析了利用機(jī)器學(xué)習(xí)探測網(wǎng)絡(luò)安全的優(yōu)勢和劣勢,并給出了一些改善這些劣勢的解決方案。
3. Anomalous Payload-Based Network Intrusion Detection
通常一個互聯(lián)網(wǎng)上的惡意請求都會在真正的惡意代碼外部包裝一層善意的外衣,這大大阻礙了相關(guān)探測程序的正常工作。來自哥倫比亞大學(xué)的Ke Wang和Salvatore J. Stolfo兩位學(xué)者在本文中給出了一種全新的探測惡意代碼中有效代碼段的方法,并在實(shí)測中達(dá)到了接近100%正確率和0.1%的誤報(bào)率。
4. Malicious PDF detection using metadata and structural features
當(dāng)前,隨著防范措施的升級,惡意代碼隱藏在PDF和Word等文本文件中的例子屢見不鮮,用戶防不勝防。在本文中,來自喬治梅森大學(xué)的學(xué)者介紹了一種通過機(jī)器學(xué)習(xí)技術(shù)探測惡意文本文件的技術(shù),特別是內(nèi)含惡意代碼的PDF文件。
5. Adversarial support vector machine learning
來自德州大學(xué),介紹了兩種利用機(jī)器學(xué)習(xí)技術(shù)探測網(wǎng)絡(luò)惡意攻擊的分析模型,即無邊界攻擊模型(free-range attack model)和限制邊界攻擊模型(restrained attack model)。
6. Exploiting machine learning to subvert your spam filter
垃圾郵件過濾系統(tǒng)不算什么高新技術(shù),但如何提升過濾的準(zhǔn)確性一直是一個難題。本文中來自加州伯克利大學(xué)的學(xué)者們介紹了一種基于機(jī)器學(xué)習(xí)開發(fā)的垃圾郵件過濾器,為垃圾郵件的過濾提供了一種全新的實(shí)現(xiàn)思路。
以下論文來自 covert.io 網(wǎng)站,該網(wǎng)站的論文(或博客)數(shù)量龐大,但并不像上文提到的那些論文一樣全部來自美國高校,covert.io 的文章也來自各大科技公司和研究所。
7. CAMP: Content-Agnostic Malware Protection
來自谷歌,介紹了一種名為CAMP的惡意軟件保護(hù)系統(tǒng),該系統(tǒng)能夠通過對二進(jìn)制可執(zhí)行文件的探測,確?;ヂ?lián)網(wǎng)的軟件應(yīng)用安全。
8. Building a Dynamic Reputation System for DNS
DNS服務(wù)器一直是互聯(lián)網(wǎng)中非常重要的組成部分,針對目前越來越流行的DNS攻擊,來自喬治亞理工學(xué)院的學(xué)者介紹了一種名為Notos的動態(tài)的域名信譽(yù)系統(tǒng),可以有效防范各種針對DNS服務(wù)器的匿名的網(wǎng)絡(luò)黑客攻擊。
9. Detecting malware domains at the upper dns hierarchy
本文介紹了一種名為Kopis的新型域名檢測系統(tǒng),可以有效探測互聯(lián)網(wǎng)上包含惡意攻擊代碼的域名,由網(wǎng)絡(luò)安全公司Damballa、喬治亞理工學(xué)院和喬治亞大學(xué)聯(lián)合研發(fā)。
10. From Throw-away Traffic To Bots – Detecting The Rise Of DGA-based Malware
本文同樣來自Damballa公司和喬治亞大學(xué),介紹了一種針對僵尸網(wǎng)絡(luò)的新技術(shù),該技術(shù)夠探測來自動態(tài)域名系統(tǒng)的惡意攻擊,整合了聚合和分類兩類算法。
11. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis
DNS服務(wù)器成為了越來越多黑客的攻擊對象,本文介紹了一種名為EXPOSURE的域名分析系統(tǒng),可以針對大批量的域名惡意訪問進(jìn)行探測,由Eurecom研究所、波士頓東北大學(xué)和加州大學(xué)共同研發(fā)。
12. Polonium: Tera-Scale Graph Mining for Malware Detection
本文來自網(wǎng)絡(luò)安全公司Symantec、卡內(nèi)基梅隆大學(xué),介紹了一個名為Polonium的高效的可擴(kuò)展的惡意軟件探測系統(tǒng)。
13. Nazca: Detecting Malware Distribution in Large-Scale Networks
大量用戶在現(xiàn)實(shí)生活中下載并安裝惡意軟件的行為通常包含一定的規(guī)律性。來自加州大學(xué)圣巴巴拉分校、Narus公司的學(xué)者們將這些無人問津的數(shù)據(jù)利用起來,提出了一個名為Nazca的網(wǎng)絡(luò)安全探測系統(tǒng)。
14. Anagram: A Content Anomaly Detector Resistant to Mimicry Attack
來自哥倫比亞大學(xué),介紹了一個名為Anagram的異常數(shù)據(jù)報(bào)文探測器。
講述數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用的書籍并不多,作者只介紹了以下兩本。
1. Data Mining and Machine Learning in Cybersecurity
作者是來自路易斯安那理工大學(xué)的Sumeet Dua博士和Xian Du博士,探討了目前普遍存在的網(wǎng)絡(luò)安全問題以及最先進(jìn)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘解決方案。
2. Machine Learning and Data Mining for Computer Security
編者是來自喬治城大學(xué)的Marcus A. Maloof,該書系統(tǒng)介紹了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)在計(jì)算機(jī)安全領(lǐng)域的最新研究成果。
雷鋒網(wǎng)注:目前兩本書都沒有中文版,紙質(zhì)版在亞馬遜上的售價都超過1000人民幣,第一本有Kindle電子版。
原文作者收集了如下一些關(guān)于機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全的演講,演講者們要么是來自相關(guān)領(lǐng)域的公司副總、技術(shù)負(fù)責(zé)人,要么是各大高校的研究人員、博士或者教授。(雷鋒網(wǎng)注:國內(nèi)訪問需要科學(xué)上網(wǎng)。)
1. Using Machine Learning to Support Information Security
視頻系統(tǒng)介紹了機(jī)器學(xué)習(xí)在信息安全領(lǐng)域的應(yīng)用,時長約1小時。
2. Defending Networks with Incomplete Information
要在限定的時間內(nèi)(通常是24小時)對惡意攻擊做出反應(yīng)通常需要耗費(fèi)巨大的人力和物力,但是如果利用機(jī)器學(xué)習(xí)的方法,首先對網(wǎng)絡(luò)攻擊進(jìn)行優(yōu)先級和攻擊方式分類,甚至處理一些簡單的套路式的攻擊,則可以大大降低網(wǎng)絡(luò)安全工程師的工作強(qiáng)度。本視頻就介紹了這一思路的具體應(yīng)用,時長約47分鐘。
3. Applying Machine Learning to Network Security Monitoring
這個視頻介紹了如何將機(jī)器學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全探測,時長約1小時。
4. Measuring the IQ of your Threat Intelligence Feed
目前互聯(lián)網(wǎng)上存在著各種各樣的網(wǎng)絡(luò)安全的探測系統(tǒng),但是用戶對它們褒貶不一,究竟如何判斷一個探測系統(tǒng)的可靠性,視頻介紹了一種實(shí)用的判斷方法,時長約40分鐘。
5. Data-Driven Threat Intelligence: Metrics On Indicator Dissemination And Sharing
視頻介紹了數(shù)據(jù)驅(qū)動下的安全情報(bào)分析,特別是和社交網(wǎng)絡(luò)分享和傳播相關(guān)的,時長約48分鐘。
6. Applied Machine Learning for Data Exfil and Other Fun Topics
為了幫助網(wǎng)絡(luò)安全相關(guān)的研究者、分析師和極客愛好者了解機(jī)器學(xué)習(xí),以及如何將機(jī)器學(xué)習(xí)應(yīng)用在網(wǎng)絡(luò)安全中領(lǐng)域中,例如數(shù)據(jù)泄露,本視頻做了詳細(xì)介紹,時長約43分鐘。
7. Secure Because Math: A Deep-Dive on ML-Based Monitoring
視頻介紹了以機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ)的互聯(lián)網(wǎng)監(jiān)控,時長約46分鐘。
8. Machine Duping 101: Pwning Deep Learning Systems
44分鐘教你攻克一個深度學(xué)習(xí)系統(tǒng),必看系列。
9. Weaponizing Data Science for Social Engineering
視頻介紹了社交網(wǎng)絡(luò)中的惡意攻擊行為和數(shù)據(jù)科學(xué)對此可能發(fā)揮的作用,時長約44分鐘。
10. Defeating Machine Learning What Your Security Vendor Is Not Telling You
還是關(guān)于攻破機(jī)器學(xué)習(xí)的話題,視頻介紹了如何攻破以機(jī)器學(xué)習(xí)為基礎(chǔ)的互聯(lián)網(wǎng)安全產(chǎn)品,時長約50分鐘。
11. CrowdSource: Crowd Trained Machine Learning Model for Malware Capability Det
視頻介紹了如何利用機(jī)器學(xué)習(xí)模型來探測互聯(lián)網(wǎng)安全,時長約28分鐘。
12. Defeating Machine Learning: Systemic Deficiencies for Detecting Malware
系統(tǒng)的“缺陷”也能用來探測惡意軟件?這個視頻用45分鐘為你詳細(xì)講解利用機(jī)器學(xué)習(xí)和系統(tǒng)“缺陷”來探測惡意軟件的方法。
13. Packet Capture Village – Theodora Titonis – How Machine Learning Finds Malware
視頻介紹了如何利用機(jī)器學(xué)習(xí)探測移動端惡意軟件,時長約44分鐘。
14. Build an Antivirus in 5 Min – Fresh Machine Learning
視頻用5分鐘介紹了如何用互聯(lián)網(wǎng)上開源的機(jī)器學(xué)習(xí)框架編寫一個全新的防病毒程序。
15. Hunting for Malware with Machine Learning
視頻介紹了針對企業(yè)用戶的自動化惡意軟件探測系統(tǒng),時長約48分鐘。
1. Click Security Data Hacking Project
該項(xiàng)目包含了一系列與IPython、Pandas、Scikit Learn相關(guān)的練習(xí),包含筆記和原代碼,每個練習(xí)都會故意設(shè)置一些常見的代碼錯誤、數(shù)據(jù)庫錯誤和邏輯錯誤供使用者改正。該系列教程幾乎是機(jī)器學(xué)習(xí)在信息安全領(lǐng)域應(yīng)用的必學(xué)教程。
2. Using Neural Networks to generate human readable passwords
鏈接中是一位大神自己編寫的一個基于Keras框架和python語言的密碼生成器,利用了深度神經(jīng)網(wǎng)絡(luò)原理,在保證密碼安全性的同時也保證了易讀性。該項(xiàng)目的代碼已經(jīng)在Github上開源,可以結(jié)合上文提到的論文《Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks》一起學(xué)習(xí)。
原代碼:鏈接
3. Machine Learning based Password Strength Classification
該項(xiàng)目關(guān)于用機(jī)器學(xué)習(xí)算法判斷一個已知密碼的健壯性,代碼已經(jīng)在Github上開源。
源代碼:鏈接
4. Using Machine Learning to Detect Malicious URLs
該項(xiàng)目關(guān)于如何利用機(jī)器學(xué)習(xí)探測惡意的互聯(lián)網(wǎng)鏈接地址,據(jù)稱可以達(dá)到98%的正確率。
源代碼:鏈接
5. Big Data and Data Science for Security and Fraud Detection
這是一篇綜述文章,文中介紹了多個國家/地區(qū)/大公司正在使用或研發(fā)的大數(shù)據(jù)分析工具和技術(shù),這些技術(shù)結(jié)合了文本挖掘、機(jī)器學(xué)習(xí)或者網(wǎng)絡(luò)分析,能夠在早期階段對網(wǎng)絡(luò)安全威脅進(jìn)行檢測和預(yù)防。
6. Using deep learning to break a Captcha system
這是一篇博客文章,介紹了如何利用深度學(xué)習(xí)技術(shù)破解煩人的驗(yàn)證碼系統(tǒng),作者在文中給出了部分關(guān)鍵功能模塊的源代碼,并且在文末還給出了許多參考鏈接。
7. Data Mining for Cyber Security
這是斯坦福大學(xué)開設(shè)的一個系列公開課,關(guān)于數(shù)據(jù)挖掘在互聯(lián)網(wǎng)安全中的應(yīng)用。在鏈接中可以直接看到課程安排,下載到講師演講的文本記錄、PPT,查看課后作業(yè)的題目和此前同學(xué)上傳的答案,以及課后的深入閱讀列表。這一課程可能是數(shù)據(jù)科學(xué)目前在網(wǎng)絡(luò)安全領(lǐng)域已經(jīng)公開的最好的課程之一。
1. System predicts 85 percent of cyber-attacks using input from human experts
這是一篇研究成果介紹的文章,介紹了來自MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和一家機(jī)器學(xué)習(xí)初創(chuàng)公司PatternEx的最新研究成果:一個名為AI2的人工智能平臺,能夠根據(jù)人類網(wǎng)絡(luò)安全專家輸入的數(shù)據(jù),對當(dāng)前網(wǎng)絡(luò)可能遭到的安全威脅做出預(yù)測,正確率高達(dá)85%,超越了目前已知的其他同類預(yù)測系統(tǒng)。文中通過文字和視頻的方式講解了這一預(yù)測系統(tǒng)的基本工作原理。
這是一個開源項(xiàng)目相關(guān)的網(wǎng)站,該網(wǎng)站聚合了一系列將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域的開源項(xiàng)目,同時還開設(shè)了博客文章和社區(qū)討論頻道,幫助開發(fā)者對這些項(xiàng)目深入理解。
3. An Introduction to Machine Learning for Cybersecurity and Threat Hunting
這是一篇深度文章,通過與幾位數(shù)據(jù)科學(xué)大牛訪談的形式,詳細(xì)介紹了機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)安全的關(guān)系以及相關(guān)應(yīng)用。
以上只是這位外國大牛的總結(jié),如果你手里也有一些值得安利的干貨和資源,不妨在文末留言分享出來吧!
附原文作者簡介:Faizan Ahmad,F(xiàn)ulbright 計(jì)劃大學(xué)生,目前在巴基斯坦國立計(jì)算機(jī)與新興科學(xué)大學(xué)(National University of Computer and Emerging Sciences)學(xué)習(xí),同時在巴基斯坦的拉合爾管理科學(xué)大學(xué)(Lahore University of Management Sciences)擔(dān)任研究助理,主攻計(jì)算機(jī)和網(wǎng)絡(luò)安全研究方向。
來源:kdnuggets
【兼職召集令!】
如果你對未來充滿憧憬,喜歡探索改變世界的科技進(jìn)展,look no further!
我們需要這樣的你:
精通英語,對技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會收獲:
一群來自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個人介紹/簡歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。