0
本文作者: AI研習(xí)社-譯站 | 2020-09-07 12:59 |
字幕組雙語(yǔ)原文:MIDAS簡(jiǎn)介:圖形異常檢測(cè)的最新模型
英語(yǔ)原文:MIDAS: A State-of-the-Art Model for Anomaly Detection in Graphs
翻譯:雷鋒字幕組(yhfwww)
在機(jī)器學(xué)習(xí)中,諸如自動(dòng)車輛、GANs和人臉識(shí)別等熱門話題常常占據(jù)媒體的大部分注意力。然而,數(shù)據(jù)科學(xué)家正在努力解決的另一個(gè)同樣重要的問(wèn)題----異常檢測(cè)。從網(wǎng)絡(luò)安全到金融欺詐,異常檢測(cè)有助于保護(hù)企業(yè)、個(gè)人和在線社區(qū)。為了幫助改進(jìn)異常檢測(cè),研究人員開(kāi)發(fā)了一種稱為 MIDAS 的新方法。
在新加坡國(guó)立大學(xué),博士生Siddharth Bhatia和他的團(tuán)隊(duì)開(kāi)發(fā)了 MIDAS ,這是一種新的異常檢測(cè)方法,在速度和精確度上都優(yōu)于基線方法。
MIDAS是基于微聚類的邊緣(Edge)流異常檢測(cè)器。顧名思義,MIDAS 可以檢測(cè)到微聚類異?;蛲蝗怀霈F(xiàn)的一組可疑的相似邊緣。MIDAS 的一個(gè)主要優(yōu)點(diǎn)是它能夠?qū)崟r(shí)檢測(cè)這些異常,其速度比現(xiàn)有的最先進(jìn)的模型快很多倍。
簡(jiǎn)單地說(shuō),異常檢測(cè)是一種尋找模式或異常值的實(shí)踐,這些模式或異常值偏離了您期望在數(shù)據(jù)集中看到的內(nèi)容。它可以幫助我們發(fā)現(xiàn)和消除有害內(nèi)容。Siddharth說(shuō):“圖的異常檢測(cè)是在無(wú)數(shù)系統(tǒng)中發(fā)現(xiàn)可疑行為的關(guān)鍵問(wèn)題,其中一些系統(tǒng)包括入侵檢測(cè)、虛假評(píng)級(jí)和財(cái)務(wù)欺詐?!?/p>
這項(xiàng)技術(shù)可以幫助Twitter和Facebook等社交網(wǎng)絡(luò)檢測(cè)用于垃圾郵件和網(wǎng)絡(luò)釣魚(yú)的虛假個(gè)人資料。它甚至可以用來(lái)幫助調(diào)查人員識(shí)別網(wǎng)上性侵犯者。Siddharth說(shuō):“使用MIDAS,我們可以在動(dòng)態(tài)(時(shí)間演化)圖中找到不規(guī)則的邊和節(jié)點(diǎn)。在Twitter和Facebook中,tweet和message網(wǎng)絡(luò)可以看作是一個(gè)時(shí)間演化的圖,我們可以通過(guò)發(fā)現(xiàn)這些圖中的異常邊和節(jié)點(diǎn)來(lái)發(fā)現(xiàn)惡意消息和偽造的概要文件。”
異常檢測(cè)的一些其他常見(jiàn)用例包括:
垃圾郵件過(guò)濾器
信用卡欺詐檢測(cè)
數(shù)據(jù)集預(yù)處理
網(wǎng)絡(luò)安全
社交媒體
內(nèi)容適當(dāng)檢測(cè)
Siddharth說(shuō):“異常檢測(cè)是一個(gè)經(jīng)過(guò)充分研究的問(wèn)題,大多數(shù)建議的方法都集中在靜態(tài)圖上。然而,許多真實(shí)世界的圖形本質(zhì)上是動(dòng)態(tài)的,基于靜態(tài)連接的方法可能會(huì)忽略圖形和異常的時(shí)間特性?!?/p>
MIDAS解決了實(shí)時(shí)檢測(cè)異常的需要,以便盡快開(kāi)始恢復(fù)并減少惡意活動(dòng)(如欺詐性信用卡購(gòu)買)的影響。
Siddharth解釋:"此外,由于頂點(diǎn)的數(shù)目會(huì)隨著邊流的處理而增加,因此我們需要一種在圖大小上使用恒定內(nèi)存的算法。此外,許多應(yīng)用程序中的欺詐或異常事件發(fā)生在微群集或突然到達(dá)的可疑相似邊緣組中,例如網(wǎng)絡(luò)流量數(shù)據(jù)中的拒絕服務(wù)攻擊和鎖步行為。"
Siddharth說(shuō):“通過(guò)使用原則性的假設(shè)檢驗(yàn)框架,MIDAS提供了假陽(yáng)性概率的理論界限,而早期的方法沒(méi)有提供這種界限?!?/p>
Siddharth和他的同事展示了MIDAS在社會(huì)網(wǎng)絡(luò)安全和入侵檢測(cè)任務(wù)中的潛力。
他們使用以下數(shù)據(jù)集進(jìn)行異常檢測(cè):
Darpa入侵檢測(cè)(450萬(wàn)IP-IP通信)
Twitter安全數(shù)據(jù)集(2014年260萬(wàn)條與安全事件相關(guān)的推文)
Twitter世界杯數(shù)據(jù)集(2014年足球世界杯期間170萬(wàn)條推文)
為了比較MIDAS的性能,團(tuán)隊(duì)查看了以下基線:
RHSS
SEDANSPOT
然而,由于RHSS在Darpa數(shù)據(jù)集上的AUC測(cè)量值較低,為0.17,研究小組通過(guò)與SEDANSPOT的比較來(lái)測(cè)量準(zhǔn)確性、運(yùn)行時(shí)間和實(shí)際有效性。
MIDAS檢測(cè)微聚類異常的準(zhǔn)確率高達(dá)48%,比當(dāng)前的基線方法快644倍。
Siddharth說(shuō):“我們的實(shí)驗(yàn)結(jié)果表明,MIDAS的準(zhǔn)確率(在AUC方面)比基線方法高出42%-48%,此外,MIDAS處理數(shù)據(jù)的速度比基線方法快162-644倍?!?/p>
“我們已經(jīng)將MIDAS擴(kuò)展到M-Stream:快速流多方面組異常檢測(cè),”Siddharth說(shuō)?!霸贛-Stream中,我們檢測(cè)具有分類屬性和數(shù)值屬性的多方面數(shù)據(jù)的異常?!?/p>
Siddharth和他的團(tuán)隊(duì)說(shuō),M-Stream在精確度和運(yùn)行時(shí)間方面也優(yōu)于一些基線,包括流行的Sklearn算法,如隔離林和局部離群因子。然而,他們?cè)贛-Stream上的工作目前正在審查中。
“考慮到MIDAS的性能,我們認(rèn)為它將成為一種新的基線方法,對(duì)異常檢測(cè)非常有用,”Siddharth說(shuō)?!按送?,探索MIDAS如何在其他應(yīng)用程序中發(fā)揮作用也很有趣?!?/p>
如果你有興趣了解更多關(guān)于邁達(dá)斯的知識(shí),請(qǐng)查閱Siddharth的論文。您也可以在Github上下載代碼和數(shù)據(jù)集。
雷鋒字幕組是一個(gè)由 AI 愛(ài)好者組成的翻譯團(tuán)隊(duì),匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新的見(jiàn)解。
團(tuán)隊(duì)成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運(yùn)營(yíng)、IT咨詢?nèi)?、在校師生;志愿者們?lái)自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。