0
本文作者: 奕欣 | 2018-08-21 17:21 | 專(zhuān)題:KDD 2018 |
雷鋒網(wǎng) AI 科技評(píng)論:本文為阿里巴巴提供的 KDD 2018 解讀稿件。這一事件在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評(píng)論旗下數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」中有相應(yīng)加分。
過(guò)去 30 年,隨著高質(zhì)量實(shí)驗(yàn)技術(shù)和互聯(lián)網(wǎng)高速連接的出現(xiàn),越來(lái)越大量的數(shù)據(jù)已經(jīng)可以自動(dòng)化的生產(chǎn)和傳輸。隨之而來(lái)是,工業(yè)界、學(xué)術(shù)界、甚至個(gè)人都必須面對(duì)大型數(shù)據(jù)處理的挑戰(zhàn),如何從這些大量高維異構(gòu)的數(shù)據(jù)中挖掘有價(jià)值的信息,一直是數(shù)據(jù)挖掘從業(yè)人員們?cè)诮鉀Q的問(wèn)題?!笖?shù)據(jù)挖掘」,通常也為「數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)」,是一個(gè)充分利用各種統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、人工智能模型和與之相適應(yīng)的計(jì)算平臺(tái),去試圖自動(dòng)解釋大型數(shù)據(jù)集的一個(gè)跨領(lǐng)域交叉學(xué)科。KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 正是這個(gè)領(lǐng)域的頂級(jí)會(huì)議。從實(shí)際數(shù)據(jù)和與之相關(guān)的業(yè)務(wù)以及 KDD 被接收的文章,我們可以總結(jié)出數(shù)據(jù)挖掘的幾個(gè)比較重要的發(fā)展趨勢(shì):
? 多模態(tài)數(shù)據(jù)挖掘:隨著技術(shù)可以更加有效地從多種渠道收集數(shù)據(jù),比如音頻、視頻、文字、圖像等,這也是現(xiàn)在越來(lái)越被重視的一個(gè)方向,而數(shù)據(jù)本身也更更加有效的以各種方式進(jìn)行存儲(chǔ)。如何進(jìn)行跨領(lǐng)域的有效建模,比如多任務(wù)學(xué)習(xí) (multi-task learning),遷移學(xué)習(xí) (transfer learning),強(qiáng)化學(xué)習(xí)(reinforcement learning)等,都是重點(diǎn)的發(fā)展模型。
? 全域數(shù)據(jù)挖掘:該方法涉及從移動(dòng)設(shè)備和 IoT 設(shè)備等挖掘數(shù)據(jù)以獲得關(guān)于個(gè)人的信息。盡管在這種類(lèi)型中存在諸如復(fù)雜性、隱私性、成本等的若干挑戰(zhàn),但是該方法在各種行業(yè)中具有很大的機(jī)會(huì),特別是在研究人機(jī)交互方面。
? 分布式數(shù)據(jù)挖掘:這種類(lèi)型的數(shù)據(jù)挖掘越來(lái)越受歡迎,因?yàn)樗婕巴诰虼鎯?chǔ)在不同公司位置或不同組織的大量信息,并且任何的算法也已經(jīng)很難在單機(jī)版對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練和推理。此外適應(yīng)度更高的算法也可以用于從不同位置提取數(shù)據(jù),并根據(jù)它們提供適當(dāng)?shù)囊?jiàn)解和報(bào)告。
? 時(shí)空數(shù)據(jù)挖掘:這是一種新的趨勢(shì)類(lèi)型的數(shù)據(jù)挖掘,其包括從有周期性和季節(jié)性趨勢(shì)的環(huán)境,天文和地理數(shù)據(jù)中提取信息,其中還包括從外太空獲取的圖像。這種類(lèi)型的數(shù)據(jù)挖掘可以揭示諸如距離和拓?fù)涞母鱾€(gè)方面,其主要用于動(dòng)態(tài)的地理信息系統(tǒng)和其他導(dǎo)航應(yīng)用,這種做法也有助于分析在正常系列事件之外發(fā)生的隨機(jī)事件。與我們密切相關(guān)的問(wèn)題也是越來(lái)越普及,比如新零售,如何有效結(jié)合動(dòng)態(tài)的線上線下數(shù)據(jù)對(duì)訪問(wèn)顧客的購(gòu)買(mǎi)模式和行為進(jìn)行建模,就是一個(gè)非常有挑戰(zhàn)的時(shí)空數(shù)據(jù)模型問(wèn)題。
? 圖計(jì)算模型在大數(shù)據(jù)公司,尤其是 IT 公司是非常流行的一大類(lèi)模型,因?yàn)槭呛芏鄬?shí)際問(wèn)題的最直接的解決方法。圖計(jì)算大致可以分為同構(gòu)圖(homogeneous graph)和異構(gòu)圖(heterogeneous graph),后者是在節(jié)點(diǎn)或者邊的種類(lèi)大于等于 2 的情況下。此外知識(shí)圖譜也是異構(gòu)圖中的一種重要應(yīng)用,即一種基于語(yǔ)義學(xué)的圖模型(a semantic graphical model)。除了了傳統(tǒng)的圖計(jì)算模型,如大家熟知的 LPA、 Random Walk 及各種變形、CC 等,隨著深度學(xué)習(xí)的大量成功落地,Graph Embedding 也變得越來(lái)越流行。簡(jiǎn)單說(shuō)來(lái),Graph Embedding 也是通過(guò)深度學(xué)習(xí)模型對(duì)節(jié)點(diǎn)或者邊進(jìn)行 feature engineering。近幾年,隨著數(shù)據(jù)的多樣化,數(shù)據(jù)量的大幅度提升和算力的突破性進(jìn)展,圖計(jì)算的發(fā)展和應(yīng)用有井噴之勢(shì),各大公司也相應(yīng)推出圖計(jì)算平臺(tái),例如 Google Pregel, Facebook Giraph,騰訊星圖,華為 GES 等。
其中超大規(guī)模圖數(shù)據(jù)挖掘也可以認(rèn)為是前面幾個(gè)趨勢(shì)的一個(gè)匯總,也將是未來(lái) 3~5 年年數(shù)據(jù)挖掘的一個(gè)大的集中爆發(fā)點(diǎn)。比如 DeepMind、谷歌大腦、MIT 等 27 位作者最近推出重磅論文,表示單純的深度學(xué)習(xí)已經(jīng)成熟,而基于圖計(jì)算的深度學(xué)習(xí)將端到端學(xué)習(xí)與歸納推理相結(jié)合,有望解決深度學(xué)習(xí)無(wú)法進(jìn)行關(guān)系推理的問(wèn)題。超大規(guī)模圖計(jì)算在大數(shù)據(jù)公司發(fā)揮著越來(lái)越重要的作用,尤其是以深度學(xué)習(xí)和圖計(jì)算結(jié)合的大規(guī)模圖表征為代表的系列算法。
超大規(guī)模圖計(jì)算在大數(shù)據(jù)公司發(fā)揮著越來(lái)越重要的作用,尤其是以深度學(xué)習(xí)和圖計(jì)算結(jié)合的大規(guī)模圖表征為代表的系列算法在阿里的諸多業(yè)務(wù)場(chǎng)景都取得了階段性成果。阿里巴巴生態(tài)體系的數(shù)據(jù)是極其豐富多樣的,涵蓋著從購(gòu)物、出行到娛樂(lè)、支付等各個(gè)方面信息。比如個(gè)性化推薦系統(tǒng)作為一種信息過(guò)濾的重要手段,可以依據(jù)我們的習(xí)慣和愛(ài)好推薦合適的商品或者服務(wù),但是傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性、冷啟動(dòng)和信息重復(fù)性的問(wèn)題,而知識(shí)圖譜作為大規(guī)模圖表征的一類(lèi)重要模型正在成為一種新興類(lèi)型的推薦輔助信息,可以將自然人的全域信息有效的結(jié)合起來(lái),真正挖掘、理解每個(gè)人的需求,在每個(gè)業(yè)務(wù)域推出消費(fèi)者真正感興趣的潛在商品。我們正在致力于研發(fā)新一代推薦系統(tǒng),可以高效的對(duì)于超過(guò)幾十億節(jié)點(diǎn),千億的邊進(jìn)行推理分析?;谶@個(gè)挑戰(zhàn),我們正竭力力尋找能夠在信息檢索、分布式計(jì)算、大規(guī)模系統(tǒng)設(shè)計(jì)、機(jī)器學(xué)習(xí)、人工智能、自然語(yǔ)言處理等相關(guān)領(lǐng)域帶來(lái)新鮮理念的工程師和科學(xué)家。對(duì)于這個(gè)課題感興趣的同學(xué)歡迎和筆者進(jìn)行更深入討論 (yang.yhx@alibaba-inc.com)。
下面我們就會(huì)具體介紹一下我們最近取得的一些成果和 KDD 接收文章,包括:
fraud detection(SPARC: Self-Paced Network Representation for Few-Shot Rare Category Characterization);recommendation(Interactive Paths Embedding for Semantic Proximity Search on Heterogeneous Graphs);entity resolution (Mobile Access Record Resolution on Large-Scale Identifier-Linkage Graphs) with deep model interpretations (Adversarial Detection with Model Interpretation)。
在網(wǎng)絡(luò)平臺(tái)上,稀有數(shù)據(jù)通常是最有價(jià)值的。罕見(jiàn)的類(lèi)別分析對(duì)于防止計(jì)算機(jī)網(wǎng)絡(luò)入侵,發(fā)現(xiàn)社交媒體上的熱門(mén)話題以及檢測(cè)欺詐性在線交易至關(guān)重要。但是,找到這些數(shù)據(jù)可能會(huì)很困難。就像大海撈針中的諺語(yǔ)一樣,它們通常隱藏在正常數(shù)據(jù)點(diǎn)之間并且與正常數(shù)據(jù)點(diǎn)不可分割,并且標(biāo)記罕見(jiàn)的類(lèi)別示例非常昂貴。為了有效地分析數(shù)據(jù)集中的罕見(jiàn)類(lèi)別,算法必須是快速學(xué)習(xí)者。阿里巴巴的技術(shù)團(tuán)隊(duì)與亞利桑那州立大學(xué)和騰訊醫(yī)學(xué)人工智能實(shí)驗(yàn)室合作,創(chuàng)建了 SPARC,這是一個(gè)自定進(jìn)度的框架,以互利的方式逐步學(xué)習(xí)罕見(jiàn)的面向類(lèi)別的網(wǎng)絡(luò)表示和表征模型。
? 按照自己的節(jié)奏學(xué)習(xí)
SPARC 的靈感來(lái)自課程學(xué)習(xí)。課程學(xué)習(xí)范式模仿人類(lèi)的認(rèn)知過(guò)程:基礎(chǔ)模型從任務(wù)的簡(jiǎn)單方面訓(xùn)練到基于預(yù)定課程的更難的方面。
雖然這個(gè)概念已經(jīng)應(yīng)用于許多不同的情況,但試錯(cuò)設(shè)計(jì)很難在現(xiàn)實(shí)世界中應(yīng)用。然而,一種新的學(xué)習(xí)范式通過(guò)使用自定進(jìn)度的調(diào)節(jié)器最小化損失函數(shù)來(lái)自動(dòng)學(xué)習(xí)課程。這被稱(chēng)為自定進(jìn)度學(xué)習(xí)。研究小組建立在這種自定進(jìn)度學(xué)習(xí)的理念之上,將其應(yīng)用于稀有類(lèi)別分析的場(chǎng)景,缺少標(biāo)記的例子,以便逐步并同時(shí)學(xué)習(xí)稀有類(lèi)別嵌入表示和表征模型。SPARC 同時(shí)學(xué)習(xí)圖形嵌入并以互利的方式預(yù)測(cè)稀有類(lèi)別示例。該框架能夠在給定網(wǎng)絡(luò)(例如不同網(wǎng)絡(luò)大?。┲袑?duì)不平衡類(lèi)成員資格進(jìn)行建模。SPARC 能夠從少量標(biāo)記的稀有類(lèi)別示例中學(xué)習(xí),從而最大限度地降低標(biāo)簽成本。此外,使用 SPARC 的面向類(lèi)別的表示能夠在嵌入空間中廣泛地分離多數(shù)類(lèi)和少數(shù)類(lèi),這些類(lèi)在網(wǎng)絡(luò)拓?fù)浜吞卣鞣矫媸遣豢煞指畹摹?/p>
SPARC 自己節(jié)奏的模型示意圖
? 將 SPARC 置于行動(dòng)中
為了測(cè)試 SPARC 在該領(lǐng)域的有效性,研究人員收集了來(lái)自書(shū)目協(xié)作網(wǎng)絡(luò),NLP 網(wǎng)絡(luò)和社交網(wǎng)絡(luò)的數(shù)據(jù)集。該算法按照以下標(biāo)準(zhǔn)與兩個(gè)無(wú)監(jiān)督網(wǎng)絡(luò)嵌入算法 DeepWalk 和 LINE 以及另一個(gè)半監(jiān)督框架 PLANETOID 進(jìn)行了比較:分類(lèi)準(zhǔn)確性,發(fā)現(xiàn)的稀有類(lèi)別示例的百分比和正在檢索的真實(shí)罕見(jiàn)示例的比率。
在大多數(shù)情況下,SPARC 在所有數(shù)據(jù)集和評(píng)估指標(biāo)上的表現(xiàn)優(yōu)于競(jìng)爭(zhēng)最先進(jìn)的方法。雖然半監(jiān)督嵌入網(wǎng)絡(luò)在分離類(lèi)別時(shí)表現(xiàn)優(yōu)于無(wú)監(jiān)督方法,但 SPARC 在聚類(lèi)罕見(jiàn)示例方面表現(xiàn)優(yōu)異,并且能夠僅使用一個(gè)標(biāo)記為罕見(jiàn)類(lèi)別的示例進(jìn)行訓(xùn)練。此外,SPARC 更強(qiáng)大,誤差小于比較方法。
由 SPARC 和三個(gè)競(jìng)爭(zhēng)框架提取的網(wǎng)絡(luò)布局可視化
Web 平臺(tái)最吸引人的功能之一是用戶(hù)與他人聯(lián)系的能力。例如,在社交媒體上,用戶(hù)甚至可能不必在平臺(tái)推薦新連接之前主動(dòng)搜索朋友。在這些網(wǎng)絡(luò)平臺(tái)的表面下面是用戶(hù)之間龐大的連接網(wǎng)絡(luò),并且該網(wǎng)絡(luò)的大部分依賴(lài)于「語(yǔ)義鄰近搜索」:將網(wǎng)絡(luò)中的對(duì)象作為查詢(xún)并根據(jù)語(yǔ)義關(guān)系對(duì)其他對(duì)象進(jìn)行排名。語(yǔ)義鄰近搜索查看諸如位置,就業(yè)地點(diǎn)和學(xué)校等特征,以確定通過(guò)這些連接隱含的語(yǔ)義關(guān)系。從那里,搜索將用戶(hù)作為查詢(xún)并詢(xún)問(wèn)哪些其他用戶(hù)可能是鄰居,同事或同學(xué),相應(yīng)地對(duì)他們進(jìn)行排名。然后,這些排名用于支持諸如社交媒體上的推薦連接,參考書(shū)目網(wǎng)絡(luò)上的顧問(wèn)/建議者連接以及在電子商務(wù)平臺(tái)上鏈接用戶(hù)身份等功能。
在具有大型用戶(hù)基礎(chǔ)的網(wǎng)站(例如 Facebook)上,如上所述的異構(gòu)圖形可能會(huì)很快變得復(fù)雜
然而,語(yǔ)義鄰近搜索并不完美。異構(gòu)列表上的語(yǔ)義關(guān)系并不總是明確的,并且對(duì)象之間可能缺少鏈接。先前對(duì)語(yǔ)義接近度的研究已經(jīng)嘗試測(cè)量與連接查詢(xún)對(duì)象和目標(biāo)對(duì)象的路徑的語(yǔ)義接近度。但是,這些路徑在建模中是弱耦合的,每個(gè)路徑都是單獨(dú)處理的。它們的輸出僅在最后階段匯總,限制了模型形成對(duì)象之間相互依賴(lài)關(guān)系的完整畫(huà)面的能力。阿里巴巴的技術(shù)團(tuán)隊(duì)與來(lái)自浙江大學(xué)和新加坡高級(jí)數(shù)字科學(xué)中心的研究人員合作,開(kāi)發(fā)了交互式路徑嵌入(IPE),以更強(qiáng)地耦合語(yǔ)義鄰近搜索路徑,找到用戶(hù)之間的聯(lián)系,這些聯(lián)系可能會(huì)被當(dāng)前基線忽視。
? IPE 模型的建立
阿里巴巴的研究團(tuán)隊(duì)介紹了交互路徑的概念,同時(shí)處理多條路徑并在它們之間添加依賴(lài)關(guān)系。結(jié)果,這些路徑被認(rèn)為是強(qiáng)耦合的。然后將這些交互式路徑嵌入到低維向量中,該向量可以捕獲用戶(hù)之間的語(yǔ)義關(guān)系的全部范圍。
IPE 框架的模型
從那里開(kāi)始,研究人員利用了一種無(wú)循環(huán)的改組機(jī)制。不希望圖形結(jié)構(gòu)中的循環(huán),因?yàn)樗鼈兪沟脙蓚€(gè)節(jié)點(diǎn)更難以彼此到達(dá)。這種機(jī)制改變了路徑的順序,以消除不同的循環(huán)并最大化路徑效率。然后,門(mén)控循環(huán)單元(GRU)架構(gòu)嵌入交互路徑,并允許每個(gè) GRU 模擬來(lái)自其他 GRU 的相互依賴(lài)性。最后,交互路徑結(jié)構(gòu)嵌入輸出被聚合為單個(gè)向量,然后可以用于估計(jì)語(yǔ)義關(guān)系接近度。
? IPE 在實(shí)際中的使用
為了測(cè)試 IPE 在該領(lǐng)域的有效性,阿里巴巴的技術(shù)團(tuán)隊(duì)尋找不同類(lèi)型的異構(gòu)網(wǎng)絡(luò),如 LinkedIn,F(xiàn)acebook,DBLP 和淘寶。在實(shí)驗(yàn)中,IPE 和其他幾個(gè)語(yǔ)義用戶(hù)搜索基線的任務(wù)是根據(jù)每個(gè)網(wǎng)絡(luò)特有的特征集定義不同類(lèi)型的關(guān)系。研究人員為每個(gè)測(cè)試查詢(xún)用戶(hù)和每個(gè)所需的語(yǔ)義關(guān)系構(gòu)建了理想的排名。他們將這種理想排名與各種最先進(jìn)的語(yǔ)義用戶(hù)搜索算法生成的排名進(jìn)行了比較。在所有這些測(cè)試中,IPE 不僅在競(jìng)爭(zhēng)基線方面表現(xiàn)優(yōu)異,而且在自身的降級(jí)版本方面也表現(xiàn)優(yōu)異,通常顯著。這驗(yàn)證了交互路徑結(jié)構(gòu),并為擴(kuò)展 IPE 以處理異構(gòu)網(wǎng)絡(luò)中的屬性和動(dòng)態(tài)以進(jìn)行語(yǔ)義鄰近搜索打開(kāi)了大門(mén)。
3. 通過(guò)你的手機(jī)可以對(duì)你做人物畫(huà)像嗎?
電子商務(wù)時(shí)代正在見(jiàn)證移動(dòng)互聯(lián)網(wǎng)用戶(hù)的快速增長(zhǎng)。主要的電子商務(wù)公司現(xiàn)在每天都會(huì)看到數(shù)十億的移動(dòng)訪問(wèn)實(shí)例,并且隱藏在這些記錄中的是有價(jià)值的用戶(hù)行為特征,例如購(gòu)物偏好和瀏覽模式。但是,為了從龐大的數(shù)據(jù)集中提取此信息,需要將記錄鏈接到相應(yīng)的移動(dòng)設(shè)備,這一過(guò)程稱(chēng)為移動(dòng)訪問(wèn)記錄解析(MARR)。MARR 面臨兩大挑戰(zhàn):
1. 訪問(wèn)記錄中的設(shè)備標(biāo)識(shí)符和其他屬性可能缺失或不可靠。
2. 數(shù)據(jù)集包含數(shù)百萬(wàn)臺(tái)設(shè)備的數(shù)十億訪問(wèn)記錄。
目前,還沒(méi)有開(kāi)發(fā)出現(xiàn)有方法來(lái)解決如此大規(guī)模使用移動(dòng)設(shè)備標(biāo)識(shí)符的問(wèn)題。
? 我們可能不知道你在用什么設(shè)備
根據(jù)國(guó)際電信聯(lián)盟(ITU)的一份新報(bào)告,2017 年全球移動(dòng)互聯(lián)網(wǎng)用戶(hù)(非用戶(hù))數(shù)量達(dá)到 77.4 億。隨著移動(dòng)電話取代臺(tái)式電腦成為最廣泛使用的數(shù)字平臺(tái),移動(dòng)用戶(hù)偏好的特征他們的訪問(wèn)記錄中的行為模式變得非常重要。與傳統(tǒng)的博客相比,移動(dòng)訪問(wèn)記錄主要依賴(lài)于 cookie 來(lái)跟蹤用戶(hù)行為,因此可以更清晰地了解訪問(wèn)記錄中具有各種 ID 的互聯(lián)網(wǎng)用戶(hù)。這些 ID 包括:
1. 國(guó)際移動(dòng)設(shè)備身份(IMEI)- 用于識(shí)別設(shè)備的唯一標(biāo)識(shí)符。
2. 國(guó)際移動(dòng)用戶(hù)識(shí)別碼(IMSI)- 用于識(shí)別存儲(chǔ)在 SIM 卡中的蜂窩網(wǎng)絡(luò)中的用戶(hù)。
3. UserTrack 設(shè)備 IDentity(UTDID)。
IMEI 和 IMSI 分別是一個(gè)智能手機(jī)和手機(jī)號(hào)碼的標(biāo)識(shí)符。另一方面,UTDID 與這兩個(gè)基于硬件的標(biāo)識(shí)符完全不同,因?yàn)樗砂⒗锇桶停ㄖ袊?guó)的跨國(guó)電子商務(wù)公司)生成和使用,用于設(shè)備識(shí)別。利用這些 ID,可以將訪問(wèn)記錄映射到相應(yīng)的移動(dòng)電話或應(yīng)用程序,從而生成更高質(zhì)量的用戶(hù)配置文件。將訪問(wèn)記錄映射到移動(dòng)電話或應(yīng)用程序似乎是一件簡(jiǎn)單的事情,因?yàn)榭梢允褂弥T如 IMEI,IMSI 和 UTDID 之類(lèi)的 ID 來(lái)唯一地識(shí)別設(shè)備和應(yīng)用程序。但是,從實(shí)際應(yīng)用中收集的數(shù)據(jù)遠(yuǎn)非完美。將丟失屬性值,噪聲(有問(wèn)題和誤導(dǎo)性)ID 和 ID 轉(zhuǎn)換問(wèn)題。ID Shift 轉(zhuǎn)換的一種方式是當(dāng)設(shè)備在安裝新 SIM 卡時(shí)獲得新的 IMSI。
我們的移動(dòng)訪問(wèn)記錄中有大量數(shù)據(jù)
? 讓我們的設(shè)備自己發(fā)聲
阿里巴巴技術(shù)團(tuán)隊(duì)觀察到,訪問(wèn)記錄中的一個(gè)或兩個(gè) ID 的 ID 轉(zhuǎn)換可能會(huì)不時(shí)發(fā)生,但很少發(fā)生在所有三個(gè) ID 中。受此觀察的啟發(fā),他們使用三個(gè) ID(IMEI,IMSI,UTDID)的組合(他們稱(chēng)之為「IDSET」)來(lái)可靠地識(shí)別來(lái)自特定移動(dòng)設(shè)備的訪問(wèn)記錄。上面給出了 IDSET 的示例記錄由 IDSET 標(biāo)識(shí),即 IMEI,IMSI 和 UTDID 的組合?;?IDSET 的概念,他們引入了移動(dòng)訪問(wèn)記錄解決(MARR)問(wèn)題。MARR 問(wèn)題的目的是識(shí)別每個(gè)訪問(wèn)記錄的物理設(shè)備,因?yàn)槊總€(gè)訪問(wèn)記錄由一個(gè)特定的移動(dòng)設(shè)備生成。該團(tuán)隊(duì)的目標(biāo)是根據(jù)設(shè)備對(duì)訪問(wèn)記錄進(jìn)行分組,該設(shè)備可用于為設(shè)備用戶(hù)生成配置文件。考慮到數(shù)據(jù)集的龐大規(guī)模和較差的數(shù)據(jù)質(zhì)量主要是由于 ID 轉(zhuǎn)移問(wèn)題,MARR 是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。因此,該團(tuán)隊(duì)還提出了一個(gè)稀疏標(biāo)識(shí)符鏈接圖(SPI-Graph),并附帶豐富的移動(dòng)設(shè)備分析數(shù)據(jù),以準(zhǔn)確地將移動(dòng)訪問(wèn)記錄與設(shè)備進(jìn)行匹配(當(dāng)數(shù)據(jù)集中的某些預(yù)期值丟失時(shí),數(shù)據(jù)被視為「稀疏」,這是一般大規(guī)模數(shù)據(jù)分析中的常見(jiàn)現(xiàn)象)。到目前為止,大規(guī)模實(shí)際數(shù)據(jù)集的廣泛實(shí)驗(yàn)結(jié)果驗(yàn)證了團(tuán)隊(duì)算法的有效性和效率。這些結(jié)果還意味著團(tuán)隊(duì)現(xiàn)在希望調(diào)查他們?nèi)绾芜M(jìn)一步將特定設(shè)備的移動(dòng)訪問(wèn)記錄分組到訪問(wèn)會(huì)話中,從而更好地表征用戶(hù)配置文件。
隨著越來(lái)越多的實(shí)際應(yīng)用程序,機(jī)器學(xué)習(xí)(ML)系統(tǒng)最近成為一種有前途的在線欺詐檢測(cè)工具。然而,在大多數(shù) ML 任務(wù)處理固定數(shù)據(jù)集的情況下,欺詐檢測(cè)對(duì)能夠在暴露時(shí)能夠適應(yīng)的智能人類(lèi)行為者起作用,這意味著 ML 模型在移位數(shù)據(jù)集中易于變得靜止。以前建立更能抵抗變化對(duì)手的探測(cè)器的努力依賴(lài)于諸如分類(lèi)和特征識(shí)別增強(qiáng),死記硬背對(duì)抗訓(xùn)練和深度神經(jīng)網(wǎng)絡(luò)應(yīng)用之類(lèi)的方法。每一個(gè)都有其自身的局限性,但一個(gè)主要的反復(fù)出現(xiàn)的問(wèn)題是「黑匣子」難題。研究人員通常無(wú)法獲取有關(guān)這些方法的內(nèi)部運(yùn)作的詳細(xì)信息,否認(rèn)他們可以幫助他們進(jìn)一步發(fā)展這些方法的重要見(jiàn)解?,F(xiàn)在,阿里巴巴的研究人員已經(jīng)開(kāi)發(fā)了一種對(duì)抗訓(xùn)練方法,該方法基于對(duì) ML 模型運(yùn)作的研究,運(yùn)用其機(jī)制的知識(shí)來(lái)產(chǎn)生更強(qiáng)大的對(duì)手,供他們訓(xùn)練。除了提高探測(cè)器的批發(fā)穩(wěn)健性之外,從最少的計(jì)算資源中產(chǎn)生具有挑戰(zhàn)性的新對(duì)手的努力有助于揭示真正的欺詐犯罪者在被發(fā)現(xiàn)后可能從給定位置適應(yīng)的方式。建立在垃圾郵件發(fā)送者基本上是人類(lèi)代理人的前提下,他們?cè)谶m應(yīng)時(shí)花費(fèi)的資源有限,該方法展示了如何根據(jù)先前攻擊的定位來(lái)預(yù)測(cè)未來(lái)攻擊的「方向」。
? 檢查黑箱
ML 欺詐檢測(cè)系統(tǒng)依靠分類(lèi)器來(lái)過(guò)濾內(nèi)容,將一些垃圾郵件發(fā)送者實(shí)例視為高可信度,將其他實(shí)例視為低可信度實(shí)例,具體取決于它們被正確標(biāo)記的概率。當(dāng)大量垃圾郵件發(fā)送者實(shí)體落入其低信任區(qū)域時(shí),分類(lèi)器變得容易受到攻擊,因?yàn)榧词箤?duì)垃圾郵件發(fā)送者這樣的易于逃避(EP)樣本的微小變化也可能導(dǎo)致其錯(cuò)誤分類(lèi)為合法內(nèi)容。出于研究目的,阿里巴巴團(tuán)隊(duì)將這些 EP 樣品作為「種子」處理,用于生成強(qiáng)大的對(duì)抗樣品,用于探測(cè)器培訓(xùn)。然后,他們?cè)噲D確定種子最容易受到影響的方向,以逃避分類(lèi)機(jī)制,從而以最小的努力繞過(guò)檢測(cè)。利用這些發(fā)現(xiàn),他們生成的對(duì)手非常模仿真實(shí)的惡意行為,減少了有效訓(xùn)練更強(qiáng)檢測(cè)機(jī)制所需的攻擊者總數(shù)。通過(guò)使用 ML 機(jī)制的知識(shí)來(lái)分析其對(duì)沿其邊界引入的每個(gè)對(duì)手的響應(yīng),該團(tuán)隊(duì)派生出特定于每個(gè)實(shí)例的本地解釋器功能。通過(guò)這些信息,他們更新了整體機(jī)制,以更好地考慮試驗(yàn)期間引入的個(gè)別垃圾郵件威脅的演變。
新系統(tǒng)識(shí)別易于逃避的樣本,分析潛在的逃避策略,并相應(yīng)地更新檢測(cè)模型
基于對(duì) Yelp Review 和 Twitter 帖子數(shù)據(jù)的實(shí)驗(yàn),仔細(xì)的對(duì)手選擇證明在產(chǎn)生更具挑戰(zhàn)性的攻擊模擬方面是有效的,在試驗(yàn)期間提供了關(guān)于分類(lèi)器中的弱點(diǎn)的大量信息。然后,這些研究結(jié)果被用于為各種攻擊制定有效的防御策略,這些策略可用于加強(qiáng)未來(lái)檢測(cè)框架的有效性。展望未來(lái),阿里巴巴正在尋求擴(kuò)展其垃圾郵件檢測(cè)工作,以處理實(shí)例之間關(guān)系鏈接的高維原始數(shù)據(jù)和數(shù)據(jù)集。
全文地址:http://www.kdd.org/kdd2018/accepted-papers/view/adversarial-detection-with-model-interpretation
點(diǎn)擊本鏈接即可移步至AI研習(xí)社社區(qū)打包下載四篇論文。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章