超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

本文作者：奕欣

2018-08-21 17:21

專題：KDD 2018

導(dǎo)語：超大規(guī)模圖計算在大數(shù)據(jù)公司發(fā)揮著越來越重要的作用，尤其是以深度學(xué)習(xí)和圖計算結(jié)合的大規(guī)模圖表征為代表的系列算法。

雷鋒網(wǎng) AI 科技評論：本文為阿里巴巴提供的 KDD 2018 解讀稿件。這一事件在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項(xiàng)目「AI 影響因子」中有相應(yīng)加分。

過去 30 年，隨著高質(zhì)量實(shí)驗(yàn)技術(shù)和互聯(lián)網(wǎng)高速連接的出現(xiàn)，越來越大量的數(shù)據(jù)已經(jīng)可以自動化的生產(chǎn)和傳輸。隨之而來是，工業(yè)界、學(xué)術(shù)界、甚至個人都必須面對大型數(shù)據(jù)處理的挑戰(zhàn)，如何從這些大量高維異構(gòu)的數(shù)據(jù)中挖掘有價值的信息，一直是數(shù)據(jù)挖掘從業(yè)人員們在解決的問題。「數(shù)據(jù)挖掘」，通常也為「數(shù)據(jù)庫中的知識發(fā)現(xiàn)」，是一個充分利用各種統(tǒng)計、機(jī)器學(xué)習(xí)、人工智能模型和與之相適應(yīng)的計算平臺，去試圖自動解釋大型數(shù)據(jù)集的一個跨領(lǐng)域交叉學(xué)科。KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 正是這個領(lǐng)域的頂級會議。從實(shí)際數(shù)據(jù)和與之相關(guān)的業(yè)務(wù)以及 KDD 被接收的文章，我們可以總結(jié)出數(shù)據(jù)挖掘的幾個比較重要的發(fā)展趨勢：

? 多模態(tài)數(shù)據(jù)挖掘：隨著技術(shù)可以更加有效地從多種渠道收集數(shù)據(jù)，比如音頻、視頻、文字、圖像等，這也是現(xiàn)在越來越被重視的一個方向，而數(shù)據(jù)本身也更更加有效的以各種方式進(jìn)行存儲。如何進(jìn)行跨領(lǐng)域的有效建模，比如多任務(wù)學(xué)習(xí) (multi-task learning)，遷移學(xué)習(xí) (transfer learning)，強(qiáng)化學(xué)習(xí)（reinforcement learning）等，都是重點(diǎn)的發(fā)展模型。

? 全域數(shù)據(jù)挖掘：該方法涉及從移動設(shè)備和 IoT 設(shè)備等挖掘數(shù)據(jù)以獲得關(guān)于個人的信息。盡管在這種類型中存在諸如復(fù)雜性、隱私性、成本等的若干挑戰(zhàn)，但是該方法在各種行業(yè)中具有很大的機(jī)會，特別是在研究人機(jī)交互方面。

? 分布式數(shù)據(jù)挖掘：這種類型的數(shù)據(jù)挖掘越來越受歡迎，因?yàn)樗婕巴诰虼鎯υ诓煌疚恢没虿煌M織的大量信息，并且任何的算法也已經(jīng)很難在單機(jī)版對全網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練和推理。此外適應(yīng)度更高的算法也可以用于從不同位置提取數(shù)據(jù)，并根據(jù)它們提供適當(dāng)?shù)囊娊夂蛨蟾妗?/p>

? 時空數(shù)據(jù)挖掘：這是一種新的趨勢類型的數(shù)據(jù)挖掘，其包括從有周期性和季節(jié)性趨勢的環(huán)境，天文和地理數(shù)據(jù)中提取信息，其中還包括從外太空獲取的圖像。這種類型的數(shù)據(jù)挖掘可以揭示諸如距離和拓?fù)涞母鱾€方面，其主要用于動態(tài)的地理信息系統(tǒng)和其他導(dǎo)航應(yīng)用，這種做法也有助于分析在正常系列事件之外發(fā)生的隨機(jī)事件。與我們密切相關(guān)的問題也是越來越普及，比如新零售，如何有效結(jié)合動態(tài)的線上線下數(shù)據(jù)對訪問顧客的購買模式和行為進(jìn)行建模，就是一個非常有挑戰(zhàn)的時空數(shù)據(jù)模型問題。

? 圖計算模型在大數(shù)據(jù)公司，尤其是 IT 公司是非常流行的一大類模型，因?yàn)槭呛芏鄬?shí)際問題的最直接的解決方法。圖計算大致可以分為同構(gòu)圖（homogeneous graph）和異構(gòu)圖（heterogeneous graph），后者是在節(jié)點(diǎn)或者邊的種類大于等于 2 的情況下。此外知識圖譜也是異構(gòu)圖中的一種重要應(yīng)用，即一種基于語義學(xué)的圖模型（a semantic graphical model）。除了了傳統(tǒng)的圖計算模型，如大家熟知的 LPA、 Random Walk 及各種變形、CC 等，隨著深度學(xué)習(xí)的大量成功落地，Graph Embedding 也變得越來越流行。簡單說來，Graph Embedding 也是通過深度學(xué)習(xí)模型對節(jié)點(diǎn)或者邊進(jìn)行 feature engineering。近幾年，隨著數(shù)據(jù)的多樣化，數(shù)據(jù)量的大幅度提升和算力的突破性進(jìn)展，圖計算的發(fā)展和應(yīng)用有井噴之勢，各大公司也相應(yīng)推出圖計算平臺，例如 Google Pregel， Facebook Giraph，騰訊星圖，華為 GES 等。

其中超大規(guī)模圖數(shù)據(jù)挖掘也可以認(rèn)為是前面幾個趨勢的一個匯總，也將是未來 3~5 年年數(shù)據(jù)挖掘的一個大的集中爆發(fā)點(diǎn)。比如 DeepMind、谷歌大腦、MIT 等 27 位作者最近推出重磅論文，表示單純的深度學(xué)習(xí)已經(jīng)成熟，而基于圖計算的深度學(xué)習(xí)將端到端學(xué)習(xí)與歸納推理相結(jié)合，有望解決深度學(xué)習(xí)無法進(jìn)行關(guān)系推理的問題。超大規(guī)模圖計算在大數(shù)據(jù)公司發(fā)揮著越來越重要的作用，尤其是以深度學(xué)習(xí)和圖計算結(jié)合的大規(guī)模圖表征為代表的系列算法。

超大規(guī)模圖計算在大數(shù)據(jù)公司發(fā)揮著越來越重要的作用，尤其是以深度學(xué)習(xí)和圖計算結(jié)合的大規(guī)模圖表征為代表的系列算法在阿里的諸多業(yè)務(wù)場景都取得了階段性成果。阿里巴巴生態(tài)體系的數(shù)據(jù)是極其豐富多樣的，涵蓋著從購物、出行到娛樂、支付等各個方面信息。比如個性化推薦系統(tǒng)作為一種信息過濾的重要手段，可以依據(jù)我們的習(xí)慣和愛好推薦合適的商品或者服務(wù)，但是傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性、冷啟動和信息重復(fù)性的問題，而知識圖譜作為大規(guī)模圖表征的一類重要模型正在成為一種新興類型的推薦輔助信息，可以將自然人的全域信息有效的結(jié)合起來，真正挖掘、理解每個人的需求，在每個業(yè)務(wù)域推出消費(fèi)者真正感興趣的潛在商品。我們正在致力于研發(fā)新一代推薦系統(tǒng)，可以高效的對于超過幾十億節(jié)點(diǎn)，千億的邊進(jìn)行推理分析。基于這個挑戰(zhàn)，我們正竭力力尋找能夠在信息檢索、分布式計算、大規(guī)模系統(tǒng)設(shè)計、機(jī)器學(xué)習(xí)、人工智能、自然語言處理等相關(guān)領(lǐng)域帶來新鮮理念的工程師和科學(xué)家。對于這個課題感興趣的同學(xué)歡迎和筆者進(jìn)行更深入討論 (yang.yhx@alibaba-inc.com)。

下面我們就會具體介紹一下我們最近取得的一些成果和 KDD 接收文章，包括：

fraud detection（SPARC: Self-Paced Network Representation for Few-Shot Rare Category Characterization）；recommendation（Interactive Paths Embedding for Semantic Proximity Search on Heterogeneous Graphs）；entity resolution (Mobile Access Record Resolution on Large-Scale Identifier-Linkage Graphs) with deep model interpretations (Adversarial Detection with Model Interpretation)。

1. 天才的 SPARC: 阿里巴巴在罕見的分類分析的進(jìn)展

在網(wǎng)絡(luò)平臺上，稀有數(shù)據(jù)通常是最有價值的。罕見的類別分析對于防止計算機(jī)網(wǎng)絡(luò)入侵，發(fā)現(xiàn)社交媒體上的熱門話題以及檢測欺詐性在線交易至關(guān)重要。但是，找到這些數(shù)據(jù)可能會很困難。就像大海撈針中的諺語一樣，它們通常隱藏在正常數(shù)據(jù)點(diǎn)之間并且與正常數(shù)據(jù)點(diǎn)不可分割，并且標(biāo)記罕見的類別示例非常昂貴。為了有效地分析數(shù)據(jù)集中的罕見類別，算法必須是快速學(xué)習(xí)者。阿里巴巴的技術(shù)團(tuán)隊(duì)與亞利桑那州立大學(xué)和騰訊醫(yī)學(xué)人工智能實(shí)驗(yàn)室合作，創(chuàng)建了 SPARC，這是一個自定進(jìn)度的框架，以互利的方式逐步學(xué)習(xí)罕見的面向類別的網(wǎng)絡(luò)表示和表征模型。

? 按照自己的節(jié)奏學(xué)習(xí)

SPARC 的靈感來自課程學(xué)習(xí)。課程學(xué)習(xí)范式模仿人類的認(rèn)知過程：基礎(chǔ)模型從任務(wù)的簡單方面訓(xùn)練到基于預(yù)定課程的更難的方面。

雖然這個概念已經(jīng)應(yīng)用于許多不同的情況，但試錯設(shè)計很難在現(xiàn)實(shí)世界中應(yīng)用。然而，一種新的學(xué)習(xí)范式通過使用自定進(jìn)度的調(diào)節(jié)器最小化損失函數(shù)來自動學(xué)習(xí)課程。這被稱為自定進(jìn)度學(xué)習(xí)。研究小組建立在這種自定進(jìn)度學(xué)習(xí)的理念之上，將其應(yīng)用于稀有類別分析的場景，缺少標(biāo)記的例子，以便逐步并同時學(xué)習(xí)稀有類別嵌入表示和表征模型。SPARC 同時學(xué)習(xí)圖形嵌入并以互利的方式預(yù)測稀有類別示例。該框架能夠在給定網(wǎng)絡(luò)（例如不同網(wǎng)絡(luò)大?。┲袑Σ黄胶忸惓蓡T資格進(jìn)行建模。SPARC 能夠從少量標(biāo)記的稀有類別示例中學(xué)習(xí)，從而最大限度地降低標(biāo)簽成本。此外，使用 SPARC 的面向類別的表示能夠在嵌入空間中廣泛地分離多數(shù)類和少數(shù)類，這些類在網(wǎng)絡(luò)拓?fù)浜吞卣鞣矫媸遣豢煞指畹摹?/p>

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

SPARC 自己節(jié)奏的模型示意圖

? 將 SPARC 置于行動中

為了測試 SPARC 在該領(lǐng)域的有效性，研究人員收集了來自書目協(xié)作網(wǎng)絡(luò)，NLP 網(wǎng)絡(luò)和社交網(wǎng)絡(luò)的數(shù)據(jù)集。該算法按照以下標(biāo)準(zhǔn)與兩個無監(jiān)督網(wǎng)絡(luò)嵌入算法 DeepWalk 和 LINE 以及另一個半監(jiān)督框架 PLANETOID 進(jìn)行了比較：分類準(zhǔn)確性，發(fā)現(xiàn)的稀有類別示例的百分比和正在檢索的真實(shí)罕見示例的比率。

在大多數(shù)情況下，SPARC 在所有數(shù)據(jù)集和評估指標(biāo)上的表現(xiàn)優(yōu)于競爭最先進(jìn)的方法。雖然半監(jiān)督嵌入網(wǎng)絡(luò)在分離類別時表現(xiàn)優(yōu)于無監(jiān)督方法，但 SPARC 在聚類罕見示例方面表現(xiàn)優(yōu)異，并且能夠僅使用一個標(biāo)記為罕見類別的示例進(jìn)行訓(xùn)練。此外，SPARC 更強(qiáng)大，誤差小于比較方法。

全文地址：http://www.kdd.org/kdd2018/accepted-papers/view/sparc-self-paced-network-representation-for-few-shot-rare-category-characte

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

由 SPARC 和三個競爭框架提取的網(wǎng)絡(luò)布局可視化

2. 誰知道誰：用交互式路徑嵌入正確的人

Web 平臺最吸引人的功能之一是用戶與他人聯(lián)系的能力。例如，在社交媒體上，用戶甚至可能不必在平臺推薦新連接之前主動搜索朋友。在這些網(wǎng)絡(luò)平臺的表面下面是用戶之間龐大的連接網(wǎng)絡(luò)，并且該網(wǎng)絡(luò)的大部分依賴于「語義鄰近搜索」：將網(wǎng)絡(luò)中的對象作為查詢并根據(jù)語義關(guān)系對其他對象進(jìn)行排名。語義鄰近搜索查看諸如位置，就業(yè)地點(diǎn)和學(xué)校等特征，以確定通過這些連接隱含的語義關(guān)系。從那里，搜索將用戶作為查詢并詢問哪些其他用戶可能是鄰居，同事或同學(xué)，相應(yīng)地對他們進(jìn)行排名。然后，這些排名用于支持諸如社交媒體上的推薦連接，參考書目網(wǎng)絡(luò)上的顧問/建議者連接以及在電子商務(wù)平臺上鏈接用戶身份等功能。

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

在具有大型用戶基礎(chǔ)的網(wǎng)站（例如 Facebook）上，如上所述的異構(gòu)圖形可能會很快變得復(fù)雜

然而，語義鄰近搜索并不完美。異構(gòu)列表上的語義關(guān)系并不總是明確的，并且對象之間可能缺少鏈接。先前對語義接近度的研究已經(jīng)嘗試測量與連接查詢對象和目標(biāo)對象的路徑的語義接近度。但是，這些路徑在建模中是弱耦合的，每個路徑都是單獨(dú)處理的。它們的輸出僅在最后階段匯總，限制了模型形成對象之間相互依賴關(guān)系的完整畫面的能力。阿里巴巴的技術(shù)團(tuán)隊(duì)與來自浙江大學(xué)和新加坡高級數(shù)字科學(xué)中心的研究人員合作，開發(fā)了交互式路徑嵌入（IPE），以更強(qiáng)地耦合語義鄰近搜索路徑，找到用戶之間的聯(lián)系，這些聯(lián)系可能會被當(dāng)前基線忽視。

? IPE 模型的建立

阿里巴巴的研究團(tuán)隊(duì)介紹了交互路徑的概念，同時處理多條路徑并在它們之間添加依賴關(guān)系。結(jié)果，這些路徑被認(rèn)為是強(qiáng)耦合的。然后將這些交互式路徑嵌入到低維向量中，該向量可以捕獲用戶之間的語義關(guān)系的全部范圍。

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

IPE 框架的模型

從那里開始，研究人員利用了一種無循環(huán)的改組機(jī)制。不希望圖形結(jié)構(gòu)中的循環(huán)，因?yàn)樗鼈兪沟脙蓚€節(jié)點(diǎn)更難以彼此到達(dá)。這種機(jī)制改變了路徑的順序，以消除不同的循環(huán)并最大化路徑效率。然后，門控循環(huán)單元（GRU）架構(gòu)嵌入交互路徑，并允許每個 GRU 模擬來自其他 GRU 的相互依賴性。最后，交互路徑結(jié)構(gòu)嵌入輸出被聚合為單個向量，然后可以用于估計語義關(guān)系接近度。

? IPE 在實(shí)際中的使用

為了測試 IPE 在該領(lǐng)域的有效性，阿里巴巴的技術(shù)團(tuán)隊(duì)尋找不同類型的異構(gòu)網(wǎng)絡(luò)，如 LinkedIn，F(xiàn)acebook，DBLP 和淘寶。在實(shí)驗(yàn)中，IPE 和其他幾個語義用戶搜索基線的任務(wù)是根據(jù)每個網(wǎng)絡(luò)特有的特征集定義不同類型的關(guān)系。研究人員為每個測試查詢用戶和每個所需的語義關(guān)系構(gòu)建了理想的排名。他們將這種理想排名與各種最先進(jìn)的語義用戶搜索算法生成的排名進(jìn)行了比較。在所有這些測試中，IPE 不僅在競爭基線方面表現(xiàn)優(yōu)異，而且在自身的降級版本方面也表現(xiàn)優(yōu)異，通常顯著。這驗(yàn)證了交互路徑結(jié)構(gòu)，并為擴(kuò)展 IPE 以處理異構(gòu)網(wǎng)絡(luò)中的屬性和動態(tài)以進(jìn)行語義鄰近搜索打開了大門。

全文地址：http://www.kdd.org/kdd2018/accepted-papers/view/interactive-paths-embedding-for-semantic-proximity-search-on-heterogeneous-

3. 通過你的手機(jī)可以對你做人物畫像嗎？

電子商務(wù)時代正在見證移動互聯(lián)網(wǎng)用戶的快速增長。主要的電子商務(wù)公司現(xiàn)在每天都會看到數(shù)十億的移動訪問實(shí)例，并且隱藏在這些記錄中的是有價值的用戶行為特征，例如購物偏好和瀏覽模式。但是，為了從龐大的數(shù)據(jù)集中提取此信息，需要將記錄鏈接到相應(yīng)的移動設(shè)備，這一過程稱為移動訪問記錄解析（MARR）。MARR 面臨兩大挑戰(zhàn)：

1. 訪問記錄中的設(shè)備標(biāo)識符和其他屬性可能缺失或不可靠。

2. 數(shù)據(jù)集包含數(shù)百萬臺設(shè)備的數(shù)十億訪問記錄。

目前，還沒有開發(fā)出現(xiàn)有方法來解決如此大規(guī)模使用移動設(shè)備標(biāo)識符的問題。

? 我們可能不知道你在用什么設(shè)備

根據(jù)國際電信聯(lián)盟（ITU）的一份新報告，2017 年全球移動互聯(lián)網(wǎng)用戶（非用戶）數(shù)量達(dá)到 77.4 億。隨著移動電話取代臺式電腦成為最廣泛使用的數(shù)字平臺，移動用戶偏好的特征他們的訪問記錄中的行為模式變得非常重要。與傳統(tǒng)的博客相比，移動訪問記錄主要依賴于 cookie 來跟蹤用戶行為，因此可以更清晰地了解訪問記錄中具有各種 ID 的互聯(lián)網(wǎng)用戶。這些 ID 包括：

1. 國際移動設(shè)備身份（IMEI）- 用于識別設(shè)備的唯一標(biāo)識符。

2. 國際移動用戶識別碼（IMSI）- 用于識別存儲在 SIM 卡中的蜂窩網(wǎng)絡(luò)中的用戶。

3. UserTrack 設(shè)備 IDentity（UTDID）。

IMEI 和 IMSI 分別是一個智能手機(jī)和手機(jī)號碼的標(biāo)識符。另一方面，UTDID 與這兩個基于硬件的標(biāo)識符完全不同，因?yàn)樗砂⒗锇桶停ㄖ袊目鐕娮由虅?wù)公司）生成和使用，用于設(shè)備識別。利用這些 ID，可以將訪問記錄映射到相應(yīng)的移動電話或應(yīng)用程序，從而生成更高質(zhì)量的用戶配置文件。將訪問記錄映射到移動電話或應(yīng)用程序似乎是一件簡單的事情，因?yàn)榭梢允褂弥T如 IMEI，IMSI 和 UTDID 之類的 ID 來唯一地識別設(shè)備和應(yīng)用程序。但是，從實(shí)際應(yīng)用中收集的數(shù)據(jù)遠(yuǎn)非完美。將丟失屬性值，噪聲（有問題和誤導(dǎo)性）ID 和 ID 轉(zhuǎn)換問題。ID Shift 轉(zhuǎn)換的一種方式是當(dāng)設(shè)備在安裝新 SIM 卡時獲得新的 IMSI。

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

我們的移動訪問記錄中有大量數(shù)據(jù)

? 讓我們的設(shè)備自己發(fā)聲

阿里巴巴技術(shù)團(tuán)隊(duì)觀察到，訪問記錄中的一個或兩個 ID 的 ID 轉(zhuǎn)換可能會不時發(fā)生，但很少發(fā)生在所有三個 ID 中。受此觀察的啟發(fā)，他們使用三個 ID（IMEI，IMSI，UTDID）的組合（他們稱之為「IDSET」）來可靠地識別來自特定移動設(shè)備的訪問記錄。上面給出了 IDSET 的示例記錄由 IDSET 標(biāo)識，即 IMEI，IMSI 和 UTDID 的組合?；?IDSET 的概念，他們引入了移動訪問記錄解決（MARR）問題。MARR 問題的目的是識別每個訪問記錄的物理設(shè)備，因?yàn)槊總€訪問記錄由一個特定的移動設(shè)備生成。該團(tuán)隊(duì)的目標(biāo)是根據(jù)設(shè)備對訪問記錄進(jìn)行分組，該設(shè)備可用于為設(shè)備用戶生成配置文件?？紤]到數(shù)據(jù)集的龐大規(guī)模和較差的數(shù)據(jù)質(zhì)量主要是由于 ID 轉(zhuǎn)移問題，MARR 是一個非常具有挑戰(zhàn)性的問題。因此，該團(tuán)隊(duì)還提出了一個稀疏標(biāo)識符鏈接圖（SPI-Graph），并附帶豐富的移動設(shè)備分析數(shù)據(jù)，以準(zhǔn)確地將移動訪問記錄與設(shè)備進(jìn)行匹配（當(dāng)數(shù)據(jù)集中的某些預(yù)期值丟失時，數(shù)據(jù)被視為「稀疏」，這是一般大規(guī)模數(shù)據(jù)分析中的常見現(xiàn)象）。到目前為止，大規(guī)模實(shí)際數(shù)據(jù)集的廣泛實(shí)驗(yàn)結(jié)果驗(yàn)證了團(tuán)隊(duì)算法的有效性和效率。這些結(jié)果還意味著團(tuán)隊(duì)現(xiàn)在希望調(diào)查他們?nèi)绾芜M(jìn)一步將特定設(shè)備的移動訪問記錄分組到訪問會話中，從而更好地表征用戶配置文件。

全文地址：http://www.kdd.org/kdd2018/accepted-papers/view/mobile-access-record-resolution-on-large-scale-identifier-linkage-graphs

4. 了解你的對手：阿里巴巴如何培養(yǎng)更智能的在線欺詐探測器

隨著越來越多的實(shí)際應(yīng)用程序，機(jī)器學(xué)習(xí)（ML）系統(tǒng)最近成為一種有前途的在線欺詐檢測工具。然而，在大多數(shù) ML 任務(wù)處理固定數(shù)據(jù)集的情況下，欺詐檢測對能夠在暴露時能夠適應(yīng)的智能人類行為者起作用，這意味著 ML 模型在移位數(shù)據(jù)集中易于變得靜止。以前建立更能抵抗變化對手的探測器的努力依賴于諸如分類和特征識別增強(qiáng)，死記硬背對抗訓(xùn)練和深度神經(jīng)網(wǎng)絡(luò)應(yīng)用之類的方法。每一個都有其自身的局限性，但一個主要的反復(fù)出現(xiàn)的問題是「黑匣子」難題。研究人員通常無法獲取有關(guān)這些方法的內(nèi)部運(yùn)作的詳細(xì)信息，否認(rèn)他們可以幫助他們進(jìn)一步發(fā)展這些方法的重要見解?，F(xiàn)在，阿里巴巴的研究人員已經(jīng)開發(fā)了一種對抗訓(xùn)練方法，該方法基于對 ML 模型運(yùn)作的研究，運(yùn)用其機(jī)制的知識來產(chǎn)生更強(qiáng)大的對手，供他們訓(xùn)練。除了提高探測器的批發(fā)穩(wěn)健性之外，從最少的計算資源中產(chǎn)生具有挑戰(zhàn)性的新對手的努力有助于揭示真正的欺詐犯罪者在被發(fā)現(xiàn)后可能從給定位置適應(yīng)的方式。建立在垃圾郵件發(fā)送者基本上是人類代理人的前提下，他們在適應(yīng)時花費(fèi)的資源有限，該方法展示了如何根據(jù)先前攻擊的定位來預(yù)測未來攻擊的「方向」。

? 檢查黑箱

ML 欺詐檢測系統(tǒng)依靠分類器來過濾內(nèi)容，將一些垃圾郵件發(fā)送者實(shí)例視為高可信度，將其他實(shí)例視為低可信度實(shí)例，具體取決于它們被正確標(biāo)記的概率。當(dāng)大量垃圾郵件發(fā)送者實(shí)體落入其低信任區(qū)域時，分類器變得容易受到攻擊，因?yàn)榧词箤]件發(fā)送者這樣的易于逃避（EP）樣本的微小變化也可能導(dǎo)致其錯誤分類為合法內(nèi)容。出于研究目的，阿里巴巴團(tuán)隊(duì)將這些 EP 樣品作為「種子」處理，用于生成強(qiáng)大的對抗樣品，用于探測器培訓(xùn)。然后，他們試圖確定種子最容易受到影響的方向，以逃避分類機(jī)制，從而以最小的努力繞過檢測。利用這些發(fā)現(xiàn)，他們生成的對手非常模仿真實(shí)的惡意行為，減少了有效訓(xùn)練更強(qiáng)檢測機(jī)制所需的攻擊者總數(shù)。通過使用 ML 機(jī)制的知識來分析其對沿其邊界引入的每個對手的響應(yīng)，該團(tuán)隊(duì)派生出特定于每個實(shí)例的本地解釋器功能。通過這些信息，他們更新了整體機(jī)制，以更好地考慮試驗(yàn)期間引入的個別垃圾郵件威脅的演變。

超大規(guī)模圖計算在阿里巴巴的應(yīng)用都有哪些？四篇KDD oral論文搶先看（附論文下載）| KDD 2018

新系統(tǒng)識別易于逃避的樣本，分析潛在的逃避策略，并相應(yīng)地更新檢測模型

基于對 Yelp Review 和 Twitter 帖子數(shù)據(jù)的實(shí)驗(yàn)，仔細(xì)的對手選擇證明在產(chǎn)生更具挑戰(zhàn)性的攻擊模擬方面是有效的，在試驗(yàn)期間提供了關(guān)于分類器中的弱點(diǎn)的大量信息。然后，這些研究結(jié)果被用于為各種攻擊制定有效的防御策略，這些策略可用于加強(qiáng)未來檢測框架的有效性。展望未來，阿里巴巴正在尋求擴(kuò)展其垃圾郵件檢測工作，以處理實(shí)例之間關(guān)系鏈接的高維原始數(shù)據(jù)和數(shù)據(jù)集。

全文地址：http://www.kdd.org/kdd2018/accepted-papers/view/adversarial-detection-with-model-interpretation

點(diǎn)擊本鏈接即可移步至AI研習(xí)社社區(qū)打包下載四篇論文。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。