0
本文作者: 奕欣 | 2018-08-21 17:21 | 專題:KDD 2018 |
雷鋒網 AI 科技評論:本文為阿里巴巴提供的 KDD 2018 解讀稿件。這一事件在雷鋒網學術頻道 AI 科技評論旗下數(shù)據庫項目「AI 影響因子」中有相應加分。
過去 30 年,隨著高質量實驗技術和互聯(lián)網高速連接的出現(xiàn),越來越大量的數(shù)據已經可以自動化的生產和傳輸。隨之而來是,工業(yè)界、學術界、甚至個人都必須面對大型數(shù)據處理的挑戰(zhàn),如何從這些大量高維異構的數(shù)據中挖掘有價值的信息,一直是數(shù)據挖掘從業(yè)人員們在解決的問題?!笖?shù)據挖掘」,通常也為「數(shù)據庫中的知識發(fā)現(xiàn)」,是一個充分利用各種統(tǒng)計、機器學習、人工智能模型和與之相適應的計算平臺,去試圖自動解釋大型數(shù)據集的一個跨領域交叉學科。KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 正是這個領域的頂級會議。從實際數(shù)據和與之相關的業(yè)務以及 KDD 被接收的文章,我們可以總結出數(shù)據挖掘的幾個比較重要的發(fā)展趨勢:
? 多模態(tài)數(shù)據挖掘:隨著技術可以更加有效地從多種渠道收集數(shù)據,比如音頻、視頻、文字、圖像等,這也是現(xiàn)在越來越被重視的一個方向,而數(shù)據本身也更更加有效的以各種方式進行存儲。如何進行跨領域的有效建模,比如多任務學習 (multi-task learning),遷移學習 (transfer learning),強化學習(reinforcement learning)等,都是重點的發(fā)展模型。
? 全域數(shù)據挖掘:該方法涉及從移動設備和 IoT 設備等挖掘數(shù)據以獲得關于個人的信息。盡管在這種類型中存在諸如復雜性、隱私性、成本等的若干挑戰(zhàn),但是該方法在各種行業(yè)中具有很大的機會,特別是在研究人機交互方面。
? 分布式數(shù)據挖掘:這種類型的數(shù)據挖掘越來越受歡迎,因為它涉及挖掘存儲在不同公司位置或不同組織的大量信息,并且任何的算法也已經很難在單機版對全網數(shù)據進行訓練和推理。此外適應度更高的算法也可以用于從不同位置提取數(shù)據,并根據它們提供適當?shù)囊娊夂蛨蟾妗?/p>
? 時空數(shù)據挖掘:這是一種新的趨勢類型的數(shù)據挖掘,其包括從有周期性和季節(jié)性趨勢的環(huán)境,天文和地理數(shù)據中提取信息,其中還包括從外太空獲取的圖像。這種類型的數(shù)據挖掘可以揭示諸如距離和拓撲的各個方面,其主要用于動態(tài)的地理信息系統(tǒng)和其他導航應用,這種做法也有助于分析在正常系列事件之外發(fā)生的隨機事件。與我們密切相關的問題也是越來越普及,比如新零售,如何有效結合動態(tài)的線上線下數(shù)據對訪問顧客的購買模式和行為進行建模,就是一個非常有挑戰(zhàn)的時空數(shù)據模型問題。
? 圖計算模型在大數(shù)據公司,尤其是 IT 公司是非常流行的一大類模型,因為是很多實際問題的最直接的解決方法。圖計算大致可以分為同構圖(homogeneous graph)和異構圖(heterogeneous graph),后者是在節(jié)點或者邊的種類大于等于 2 的情況下。此外知識圖譜也是異構圖中的一種重要應用,即一種基于語義學的圖模型(a semantic graphical model)。除了了傳統(tǒng)的圖計算模型,如大家熟知的 LPA、 Random Walk 及各種變形、CC 等,隨著深度學習的大量成功落地,Graph Embedding 也變得越來越流行。簡單說來,Graph Embedding 也是通過深度學習模型對節(jié)點或者邊進行 feature engineering。近幾年,隨著數(shù)據的多樣化,數(shù)據量的大幅度提升和算力的突破性進展,圖計算的發(fā)展和應用有井噴之勢,各大公司也相應推出圖計算平臺,例如 Google Pregel, Facebook Giraph,騰訊星圖,華為 GES 等。
其中超大規(guī)模圖數(shù)據挖掘也可以認為是前面幾個趨勢的一個匯總,也將是未來 3~5 年年數(shù)據挖掘的一個大的集中爆發(fā)點。比如 DeepMind、谷歌大腦、MIT 等 27 位作者最近推出重磅論文,表示單純的深度學習已經成熟,而基于圖計算的深度學習將端到端學習與歸納推理相結合,有望解決深度學習無法進行關系推理的問題。超大規(guī)模圖計算在大數(shù)據公司發(fā)揮著越來越重要的作用,尤其是以深度學習和圖計算結合的大規(guī)模圖表征為代表的系列算法。
超大規(guī)模圖計算在大數(shù)據公司發(fā)揮著越來越重要的作用,尤其是以深度學習和圖計算結合的大規(guī)模圖表征為代表的系列算法在阿里的諸多業(yè)務場景都取得了階段性成果。阿里巴巴生態(tài)體系的數(shù)據是極其豐富多樣的,涵蓋著從購物、出行到娛樂、支付等各個方面信息。比如個性化推薦系統(tǒng)作為一種信息過濾的重要手段,可以依據我們的習慣和愛好推薦合適的商品或者服務,但是傳統(tǒng)的推薦系統(tǒng)容易出現(xiàn)稀疏性、冷啟動和信息重復性的問題,而知識圖譜作為大規(guī)模圖表征的一類重要模型正在成為一種新興類型的推薦輔助信息,可以將自然人的全域信息有效的結合起來,真正挖掘、理解每個人的需求,在每個業(yè)務域推出消費者真正感興趣的潛在商品。我們正在致力于研發(fā)新一代推薦系統(tǒng),可以高效的對于超過幾十億節(jié)點,千億的邊進行推理分析?;谶@個挑戰(zhàn),我們正竭力力尋找能夠在信息檢索、分布式計算、大規(guī)模系統(tǒng)設計、機器學習、人工智能、自然語言處理等相關領域帶來新鮮理念的工程師和科學家。對于這個課題感興趣的同學歡迎和筆者進行更深入討論 (yang.yhx@alibaba-inc.com)。
下面我們就會具體介紹一下我們最近取得的一些成果和 KDD 接收文章,包括:
fraud detection(SPARC: Self-Paced Network Representation for Few-Shot Rare Category Characterization);recommendation(Interactive Paths Embedding for Semantic Proximity Search on Heterogeneous Graphs);entity resolution (Mobile Access Record Resolution on Large-Scale Identifier-Linkage Graphs) with deep model interpretations (Adversarial Detection with Model Interpretation)。
在網絡平臺上,稀有數(shù)據通常是最有價值的。罕見的類別分析對于防止計算機網絡入侵,發(fā)現(xiàn)社交媒體上的熱門話題以及檢測欺詐性在線交易至關重要。但是,找到這些數(shù)據可能會很困難。就像大海撈針中的諺語一樣,它們通常隱藏在正常數(shù)據點之間并且與正常數(shù)據點不可分割,并且標記罕見的類別示例非常昂貴。為了有效地分析數(shù)據集中的罕見類別,算法必須是快速學習者。阿里巴巴的技術團隊與亞利桑那州立大學和騰訊醫(yī)學人工智能實驗室合作,創(chuàng)建了 SPARC,這是一個自定進度的框架,以互利的方式逐步學習罕見的面向類別的網絡表示和表征模型。
? 按照自己的節(jié)奏學習
SPARC 的靈感來自課程學習。課程學習范式模仿人類的認知過程:基礎模型從任務的簡單方面訓練到基于預定課程的更難的方面。
雖然這個概念已經應用于許多不同的情況,但試錯設計很難在現(xiàn)實世界中應用。然而,一種新的學習范式通過使用自定進度的調節(jié)器最小化損失函數(shù)來自動學習課程。這被稱為自定進度學習。研究小組建立在這種自定進度學習的理念之上,將其應用于稀有類別分析的場景,缺少標記的例子,以便逐步并同時學習稀有類別嵌入表示和表征模型。SPARC 同時學習圖形嵌入并以互利的方式預測稀有類別示例。該框架能夠在給定網絡(例如不同網絡大?。┲袑Σ黄胶忸惓蓡T資格進行建模。SPARC 能夠從少量標記的稀有類別示例中學習,從而最大限度地降低標簽成本。此外,使用 SPARC 的面向類別的表示能夠在嵌入空間中廣泛地分離多數(shù)類和少數(shù)類,這些類在網絡拓撲和特征方面是不可分割的。
SPARC 自己節(jié)奏的模型示意圖
? 將 SPARC 置于行動中
為了測試 SPARC 在該領域的有效性,研究人員收集了來自書目協(xié)作網絡,NLP 網絡和社交網絡的數(shù)據集。該算法按照以下標準與兩個無監(jiān)督網絡嵌入算法 DeepWalk 和 LINE 以及另一個半監(jiān)督框架 PLANETOID 進行了比較:分類準確性,發(fā)現(xiàn)的稀有類別示例的百分比和正在檢索的真實罕見示例的比率。
在大多數(shù)情況下,SPARC 在所有數(shù)據集和評估指標上的表現(xiàn)優(yōu)于競爭最先進的方法。雖然半監(jiān)督嵌入網絡在分離類別時表現(xiàn)優(yōu)于無監(jiān)督方法,但 SPARC 在聚類罕見示例方面表現(xiàn)優(yōu)異,并且能夠僅使用一個標記為罕見類別的示例進行訓練。此外,SPARC 更強大,誤差小于比較方法。
由 SPARC 和三個競爭框架提取的網絡布局可視化
Web 平臺最吸引人的功能之一是用戶與他人聯(lián)系的能力。例如,在社交媒體上,用戶甚至可能不必在平臺推薦新連接之前主動搜索朋友。在這些網絡平臺的表面下面是用戶之間龐大的連接網絡,并且該網絡的大部分依賴于「語義鄰近搜索」:將網絡中的對象作為查詢并根據語義關系對其他對象進行排名。語義鄰近搜索查看諸如位置,就業(yè)地點和學校等特征,以確定通過這些連接隱含的語義關系。從那里,搜索將用戶作為查詢并詢問哪些其他用戶可能是鄰居,同事或同學,相應地對他們進行排名。然后,這些排名用于支持諸如社交媒體上的推薦連接,參考書目網絡上的顧問/建議者連接以及在電子商務平臺上鏈接用戶身份等功能。
在具有大型用戶基礎的網站(例如 Facebook)上,如上所述的異構圖形可能會很快變得復雜
然而,語義鄰近搜索并不完美。異構列表上的語義關系并不總是明確的,并且對象之間可能缺少鏈接。先前對語義接近度的研究已經嘗試測量與連接查詢對象和目標對象的路徑的語義接近度。但是,這些路徑在建模中是弱耦合的,每個路徑都是單獨處理的。它們的輸出僅在最后階段匯總,限制了模型形成對象之間相互依賴關系的完整畫面的能力。阿里巴巴的技術團隊與來自浙江大學和新加坡高級數(shù)字科學中心的研究人員合作,開發(fā)了交互式路徑嵌入(IPE),以更強地耦合語義鄰近搜索路徑,找到用戶之間的聯(lián)系,這些聯(lián)系可能會被當前基線忽視。
? IPE 模型的建立
阿里巴巴的研究團隊介紹了交互路徑的概念,同時處理多條路徑并在它們之間添加依賴關系。結果,這些路徑被認為是強耦合的。然后將這些交互式路徑嵌入到低維向量中,該向量可以捕獲用戶之間的語義關系的全部范圍。
IPE 框架的模型
從那里開始,研究人員利用了一種無循環(huán)的改組機制。不希望圖形結構中的循環(huán),因為它們使得兩個節(jié)點更難以彼此到達。這種機制改變了路徑的順序,以消除不同的循環(huán)并最大化路徑效率。然后,門控循環(huán)單元(GRU)架構嵌入交互路徑,并允許每個 GRU 模擬來自其他 GRU 的相互依賴性。最后,交互路徑結構嵌入輸出被聚合為單個向量,然后可以用于估計語義關系接近度。
? IPE 在實際中的使用
為了測試 IPE 在該領域的有效性,阿里巴巴的技術團隊尋找不同類型的異構網絡,如 LinkedIn,F(xiàn)acebook,DBLP 和淘寶。在實驗中,IPE 和其他幾個語義用戶搜索基線的任務是根據每個網絡特有的特征集定義不同類型的關系。研究人員為每個測試查詢用戶和每個所需的語義關系構建了理想的排名。他們將這種理想排名與各種最先進的語義用戶搜索算法生成的排名進行了比較。在所有這些測試中,IPE 不僅在競爭基線方面表現(xiàn)優(yōu)異,而且在自身的降級版本方面也表現(xiàn)優(yōu)異,通常顯著。這驗證了交互路徑結構,并為擴展 IPE 以處理異構網絡中的屬性和動態(tài)以進行語義鄰近搜索打開了大門。
3. 通過你的手機可以對你做人物畫像嗎?
電子商務時代正在見證移動互聯(lián)網用戶的快速增長。主要的電子商務公司現(xiàn)在每天都會看到數(shù)十億的移動訪問實例,并且隱藏在這些記錄中的是有價值的用戶行為特征,例如購物偏好和瀏覽模式。但是,為了從龐大的數(shù)據集中提取此信息,需要將記錄鏈接到相應的移動設備,這一過程稱為移動訪問記錄解析(MARR)。MARR 面臨兩大挑戰(zhàn):
1. 訪問記錄中的設備標識符和其他屬性可能缺失或不可靠。
2. 數(shù)據集包含數(shù)百萬臺設備的數(shù)十億訪問記錄。
目前,還沒有開發(fā)出現(xiàn)有方法來解決如此大規(guī)模使用移動設備標識符的問題。
? 我們可能不知道你在用什么設備
根據國際電信聯(lián)盟(ITU)的一份新報告,2017 年全球移動互聯(lián)網用戶(非用戶)數(shù)量達到 77.4 億。隨著移動電話取代臺式電腦成為最廣泛使用的數(shù)字平臺,移動用戶偏好的特征他們的訪問記錄中的行為模式變得非常重要。與傳統(tǒng)的博客相比,移動訪問記錄主要依賴于 cookie 來跟蹤用戶行為,因此可以更清晰地了解訪問記錄中具有各種 ID 的互聯(lián)網用戶。這些 ID 包括:
1. 國際移動設備身份(IMEI)- 用于識別設備的唯一標識符。
2. 國際移動用戶識別碼(IMSI)- 用于識別存儲在 SIM 卡中的蜂窩網絡中的用戶。
3. UserTrack 設備 IDentity(UTDID)。
IMEI 和 IMSI 分別是一個智能手機和手機號碼的標識符。另一方面,UTDID 與這兩個基于硬件的標識符完全不同,因為它由阿里巴巴(中國的跨國電子商務公司)生成和使用,用于設備識別。利用這些 ID,可以將訪問記錄映射到相應的移動電話或應用程序,從而生成更高質量的用戶配置文件。將訪問記錄映射到移動電話或應用程序似乎是一件簡單的事情,因為可以使用諸如 IMEI,IMSI 和 UTDID 之類的 ID 來唯一地識別設備和應用程序。但是,從實際應用中收集的數(shù)據遠非完美。將丟失屬性值,噪聲(有問題和誤導性)ID 和 ID 轉換問題。ID Shift 轉換的一種方式是當設備在安裝新 SIM 卡時獲得新的 IMSI。
我們的移動訪問記錄中有大量數(shù)據
? 讓我們的設備自己發(fā)聲
阿里巴巴技術團隊觀察到,訪問記錄中的一個或兩個 ID 的 ID 轉換可能會不時發(fā)生,但很少發(fā)生在所有三個 ID 中。受此觀察的啟發(fā),他們使用三個 ID(IMEI,IMSI,UTDID)的組合(他們稱之為「IDSET」)來可靠地識別來自特定移動設備的訪問記錄。上面給出了 IDSET 的示例記錄由 IDSET 標識,即 IMEI,IMSI 和 UTDID 的組合?;?IDSET 的概念,他們引入了移動訪問記錄解決(MARR)問題。MARR 問題的目的是識別每個訪問記錄的物理設備,因為每個訪問記錄由一個特定的移動設備生成。該團隊的目標是根據設備對訪問記錄進行分組,該設備可用于為設備用戶生成配置文件。考慮到數(shù)據集的龐大規(guī)模和較差的數(shù)據質量主要是由于 ID 轉移問題,MARR 是一個非常具有挑戰(zhàn)性的問題。因此,該團隊還提出了一個稀疏標識符鏈接圖(SPI-Graph),并附帶豐富的移動設備分析數(shù)據,以準確地將移動訪問記錄與設備進行匹配(當數(shù)據集中的某些預期值丟失時,數(shù)據被視為「稀疏」,這是一般大規(guī)模數(shù)據分析中的常見現(xiàn)象)。到目前為止,大規(guī)模實際數(shù)據集的廣泛實驗結果驗證了團隊算法的有效性和效率。這些結果還意味著團隊現(xiàn)在希望調查他們如何進一步將特定設備的移動訪問記錄分組到訪問會話中,從而更好地表征用戶配置文件。
隨著越來越多的實際應用程序,機器學習(ML)系統(tǒng)最近成為一種有前途的在線欺詐檢測工具。然而,在大多數(shù) ML 任務處理固定數(shù)據集的情況下,欺詐檢測對能夠在暴露時能夠適應的智能人類行為者起作用,這意味著 ML 模型在移位數(shù)據集中易于變得靜止。以前建立更能抵抗變化對手的探測器的努力依賴于諸如分類和特征識別增強,死記硬背對抗訓練和深度神經網絡應用之類的方法。每一個都有其自身的局限性,但一個主要的反復出現(xiàn)的問題是「黑匣子」難題。研究人員通常無法獲取有關這些方法的內部運作的詳細信息,否認他們可以幫助他們進一步發(fā)展這些方法的重要見解?,F(xiàn)在,阿里巴巴的研究人員已經開發(fā)了一種對抗訓練方法,該方法基于對 ML 模型運作的研究,運用其機制的知識來產生更強大的對手,供他們訓練。除了提高探測器的批發(fā)穩(wěn)健性之外,從最少的計算資源中產生具有挑戰(zhàn)性的新對手的努力有助于揭示真正的欺詐犯罪者在被發(fā)現(xiàn)后可能從給定位置適應的方式。建立在垃圾郵件發(fā)送者基本上是人類代理人的前提下,他們在適應時花費的資源有限,該方法展示了如何根據先前攻擊的定位來預測未來攻擊的「方向」。
? 檢查黑箱
ML 欺詐檢測系統(tǒng)依靠分類器來過濾內容,將一些垃圾郵件發(fā)送者實例視為高可信度,將其他實例視為低可信度實例,具體取決于它們被正確標記的概率。當大量垃圾郵件發(fā)送者實體落入其低信任區(qū)域時,分類器變得容易受到攻擊,因為即使對垃圾郵件發(fā)送者這樣的易于逃避(EP)樣本的微小變化也可能導致其錯誤分類為合法內容。出于研究目的,阿里巴巴團隊將這些 EP 樣品作為「種子」處理,用于生成強大的對抗樣品,用于探測器培訓。然后,他們試圖確定種子最容易受到影響的方向,以逃避分類機制,從而以最小的努力繞過檢測。利用這些發(fā)現(xiàn),他們生成的對手非常模仿真實的惡意行為,減少了有效訓練更強檢測機制所需的攻擊者總數(shù)。通過使用 ML 機制的知識來分析其對沿其邊界引入的每個對手的響應,該團隊派生出特定于每個實例的本地解釋器功能。通過這些信息,他們更新了整體機制,以更好地考慮試驗期間引入的個別垃圾郵件威脅的演變。
新系統(tǒng)識別易于逃避的樣本,分析潛在的逃避策略,并相應地更新檢測模型
基于對 Yelp Review 和 Twitter 帖子數(shù)據的實驗,仔細的對手選擇證明在產生更具挑戰(zhàn)性的攻擊模擬方面是有效的,在試驗期間提供了關于分類器中的弱點的大量信息。然后,這些研究結果被用于為各種攻擊制定有效的防御策略,這些策略可用于加強未來檢測框架的有效性。展望未來,阿里巴巴正在尋求擴展其垃圾郵件檢測工作,以處理實例之間關系鏈接的高維原始數(shù)據和數(shù)據集。
全文地址:http://www.kdd.org/kdd2018/accepted-papers/view/adversarial-detection-with-model-interpretation
點擊本鏈接即可移步至AI研習社社區(qū)打包下載四篇論文。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。