0
本文作者: 奕欣 | 2018-03-27 11:50 |
雷鋒網(wǎng) AI 科技評論按:阿里巴巴有 11 篇論文被 AAAI 2018錄用,分別來自機器智能技術實驗室、業(yè)務平臺事業(yè)部、阿里媽媽事業(yè)部、人工智能實驗室、云零售事業(yè)部,其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告,另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。論文內(nèi)容涉及對抗學習、神經(jīng)網(wǎng)絡、提高輕量網(wǎng)絡性能的訓練框架、機器翻譯、聊天機器人、無監(jiān)督學習框架、極限低比特神經(jīng)網(wǎng)絡等技術方向。
以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學厄巴納-香檳分校的合作論文解讀投稿。
主要作者(中英文):鐘澤軒 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie
論文下載地址:https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf
將幾個子知識圖譜上的同一實體信息鏈接在一起(也被稱為用戶身份鏈接(UIL)問題)對很多應用而言都至關重要。實體鏈接問題有兩大主要難點。
第一,收集人工鏈接的實體信息對(user pairs)作為訓練數(shù)據(jù)的成本非常高昂。
第二,不同子知識圖譜的實體屬性通常有非常不同的定義方式和格式,這使得屬性對齊(attribute alignment)非常困難。
我們在本論文中提出了 CoLink,一種用于實體信息鏈接問題的通用型無監(jiān)督框架。CoLink 使用了一種能同時操作兩個獨立模型(基于屬性的模型和基于關系的模型)的協(xié)同訓練算法,并且能以無監(jiān)督學習的方式迭代式地讓兩個模型彼此互相增強。我們還提出使用「序列到序列」學習作為基于屬性的模型非常有效,這種方法能將屬性對齊難題當作機器翻譯問題處理。我們將 CoLink 應用到了將企業(yè)網(wǎng)絡中的員工映射到他們的領英(LinkedIn)個人資料的實體信息鏈接任務上。實驗結果表明 CoLink 在 F1 分數(shù)上的表現(xiàn)超過之前最佳的無監(jiān)督方法的 20% 以上。
將不同子知識圖譜上的同一實體信息鏈接起來(也被稱為用戶身份鏈接(UIL)問題)通常能得到對該實體的更好和更深度的理解,這通常又能進一步得到更好的商業(yè)智能。
盡管機器學習算法已經(jīng)在實體鏈接問題上得到了廣泛的應用,但訓練數(shù)據(jù)的標注工作并不簡單。首先,尋找已鏈接實體信息配對是極其耗時的,因為這需要搜索所有子知識圖譜以及仔細評估大量候選配對。另外這個工作還需要人類標注者具有廣泛的領域知識。其次,由于隱私保護的原因,并非所有知識圖譜的實體數(shù)據(jù)都可以提供給人類標注者,尤其是當這些資料來自個人社交網(wǎng)絡或企業(yè)內(nèi)部網(wǎng)絡時。
在兩個子知識圖譜之間鏈接實體需要仔細比對兩個子圖譜中的實體屬性,比如名稱、職位、位置等。因此,屬性值的對齊對實體鏈接問題而言至關重要。但是,傳統(tǒng)的字符串相似度函數(shù)有兩個不足之處:
沒有一個通用方法可以處理相同屬性在不同實體網(wǎng)絡中的變化
無法找到隱式的屬性對應關系
在這篇論文中,我們提出了一種用于實體鏈接問題的通用型無監(jiān)督框架 CoLink。知識圖譜中的實體數(shù)據(jù)可以自然地劃分為兩個獨立的角度的特征:屬性和關系,這完美契合協(xié)同訓練(co-training)算法的要求。
CoLink 使用兩個獨立的模型:一個基于屬性的模型和一個基于關系的模型?;趯傩缘哪P秃突陉P系的模型都是二元分類器,決定兩個實體是否能鏈接起來。它們可以基于任何機器學習或啟發(fā)式算法。因此,只要知識圖譜資料中包含屬性和關系,那就可以將 CoLink 應用于該知識圖譜的實體鏈接問題上。
更進一步,我們在 CoLink 的基于屬性的模型的實現(xiàn)中使用了「序列到序列」學習算法,這為不同實體網(wǎng)絡之間的屬性對齊提供了一種通用方法。我們沒有將屬性對齊當成字符串相似度比較而進行處理,而是試圖將一種「語言」(一種特定風格的網(wǎng)絡)的屬性值「翻譯」成另一種「語言」??s略語、縮寫、同義詞甚至隱式對應關系都可被視為翻譯的特殊情況。我們選擇「序列到序列」算法的原因是其已經(jīng)表現(xiàn)出了在機器翻譯任務上的有效性。具體而言,「序列到序列」方法有兩種可用于 CoLink 的優(yōu)勢。首先,它幾乎無需手動提取特征就能自動得到詞層面的映射和序列層面的映射。其次,它只需要正例(已對齊的屬性對)作為訓練數(shù)據(jù),這能減輕采樣負例的工作。
我們將 CoLink 應用到鏈接社交網(wǎng)絡的相同用戶的任務上,其中我們試圖將企業(yè)網(wǎng)絡中的員工和他們的領英個人資料鏈接起來。我們進一步比較了 CoLink 和之前最佳的無監(jiān)督方法。實驗結果表明 CoLink 在 F1 分數(shù)上的表現(xiàn)總體上能超過之前最佳的無監(jiān)督方法的 20%。我們的貢獻總結如下:
我們最早將協(xié)同訓練算法用在了知識圖譜實體鏈接的問題上。由于實體網(wǎng)絡中的實體屬性和實體關系是自然分開的,這使得協(xié)同訓練是一種完美且無成本的解決方案。
我們最早將屬性對齊問題建模為機器翻譯。我們使用「序列到序列」方法作為基于屬性的模型的基礎,這幾乎無需提取特征就能實現(xiàn)很好的泛化。
我們進行了大量實驗,比較了我們提出的方法和之前最佳的無監(jiān)督方法,列舉了不同的設置和模型,結果表明了我們提出的解決方案的有效性。
問題定義
知識圖譜上的實體鏈接問題定義為:其輸入包括一個源知識圖譜和一個目標知識圖譜。其輸出為一個實體鏈接對集合,表示從源圖譜中鏈接到目標圖譜中的實體對。
CoLink 框架
CoLink 框架基于如算法 1 所示的協(xié)同訓練算法。我們在該框架中定義兩個不同的模型:一個基于屬性的模型 fatt 和一個基于關系的模型 frel。這兩個模型都會進行二元分類預測,將一組給定實體對分類為正例(鏈接的)或負例(非鏈接的)。該協(xié)同訓練算法以迭代的方式不斷增強這兩個模型。在每一次協(xié)同訓練迭代過程中,兩個模型都會使用已鏈接配對集 S 進行再訓練。然后使用這兩個模型生成的高質(zhì)量的已鏈接配對會被合并到 S 中以用于下一次迭代,直到 S 收斂。在最開始時,需要一個初始的已鏈接配對集(簡稱種子集)來啟動這個協(xié)同訓練過程,這個集合可以通過一組種子規(guī)則生成。根據(jù)模型所用的算法,基于屬性的模型和基于關系的模型的訓練可能會需要負例。算法 1 中沒有給出采樣負例的過程。
算法 1:CoLink 中的協(xié)同訓練算法
這個協(xié)同訓練算法不會修改之前的迭代中生成的已鏈接配對。因此由之前的迭代引入的誤差不會在后面得到修復。這種算法的一種替代方案是在協(xié)同訓練收斂之后進行一次最終修改。即使用該協(xié)同學習過程所得到的最終模型來重構 S。
種子規(guī)則
該協(xié)同訓練算法的啟動需要一個已鏈接實體對構成的小型種子集。獲取種子集的一種簡單直接的方法是根據(jù)人工設計的規(guī)則來生成,我們稱之為種子規(guī)則。這些種子規(guī)則可以考慮來自目標知識圖譜的以下事實:
實體名稱唯一性
實體屬性值映射
實體關系傳播
種子規(guī)則的選取會直接影響 CoLink 的表現(xiàn)。
基于屬性的模型
基于屬性的模型通過考慮實體的屬性來預測鏈接的實體對。它可以使用任何分類算法。在這篇論文中,我們嘗試了兩種不同的機器學習算法:「序列到序列」和支持向量機(SVM)。
序列到序列
由于屬性有不同的變化形式,所以傳統(tǒng)的字符串相似度方法在處理屬性對齊方面表現(xiàn)很差。由于屬性對齊類似于機器翻譯問題,所以我們采用了「序列到序列」方法??s略語、縮寫、同義詞甚至隱式鏈接都可被視為翻譯的特殊情況。
我們采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網(wǎng)絡結構。該網(wǎng)絡由兩部分構成:序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長短期記憶(LSTM)架構。編碼器深度 LSTM 會讀取輸入序列并求出每個詞位置的表示向量。然后這些向量會被送入一個注意層(attention layer),從而得到一個考慮了輸出詞位置的輸入序列的整體表示。然后解碼器深度 LSTM 的隱藏狀態(tài)會進一步被送入一個全連接層(其輸出包含詞匯庫大小的維度信息),進而預測輸出詞。
我們按照之前的工作,使用已鏈接屬性值配對訓練了「序列到序列」網(wǎng)絡。但是,我們不是使用網(wǎng)絡預測輸出序列,而是在 CoLink 中使用所學習到的「序列到序列」網(wǎng)絡來進行二元分類。首先,我們使用該網(wǎng)絡求出對于一對屬性匹配的概率。然后,我們選擇一個匹配概率閾值,超過該閾值的實體對被認為是有鏈接的。
支持向量機
SVM 等傳統(tǒng)的分類算法也可以用在基于屬性的模型中。不同于只需要正例訓練樣本(已鏈接配對)的「序列到序列」方法,SVM 還需要負例。因為用戶配對空間非常大,所以正例在整個空間中實際上非常稀疏。在每次聯(lián)合訓練迭代中,給定已鏈接配對,我們還會選擇同等數(shù)量的隨機實體對作為負例。
基于關系的模型
基于關系的模型僅使用實體關系來預測鏈接實體對。只根據(jù)關系來尋找兩個網(wǎng)絡中同等結點的問題通常被稱為網(wǎng)絡對齊問題。
基于關系的模型可以使用任何基于關系的網(wǎng)絡對齊模型。因為本文的重點是協(xié)同訓練算法和「序列到序列」的基于屬性的模型,所以我們在本論文中使用了一種簡單的啟發(fā)式模型,該模型基于一個假設:如果兩個來自不同網(wǎng)絡的實體都具有大量互相關聯(lián)的已鏈接實體,那么這兩個實體很可能也是鏈接的。
我們的實驗比較了 CoLink 與當前最佳的無監(jiān)督方法。我們還研究了種子規(guī)則和鏈接概率閾值的選擇,以更好地理解它們對鏈接結果的可能影響方式。
數(shù)據(jù)集
我們選擇了一個真實數(shù)據(jù)集來評估 CoLink,它包含兩個社交網(wǎng)絡。其中一個社交網(wǎng)絡是領英,另一個網(wǎng)絡是一個企業(yè)內(nèi)部用戶網(wǎng)絡。
表 1:數(shù)據(jù)集總體情況
候選實體對的選擇
我們構建了一個候選實體對過濾器,它能移除大量不可能鏈接的實體對。該候選項過濾器考慮了以下屬性。
實體名
組織機構
在過濾之后,我們得到了 758046 個候選實體對,其涵蓋了測試集合中所有有鏈接的配對。
序列到序列
我們實驗中的「序列到序列」網(wǎng)絡由一個帶注意網(wǎng)絡的深度 LSTM 編碼器和一個深度 LSTM 解碼器構成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個層疊的 LSTM,因為我們發(fā)現(xiàn)對于實體鏈接任務而言,超過 2 層的編碼器或解碼器不能再帶來更多提升。每個 LSTM 的循環(huán)單元大小為 512。每個詞在被送入編碼器和解碼器之前都首先會被轉換成一個 512 維的嵌入向量?!感蛄械叫蛄小鼓P偷挠柧殨r間取決于訓練數(shù)據(jù)的規(guī)模。平均而言,使用一個 Tesla K40 GPU,讓模型在 10 萬個屬性配對上完成訓練需要 30 分鐘。
種子規(guī)則
為了測試 CoLink 的穩(wěn)健性,我們嘗試了下列 3 個種子規(guī)則集:
粗略調(diào)整的集合
精細調(diào)整的集合
有噪聲集合
圖 1:種子集比較;協(xié)同訓練迭代開始后的 P/R/F1 趨勢
協(xié)同訓練
我們通過將關系特征和屬性特征分開而使用了協(xié)同訓練?;趯傩缘哪P秃突陉P系的模型都能在每次迭代中找到新配對然后增強彼此。圖 2 給出了每個模型所得到的已鏈接配對的統(tǒng)計情況。在這項任務中,基于屬性的模型生成的配對比基于關系的模型多,這是因為我們沒有完整的領英關系數(shù)據(jù)。我們爬取了公開的領英個人資料中的「人們還看了」列表,這只能為每位用戶提供不到 10 個關系。
圖 2:基于粗略調(diào)整的種子配對使用聯(lián)合訓練迭代得到的已鏈接配對的增長情況
概率閾值
圖 3 給出了不同閾值的比較情況。使用更嚴格的閾值(更小的百分數(shù))會得到更高的精度和相對更低的召回率。我們在本任務中選擇的閾值是 95%。
圖 3:序列到序列鏈接概率閾值比較
比較結果
表 2:不同方法的表現(xiàn)的比較
屬性對齊
通過使用「序列到序列」方法,CoLink 可以處理使用傳統(tǒng)字符串相似度函數(shù)難以應付的屬性對齊問題。表 3 給出了一些選擇出的應該是對齊的屬性示例以及來自不同方法的相似度分數(shù)(全都位于 [0,1] 區(qū)間中)。在「序列到序列」的幫助下,幾乎無需提取特征,就可以輕松地將這種方法應用于其它實體匹配任務。
表 3:選擇出的一些屬性示例以及它們的相似度分數(shù)
現(xiàn)在關注“雷鋒網(wǎng)”微信公眾號(leiphone-sz),回復關鍵詞【2018】,隨機抽送價值 3999 元的參會門票 3 張
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。