阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

本文作者：奕欣

2018-03-27 11:50

導(dǎo)語：阿里巴巴有11篇論文被AAAI 2018錄用，涉及對抗學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、提高輕量網(wǎng)絡(luò)性能的訓(xùn)練框架、機器翻譯、聊天機器人、無監(jiān)督學(xué)習(xí)框架、極限低比特神經(jīng)網(wǎng)絡(luò)等方向

雷鋒網(wǎng) AI 科技評論按：阿里巴巴有 11 篇論文被 AAAI 2018錄用，分別來自機器智能技術(shù)實驗室、業(yè)務(wù)平臺事業(yè)部、阿里媽媽事業(yè)部、人工智能實驗室、云零售事業(yè)部，其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告，另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。論文內(nèi)容涉及對抗學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、提高輕量網(wǎng)絡(luò)性能的訓(xùn)練框架、機器翻譯、聊天機器人、無監(jiān)督學(xué)習(xí)框架、極限低比特神經(jīng)網(wǎng)絡(luò)等技術(shù)方向。

以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學(xué)厄巴納-香檳分校的合作論文解讀投稿。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

主要作者（中英文）：鐘澤軒 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie

論文下載地址：https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf

摘要

將幾個子知識圖譜上的同一實體信息鏈接在一起（也被稱為用戶身份鏈接（UIL）問題）對很多應(yīng)用而言都至關(guān)重要。實體鏈接問題有兩大主要難點。

第一，收集人工鏈接的實體信息對（user pairs）作為訓(xùn)練數(shù)據(jù)的成本非常高昂。

第二，不同子知識圖譜的實體屬性通常有非常不同的定義方式和格式，這使得屬性對齊（attribute alignment）非常困難。

我們在本論文中提出了 CoLink，一種用于實體信息鏈接問題的通用型無監(jiān)督框架。CoLink 使用了一種能同時操作兩個獨立模型（基于屬性的模型和基于關(guān)系的模型）的協(xié)同訓(xùn)練算法，并且能以無監(jiān)督學(xué)習(xí)的方式迭代式地讓兩個模型彼此互相增強。我們還提出使用「序列到序列」學(xué)習(xí)作為基于屬性的模型非常有效，這種方法能將屬性對齊難題當作機器翻譯問題處理。我們將 CoLink 應(yīng)用到了將企業(yè)網(wǎng)絡(luò)中的員工映射到他們的領(lǐng)英（LinkedIn）個人資料的實體信息鏈接任務(wù)上。實驗結(jié)果表明 CoLink 在 F1 分數(shù)上的表現(xiàn)超過之前最佳的無監(jiān)督方法的 20% 以上。

引言

將不同子知識圖譜上的同一實體信息鏈接起來（也被稱為用戶身份鏈接（UIL）問題）通常能得到對該實體的更好和更深度的理解，這通常又能進一步得到更好的商業(yè)智能。

盡管機器學(xué)習(xí)算法已經(jīng)在實體鏈接問題上得到了廣泛的應(yīng)用，但訓(xùn)練數(shù)據(jù)的標注工作并不簡單。首先，尋找已鏈接實體信息配對是極其耗時的，因為這需要搜索所有子知識圖譜以及仔細評估大量候選配對。另外這個工作還需要人類標注者具有廣泛的領(lǐng)域知識。其次，由于隱私保護的原因，并非所有知識圖譜的實體數(shù)據(jù)都可以提供給人類標注者，尤其是當這些資料來自個人社交網(wǎng)絡(luò)或企業(yè)內(nèi)部網(wǎng)絡(luò)時。

在兩個子知識圖譜之間鏈接實體需要仔細比對兩個子圖譜中的實體屬性，比如名稱、職位、位置等。因此，屬性值的對齊對實體鏈接問題而言至關(guān)重要。但是，傳統(tǒng)的字符串相似度函數(shù)有兩個不足之處：

沒有一個通用方法可以處理相同屬性在不同實體網(wǎng)絡(luò)中的變化
無法找到隱式的屬性對應(yīng)關(guān)系

在這篇論文中，我們提出了一種用于實體鏈接問題的通用型無監(jiān)督框架 CoLink。知識圖譜中的實體數(shù)據(jù)可以自然地劃分為兩個獨立的角度的特征：屬性和關(guān)系，這完美契合協(xié)同訓(xùn)練（co-training）算法的要求。

CoLink 使用兩個獨立的模型：一個基于屬性的模型和一個基于關(guān)系的模型?；趯傩缘哪Ｐ秃突陉P(guān)系的模型都是二元分類器，決定兩個實體是否能鏈接起來。它們可以基于任何機器學(xué)習(xí)或啟發(fā)式算法。因此，只要知識圖譜資料中包含屬性和關(guān)系，那就可以將 CoLink 應(yīng)用于該知識圖譜的實體鏈接問題上。

更進一步，我們在 CoLink 的基于屬性的模型的實現(xiàn)中使用了「序列到序列」學(xué)習(xí)算法，這為不同實體網(wǎng)絡(luò)之間的屬性對齊提供了一種通用方法。我們沒有將屬性對齊當成字符串相似度比較而進行處理，而是試圖將一種「語言」（一種特定風(fēng)格的網(wǎng)絡(luò)）的屬性值「翻譯」成另一種「語言」?？s略語、縮寫、同義詞甚至隱式對應(yīng)關(guān)系都可被視為翻譯的特殊情況。我們選擇「序列到序列」算法的原因是其已經(jīng)表現(xiàn)出了在機器翻譯任務(wù)上的有效性。具體而言，「序列到序列」方法有兩種可用于 CoLink 的優(yōu)勢。首先，它幾乎無需手動提取特征就能自動得到詞層面的映射和序列層面的映射。其次，它只需要正例（已對齊的屬性對）作為訓(xùn)練數(shù)據(jù)，這能減輕采樣負例的工作。

我們將 CoLink 應(yīng)用到鏈接社交網(wǎng)絡(luò)的相同用戶的任務(wù)上，其中我們試圖將企業(yè)網(wǎng)絡(luò)中的員工和他們的領(lǐng)英個人資料鏈接起來。我們進一步比較了 CoLink 和之前最佳的無監(jiān)督方法。實驗結(jié)果表明 CoLink 在 F1 分數(shù)上的表現(xiàn)總體上能超過之前最佳的無監(jiān)督方法的 20%。我們的貢獻總結(jié)如下：

我們最早將協(xié)同訓(xùn)練算法用在了知識圖譜實體鏈接的問題上。由于實體網(wǎng)絡(luò)中的實體屬性和實體關(guān)系是自然分開的，這使得協(xié)同訓(xùn)練是一種完美且無成本的解決方案。
我們最早將屬性對齊問題建模為機器翻譯。我們使用「序列到序列」方法作為基于屬性的模型的基礎(chǔ)，這幾乎無需提取特征就能實現(xiàn)很好的泛化。
我們進行了大量實驗，比較了我們提出的方法和之前最佳的無監(jiān)督方法，列舉了不同的設(shè)置和模型，結(jié)果表明了我們提出的解決方案的有效性。

CoLink

問題定義

知識圖譜上的實體鏈接問題定義為：其輸入包括一個源知識圖譜和一個目標知識圖譜。其輸出為一個實體鏈接對集合，表示從源圖譜中鏈接到目標圖譜中的實體對。

CoLink 框架

CoLink 框架基于如算法 1 所示的協(xié)同訓(xùn)練算法。我們在該框架中定義兩個不同的模型：一個基于屬性的模型 fatt 和一個基于關(guān)系的模型 frel。這兩個模型都會進行二元分類預(yù)測，將一組給定實體對分類為正例（鏈接的）或負例（非鏈接的）。該協(xié)同訓(xùn)練算法以迭代的方式不斷增強這兩個模型。在每一次協(xié)同訓(xùn)練迭代過程中，兩個模型都會使用已鏈接配對集 S 進行再訓(xùn)練。然后使用這兩個模型生成的高質(zhì)量的已鏈接配對會被合并到 S 中以用于下一次迭代，直到 S 收斂。在最開始時，需要一個初始的已鏈接配對集（簡稱種子集）來啟動這個協(xié)同訓(xùn)練過程，這個集合可以通過一組種子規(guī)則生成。根據(jù)模型所用的算法，基于屬性的模型和基于關(guān)系的模型的訓(xùn)練可能會需要負例。算法 1 中沒有給出采樣負例的過程。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

算法 1：CoLink 中的協(xié)同訓(xùn)練算法

這個協(xié)同訓(xùn)練算法不會修改之前的迭代中生成的已鏈接配對。因此由之前的迭代引入的誤差不會在后面得到修復(fù)。這種算法的一種替代方案是在協(xié)同訓(xùn)練收斂之后進行一次最終修改。即使用該協(xié)同學(xué)習(xí)過程所得到的最終模型來重構(gòu) S。

種子規(guī)則

該協(xié)同訓(xùn)練算法的啟動需要一個已鏈接實體對構(gòu)成的小型種子集。獲取種子集的一種簡單直接的方法是根據(jù)人工設(shè)計的規(guī)則來生成，我們稱之為種子規(guī)則。這些種子規(guī)則可以考慮來自目標知識圖譜的以下事實：

實體名稱唯一性
實體屬性值映射
實體關(guān)系傳播

種子規(guī)則的選取會直接影響 CoLink 的表現(xiàn)。

基于屬性的模型

基于屬性的模型通過考慮實體的屬性來預(yù)測鏈接的實體對。它可以使用任何分類算法。在這篇論文中，我們嘗試了兩種不同的機器學(xué)習(xí)算法：「序列到序列」和支持向量機（SVM）。

序列到序列

由于屬性有不同的變化形式，所以傳統(tǒng)的字符串相似度方法在處理屬性對齊方面表現(xiàn)很差。由于屬性對齊類似于機器翻譯問題，所以我們采用了「序列到序列」方法。縮略語、縮寫、同義詞甚至隱式鏈接都可被視為翻譯的特殊情況。

我們采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)由兩部分構(gòu)成：序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長短期記憶（LSTM）架構(gòu)。編碼器深度 LSTM 會讀取輸入序列并求出每個詞位置的表示向量。然后這些向量會被送入一個注意層（attention layer），從而得到一個考慮了輸出詞位置的輸入序列的整體表示。然后解碼器深度 LSTM 的隱藏狀態(tài)會進一步被送入一個全連接層（其輸出包含詞匯庫大小的維度信息），進而預(yù)測輸出詞。

我們按照之前的工作，使用已鏈接屬性值配對訓(xùn)練了「序列到序列」網(wǎng)絡(luò)。但是，我們不是使用網(wǎng)絡(luò)預(yù)測輸出序列，而是在 CoLink 中使用所學(xué)習(xí)到的「序列到序列」網(wǎng)絡(luò)來進行二元分類。首先，我們使用該網(wǎng)絡(luò)求出對于一對屬性匹配的概率。然后，我們選擇一個匹配概率閾值，超過該閾值的實體對被認為是有鏈接的。

支持向量機

SVM 等傳統(tǒng)的分類算法也可以用在基于屬性的模型中。不同于只需要正例訓(xùn)練樣本（已鏈接配對）的「序列到序列」方法，SVM 還需要負例。因為用戶配對空間非常大，所以正例在整個空間中實際上非常稀疏。在每次聯(lián)合訓(xùn)練迭代中，給定已鏈接配對，我們還會選擇同等數(shù)量的隨機實體對作為負例。

基于關(guān)系的模型

基于關(guān)系的模型僅使用實體關(guān)系來預(yù)測鏈接實體對。只根據(jù)關(guān)系來尋找兩個網(wǎng)絡(luò)中同等結(jié)點的問題通常被稱為網(wǎng)絡(luò)對齊問題。

基于關(guān)系的模型可以使用任何基于關(guān)系的網(wǎng)絡(luò)對齊模型。因為本文的重點是協(xié)同訓(xùn)練算法和「序列到序列」的基于屬性的模型，所以我們在本論文中使用了一種簡單的啟發(fā)式模型，該模型基于一個假設(shè)：如果兩個來自不同網(wǎng)絡(luò)的實體都具有大量互相關(guān)聯(lián)的已鏈接實體，那么這兩個實體很可能也是鏈接的。

實驗

我們的實驗比較了 CoLink 與當前最佳的無監(jiān)督方法。我們還研究了種子規(guī)則和鏈接概率閾值的選擇，以更好地理解它們對鏈接結(jié)果的可能影響方式。

數(shù)據(jù)集

我們選擇了一個真實數(shù)據(jù)集來評估 CoLink，它包含兩個社交網(wǎng)絡(luò)。其中一個社交網(wǎng)絡(luò)是領(lǐng)英，另一個網(wǎng)絡(luò)是一個企業(yè)內(nèi)部用戶網(wǎng)絡(luò)。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

表 1：數(shù)據(jù)集總體情況

候選實體對的選擇

我們構(gòu)建了一個候選實體對過濾器，它能移除大量不可能鏈接的實體對。該候選項過濾器考慮了以下屬性。

實體名
組織機構(gòu)

在過濾之后，我們得到了 758046 個候選實體對，其涵蓋了測試集合中所有有鏈接的配對。

序列到序列

我們實驗中的「序列到序列」網(wǎng)絡(luò)由一個帶注意網(wǎng)絡(luò)的深度 LSTM 編碼器和一個深度 LSTM 解碼器構(gòu)成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個層疊的 LSTM，因為我們發(fā)現(xiàn)對于實體鏈接任務(wù)而言，超過 2 層的編碼器或解碼器不能再帶來更多提升。每個 LSTM 的循環(huán)單元大小為 512。每個詞在被送入編碼器和解碼器之前都首先會被轉(zhuǎn)換成一個 512 維的嵌入向量?！感蛄械叫蛄小鼓Ｐ偷挠?xùn)練時間取決于訓(xùn)練數(shù)據(jù)的規(guī)模。平均而言，使用一個 Tesla K40 GPU，讓模型在 10 萬個屬性配對上完成訓(xùn)練需要 30 分鐘。

種子規(guī)則

為了測試 CoLink 的穩(wěn)健性，我們嘗試了下列 3 個種子規(guī)則集：

粗略調(diào)整的集合
精細調(diào)整的集合
有噪聲集合

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

圖 1：種子集比較；協(xié)同訓(xùn)練迭代開始后的 P/R/F1 趨勢

協(xié)同訓(xùn)練

我們通過將關(guān)系特征和屬性特征分開而使用了協(xié)同訓(xùn)練?；趯傩缘哪Ｐ秃突陉P(guān)系的模型都能在每次迭代中找到新配對然后增強彼此。圖 2 給出了每個模型所得到的已鏈接配對的統(tǒng)計情況。在這項任務(wù)中，基于屬性的模型生成的配對比基于關(guān)系的模型多，這是因為我們沒有完整的領(lǐng)英關(guān)系數(shù)據(jù)。我們爬取了公開的領(lǐng)英個人資料中的「人們還看了」列表，這只能為每位用戶提供不到 10 個關(guān)系。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

圖 2：基于粗略調(diào)整的種子配對使用聯(lián)合訓(xùn)練迭代得到的已鏈接配對的增長情況

概率閾值

圖 3 給出了不同閾值的比較情況。使用更嚴格的閾值（更小的百分數(shù)）會得到更高的精度和相對更低的召回率。我們在本任務(wù)中選擇的閾值是 95%。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架

圖 3：序列到序列鏈接概率閾值比較

比較結(jié)果

表 2：不同方法的表現(xiàn)的比較

屬性對齊

通過使用「序列到序列」方法，CoLink 可以處理使用傳統(tǒng)字符串相似度函數(shù)難以應(yīng)付的屬性對齊問題。表 3 給出了一些選擇出的應(yīng)該是對齊的屬性示例以及來自不同方法的相似度分數(shù)（全都位于 [0,1] 區(qū)間中）。在「序列到序列」的幫助下，幾乎無需提取特征，就可以輕松地將這種方法應(yīng)用于其它實體匹配任務(wù)。

阿里巴巴AAAI 18論文CoLink：知識圖譜實體鏈接無監(jiān)督學(xué)習(xí)框架