0
本文作者: 奕欣 | 2018-03-27 11:50 |
雷鋒網(wǎng) AI 科技評(píng)論按:阿里巴巴有 11 篇論文被 AAAI 2018錄用,分別來(lái)自機(jī)器智能技術(shù)實(shí)驗(yàn)室、業(yè)務(wù)平臺(tái)事業(yè)部、阿里媽媽事業(yè)部、人工智能實(shí)驗(yàn)室、云零售事業(yè)部,其中有 5 位作者受邀在主會(huì)做 Oral&Spotlight 形式報(bào)告,另有 1 位作者攜兩篇論文在主會(huì)以 Poster 形式做報(bào)告。論文內(nèi)容涉及對(duì)抗學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、提高輕量網(wǎng)絡(luò)性能的訓(xùn)練框架、機(jī)器翻譯、聊天機(jī)器人、無(wú)監(jiān)督學(xué)習(xí)框架、極限低比特神經(jīng)網(wǎng)絡(luò)等技術(shù)方向。
以下為阿里巴巴 AI Lab 與微軟研究院、伊利諾伊大學(xué)厄巴納-香檳分校的合作論文解讀投稿。
主要作者(中英文):鐘澤軒 Zexuan Zhong、曹涌 Yong Cao、郭沐 Mu Guo、聶再清 Zaiqing Nie
論文下載地址:https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf
將幾個(gè)子知識(shí)圖譜上的同一實(shí)體信息鏈接在一起(也被稱為用戶身份鏈接(UIL)問(wèn)題)對(duì)很多應(yīng)用而言都至關(guān)重要。實(shí)體鏈接問(wèn)題有兩大主要難點(diǎn)。
第一,收集人工鏈接的實(shí)體信息對(duì)(user pairs)作為訓(xùn)練數(shù)據(jù)的成本非常高昂。
第二,不同子知識(shí)圖譜的實(shí)體屬性通常有非常不同的定義方式和格式,這使得屬性對(duì)齊(attribute alignment)非常困難。
我們?cè)诒菊撐闹刑岢隽?CoLink,一種用于實(shí)體信息鏈接問(wèn)題的通用型無(wú)監(jiān)督框架。CoLink 使用了一種能同時(shí)操作兩個(gè)獨(dú)立模型(基于屬性的模型和基于關(guān)系的模型)的協(xié)同訓(xùn)練算法,并且能以無(wú)監(jiān)督學(xué)習(xí)的方式迭代式地讓兩個(gè)模型彼此互相增強(qiáng)。我們還提出使用「序列到序列」學(xué)習(xí)作為基于屬性的模型非常有效,這種方法能將屬性對(duì)齊難題當(dāng)作機(jī)器翻譯問(wèn)題處理。我們將 CoLink 應(yīng)用到了將企業(yè)網(wǎng)絡(luò)中的員工映射到他們的領(lǐng)英(LinkedIn)個(gè)人資料的實(shí)體信息鏈接任務(wù)上。實(shí)驗(yàn)結(jié)果表明 CoLink 在 F1 分?jǐn)?shù)上的表現(xiàn)超過(guò)之前最佳的無(wú)監(jiān)督方法的 20% 以上。
將不同子知識(shí)圖譜上的同一實(shí)體信息鏈接起來(lái)(也被稱為用戶身份鏈接(UIL)問(wèn)題)通常能得到對(duì)該實(shí)體的更好和更深度的理解,這通常又能進(jìn)一步得到更好的商業(yè)智能。
盡管機(jī)器學(xué)習(xí)算法已經(jīng)在實(shí)體鏈接問(wèn)題上得到了廣泛的應(yīng)用,但訓(xùn)練數(shù)據(jù)的標(biāo)注工作并不簡(jiǎn)單。首先,尋找已鏈接實(shí)體信息配對(duì)是極其耗時(shí)的,因?yàn)檫@需要搜索所有子知識(shí)圖譜以及仔細(xì)評(píng)估大量候選配對(duì)。另外這個(gè)工作還需要人類標(biāo)注者具有廣泛的領(lǐng)域知識(shí)。其次,由于隱私保護(hù)的原因,并非所有知識(shí)圖譜的實(shí)體數(shù)據(jù)都可以提供給人類標(biāo)注者,尤其是當(dāng)這些資料來(lái)自個(gè)人社交網(wǎng)絡(luò)或企業(yè)內(nèi)部網(wǎng)絡(luò)時(shí)。
在兩個(gè)子知識(shí)圖譜之間鏈接實(shí)體需要仔細(xì)比對(duì)兩個(gè)子圖譜中的實(shí)體屬性,比如名稱、職位、位置等。因此,屬性值的對(duì)齊對(duì)實(shí)體鏈接問(wèn)題而言至關(guān)重要。但是,傳統(tǒng)的字符串相似度函數(shù)有兩個(gè)不足之處:
沒(méi)有一個(gè)通用方法可以處理相同屬性在不同實(shí)體網(wǎng)絡(luò)中的變化
無(wú)法找到隱式的屬性對(duì)應(yīng)關(guān)系
在這篇論文中,我們提出了一種用于實(shí)體鏈接問(wèn)題的通用型無(wú)監(jiān)督框架 CoLink。知識(shí)圖譜中的實(shí)體數(shù)據(jù)可以自然地劃分為兩個(gè)獨(dú)立的角度的特征:屬性和關(guān)系,這完美契合協(xié)同訓(xùn)練(co-training)算法的要求。
CoLink 使用兩個(gè)獨(dú)立的模型:一個(gè)基于屬性的模型和一個(gè)基于關(guān)系的模型?;趯傩缘哪P秃突陉P(guān)系的模型都是二元分類器,決定兩個(gè)實(shí)體是否能鏈接起來(lái)。它們可以基于任何機(jī)器學(xué)習(xí)或啟發(fā)式算法。因此,只要知識(shí)圖譜資料中包含屬性和關(guān)系,那就可以將 CoLink 應(yīng)用于該知識(shí)圖譜的實(shí)體鏈接問(wèn)題上。
更進(jìn)一步,我們?cè)?CoLink 的基于屬性的模型的實(shí)現(xiàn)中使用了「序列到序列」學(xué)習(xí)算法,這為不同實(shí)體網(wǎng)絡(luò)之間的屬性對(duì)齊提供了一種通用方法。我們沒(méi)有將屬性對(duì)齊當(dāng)成字符串相似度比較而進(jìn)行處理,而是試圖將一種「語(yǔ)言」(一種特定風(fēng)格的網(wǎng)絡(luò))的屬性值「翻譯」成另一種「語(yǔ)言」??s略語(yǔ)、縮寫(xiě)、同義詞甚至隱式對(duì)應(yīng)關(guān)系都可被視為翻譯的特殊情況。我們選擇「序列到序列」算法的原因是其已經(jīng)表現(xiàn)出了在機(jī)器翻譯任務(wù)上的有效性。具體而言,「序列到序列」方法有兩種可用于 CoLink 的優(yōu)勢(shì)。首先,它幾乎無(wú)需手動(dòng)提取特征就能自動(dòng)得到詞層面的映射和序列層面的映射。其次,它只需要正例(已對(duì)齊的屬性對(duì))作為訓(xùn)練數(shù)據(jù),這能減輕采樣負(fù)例的工作。
我們將 CoLink 應(yīng)用到鏈接社交網(wǎng)絡(luò)的相同用戶的任務(wù)上,其中我們?cè)噲D將企業(yè)網(wǎng)絡(luò)中的員工和他們的領(lǐng)英個(gè)人資料鏈接起來(lái)。我們進(jìn)一步比較了 CoLink 和之前最佳的無(wú)監(jiān)督方法。實(shí)驗(yàn)結(jié)果表明 CoLink 在 F1 分?jǐn)?shù)上的表現(xiàn)總體上能超過(guò)之前最佳的無(wú)監(jiān)督方法的 20%。我們的貢獻(xiàn)總結(jié)如下:
我們最早將協(xié)同訓(xùn)練算法用在了知識(shí)圖譜實(shí)體鏈接的問(wèn)題上。由于實(shí)體網(wǎng)絡(luò)中的實(shí)體屬性和實(shí)體關(guān)系是自然分開(kāi)的,這使得協(xié)同訓(xùn)練是一種完美且無(wú)成本的解決方案。
我們最早將屬性對(duì)齊問(wèn)題建模為機(jī)器翻譯。我們使用「序列到序列」方法作為基于屬性的模型的基礎(chǔ),這幾乎無(wú)需提取特征就能實(shí)現(xiàn)很好的泛化。
我們進(jìn)行了大量實(shí)驗(yàn),比較了我們提出的方法和之前最佳的無(wú)監(jiān)督方法,列舉了不同的設(shè)置和模型,結(jié)果表明了我們提出的解決方案的有效性。
問(wèn)題定義
知識(shí)圖譜上的實(shí)體鏈接問(wèn)題定義為:其輸入包括一個(gè)源知識(shí)圖譜和一個(gè)目標(biāo)知識(shí)圖譜。其輸出為一個(gè)實(shí)體鏈接對(duì)集合,表示從源圖譜中鏈接到目標(biāo)圖譜中的實(shí)體對(duì)。
CoLink 框架
CoLink 框架基于如算法 1 所示的協(xié)同訓(xùn)練算法。我們?cè)谠摽蚣苤卸x兩個(gè)不同的模型:一個(gè)基于屬性的模型 fatt 和一個(gè)基于關(guān)系的模型 frel。這兩個(gè)模型都會(huì)進(jìn)行二元分類預(yù)測(cè),將一組給定實(shí)體對(duì)分類為正例(鏈接的)或負(fù)例(非鏈接的)。該協(xié)同訓(xùn)練算法以迭代的方式不斷增強(qiáng)這兩個(gè)模型。在每一次協(xié)同訓(xùn)練迭代過(guò)程中,兩個(gè)模型都會(huì)使用已鏈接配對(duì)集 S 進(jìn)行再訓(xùn)練。然后使用這兩個(gè)模型生成的高質(zhì)量的已鏈接配對(duì)會(huì)被合并到 S 中以用于下一次迭代,直到 S 收斂。在最開(kāi)始時(shí),需要一個(gè)初始的已鏈接配對(duì)集(簡(jiǎn)稱種子集)來(lái)啟動(dòng)這個(gè)協(xié)同訓(xùn)練過(guò)程,這個(gè)集合可以通過(guò)一組種子規(guī)則生成。根據(jù)模型所用的算法,基于屬性的模型和基于關(guān)系的模型的訓(xùn)練可能會(huì)需要負(fù)例。算法 1 中沒(méi)有給出采樣負(fù)例的過(guò)程。
算法 1:CoLink 中的協(xié)同訓(xùn)練算法
這個(gè)協(xié)同訓(xùn)練算法不會(huì)修改之前的迭代中生成的已鏈接配對(duì)。因此由之前的迭代引入的誤差不會(huì)在后面得到修復(fù)。這種算法的一種替代方案是在協(xié)同訓(xùn)練收斂之后進(jìn)行一次最終修改。即使用該協(xié)同學(xué)習(xí)過(guò)程所得到的最終模型來(lái)重構(gòu) S。
種子規(guī)則
該協(xié)同訓(xùn)練算法的啟動(dòng)需要一個(gè)已鏈接實(shí)體對(duì)構(gòu)成的小型種子集。獲取種子集的一種簡(jiǎn)單直接的方法是根據(jù)人工設(shè)計(jì)的規(guī)則來(lái)生成,我們稱之為種子規(guī)則。這些種子規(guī)則可以考慮來(lái)自目標(biāo)知識(shí)圖譜的以下事實(shí):
實(shí)體名稱唯一性
實(shí)體屬性值映射
實(shí)體關(guān)系傳播
種子規(guī)則的選取會(huì)直接影響 CoLink 的表現(xiàn)。
基于屬性的模型
基于屬性的模型通過(guò)考慮實(shí)體的屬性來(lái)預(yù)測(cè)鏈接的實(shí)體對(duì)。它可以使用任何分類算法。在這篇論文中,我們嘗試了兩種不同的機(jī)器學(xué)習(xí)算法:「序列到序列」和支持向量機(jī)(SVM)。
序列到序列
由于屬性有不同的變化形式,所以傳統(tǒng)的字符串相似度方法在處理屬性對(duì)齊方面表現(xiàn)很差。由于屬性對(duì)齊類似于機(jī)器翻譯問(wèn)題,所以我們采用了「序列到序列」方法??s略語(yǔ)、縮寫(xiě)、同義詞甚至隱式鏈接都可被視為翻譯的特殊情況。
我們采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)由兩部分構(gòu)成:序列編碼器和序列解碼器。編碼器和解碼器都使用了深度長(zhǎng)短期記憶(LSTM)架構(gòu)。編碼器深度 LSTM 會(huì)讀取輸入序列并求出每個(gè)詞位置的表示向量。然后這些向量會(huì)被送入一個(gè)注意層(attention layer),從而得到一個(gè)考慮了輸出詞位置的輸入序列的整體表示。然后解碼器深度 LSTM 的隱藏狀態(tài)會(huì)進(jìn)一步被送入一個(gè)全連接層(其輸出包含詞匯庫(kù)大小的維度信息),進(jìn)而預(yù)測(cè)輸出詞。
我們按照之前的工作,使用已鏈接屬性值配對(duì)訓(xùn)練了「序列到序列」網(wǎng)絡(luò)。但是,我們不是使用網(wǎng)絡(luò)預(yù)測(cè)輸出序列,而是在 CoLink 中使用所學(xué)習(xí)到的「序列到序列」網(wǎng)絡(luò)來(lái)進(jìn)行二元分類。首先,我們使用該網(wǎng)絡(luò)求出對(duì)于一對(duì)屬性匹配的概率。然后,我們選擇一個(gè)匹配概率閾值,超過(guò)該閾值的實(shí)體對(duì)被認(rèn)為是有鏈接的。
支持向量機(jī)
SVM 等傳統(tǒng)的分類算法也可以用在基于屬性的模型中。不同于只需要正例訓(xùn)練樣本(已鏈接配對(duì))的「序列到序列」方法,SVM 還需要負(fù)例。因?yàn)橛脩襞鋵?duì)空間非常大,所以正例在整個(gè)空間中實(shí)際上非常稀疏。在每次聯(lián)合訓(xùn)練迭代中,給定已鏈接配對(duì),我們還會(huì)選擇同等數(shù)量的隨機(jī)實(shí)體對(duì)作為負(fù)例。
基于關(guān)系的模型
基于關(guān)系的模型僅使用實(shí)體關(guān)系來(lái)預(yù)測(cè)鏈接實(shí)體對(duì)。只根據(jù)關(guān)系來(lái)尋找兩個(gè)網(wǎng)絡(luò)中同等結(jié)點(diǎn)的問(wèn)題通常被稱為網(wǎng)絡(luò)對(duì)齊問(wèn)題。
基于關(guān)系的模型可以使用任何基于關(guān)系的網(wǎng)絡(luò)對(duì)齊模型。因?yàn)楸疚牡闹攸c(diǎn)是協(xié)同訓(xùn)練算法和「序列到序列」的基于屬性的模型,所以我們?cè)诒菊撐闹惺褂昧艘环N簡(jiǎn)單的啟發(fā)式模型,該模型基于一個(gè)假設(shè):如果兩個(gè)來(lái)自不同網(wǎng)絡(luò)的實(shí)體都具有大量互相關(guān)聯(lián)的已鏈接實(shí)體,那么這兩個(gè)實(shí)體很可能也是鏈接的。
我們的實(shí)驗(yàn)比較了 CoLink 與當(dāng)前最佳的無(wú)監(jiān)督方法。我們還研究了種子規(guī)則和鏈接概率閾值的選擇,以更好地理解它們對(duì)鏈接結(jié)果的可能影響方式。
數(shù)據(jù)集
我們選擇了一個(gè)真實(shí)數(shù)據(jù)集來(lái)評(píng)估 CoLink,它包含兩個(gè)社交網(wǎng)絡(luò)。其中一個(gè)社交網(wǎng)絡(luò)是領(lǐng)英,另一個(gè)網(wǎng)絡(luò)是一個(gè)企業(yè)內(nèi)部用戶網(wǎng)絡(luò)。
表 1:數(shù)據(jù)集總體情況
候選實(shí)體對(duì)的選擇
我們構(gòu)建了一個(gè)候選實(shí)體對(duì)過(guò)濾器,它能移除大量不可能鏈接的實(shí)體對(duì)。該候選項(xiàng)過(guò)濾器考慮了以下屬性。
實(shí)體名
組織機(jī)構(gòu)
在過(guò)濾之后,我們得到了 758046 個(gè)候選實(shí)體對(duì),其涵蓋了測(cè)試集合中所有有鏈接的配對(duì)。
序列到序列
我們實(shí)驗(yàn)中的「序列到序列」網(wǎng)絡(luò)由一個(gè)帶注意網(wǎng)絡(luò)的深度 LSTM 編碼器和一個(gè)深度 LSTM 解碼器構(gòu)成。編碼器深度 LSTM 和解碼器深度 LSTM 都有 2 個(gè)層疊的 LSTM,因?yàn)槲覀儼l(fā)現(xiàn)對(duì)于實(shí)體鏈接任務(wù)而言,超過(guò) 2 層的編碼器或解碼器不能再帶來(lái)更多提升。每個(gè) LSTM 的循環(huán)單元大小為 512。每個(gè)詞在被送入編碼器和解碼器之前都首先會(huì)被轉(zhuǎn)換成一個(gè) 512 維的嵌入向量?!感蛄械叫蛄小鼓P偷挠?xùn)練時(shí)間取決于訓(xùn)練數(shù)據(jù)的規(guī)模。平均而言,使用一個(gè) Tesla K40 GPU,讓模型在 10 萬(wàn)個(gè)屬性配對(duì)上完成訓(xùn)練需要 30 分鐘。
種子規(guī)則
為了測(cè)試 CoLink 的穩(wěn)健性,我們嘗試了下列 3 個(gè)種子規(guī)則集:
粗略調(diào)整的集合
精細(xì)調(diào)整的集合
有噪聲集合
圖 1:種子集比較;協(xié)同訓(xùn)練迭代開(kāi)始后的 P/R/F1 趨勢(shì)
協(xié)同訓(xùn)練
我們通過(guò)將關(guān)系特征和屬性特征分開(kāi)而使用了協(xié)同訓(xùn)練?;趯傩缘哪P秃突陉P(guān)系的模型都能在每次迭代中找到新配對(duì)然后增強(qiáng)彼此。圖 2 給出了每個(gè)模型所得到的已鏈接配對(duì)的統(tǒng)計(jì)情況。在這項(xiàng)任務(wù)中,基于屬性的模型生成的配對(duì)比基于關(guān)系的模型多,這是因?yàn)槲覀儧](méi)有完整的領(lǐng)英關(guān)系數(shù)據(jù)。我們爬取了公開(kāi)的領(lǐng)英個(gè)人資料中的「人們還看了」列表,這只能為每位用戶提供不到 10 個(gè)關(guān)系。
圖 2:基于粗略調(diào)整的種子配對(duì)使用聯(lián)合訓(xùn)練迭代得到的已鏈接配對(duì)的增長(zhǎng)情況
概率閾值
圖 3 給出了不同閾值的比較情況。使用更嚴(yán)格的閾值(更小的百分?jǐn)?shù))會(huì)得到更高的精度和相對(duì)更低的召回率。我們?cè)诒救蝿?wù)中選擇的閾值是 95%。
圖 3:序列到序列鏈接概率閾值比較
比較結(jié)果
表 2:不同方法的表現(xiàn)的比較
屬性對(duì)齊
通過(guò)使用「序列到序列」方法,CoLink 可以處理使用傳統(tǒng)字符串相似度函數(shù)難以應(yīng)付的屬性對(duì)齊問(wèn)題。表 3 給出了一些選擇出的應(yīng)該是對(duì)齊的屬性示例以及來(lái)自不同方法的相似度分?jǐn)?shù)(全都位于 [0,1] 區(qū)間中)。在「序列到序列」的幫助下,幾乎無(wú)需提取特征,就可以輕松地將這種方法應(yīng)用于其它實(shí)體匹配任務(wù)。
表 3:選擇出的一些屬性示例以及它們的相似度分?jǐn)?shù)
現(xiàn)在關(guān)注“雷鋒網(wǎng)”微信公眾號(hào)(leiphone-sz),回復(fù)關(guān)鍵詞【2018】,隨機(jī)抽送價(jià)值 3999 元的參會(huì)門票 3 張
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。