港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

本文作者：奕欣

2017-10-10 11:14

專(zhuān)題：KDD 2017

導(dǎo)語(yǔ)：KDD 2017 的一篇推薦系統(tǒng)的論文，被KDD 2017的research track接收并做口頭報(bào)告(錄取率8.6%)。

雷鋒網(wǎng) AI 科技評(píng)論按：在KDD 2017上，香港科技大學(xué)計(jì)算機(jī)系博士生趙歡作為第一作者的論文 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research track接收并做口頭報(bào)告。經(jīng)雷鋒網(wǎng) AI 科技評(píng)論邀請(qǐng)，趙歡為雷鋒網(wǎng)獨(dú)家供稿，分享了團(tuán)隊(duì)此項(xiàng)研究的核心思想、算法框架及實(shí)驗(yàn)結(jié)果。

作者介紹

本文主要介紹 KDD 2017 的一篇有關(guān)推薦系統(tǒng)的論文：「Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks」這篇論文被KDD 2017的research track接收并做口頭報(bào)告(錄取率8.6%)。作者包括：

第一作者趙歡，香港科技大學(xué)計(jì)算機(jī)系博士生，研究方向?yàn)椤府悩?gòu)網(wǎng)絡(luò)與推薦系統(tǒng)」；
第二作者姚權(quán)銘，香港科技大學(xué)計(jì)算機(jī)博士生，研究方向?yàn)椤笝C(jī)器學(xué)習(xí)優(yōu)化算法研究」，2016 Google Fellowship 獲得者；
第三作者李健達(dá)，香港科技大學(xué)碩士畢業(yè)生，本科畢業(yè)于上海交通大學(xué)。
第四作者宋陽(yáng)秋，香港科技大學(xué)助理教授，研究方向?yàn)椤钢R(shí)圖譜、文本數(shù)據(jù)挖掘和自然語(yǔ)言處理」；
第五作者李迪麟，香港科技大學(xué)正教授，研究方向?yàn)椤感畔z索，推薦系統(tǒng)，移動(dòng)數(shù)據(jù)管理」。

核心思想

在這個(gè)信息爆炸的時(shí)代，推薦系統(tǒng)不僅能幫助用戶(hù)更快地獲取感興趣的信息，同時(shí)也能創(chuàng)造巨大的商業(yè)價(jià)值，目前全球主要的互聯(lián)網(wǎng)公司都會(huì)有專(zhuān)門(mén)的推薦團(tuán)隊(duì)來(lái)從事推薦算法的研究，旨在提升自己的業(yè)務(wù)效果。

傳統(tǒng)的推薦系統(tǒng)中，最常見(jiàn)的方法就是「協(xié)同過(guò)濾」，典型的例子就是我們?cè)陔娚叹W(wǎng)站見(jiàn)到的「購(gòu)買(mǎi)該商品的用戶(hù)也購(gòu)買(mǎi)了/也在看」。協(xié)同過(guò)濾方法一般包括兩種方式，即基于用戶(hù)和基于商品的協(xié)同過(guò)濾，以及矩陣分解 (Matrix Factorization)。自從 2007 年 Netflix 百萬(wàn)大獎(jiǎng)的推薦系統(tǒng)比賽以來(lái)，矩陣分解的方法開(kāi)始變得流行。盡管矩陣分解可以獲得不錯(cuò)的推薦效果，但也有明顯的問(wèn)題：

1）稀疏性(Sparsity)?，F(xiàn)實(shí)生活里的評(píng)分矩陣往往非常稀疏，因?yàn)閱蝹€(gè)用戶(hù)評(píng)分的商品是非常少的；
2）冷啟動(dòng)(Cold Start)。新產(chǎn)生的用戶(hù)和商品往往都沒(méi)有評(píng)分。

上述兩種情況都會(huì)嚴(yán)重影響矩陣分解的預(yù)測(cè)準(zhǔn)確性。

除了這兩個(gè)基本的問(wèn)題以外，矩陣分解還有一個(gè)更嚴(yán)重的問(wèn)題：它很難適應(yīng)現(xiàn)在的推薦系統(tǒng)。因?yàn)楫?dāng)下的推薦系統(tǒng)需要處理的特征并非只有評(píng)分信息，而是各種各樣的信息（稱(chēng)作 Side Information），比如商品的描述，圖片，用戶(hù)的好友關(guān)系等。我們可以看圖 1 的例子，這是 Yelp 上一個(gè)餐館的詳情頁(yè)。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

圖 1：Yelp 上的一個(gè)詳情頁(yè)，Royal House

從圖中，我們可以看到，除了評(píng)分信息之外，還有餐館的地理位置，用戶(hù)上傳的圖片，評(píng)論等信息。顯然，在給用戶(hù)推薦餐館的過(guò)程中，這些信息都非常重要，但它們又很難融入到現(xiàn)有的矩陣分解的模型中。因此，我們需要一個(gè)全新的框架來(lái)解決這樣的問(wèn)題。這是我們此次 KDD 工作的核心思想：「我們用 HIN 來(lái)對(duì) side information 進(jìn)行建模，同時(shí)設(shè)計(jì)了一套有效的算法框架，從而獲得更好的推薦效果」。

算法框架

預(yù)備知識(shí)

異構(gòu)信息網(wǎng)絡(luò) (Hetegeneous Information Network 以下簡(jiǎn)稱(chēng) HIN），是由 UIUC 的 Han Jiawei 和 UCLA 的 Sun Yizhou 在 2011 年的 VLDB 論文中首次提出 [1]。

簡(jiǎn)單地理解，HIN 就是一個(gè)有向圖，圖中的節(jié)點(diǎn)和邊都可以有不同的類(lèi)型，如下圖，是一個(gè)從上面 Yelp 詳情頁(yè)抽取出來(lái)的 HIN。節(jié)點(diǎn)可以代表不同類(lèi)型的實(shí)體，比如 user, review, restaurant 等, 邊代表不同類(lèi)型的關(guān)系，比如 Check-in, Write, Mention 等。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

利用 HIN，我們就可以將各種各樣的 side information 統(tǒng)一起來(lái)，接下來(lái)我們將介紹如何在 HIN 這個(gè)框架下完成我們的推薦過(guò)程。

從meta-path到meta-graph

在Sun Yizhou的VLDB2011的論文中，除了提出HIN，同時(shí)也提出了meta-path，用來(lái)計(jì)算兩個(gè)節(jié)點(diǎn)之間的相似度。meta-path就是一個(gè)節(jié)點(diǎn)的sequence，節(jié)點(diǎn)與節(jié)點(diǎn)之間由不同類(lèi)型的邊連接，也就是不同的關(guān)系。

比如從上圖中的HIN，我們可以設(shè)計(jì)meta-path：

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

它表示的意義就是兩個(gè)用戶(hù)在同一個(gè)餐館簽到。

我們可以提取一條meta-path的實(shí)例：

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

那我們可以衡量港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 和 Bar Louie 之間的相似度，當(dāng)有越多的meta-path實(shí)例來(lái)連接和 Bar Louie，它們之間的相似度就越大，我們也會(huì)可以給港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 推薦 Bar Louie。我們可以發(fā)現(xiàn)，這條 meta-path 正好對(duì)應(yīng)我們熟悉的「基于用戶(hù)的協(xié)同過(guò)濾」，即經(jīng)常去 Royal House 的人也會(huì)去 Bar Louie。

從這個(gè)例子我們可以看出，對(duì)于推薦系統(tǒng)來(lái)說(shuō)，HIN和meta-path有兩個(gè)好處：

1) 非常完美地將各種side information融入到一個(gè)統(tǒng)一的模型；
2）利用meta-path，可以設(shè)計(jì)出各種各樣的推薦策略，除了推薦準(zhǔn)確性提升之外，還能提供「可解釋性」。

當(dāng)然，在計(jì)算節(jié)點(diǎn)相似度這個(gè)任務(wù)上，meta-path也有自己的問(wèn)題：「無(wú)法處理復(fù)雜的關(guān)系」。比如兩個(gè)用戶(hù)之間有如下連接性。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

對(duì)應(yīng)到圖上的實(shí)例，港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 和分別給 Royal House 寫(xiě)了一個(gè)評(píng)論，不僅給了五星好評(píng)，還在評(píng)論里同時(shí)提到了這里的「Seafood」，可以說(shuō)這兩個(gè)用戶(hù)對(duì)餐館的偏好非常相似。但是這樣一種相似性，meta-path 無(wú)法對(duì)其進(jìn)行建模。為了解決這個(gè)問(wèn)題，有兩篇論文 ( KDD 16 [2] 和 ICDE 16 [3]) 提出了一種更為通用通用的結(jié)構(gòu): meta-graph（也叫 meta-Structure）。相比 meta-path 要求必須是 sequence 的結(jié)構(gòu)，meta-graph 只要求「一個(gè)起點(diǎn)和一個(gè)終點(diǎn)，中間結(jié)構(gòu)并不限制」，這樣大大提升了靈活性。因此，在我們的 KDD 論文中，我們采用了 meta-graph 這樣一種結(jié)構(gòu)，來(lái)計(jì)算用戶(hù)和商品之間的相似度。在實(shí)踐中，我們可以設(shè)計(jì) 港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 條 meta-graph，從而得到多種商品和用戶(hù)之間的相似度，也就是個(gè)相似度矩陣。

推薦過(guò)程: 矩陣分解(MF) + 分解因子機(jī)(Factorization Machine)

通過(guò)HIN和mega-graph，我們完美地將各種各樣的side information統(tǒng)一到一個(gè)框架中。接下來(lái)的問(wèn)題就是「如何設(shè)計(jì)更好的推薦算法」。在這個(gè)論文里，我們用到了「MF + FM」的框架，簡(jiǎn)單來(lái)說(shuō): 分別對(duì) 港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 個(gè)相似度矩陣進(jìn)行矩陣分解，得到組用戶(hù)和商品的隱式特征，然后將所有的特征拼起來(lái)，使用分解因子機(jī)進(jìn)行訓(xùn)練和評(píng)分預(yù)測(cè)。

對(duì)于一個(gè)樣本，即用戶(hù)-商品對(duì)，我們分別可以得到港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 組特征，每組的維度為（在矩陣分解的時(shí)候，我們?cè)O(shè)定秩為）。那么我們就可以拼出下圖中所以的一個(gè)維度為港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 的特征向量。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

Factorization Machine (FM) [4] 是 2010 年在 ICDM 上提出一種模型，由于可以對(duì)特征之間的高階關(guān)系進(jìn)行建模，以及對(duì)二階參數(shù)進(jìn)行低秩分解，因而在評(píng)分預(yù)測(cè)這個(gè)推薦任務(wù)上取得了非常好的效果。在實(shí)踐中，我們一般使用二階關(guān)系：

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

其中，港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 是一階參數(shù)，是二階參數(shù)。為了學(xué)出和，我們使用了 Least Squared loss：

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

特征選擇: Group Lasso

一般在 FM 的訓(xùn)練過(guò)程中，往往也會(huì)加上港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 和的正則項(xiàng)來(lái)防止過(guò)擬合，用的最多的就是。但是，在我們的工作中，由于我們會(huì)設(shè)計(jì)多條 meta-graph，并不是每條 meta-graph 都有用，為了自動(dòng)選擇出有用的 meta-graph，我們放棄了港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) ，而選擇，也稱(chēng)作 group lasso。在我們的算法框架中，我們是以 meta-graph 為單位來(lái)構(gòu)造用戶(hù)和商品的隱式特征的，因此，每條 meta-graph 對(duì)應(yīng)一組用戶(hù)和商品的隱式特征。一旦某條 meta-graph 沒(méi)有用，那么它對(duì)應(yīng)的一組特征都應(yīng)該被去掉，這就是我們采用 group lasso 來(lái)做正則項(xiàng)的動(dòng)機(jī)。

使用 group lasso 正則項(xiàng)之后，目標(biāo)函數(shù)優(yōu)化就變成了一個(gè)非凸非光滑（non-convex, non-smooth）的問(wèn)題，我們使用了鄰近梯度算法（proximal gradient）算法來(lái)求解它。

以上就是我們的算法框架，接下來(lái)，我們將通過(guò)部分實(shí)驗(yàn)結(jié)果，來(lái)證明我們算法的優(yōu)勢(shì)。

實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)

我們使用了 Yelp 和 Amazon 這兩個(gè)數(shù)據(jù)集，這兩個(gè)都是非常經(jīng)典的推薦系統(tǒng)數(shù)據(jù)集，同時(shí)也包含了豐富的 side information。數(shù)據(jù)的具體統(tǒng)計(jì)數(shù)據(jù)，可以參看我們的論文，這里只展示我們用到的 meta-graph，如下圖。在 Yelp 上，我們?cè)O(shè)計(jì)了 9 條 meta-graph，在 amazon 上，我們?cè)O(shè)計(jì)了 6 種 meta-graph。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

在推薦系統(tǒng)中，我們一般用港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 來(lái)評(píng)估評(píng)分預(yù)測(cè)的好壞，越小意味著推薦效果越好。

港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng)

其中，港科大KDD 2017錄用論文作者詳解：基于異構(gòu)信息網(wǎng)絡(luò)元結(jié)構(gòu)融合的推薦系統(tǒng) 是實(shí)際評(píng)分，是預(yù)測(cè)評(píng)分，是 test set 的個(gè)數(shù)。

總結(jié)

最后，給我們的論文做一個(gè)簡(jiǎn)單的總結(jié)。近些年，由于移動(dòng)互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展，現(xiàn)在的推薦系統(tǒng)面臨豐富side information場(chǎng)景，傳統(tǒng)的基于矩陣分解的方法已經(jīng)很難再發(fā)揮作用，而基于人工設(shè)計(jì)的特征工程又極其費(fèi)勁。通過(guò)HIN和meta-graph，我們提供了一種簡(jiǎn)單有效的框架，既能夠非常靈活地利用side information來(lái)提升推薦效果，同時(shí)，還能利用人工設(shè)計(jì)的meta-graph來(lái)保留必要的語(yǔ)義信息，從而對(duì)推薦結(jié)果提供一定的「可解釋性」。通過(guò)實(shí)驗(yàn)，我們也證明了這個(gè)框架的有效性。

這個(gè)論文的代碼和數(shù)據(jù)也已經(jīng)公布到Github上： https://github.com/HKUST-KnowComp/FMG 。

參考文獻(xiàn)

Sun Yizhou et.al., PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. VLDB 2011
Huang Zhipeng et.al., Meta Structure: Computing Relevance in Large Heterogeneous Information Networks. KDD 2016
Fang Yuan et.al., Semantic Proximity Search on Graphs with Metagraph-based Learning. ICDE 2016
Rendle et.al., Factorization Machines. ICDM 2010
Yu Xiao et.al., Personalized Entity Recommendation: A Heterogeneous Information Network Approach. WSDM 2014
Shi Chuan et.al., Semantic Path based Personalized Recommendation on Weighted Heterogeneous Information Networks. CIKM 2015

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。