中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

本文作者：楊文

2017-12-28 21:48

導(dǎo)語(yǔ)：分享總結(jié)

雷鋒網(wǎng)AI科技評(píng)論按：隨著諸如 Twitter、Facebook、新浪微博等社交平臺(tái)的興起，每天有成千上萬(wàn)的消息在這些平臺(tái)上產(chǎn)生并傳播。在如此大體量的消息中，如何能提前預(yù)測(cè)某條消息在未來(lái)的關(guān)注轉(zhuǎn)發(fā)量（流行度），對(duì)于用戶和平臺(tái)而言都具有很大的意義。因此，本文將為大家介紹目前的網(wǎng)絡(luò)信息流行度預(yù)測(cè)研究進(jìn)展，以及中科院博士生曹婍提出的基于深度學(xué)習(xí)技術(shù)的端到端流行度預(yù)測(cè)框架（DeepHawkes 模型）。該工作已被國(guó)際會(huì)議 CIKM 2017 錄用并發(fā)表。

曹婍，目前就讀于中國(guó)科學(xué)院計(jì)算技術(shù)研究所的網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室，碩博生。碩士導(dǎo)師為沈華偉研究員，博士導(dǎo)師為李國(guó)杰院士。本科畢業(yè)于中國(guó)人民大學(xué)信息學(xué)院。目前主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)上的信息傳播建模及預(yù)測(cè)。

分享題目：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究

分享視頻鏈接地址：http://www.mooc.ai/open/course/356

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

分享內(nèi)容

社交網(wǎng)絡(luò)上消息流行度預(yù)測(cè)問(wèn)題的背景簡(jiǎn)介
現(xiàn)有消息流行度預(yù)測(cè)的方法以及存在的問(wèn)題
介紹本人最新提出的基于深度學(xué)習(xí)技術(shù)的端到端流行度預(yù)測(cè)框架（DeepHawkes 模型）
對(duì)于流行度預(yù)測(cè)問(wèn)題的一些思考以及心得體會(huì)

相關(guān)背景

現(xiàn)有的社交平臺(tái)的興起，為我們信息的產(chǎn)生和轉(zhuǎn)播帶來(lái)了極大的便利。光新浪微博每天至少有一千萬(wàn)條微博產(chǎn)生，但并不是所有信息都能獲得同樣的關(guān)注度。在社交網(wǎng)絡(luò)上，消息之間的關(guān)注度也是很不均勻的，大致也遵從二八法則。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

信息在社交網(wǎng)絡(luò)上的傳播有什么特性？

不同于傳統(tǒng)的信息傳播平臺(tái)，像電視，報(bào)紙，更像是一對(duì)多的廣播平臺(tái)，也就是有一個(gè)源發(fā)者。而在微博等社交網(wǎng)絡(luò)上存在一個(gè)關(guān)注關(guān)系和轉(zhuǎn)發(fā)關(guān)系，所以在信息的傳播上過(guò)程中，會(huì)產(chǎn)生一個(gè)級(jí)聯(lián)現(xiàn)象。

這種現(xiàn)象在社交網(wǎng)絡(luò)上是獨(dú)有的，同時(shí)也給社交網(wǎng)絡(luò)上的信息傳播預(yù)測(cè)帶來(lái)很大的困難。中間任何一個(gè)人的參與轉(zhuǎn)發(fā)，最終都可能導(dǎo)致信息在最后的流行度有很大的變化。比如有一個(gè)大V轉(zhuǎn)發(fā)，信息傳播可能就會(huì)有一個(gè)爆發(fā)式的增長(zhǎng)。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

如何形式化定義這個(gè)問(wèn)題？

第一種是把它當(dāng)做分類問(wèn)題，也就是預(yù)測(cè)消息在未來(lái)的流行度是否達(dá)到一個(gè)特定的預(yù)值，或者呈現(xiàn)一個(gè)翻倍的情況。第二種是把它當(dāng)做回歸問(wèn)題，也就是說(shuō)預(yù)測(cè)消息在未來(lái)具體流行度的量級(jí)。相對(duì)來(lái)說(shuō)，第二個(gè)回歸問(wèn)題較難。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

把它當(dāng)做一個(gè)回歸問(wèn)題后，如何定義這個(gè)問(wèn)題？

首先給定一個(gè)觀測(cè)時(shí)間后，我們能夠觀測(cè)到消息在觀測(cè)時(shí)間內(nèi)的轉(zhuǎn)發(fā)情況。要預(yù)測(cè)的目標(biāo)就是在觀測(cè)時(shí)間窗口到最終預(yù)測(cè)時(shí)間窗口之間的流行度的增長(zhǎng)量。

為了能更好體現(xiàn)預(yù)測(cè)的難度，我們把已知的觀測(cè)時(shí)間窗口內(nèi)的流行度直接去掉，直接來(lái)預(yù)測(cè)觀測(cè)時(shí)間到預(yù)測(cè)時(shí)間中間的增量流行度情況。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

現(xiàn)有的研究方法都有哪些？

現(xiàn)有方法可分為兩類。第一類是基于特征的方法，第二類是基于生成式過(guò)程的方式。

第一類是站在非常傳統(tǒng)經(jīng)典的機(jī)器學(xué)習(xí)角度來(lái)做的，大家的主要貢獻(xiàn)點(diǎn)在于特征的提取上。現(xiàn)有的方法主要提取以下這四類特征：

消息內(nèi)容特征
原發(fā)者或轉(zhuǎn)發(fā)者相關(guān)特征
傳播結(jié)構(gòu)特征
時(shí)序特征

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

以內(nèi)容特征為例，在提取內(nèi)容特征的時(shí)候，包括會(huì)提取文字里面是否包含特定特征，還有整篇文字情感的正負(fù)向比例。這些都屬于消息的內(nèi)容特征。

用戶的特征，包括原發(fā)用戶和轉(zhuǎn)發(fā)用戶特征，原發(fā)用戶特征提取包括年齡，性別，注冊(cè)時(shí)間，活躍度以及他的粉絲數(shù)等等。轉(zhuǎn)發(fā)用戶的特征提取和原發(fā)用戶類似。

結(jié)構(gòu)特征包括兩個(gè)，第一個(gè)是在原始的社交網(wǎng)絡(luò)上形成的結(jié)構(gòu)，第二個(gè)是在某條特定消息傳播過(guò)程中所形成的傳播圖結(jié)構(gòu)。會(huì)提取圖的連通性，廣度，深度，以及初度，入度等等。

時(shí)序特征，主要是指在傳播過(guò)程中，傳播速率有什么變化。

這樣一類通過(guò)特征提取，然后利用機(jī)器學(xué)習(xí)方式來(lái)進(jìn)行流行度預(yù)測(cè)建模的方法是比較傳統(tǒng)和比較寬泛的。但我們可以看到在這過(guò)程中，并沒(méi)有對(duì)信息傳播的深入動(dòng)態(tài)過(guò)程進(jìn)行理解。而只是通過(guò)提取各種各樣特征盡可能擬合這樣一個(gè)結(jié)果。它是直接受未來(lái)流行度預(yù)測(cè)監(jiān)督指導(dǎo)的，一般這樣的模型預(yù)測(cè)比較好，但對(duì)于我們理解信息傳播過(guò)程是有缺陷的，因?yàn)闆](méi)有對(duì)傳播過(guò)程進(jìn)行建模。

第二類生成式方法，是在原有的特征提取基礎(chǔ)之上，能夠建模信息傳播動(dòng)態(tài)過(guò)程，能夠探尋信息在傳播過(guò)程中的一些機(jī)制，把這些機(jī)制建模好。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

自增強(qiáng)泊松過(guò)程

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

Hawkes過(guò)程，每一次的轉(zhuǎn)發(fā)都會(huì)對(duì)未來(lái)消息帶來(lái)新的激勵(lì)

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

生成式方法中，它是為每一條消息單獨(dú)建模訓(xùn)練的，它會(huì)對(duì)觀測(cè)時(shí)間窗口內(nèi)的每一個(gè)事件進(jìn)行觀測(cè)，建模的時(shí)候，是通過(guò)使觀測(cè)時(shí)間內(nèi)的事件發(fā)生概率最大化來(lái)學(xué)習(xí)得到參數(shù)的。它一方面有非常好的可理解性，但同時(shí)由于監(jiān)督的數(shù)據(jù)是觀測(cè)時(shí)間窗口內(nèi)的每個(gè)事件的發(fā)生，而不是未來(lái)要預(yù)測(cè)的增量流行度。預(yù)測(cè)的性能是有缺失的。

因此促使我們希望能夠設(shè)計(jì)一個(gè)模型，在受未來(lái)流行度監(jiān)督之下，怎樣把生成式過(guò)程中關(guān)鍵機(jī)制和因子刻畫到，這樣就能即具有比較好的預(yù)測(cè)性能，同時(shí)也對(duì)消息的傳播過(guò)程有一個(gè)較好的理解能力。我們提出了DeepHawkes模型。

DeepHawkes 整體運(yùn)行框架

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

實(shí)驗(yàn)數(shù)據(jù)來(lái)源及場(chǎng)景

以下分別是微博場(chǎng)景下預(yù)測(cè)一條消息在未來(lái)的轉(zhuǎn)發(fā)度和在論文場(chǎng)景下預(yù)測(cè)未來(lái)論文引用量。

中科院曹婍：基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)流行度預(yù)測(cè)研究 | 分享總結(jié)

總結(jié)：我們提出DeepHawkes模型，在端到端直接通過(guò)未來(lái)流行度監(jiān)督的深度學(xué)習(xí)框架之下，刻畫了已有的Hawkes模型當(dāng)中的信息傳播過(guò)程中比較關(guān)鍵的因子或機(jī)制。同時(shí)，我們對(duì)這三個(gè)機(jī)制也進(jìn)行了一定的改進(jìn)和擴(kuò)展，包括用用戶學(xué)到的embeding來(lái)替代原先啟發(fā)式的用戶粉絲數(shù)，以及建模了整個(gè)轉(zhuǎn)發(fā)路徑的影響，而不僅僅是當(dāng)前的轉(zhuǎn)發(fā)用戶。還有，我們使用了非參方式來(lái)靈活刻畫學(xué)習(xí)特征和學(xué)習(xí)時(shí)間的衰減效應(yīng)。

感興趣的同學(xué)可以在ACM的論文庫(kù)里下載這篇論文。論文題目：DeepHawkes：Bridging the Gap between Prediction and Understanding of Information Cascade

雷鋒網(wǎng)提醒大家，如果您對(duì)DeepHawkes模型的細(xì)節(jié)感興趣，可以觀看GAIR大講堂回放視頻。

視頻鏈接地址：http://www.mooc.ai/open/course/356

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。