丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017

本文作者: 奕欣 2017-08-13 01:38 專題:IJCAI 2017
導語:雷鋒網(wǎng)特邀請了部分錄用論文作者對自己的作品進行詳細解讀,以供有興趣的老師同學們了解作者的研究思路。

雷鋒網(wǎng)AI科技評論:IJCAI 2017即將舉行,為此,雷鋒網(wǎng)特邀請了部分錄用論文作者對自己的作品進行詳細解讀,以供有興趣的老師同學們了解作者的研究思路。本文原載于王永慶個人公眾號“KingsGarden”,授權雷鋒網(wǎng)轉(zhuǎn)載,雷鋒網(wǎng)AI科技評論做了不改變原意的編輯。

另外,雷鋒網(wǎng)即將在 8 月 12 日下午舉行“GAIR大講堂CVPR 上海交大專場”分享會,感興趣的同學趕緊點擊此鏈接了解活動詳情。


中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017

王永慶,2017年中國科學院計算技術研究所工學博士畢業(yè),現(xiàn)就職中國科學院計算技術研究所,任助理研究員。研究方向: 信息傳播,社會計算,數(shù)據(jù)挖掘和機器學習。

論文題目:Cascade Dynamics Modeling with Attention-based Recurrent Neural Network

作者: Yongqing Wang, Huawei Shen, Shenghua Liu, Jinhua Gao and Xueqi Cheng

背景介紹

這篇文章是我們今年投稿于IJCAI并錄用的文章,文章的背景是信息傳播建模(Cascade Dynamics Modeling),切入點是如何將結構信息融合到序列建模(Sequence Modeling)中。

簡單介紹下序列建模,這是一種挖掘序列內(nèi)關聯(lián)模式的技術手段,這種關聯(lián)模式又可按序列內(nèi)前后兩元素間間距是否等長對應到兩類具體的問題中:離散序列和時序序列建模。例如離散馬爾科夫模型,連續(xù)時間馬爾科夫模型等都是經(jīng)典的序列建模模型。當然,這幾年來受到神經(jīng)網(wǎng)絡的沖擊,利用循環(huán)神經(jīng)網(wǎng)絡(RNN)處理序列建模問題也逐漸成為了這一領域的標桿。

為了能夠產(chǎn)生迭代,提高序列建模的效率,一般認為,序列內(nèi)部各元素的間的關系是順序傳遞的。大家可以細想一下基于這種假設下序列建模所存在的問題:無法處理序列內(nèi)各元素的結構信息。圖1展示了傳統(tǒng)序列建模中的這種假設與真實情況的矛盾??紤]結構信息后圖1(a)中的事件(u3,t3)、(u4,t4)節(jié)點均不再順序依賴于其前一個節(jié)點,如果繼續(xù)采用傳統(tǒng)序列建模的方式,那么建模勢必會存在一定的偏差。在這里,我們將其稱為序列建模中的跳躍依賴(Cross-dependence)問題。那么如何有效解決這一問題呢?

                                              中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017

(a)    傳統(tǒng)序列建模的傳遞依賴關系

中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017


(b)    考慮元素間結構信息后與傳統(tǒng)序列建模假設的矛盾

圖 1 傳統(tǒng)序列建模假設與真實情況的矛盾

動機

讓我們先來思考一下解決跳躍依賴問題的關鍵:如何在序列建模過程中加入對結構信息的考慮。但這種嘗試至今沒有真正成功過。例如,讓我們來考慮下圖1(a)中u4節(jié)點的可能依賴結構,一共存在?, {u1}, {u2}, {u3}, {u1, u2}, {u1, u2}, {u1, u3}, {u2, u3}, {u1, u2, u3}這9種可能情況。假設目標節(jié)點的可能依賴節(jié)點數(shù)為K,那么這種可能的依賴結構一共是2K+1種??紤]結構信息后,會使得序列建模的計算復雜度呈幾何級提升,而過大的計算開銷又不會給最終的計算結果帶來可觀的效果提升。

那么是否存在一種既不會帶來過多的計算開銷,又能同時解決跳躍依賴問題的方法呢?有!我們提出了一種在循環(huán)神經(jīng)網(wǎng)絡框架下考慮序列中結構信息的建模方式—CYAN-RNN(Cascade dYnamics modeling with AttentioN based RNN)。簡單介紹下循環(huán)神經(jīng)網(wǎng)絡:在循環(huán)神經(jīng)網(wǎng)絡中,序列元素順序輸入,通過激活函數(shù)變換成為對應輸入的表示,并用于生成序列。一般地,我們認為所得的表示信息是對序列中對應輸入的一種合理抽象。例如,在語言模型中,以單詞作為輸入,所得的即為單詞語義的一種抽象。在信息傳播中,以用戶行為作為輸入,所得的即為用戶行為的一種合理抽象。那么如果我們將這些表示進行綜合,共同作用于同一任務,所謂的結構,是否可以理解為當前任務對這些抽象表示的利用程度呢?

模型

基于上述的討論,我們基本確定了一條解題思路:將當前所有可用的表示進行綜合,通過對當前任務的理解,刪選出合適的信息,并推理出可能的依賴結構。

圖2給出了在RNN框架下綜合所有可用表示進行序列建模的示意圖。在考慮計算效率和有效性的前提下,我們決定采用注意力機制(Attention Mechanism)來實現(xiàn)這一架構。

  • 一方面因為注意力機制的實現(xiàn)及計算效率很高;

  • 另一方面,注意力機制也是目前在多個不同應用上被證明為能夠較好地學習結構信息的一種機制。

圖3給出了文中所實現(xiàn)的帶注意力機制的循環(huán)神經(jīng)網(wǎng)絡結構圖。注意力機制的關鍵是學習獲得了注意力向量α。我們約束了向量中的所有元素之和∑i αi=1,這樣所學得的注意力可用于表示對應表示的權重信息,進而反應可能的依賴結構。圖3中的具體實現(xiàn)里還給出了一種基于覆蓋機制(Coverage Mechanism)的架構圖。這是考慮到在對序列順序建模的過程中,可能會有部分的表示信息會被重復使用多次,進而忽略了序列中的其他表示信息。而覆蓋機制在原有的注意力機制上額外添加了記憶信息,增加信息被重復使用的代價,進而在建模過程中提升所有表示信息的使用覆蓋度。

中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017


圖 2 在RNN框架下綜合所有可用表示來做序列產(chǎn)生過程建模

 中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017


圖 3 CYAN-RNN的具體實現(xiàn)架構

實驗結果

在實驗部分我們列舉三組實驗用以表示CYAN-RNN框架的有效性。

  • 實驗一:傳播預測(預測下一激活用戶和激活時間)

這組是標準的序列生成效果實驗。輸入為觀測信息的傳播記錄,要求序列建模模型能夠準確的還原觀測信息。從圖4的實驗結果上來看,可以發(fā)現(xiàn):CYAN-RNN在傳播預測的實驗效果上顯著優(yōu)于其他所有的對比方法。值得注意的是,在圖4所示左部預測下一激活用戶的任務上,傳統(tǒng)的RNN模型(RMTPP)并不比一些簡單的模型(不采用神經(jīng)網(wǎng)絡方式建模)效果要好(對比CT Bern和CT Jac),而引入結構信息的CYAN-RNN則對比傳統(tǒng)方法在實驗效果存在顯著提升。

 中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017


圖 4 傳播預測結果

  • 實驗二:注意力機制和覆蓋機制中的權值分配對比

這一部分實驗主要用來驗證覆蓋機制中所添加的記憶信息是否能夠有效提升所有表示信息的使用覆蓋度。根據(jù)圖5的實驗結果對比可以發(fā)現(xiàn),由于記憶信息的引入,在覆蓋機制中(圖5右)中的權值分配相較于注意力機制中(圖5左)的權值分配更傾向于新出現(xiàn)的表示信息,因而所計算的權值也能夠更為清晰的表示結構信息。

中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017 


圖 5 注意力機制和覆蓋機制中的權值分配對比

  • 實驗三:網(wǎng)絡推斷

這組實驗主要用來驗證我們從解題之初就存在的一個疑問:是否引入注意力和覆蓋機制的循環(huán)神經(jīng)網(wǎng)絡架構就是對依賴結構的一種刻畫呢?由于觀測信息的產(chǎn)生過程限制我們很難精確到刻畫具體的依賴關系,但我們可以利用推斷所得的依賴結構去反推物理的關系網(wǎng)絡結構,進而回答這一問題。

我們把從注意力機制和覆蓋機制中學習所得的權重信息進行綜合、刪選,用于網(wǎng)絡推斷,并將錯誤的推斷結果以紅線標注于圖6中。可以發(fā)現(xiàn),無論是采用注意力機制的CYAN-RNN還是采用覆蓋機制的CYAN-RNN(cov),其對關系網(wǎng)絡的推斷均存在一定的有效性,如此回答了我們這一疑問:注意力機制和覆蓋機制能夠刻畫序列產(chǎn)生過程中的依賴結構。

 中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017


圖 6 網(wǎng)絡推斷結果

總結:這篇文章雖是以信息傳播為背景的序列建模,但所提的跳躍依賴問題卻普遍存在于序列建模的眾多場景之中。在諸如語言模型的相關文中,我也有過一些嘗試,發(fā)現(xiàn)這種采用注意力機制和覆蓋機制的方式也同樣有效。因此,讀者若是有興趣,可以到我的github上下載源碼并在相關領域進行嘗試:https://github.com/Allen517/cyanrnn_project。

另外,本工作的演示代碼(IPython)詳見: http://yongqwang.com/public/res_dat/UAI_demo.tar.gz 

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

中科院計算所王永慶詳解IJCAI 17錄用論文:如何用注意力機制RNN進行信息傳播建模?|IJCAI 2017

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說