0
本文作者: 奕欣 | 2018-08-21 17:00 | 專題:KDD 2018 |
雷鋒網(wǎng) AI 科技評論按:在即將召開的數(shù)據(jù)挖掘頂會 ACM SIGKDD 2018 上,圣母大學計算機系 DM2 研究團隊(DM2 Laboratory, CSE, University of Notre Dame)的論文《Multi-Type Itemset Embedding for Learning Behavior Success》被主會錄用。本文作者為圣母大學計算機系 DM2 研究團隊三年級博士生王達恒,導師是圣母大學計算機系助理教授蔣朦。
Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)
DM2 Laboratory, CSE, University of Notre Dame (圣母大學計算機系DM2研究團隊)
對于博士學生來說,如何提高科研質量和產(chǎn)量一直是學術生涯里的中心話題。相較于高年級的博士生而言,剛踏入科研領域的低年級博士生往往由于缺乏足夠的知識積淀與經(jīng)驗,對于估計論文中稿的可能性與找出提高中稿率的辦法顯得力不從心。我自己作為一名剛剛跨過第二個學年的博士生,對這一點的體驗格外深刻。
理想情況下,當我們開始一個新的以論文發(fā)表為導向的研究項目的時候,我們希望擁有合適的研究團隊(其中包含多個技能互補的學者與專家),足夠清晰的研究問題,科學合理的研究方法,以及定位恰當?shù)哪繕藭h。但在現(xiàn)實中,我們往往很難在一開始就達到這樣的配置。那么我們能否利用人工智能來從大量的成功經(jīng)驗(以往成功發(fā)表的論文)當中建立起預測模型來幫助我們判斷呢?更進一步地,我們是否能夠讓人工智能算法給我們推薦能夠提高論文中稿率的辦法呢?是否邀請自己院系當中的另外一位教授參與進來就能夠大大地提高項目成功的可能性?或者說有哪些優(yōu)秀的文章值得一讀、甚至必須一讀,以提高論文中稿率?這些都是非常實用且有趣的問題。
客觀上來說,每一篇學術論文都是一個非常復雜的行為產(chǎn)物,包含了多種不同類型的上下文信息。常見的成功發(fā)表論文一般會有多個作者,一些框定研究領域和具體問題的關鍵詞,大量的文獻引用,以及發(fā)表的會議信息。因此,準確地判斷一篇論文在目標會議上的命中率也是一個尤為困難的問題。而從數(shù)據(jù)中千千萬萬的備選中找出最具備技能互補性的研究者來推薦給我們,更是困難。我們需要的是一個能夠有效地表示論文行為以及其上下文信息的載體。
傳統(tǒng)的方法是利用矩陣或者張量分解來得到低維度的數(shù)據(jù)對象表示。也就是說,我們可以構建一個巨大的矩陣,其中包含了所有論文以及上下文項的信息,然后通過分解這個矩陣來得到論文與上下文項的低維度表示。但這這并不適用于多個上下文項屬于同一種類型的情況,例如在一篇論文中有多個作者與引用。而當我們的數(shù)據(jù)量變得更大的時候,用單個龐大的矩陣來表示整個數(shù)據(jù)集顯然也不是個高效的選擇。
表征學習的方法為我們提供了一些較好的思路:如果我們能夠學習到論文以及其包含的上下文項的向量表征的話,我們關心的預測以及推薦問題將會迎刃而解。值得提到的是近兩年比較流行網(wǎng)絡嵌入學習。這些方法基于保存節(jié)點與節(jié)點之間鄰近度的思路,能夠將網(wǎng)中的節(jié)點快速地學習成向量表征。當擁有了節(jié)點的向量表征之后,我們能夠輕易地利用向量內(nèi)積來運算出節(jié)點與節(jié)點之間的相似度,從而幫我們完成節(jié)點分類與邊預測等任務。但網(wǎng)絡嵌入學習的方法并不能適用于我們的情況:我們關心的是由一組由多類型上下文項構成的論文是否能夠在未來成功發(fā)表,而不是該篇論文是否和某一個作者在網(wǎng)中有較高的相似度。
針對于這些問題,我們提出了全新的嵌入學習方法。首先,我們將所有的行為看做一個多類型集合的結構。例如一篇論文就可以被看做一個由作者、關鍵詞、目標會議、引用等四種類型組成的集合結構;其中作者、關鍵詞、引用允許有多個上下文項,而一篇論文只對應一個上下文項。
這樣,一個行為的向量表征就可以由其包含的上下文項表征通過加權求和得到。
我們進一步通過運算行為向量的二階模長(取雙曲正玄值)來得到一個行為的成功率。
之后,我們通過隨機梯度下降的方法來優(yōu)化實際行為成功率分布于預測行為成功率分布之間的距離,最終學習得到數(shù)據(jù)集中所有行為以及上下文項的低維度向量表征。
在這里需要強調的有兩點:1. 我們在低維度嵌入空間中保存了行為的成功特征(多類型上下文項集合的結構);2. 在大多數(shù)時候,我們的數(shù)據(jù)集中只包含了觀測到的成功的行為,而不包含失敗的行為數(shù)據(jù)。因此,我們也需要通過全新的負向采樣的方式來構建訓練負例。為此,我們提出了兩種創(chuàng)新的多類型上下文項集合負向采樣方法。
在第一種負向采樣方法中,我們要求生成的負例需要與對應的正例擁有相同的上下文項數(shù)量。這樣,我們能夠避免完全隨機采樣所造成的不合理的負例子。而很多時候,我們會發(fā)現(xiàn)某一些類型的上下文項帶有一些特點。例如一篇文章可以對應多個作者,但通常只對應一個目標會議。我們在此設計了我們更精細的第二種負向采樣方法:要求生成負例的時候遵循正例的類型頻率分布。這樣,我們能夠生成更近似于正例但是并不存在的負例用于訓練。
我們搜集了接近一萬篇公開發(fā)表的計算機領域相關論文用于實驗。
在預測任務當中,我們的模型表現(xiàn)優(yōu)于所有網(wǎng)嵌入學習模型(LINE,DeepWalk,Node2Vec,Metapath2Vec)以及經(jīng)典的降維模型 PCA。其中,第二種負向采樣方法(Pn)優(yōu)于第一種負向采樣方法(Pt)。 而且當我們設置相對較高的權重給作者類型的時候,我們能得到整體最優(yōu)的效果。
在推薦任務中,我們能得到一致的結論,我們的模型同樣優(yōu)于其他模型。特別是對于相對較難的推薦作者任務和推薦引用任務(總量分別為12300與18971),我們的模型擁有更明顯的優(yōu)勢。
對于我們模型的優(yōu)勢,一個更直觀的方法是把測試例中真實的文章與假文章在低維度嵌入空間中可視化出來。我們可以看到左邊的真實論文向量在空間中明顯地延伸;而假論文的向量接近于原點。這樣一長一短的文章向量顯示了我們的預測模型有足夠的能力去鑒別真實論文與假論文之間的差別,從而提供準確地命中率預測給我們。
另外,我們在實驗過程中也有一些有趣的發(fā)現(xiàn)。
我們另外從Google Scholar中搜集了測試例中真實論文的引用數(shù)量。從圖中我們能夠發(fā)現(xiàn)在我們模型中得到更高預測命中率的論文相較于預測命中率更低的論文明顯得到了更多次的引用。這樣的結論幾乎出現(xiàn)在2001至2015所有的年份當中。
最后,希望我們的發(fā)現(xiàn)與研究對你有所幫助。
原版論文請參照:
Wang, D., Jiang, M., Zeng, Q., Eberhart, Z., & Chawla, N. V. (2018, July). Multi-Type Itemset Embedding for Learning Behavior Success. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 2397-2406). ACM.
論文原文可移步雷鋒網(wǎng)AI研習社社區(qū)資源區(qū)下載。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章