丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

本文作者: camel 2018-01-31 10:10
導(dǎo)語:精品細(xì)讀!

雷鋒網(wǎng) AI 科技評論按:自韓家煒和 Philip S Yu 等人在 2009 年提出「異質(zhì)信息網(wǎng)絡(luò)」的概念以來,異質(zhì)信息網(wǎng)絡(luò)的研究受到越來越多國內(nèi)外學(xué)者的關(guān)注和研究。那么什么是異質(zhì)信息網(wǎng)絡(luò)?對異質(zhì)信息網(wǎng)絡(luò)的研究現(xiàn)狀和未來發(fā)展方向是什么?

為了收集這方面的信息,雷鋒網(wǎng) AI 科技評論注意到北京郵電大學(xué)的石川教授及他的學(xué)生專門收集和整理了近十年來國內(nèi)外在異質(zhì)信息網(wǎng)絡(luò)方面的經(jīng)典研究文獻(xiàn)和相關(guān)數(shù)據(jù)集的資料。這些資料對無論是剛接觸數(shù)據(jù)挖掘的學(xué)生還是研究多年的老師,應(yīng)該都有極大的幫助。

而另一方面,石川教授作為國內(nèi)數(shù)據(jù)挖掘(尤其是異質(zhì)信息網(wǎng)絡(luò))領(lǐng)域的青年學(xué)者,常年與 Philip S Yu 等人進(jìn)行合作研究,做出了許多關(guān)于異質(zhì)信息網(wǎng)絡(luò)的重要研究工作。

藉此之故,雷鋒網(wǎng) AI 科技評論有幸邀請到石川教授向我們詳細(xì)介紹了異質(zhì)信息網(wǎng)絡(luò)基本的概念、現(xiàn)狀以及未來發(fā)展的方向,同時石川教授還介紹了他們收集的資源和北京郵電大學(xué) 數(shù)據(jù)挖掘與機器學(xué)習(xí)課題組的基本情況。

本文為雷鋒網(wǎng) AI 科技評論向石川教授的約稿,相關(guān)內(nèi)容已經(jīng)發(fā)表在《中國計算機學(xué)會通訊》2017年第11期,雷鋒網(wǎng) AI 科技評論獲其授權(quán)發(fā)表。

石川北京郵電大學(xué)計算機學(xué)院教授、博士研究生導(dǎo)師、智能通信軟件與多媒體北京市重點實驗室副主任。主要研究方向: 數(shù)據(jù)挖掘、機器學(xué)習(xí)、人工智能和大數(shù)據(jù)分析。近五年來,發(fā)表高水平學(xué)術(shù)論文 40 余篇,包括數(shù)據(jù)挖掘領(lǐng)域的頂級期刊和會議 IEEE TKDE、ACM TIST、KAIS、DKE、KDD、SDM、EDBT、ECML、CIKM 等。在 Springer 發(fā)表異質(zhì)信息網(wǎng)絡(luò)方向第一部英文專著。申請國家發(fā)明專利十余項,國際專利 1 項,已授權(quán) 2 項。獲得 ADMA2011 國際會議最佳論文獎、CCF-騰訊犀牛鳥基金及項目優(yōu)秀獎,并指導(dǎo)學(xué)生獲得頂尖國際數(shù)據(jù)挖掘競賽 IJCAI Contest 2015 全球冠軍。獲得北京市高等學(xué)校青年英才計劃支持。

異質(zhì)信息網(wǎng)絡(luò)研究現(xiàn)狀及未來發(fā)展

一、引言

現(xiàn)實生活中的大多數(shù)實際系統(tǒng)是由大量相互作用、類型不同的組件構(gòu)成,當(dāng)前的分析方法通常將其建模為同質(zhì)信息網(wǎng)絡(luò)(Homogeneous information network)。采用同質(zhì)網(wǎng)絡(luò)的建模方法往往只抽取了實際交互系統(tǒng)的部分信息,或者沒有區(qū)分交互系統(tǒng)中對象及關(guān)系的差異性,這些做法都會造成信息不完整或信息損失。

最近,越來越多的研究人員開始將這些互連的多類型網(wǎng)絡(luò)化數(shù)據(jù)建模為異質(zhì)信息網(wǎng)絡(luò) [1](Heterogeneous information network),并且通過利用網(wǎng)絡(luò)中豐富的對象和關(guān)系信息來設(shè)計結(jié)構(gòu)分析方法。與廣泛研究的同質(zhì)信息網(wǎng)絡(luò)相比,異質(zhì)信息網(wǎng)絡(luò)包含全面的結(jié)構(gòu)信息和豐富的語義信息,這也為數(shù)據(jù)挖掘提供了新的機遇與挑戰(zhàn)。

這里我們簡單介紹這種建模方式的基本概念、分析方法和未來發(fā)展。

[1]   這里我們將 Homogeneous / Heterogeneous information network 翻譯成為同質(zhì)/異質(zhì)信息網(wǎng)絡(luò)。雖然有些學(xué)者將其翻譯為同構(gòu)/異構(gòu)信息網(wǎng)絡(luò),但是這種翻譯容易和通信網(wǎng)絡(luò)中的同構(gòu)/異構(gòu)網(wǎng)絡(luò)的概念混淆。另外,同質(zhì)/異質(zhì)更能反映網(wǎng)絡(luò)中節(jié)點和邊的類型和性質(zhì)不一樣這種特性。

二、基本概念

我們先介紹一下異質(zhì)信息網(wǎng)絡(luò)中的基本概念。

2.1 概念

異質(zhì)信息網(wǎng)絡(luò)被定義為一個有向圖,它包含多種類型的對象或者關(guān)系,每個對象屬于一個特定的對象類型,每條關(guān)系屬于一個特定的關(guān)系類型。網(wǎng)絡(luò)模式(Network schema)是定義在對象類型和關(guān)系類型上的一個有向圖,是信息網(wǎng)絡(luò)的元描述。

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

圖1 由文獻(xiàn)數(shù)據(jù)構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)

圖 1(a) 是一個由科技文獻(xiàn)數(shù)據(jù)構(gòu)成的典型異質(zhì)信息網(wǎng)絡(luò)實例。該網(wǎng)絡(luò)包含三種類型的對象:論文、會議和作者;每篇論文有到作者和會議的鏈路關(guān)系,每條鏈路屬于一種關(guān)系類型。

圖 1(b) 是該網(wǎng)絡(luò)的網(wǎng)絡(luò)模式,描述了文獻(xiàn)網(wǎng)絡(luò)包含的對象類型(會議、論文、作者)和相應(yīng)的關(guān)系(撰寫/被撰寫、出版/被出版、引用/被引用)。

異質(zhì)信息網(wǎng)絡(luò)分析中一個重要的概念是元路徑(meta-path)。元路徑是定義在網(wǎng)絡(luò)模式上的鏈接兩類對象的一條路徑,形式化定義為

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

,表示對象類型之間的一種復(fù)合關(guān)系 R=R1*R2*......*Rl,其中 * 代表關(guān)系之間的復(fù)合算子,Ai 表示對象類型,Ri 表示關(guān)系類型。

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

圖2 由文獻(xiàn)數(shù)據(jù)構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)

元路徑不僅刻畫了對象之間的語義關(guān)系,而且能夠抽取對象之間的特征信息。圖 2 顯示了文獻(xiàn)網(wǎng)絡(luò)中兩個元路徑的例子,分別簡記為「APA」和「APVPA」(A、P、V 分別表示作者、論文和會議類型)??梢钥闯?,基于不同的元路徑,對象之間的語義關(guān)系是不同的。元路徑「作者-論文-作者」(APA)表示兩個作者合作撰寫了同一篇論文;元路徑「作者-論文-會議-論文-作者」(APVPA)表示兩個作者在同一會議上發(fā)表了論文。鏈接兩類對象的不同元路徑表示了不同的語義關(guān)系和不同的鏈接網(wǎng)絡(luò),這也造成了不同的分析結(jié)果和不同的特征表示。

實際上,大多數(shù)真實系統(tǒng)都存在多種類型對象的相互交互。例如,社交媒體網(wǎng)站(如微信和微博)包含多種類型的對象(如用戶、帖子和標(biāo)簽)和這些對象之間的復(fù)雜交互(如用戶之間的朋友、跟帖、通信等關(guān)系,用戶和帖子之間的發(fā)布關(guān)系)。醫(yī)療系統(tǒng)包含醫(yī)生、病人、疾病和設(shè)備等對象類型以及他們之間的交互。一般來說,這些交互系統(tǒng)都可以被建模為異質(zhì)信息網(wǎng)絡(luò)。

傳統(tǒng)的同質(zhì)網(wǎng)絡(luò)建模方法只是抽取了這些真實交互系統(tǒng)的部分信息,而且這些信息往往也可以從異質(zhì)信息網(wǎng)絡(luò)中推導(dǎo)出來。例如,經(jīng)常分析的作者合作網(wǎng)絡(luò)可以通過元路徑「APA」從上述科技文獻(xiàn)網(wǎng)絡(luò)中得到。

2.2 為什么要進(jìn)行異質(zhì)信息網(wǎng)絡(luò)分析

作為數(shù)據(jù)挖掘的重要研究方向,在過去的近20年里,網(wǎng)絡(luò)分析方法已經(jīng)被深入研究,并且應(yīng)用于很多數(shù)據(jù)挖掘任務(wù),在這些工作中往往將網(wǎng)絡(luò)化數(shù)據(jù)建模成同質(zhì)信息網(wǎng)絡(luò)。然而,異質(zhì)信息網(wǎng)絡(luò)的一些獨特特征使得異質(zhì)信息網(wǎng)絡(luò)分析變得十分重要。

首先,異質(zhì)信息網(wǎng)絡(luò)分析是數(shù)據(jù)挖掘的新發(fā)展。近年來,大量涌現(xiàn)的社會媒體網(wǎng)站包含許多不同類型的對象和對象之間復(fù)雜的交互。將這些相互作用的對象建模為同質(zhì)網(wǎng)絡(luò)是很困難的,然而使用異質(zhì)信息網(wǎng)絡(luò)為其建模卻是很自然的方式。特別的,大數(shù)據(jù)的一個顯著特征是數(shù)據(jù)的多樣性,作為半結(jié)構(gòu)化的表示方法,異質(zhì)信息網(wǎng)絡(luò)可以有效建模和處理大數(shù)據(jù)中復(fù)雜多樣的數(shù)據(jù)。

其次,異質(zhì)信息網(wǎng)絡(luò)是融合更多信息的有效工具。與同質(zhì)網(wǎng)絡(luò)相比,異質(zhì)網(wǎng)絡(luò)可以融合更多類型的對象及其之間復(fù)雜的交互關(guān)系,也可以融合多個社交網(wǎng)絡(luò)平臺的信息。

最后,異質(zhì)信息網(wǎng)絡(luò)包含豐富的語義。在異質(zhì)網(wǎng)絡(luò)中,不同類型的對象和鏈接共存,它們具有不同的語義含義,在數(shù)據(jù)挖掘任務(wù)中考慮語義信息將導(dǎo)致更細(xì)微的知識發(fā)現(xiàn)。同質(zhì)網(wǎng)絡(luò)中的大多數(shù)方法并不能直接應(yīng)用于異質(zhì)網(wǎng)絡(luò)中,因此在異質(zhì)信息網(wǎng)絡(luò)中發(fā)現(xiàn)有趣的模式是十分必要的。

三、研究現(xiàn)狀

3.1 研究現(xiàn)狀概述

異質(zhì)信息網(wǎng)絡(luò)為更好地分析網(wǎng)絡(luò)化數(shù)據(jù)提供了一種新的研究模式,同時也給許多數(shù)據(jù)挖掘任務(wù)帶來了新的挑戰(zhàn)。很多基于異質(zhì)信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘問題已經(jīng)被廣泛研究,圖 3 是對過去 6 年這一方向相關(guān)研究工作的近 200 篇論文按照研究問題分類的分布圖。從圖中可以看出,異質(zhì)信息網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于主要的數(shù)據(jù)挖掘問題,特別是相似性度量、聚類、分類、鏈接預(yù)測、推薦等任務(wù)。

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

圖3 異質(zhì)信息網(wǎng)絡(luò)分析相關(guān)論文的分布情況

異質(zhì)信息網(wǎng)絡(luò)建模的優(yōu)勢在于整合更多信息和包含豐富語義,這同時也造成了異質(zhì)信息網(wǎng)絡(luò)分析的難點:如何有效利用異質(zhì)信息和探索豐富語義。

作為有效利用異質(zhì)信息和探索語義的工具,元路徑被廣泛應(yīng)用于異質(zhì)網(wǎng)絡(luò)分析。例如,PathSim 利用對稱元路徑抽取兩個節(jié)點之間的連通路徑來度量二者的相似性,這樣不僅利用到了相關(guān)的異質(zhì)信息,而且體現(xiàn)了節(jié)點和邊的豐富語義。很多機器學(xué)習(xí)技術(shù)都可以應(yīng)用到異質(zhì)網(wǎng)絡(luò)分析中,例如隨機游走模型、主題模型、矩陣模型和概率模型。各類信息也都能夠整合到異質(zhì)網(wǎng)絡(luò)分析中,例如屬性信息、文本信息和用戶指導(dǎo)信息。

圖 4 從網(wǎng)絡(luò)結(jié)構(gòu)和語義探索兩個角度,總結(jié)了該領(lǐng)域的一些典型工作。沿著 X 軸,網(wǎng)絡(luò)結(jié)構(gòu)變得更加復(fù)雜;沿著 Y 軸,語義信息變得更加豐富。

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

圖4 從網(wǎng)絡(luò)結(jié)構(gòu)和語義探索兩個維度對異質(zhì)網(wǎng)絡(luò)典型工作的總結(jié)

例如,PathSim 可以處理星型模式網(wǎng)絡(luò),并使用元路徑挖掘語義關(guān)系。SemRec 在基本元路徑上增加了鏈接的權(quán)值約束,以在帶權(quán)異質(zhì)網(wǎng)絡(luò)中探索更微妙的語義信息。從圖中我們可以發(fā)現(xiàn),大多數(shù)研究都集中在簡單網(wǎng)絡(luò)結(jié)構(gòu)(例如二分或星型模式網(wǎng)絡(luò))和基本語義探索(例如元路徑)上,未來在利用更強大的語義探索工具分析更復(fù)雜的異質(zhì)網(wǎng)絡(luò)方面還需要做更多探索。

四、未來發(fā)展

雖然異質(zhì)信息網(wǎng)絡(luò)已經(jīng)應(yīng)用于很多數(shù)據(jù)挖掘任務(wù),但它仍然是一個年輕而且快速發(fā)展的研究領(lǐng)域。在這里我們簡單討論一下未來的研究方向。

4.1 更加復(fù)雜的網(wǎng)絡(luò)構(gòu)建

當(dāng)前研究大多假定異質(zhì)信息網(wǎng)絡(luò)是明確定義的,網(wǎng)絡(luò)中的對象和關(guān)系是清晰的。然而,在實際應(yīng)用中,從真實數(shù)據(jù)構(gòu)造異質(zhì)信息網(wǎng)絡(luò)會遇到很多挑戰(zhàn)。對于關(guān)系數(shù)據(jù)庫之類的結(jié)構(gòu)化數(shù)據(jù),構(gòu)造異質(zhì)信息網(wǎng)絡(luò)比較容易,然而即使是在這種網(wǎng)絡(luò)中,對象和關(guān)系也可能具有噪聲,比如會出現(xiàn)對象重名或關(guān)系不完整等問題;對于像文本、圖像等非結(jié)構(gòu)化數(shù)據(jù),如何準(zhǔn)確抽取出相應(yīng)的對象和關(guān)系,進(jìn)而建立更加完善和準(zhǔn)確的異質(zhì)信息網(wǎng)絡(luò)也將面臨更多挑戰(zhàn),在實踐中會用到諸如信息抽取、自然語言處理、圖像處理等各種技術(shù)。

4.2 更加強大的分析方法

在異質(zhì)信息網(wǎng)絡(luò)中,對象可通過不同的方式組織在一起。星型模式是廣泛使用的異質(zhì)信息網(wǎng)絡(luò)類型,例如前面介紹的科技文獻(xiàn)網(wǎng)絡(luò)。之后,又出現(xiàn)了帶環(huán)的星型模式和多中心網(wǎng)絡(luò)等網(wǎng)絡(luò)模式。

實際應(yīng)用中,網(wǎng)絡(luò)化數(shù)據(jù)通常更加復(fù)雜和沒有規(guī)律性。某些實際網(wǎng)絡(luò)中的鏈路會包含屬性值,而這些屬性值可能包含重要的信息,這樣就構(gòu)成了帶權(quán)異質(zhì)信息網(wǎng)絡(luò),例如前面介紹的電影網(wǎng)絡(luò)。另外一些應(yīng)用中,用戶可能存在于多個異質(zhì)網(wǎng)絡(luò),這時需要對齊不同網(wǎng)絡(luò)中的用戶,有效融合不同網(wǎng)絡(luò)的信息。還有很多網(wǎng)絡(luò)數(shù)據(jù),例如知識圖譜,包含有很多種類型的對象和關(guān)系,很難用簡單的網(wǎng)絡(luò)模式來描述。這種豐富模式(schema-rich)的異質(zhì)網(wǎng)絡(luò)中也出現(xiàn)了很多新的研究問題,例如多種類型對象關(guān)系的管理以及元路徑的自動產(chǎn)生等。這些復(fù)雜的網(wǎng)絡(luò)化數(shù)據(jù),給異質(zhì)信息網(wǎng)絡(luò)建模與分析提出了更多的機遇和挑戰(zhàn)。

異質(zhì)信息網(wǎng)絡(luò)中的對象和關(guān)系包含著豐富的語義信息,而元路徑可以捕捉這種語義信息。異質(zhì)信息網(wǎng)絡(luò)上的很多數(shù)據(jù)挖掘任務(wù)是基于元路徑進(jìn)行研究的,但是元路徑在某些應(yīng)用場景中并不能捕捉到精細(xì)的語義信息。例如,“作者-論文-作者”路徑表示了作者之間的合作關(guān)系,但卻不能描述特定條件下(例如KDD領(lǐng)域)的合作關(guān)系。為了克服這個不足,很多研究者提出了受限元路徑、帶權(quán)元路徑、元結(jié)構(gòu)等概念擴展元路徑的語義抽取能力。針對更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)(如知識圖譜),如何設(shè)計更加靈活精細(xì)的語義探索工具仍然需要進(jìn)一步的研究。

近些年出現(xiàn)的深度學(xué)習(xí)在圖像、自然語言等高維復(fù)雜數(shù)據(jù)處理上展現(xiàn)了優(yōu)異的特征抽取能力,因此可以利用深度學(xué)習(xí)方法處理異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)。當(dāng)前深度學(xué)習(xí)和表示學(xué)習(xí)已經(jīng)開始用于網(wǎng)絡(luò)的結(jié)構(gòu)特征表示。異質(zhì)網(wǎng)絡(luò)中包含不同類型的節(jié)點和邊,而且元路徑體現(xiàn)了豐富的語義信息,這些特征使得異質(zhì)網(wǎng)絡(luò)的特征表示學(xué)習(xí)表現(xiàn)出很大的不同。異質(zhì)網(wǎng)絡(luò)的表示學(xué)習(xí)對異質(zhì)網(wǎng)絡(luò)分析提出了新思路,也為結(jié)構(gòu)信息與其他模態(tài)信息融合提供了新途徑。

4.3 更大數(shù)據(jù)的處理

為了展現(xiàn)異質(zhì)網(wǎng)絡(luò)建模的優(yōu)勢,我們需要在更廣泛的領(lǐng)域中對大型網(wǎng)絡(luò)化數(shù)據(jù)設(shè)計實用的數(shù)據(jù)挖掘算法。多樣性是大數(shù)據(jù)的重要特征,異質(zhì)網(wǎng)絡(luò)是處理大數(shù)據(jù)多樣性的有效方法。然而,構(gòu)建一個真正的基于異質(zhì)網(wǎng)絡(luò)的大數(shù)據(jù)分析系統(tǒng)也是具有挑戰(zhàn)性的工作。實際的異質(zhì)網(wǎng)絡(luò)是巨大的,甚至是動態(tài)的,所以它通常不能存儲在內(nèi)存中直接處理。由于用戶往往只對一小部分節(jié)點、鏈接或子網(wǎng)絡(luò)感興趣,我們可以根據(jù)用戶需求,從現(xiàn)有網(wǎng)絡(luò)中動態(tài)地提取子網(wǎng)絡(luò)進(jìn)行分析。另外,設(shè)計基于異質(zhì)網(wǎng)絡(luò)的快速算法和并行算法也是亟需研究的內(nèi)容。

其他一些研究方向也值得關(guān)注。相比于學(xué)習(xí)大數(shù)據(jù)的深層特征的深度學(xué)習(xí)方法,最近興起的廣度學(xué)習(xí)(broad learning)整合不同類型的多個數(shù)據(jù)源進(jìn)行融合學(xué)習(xí),并在一些應(yīng)用中取得了顯著效果。由于異質(zhì)信息網(wǎng)絡(luò)是大數(shù)據(jù)時代整合不同類型數(shù)據(jù)的天然工具,因此結(jié)合異質(zhì)信息網(wǎng)絡(luò)研究廣度學(xué)習(xí)方法不僅會推動新的機器學(xué)習(xí)方法的發(fā)展,而且為解決大數(shù)據(jù)的多樣性提供新的思路。針對具體問題的異質(zhì)網(wǎng)絡(luò)分析系統(tǒng)也是重要發(fā)展方向。2017年KDD的最佳應(yīng)用論文利用異質(zhì)網(wǎng)絡(luò)和元路徑構(gòu)建和描述Android手機的APP應(yīng)用和API調(diào)用的豐富交互,并將其用于惡意軟件檢測。這也為采用異質(zhì)信息網(wǎng)絡(luò)解決實際問題帶來有益啟示。

五、結(jié)論

近年來,由于異質(zhì)信息網(wǎng)絡(luò)包含全面的結(jié)構(gòu)和豐富的語義信息,采用異質(zhì)網(wǎng)絡(luò)建模和分析的研究大量涌現(xiàn)。本文對這個發(fā)展快速的領(lǐng)域進(jìn)行了一個簡要的介紹,希望研究者更好地了解異質(zhì)信息網(wǎng)絡(luò)分析的基本思路和特點,能夠采用這種模式對實際的網(wǎng)絡(luò)化數(shù)據(jù)進(jìn)行建模和分析。


整理異質(zhì)信息網(wǎng)絡(luò)中有關(guān)資源的初衷及資源的結(jié)構(gòu)

石川個人主頁:http://shichuan.org/ShiChuan_ch.html

異質(zhì)信息網(wǎng)絡(luò)資源:http://shichuan.org/HIN_topic.html

為了方便對這一領(lǐng)域感興趣的讀者更好地了解異質(zhì)信息網(wǎng)絡(luò)分析的整體研究情況,我們收集了從數(shù)據(jù)挖掘權(quán)威 Jiawei Han 和 Philip S. Yu 等人于 2009 年提出異質(zhì)信息網(wǎng)絡(luò)的概念以來發(fā)表在重要的數(shù)據(jù)挖掘?qū)W術(shù)會議和期刊(諸如 KDD、ICDM、WWW、TKDE 等)上的有關(guān)異質(zhì)信息網(wǎng)絡(luò)分析方面的論文,分別按照論文發(fā)表的時間順序以及論文研究的任務(wù)角度對其進(jìn)行了排列展示。

同時,我們也收集整理了實驗室中常用的數(shù)據(jù)集以及其他相關(guān)異質(zhì)信息網(wǎng)絡(luò)論文中常用的數(shù)據(jù)集。實驗室常用的數(shù)據(jù)集主要有科技文獻(xiàn)數(shù)據(jù) (ACM 和 DBLP) 、電影數(shù)據(jù) (IMDB 和 Douban) 、音樂數(shù)據(jù)、社會媒體數(shù)據(jù) (如豆瓣網(wǎng)和微博) 、以及知識圖譜數(shù)據(jù)(Yago)等等,我們都給出了相關(guān)數(shù)據(jù)集的鏈接,鏈接里有相應(yīng)的數(shù)據(jù)集說明及下載入口;其他相關(guān)異質(zhì)信息網(wǎng)絡(luò)論文中常用的數(shù)據(jù)集,主要包括一些大型數(shù)據(jù)源諸如 Stanford Large Network Dataset Collection 等,以及常用的經(jīng)典數(shù)據(jù) Aminer 等,也都給出了相應(yīng)的鏈接和說明。

課題組介紹

數(shù)據(jù)挖掘與機器學(xué)習(xí)課題組隸屬于北京郵電大學(xué)數(shù)據(jù)科學(xué)與服務(wù)中心。該中心是智能通信軟件與多媒體北京市重點實驗室的核心成員單位。課題組創(chuàng)建人是石川教授,智能通信軟件與多媒體北京市重點實驗室副主任。

課題組長期專注于數(shù)據(jù)挖掘和機器學(xué)習(xí)研究及其在行業(yè)數(shù)據(jù)分析中的應(yīng)用,參與了 10 余項數(shù)據(jù)挖掘領(lǐng)域的科研項目,其中主持國家自然科學(xué)基金項目 3 項、國家 863 項目子課題 1 項、北京市青年英才計劃項目 1 項,北京市自然科學(xué)基金 1 項;另外作為研究骨干,參與了國家 973 子課題、基金重點項目、重點研發(fā)計劃等項目。

在數(shù)據(jù)挖掘領(lǐng)域的一流國際會議和期刊上發(fā)表了 20 余篇論文,包括 IEEE TKDE、ACM TIST、KDD、SDM 等;在數(shù)據(jù)挖掘領(lǐng)域頂級期刊 TKDE 上以第一作者發(fā)表異質(zhì)信息網(wǎng)絡(luò)方向的第一篇綜述論文,并在 Springer 出版該方向的第一本英文專著。申請發(fā)明專利 10 余項,授權(quán) 2 項;學(xué)生多次獲得數(shù)據(jù)挖掘競賽獎勵,例如獲得頂尖國際數(shù)據(jù)挖掘競賽 IJCAI Contest 2015 全球冠軍等等。

課題組和眾多國內(nèi)外頂尖企業(yè)有合作關(guān)系。團隊成員與騰訊、大眾點評等企業(yè)有合作關(guān)系。一方面,能夠了解這些企業(yè)的真實需求,也容易從企業(yè)獲得真實數(shù)據(jù);另一方面,能夠為論文的研究成果轉(zhuǎn)化提供真實應(yīng)用環(huán)境。另外,也經(jīng)常和數(shù)據(jù)挖掘方面的國內(nèi)外知名學(xué)者進(jìn)行合作交流。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

北郵石川教授:「異質(zhì)信息網(wǎng)絡(luò)」研究現(xiàn)狀及未來發(fā)展

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說