CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

本文作者： camel

2017-12-27 11:39

導語：Philip S Yu也來了……

雷鋒網(wǎng) AI 科技評論按：2017 年 12 月 22-24 日，由中國計算機學會（CCF）主辦的第 87 期 CCF 學科前沿講習班（CCF Advanced Disciplines Lectures，簡稱 ADL）在北京中國科學院計算技術研究所成功舉辦，雷鋒網(wǎng)作為獨家合作媒體，進行了全程報道。

本次講習班的主題為《社交網(wǎng)絡與數(shù)據(jù)挖掘》。社交網(wǎng)絡和數(shù)據(jù)挖掘是計算機學科相關研究中的熱點，具體研究涵蓋理論、關鍵技術以及互聯(lián)網(wǎng)核心應用等各個應用。

本次講習班邀請到了一系列的學界大牛，包括：

韓家煒——UIUC 教授，ACM/IEEE Fellow
Philip S Yu——伊利諾伊大學芝加哥分校特聘教授，清華大學數(shù)據(jù)科學院院長，ACM/IEEE 會士
Wei Wang——UCLA 教授，KDD 2016 Service Award
胡祥恩——孟菲斯大學教授，華中師范大學教授、心理學院院長
James A. Evans——芝加哥大學社會學系教授
唐杰——清華大學副教授
沈華偉——中科院計算所研究員
石川——北京郵電大學教授
宋國杰——北京大學副教授
崔鵬——清華大學副教授
劉知遠——清華大學助理教授
趙鑫——中國人民大學副教授
楊洋——浙江大學助理教授

三天的時間里，在社交網(wǎng)絡和數(shù)據(jù)挖掘領域覆蓋的范圍內(nèi)，13位老師分別講述了一個或幾個不同的研究方向，可謂場場干貨。尤其是韓家煒教授和Philip教授兩位學界大牛，從他們的報告可以看出，雖然他們講的概念不同，用的方法不同，但是他們做的方向基本一致，兩位學界巨擘的研究或許也代表了數(shù)據(jù)挖掘領域當前的一個方向。

下面我們來回顧一下本次講習班的主要內(nèi)容（按分享時間順序總結(jié)，排名不分先后）。

Philip S Yu：Broad Learning via Fusion of Social Network Information

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

Philip 教授作為數(shù)據(jù)挖掘領域的頂級人物，在報告中詳細闡述了他多年來所倡導的一種概念——Broad Learning（廣度學習）。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

他認為在大數(shù)據(jù)的時代，我們不僅需要深度學習，更需要廣度學習。大數(shù)據(jù)并不是每個數(shù)據(jù)都很大或者都很復雜，除了大數(shù)據(jù)外還有很多數(shù)據(jù)集可以利用。在大數(shù)據(jù)時代各種各樣的數(shù)據(jù)都是可以利用的，為了更好地利用這些數(shù)據(jù)，我們需要定義和獲取相關的有用數(shù)據(jù)，然后設計一種模型將異質(zhì)數(shù)據(jù)源融合成起來，再從這些數(shù)據(jù)源中挖掘信息。

廣度學習與深度學習的區(qū)別在于，深度學習的「深」來源于模型層數(shù)，廣度學習的「廣」來源于數(shù)據(jù)以及模型的多樣。

根據(jù)對 Broad Learning 的考慮，Philip 認為廣度學習大致分為三類：

1）對同一個實體上的不同類型信息進行處理，這包括 multi-view，multi-model、multi-source Learning；
2）對不同但相似的實體上的信息的處理，這包括 transfer learning；
3）對通過復雜網(wǎng)絡關系相關的不同類型實體的信息進行處理，這包括異質(zhì)信息網(wǎng)絡（Heterogeneous Information Network，HIN）融合。

Philip 教授認為 Broad Learning 的關鍵任務有兩點：1、信息融合；2、知識發(fā)現(xiàn)。而其挑戰(zhàn)則是，怎么融合以及怎么挖掘知識？因為現(xiàn)在信息融合的方法會隨著不同的數(shù)據(jù)而變，此外在特定的知識發(fā)現(xiàn)任務中并不是所有的數(shù)據(jù)都是有用的。

隨后 Philip 教授通過三個例子來詳細闡述 Broad Learning 的概念，分別為：POI 預測；跨社交網(wǎng)絡平臺的知識融合；地點預測。

唐杰：Social Network Mining

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

唐杰在講座中首先分析了什么是社交網(wǎng)絡，以及社交網(wǎng)絡的發(fā)展歷史；隨后他講解了如何做社交網(wǎng)絡和數(shù)據(jù)挖掘的研究、模型及應用。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

唐杰認為社交網(wǎng)絡就是由一組個人（節(jié)點）組成的圖形，并由一個或多個相互依賴（「邊」）聯(lián)系起來。這是一個通過收集和分析大規(guī)模數(shù)據(jù)來揭示個人或社會行為模式的領域。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

唐杰認為若想理解社交網(wǎng)絡是什么，就需要理解整個 internet 的發(fā)展。Internet 的發(fā)展主要有三個階段。在信息時代 1.0 時，網(wǎng)絡就是由一系列頁面（文檔）和頁面上的鏈接構成的一個結(jié)構。第一個時代一方面越來越多的傳統(tǒng)行業(yè)不斷地加入，于是產(chǎn)生了大數(shù)據(jù)；同時還伴隨著產(chǎn)生了云計算。在信息時代 2.0，用戶加入了網(wǎng)絡當中，「今日頭條」就是這方面典型的應用。在信息時代 3.0，用戶開始在網(wǎng)絡上了，用戶之間形成了交互，這就形成了信息空間和用戶空間，通過兩個空間信息的融合將產(chǎn)生智能。

有了數(shù)據(jù)，怎么去發(fā)現(xiàn)并充分利用大數(shù)據(jù)的價值，則需要新型數(shù)據(jù)挖掘和分析方法，以能夠從非結(jié)構化數(shù)據(jù)中獲得知識和洞察力。

關于社交網(wǎng)絡研究的歷史，唐杰從 1967 年 Milgram 提出的六度空間講起，并介紹了 Weak Tie（1973）、鄧巴數(shù)（1992）、結(jié)構洞（1995）、HITS（1997）、小世界（1998）、Scale Free（1999）、Community Detection（2002）、Link Prediction（2005）、Spread of Obesity（2007）、Social Influence Analysis（2009）等。

隨后唐杰以如何將 AI（「小木」）應用到慕課以及如何通過手機發(fā)紅包的數(shù)據(jù)研究社會現(xiàn)象兩個具體案例，講述了如何做社交網(wǎng)絡的問題研究。

在社交網(wǎng)絡研究的計算模型方面，唐杰以「Unifying Network Embedding」為主題，介紹了 DeepWalk, LINE, PTE, and node2vec 以及 NetMF 等方法。

最后唐杰以他近期所做的研究 AMiner 為例詳細講述社交網(wǎng)絡的研究如何應用到實際問題當中。他還介紹了一些有意思的應用，包括預測紅包流向、學堂在線伴讀機器人「小木」。

宋國杰：社交網(wǎng)絡影響最大化

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

宋國杰首先介紹了社交網(wǎng)絡最大化的基本背景知識，然后對「影響最大化」做出了定義，并舉出兩個有代表性的算法研究和兩個他們做的一些工作。最后總結(jié)了一些該領域的未來方向。

所謂擴散就是某個事物在社會系統(tǒng)的成員中通過某種渠道隨著時間而不斷有更多的人受到影響，用病毒的傳播可以更好地理解這個概念，例如 SARS 的爆發(fā)、電腦蠕蟲等。而在做社交網(wǎng)絡的人眼中，類似地就是去研究信息如何在社交網(wǎng)絡平臺中進行傳播，以及如何才能做到傳播影響力的最大化（以便做廣告等）。

影響最大化一般可以分成幾個的模型，例如離散時間模型、連續(xù)時間模型、競爭擴散模型或者其他諸如流行病傳播模型、投票模型等。其中在離散時間模型大類中 Threshold Model 和 Cascade Mode 兩個模型最為基本。

當給定一個模型時，最優(yōu)化的問題有例如：

1、該如何選擇一系列用戶，給他們一些打折券，最后能使更多的用戶受到影響？
2、該選擇那些人群去接種疫苗，能夠最小化傳染？
3、如果有一些傳感器，該如何放置它們以能加速檢測到傳染??？

在研究的算法部分，宋國杰詳細介紹了 Lazy Evaluation 算法和 MIA Heuristic 算法。

隨后宋國杰介紹了他們做的四項工作，分別為：

1、如何降低影響力計算所消耗的成本；
2、如何加速收斂過程；
3、當不同信息傳播時會發(fā)生什么？
4、當動態(tài)社會網(wǎng)絡中我們會遇到什么。

最后宋國杰說，在實際企業(yè)應用中并不一定會需要效率更高的算法，而是傾向于使用比較成熟、穩(wěn)定的算法。因此如何在具體的場景中找到好的應用點，是驅(qū)動這個方面進一步的研究的關鍵之處。

趙鑫：面向社交媒體平臺的商業(yè)知識挖掘

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

趙鑫主要從應用的視角來看社交媒體平臺的研究。他首先講解了社交媒體的研究動機，隨后分別介紹了用戶意圖分析、用戶畫像構建、用戶需求推薦三個研究內(nèi)容，最后趙鑫給出了相關研究的一些展望。

社交大數(shù)據(jù)無處不在，且與用戶息息相關（社交身份與真實身份綁定）；用戶不斷產(chǎn)生的社交大數(shù)據(jù)蘊含了豐富的商業(yè)價值，如何挖掘這些數(shù)據(jù)背后的知識則極為重要。傳統(tǒng)的電商推薦系統(tǒng)往往只能在自己的站內(nèi)進行推薦服務，一旦離開了自己的平臺，它們的推薦服務就無能為力了。但用戶可能會在自己其他的一些社交平臺中暴露個人的購買需求，例如在微博上發(fā)一條「要換手機了，求推薦」，如果能夠挖掘出這樣的信息，利用社交狀態(tài)信息實時地發(fā)現(xiàn)用戶購買意圖則將解決傳統(tǒng)電商這方面的不足。

用戶購買意圖識別根據(jù)領域有食物、出行、教育等。它不適用于有監(jiān)督學習，最多只能做半監(jiān)督學習。在用戶意圖分類中，可以構建整體模型的正則化框架，包括文本-關鍵詞正則化、文本-文本正則化、關鍵詞-關鍵詞正則化以及原始估計。

在用戶畫像中，傳統(tǒng)的應用系統(tǒng)可能會遇到新用戶的可用信息太少等問題；在這方面如果能夠利用社交媒體平臺上的信息，則能夠很好地解決這些問題。

前兩步（意圖識別和用戶畫像）的工作是為了第三步——用戶需求推薦?；谑鼙姷漠a(chǎn)品推薦需要考慮兩個維度：性別和年齡，同時產(chǎn)品在受眾上也有一定的分布、受眾還有一定的圖分布。

趙鑫認為他應當圍繞數(shù)據(jù)建立應用問題，通過數(shù)據(jù)+弱知識+模型得到強知識。此外他認為隨著網(wǎng)絡實名制的進行，社交身份的形成與刻畫也是一個非常重要的研究方向。

James A. Evans：Team Structure and Scientific Advance

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

James 作為一個社會學家，在報告中分享了他們關于團隊合作（眾包和大團隊協(xié)作）的研究。

他首先舉了一個例子，在 2010 年貝克教授和他的團隊要重新設計酶催化 Diel-Alder 反應，但是效果不佳。他們就開發(fā)了一個名叫 Foldit！的蛋白質(zhì)游戲，不久研究人員就收回了近 20 萬個設計方案，酶的活性提高了 18 倍之多。這種眾包的現(xiàn)象也能復制到計算機領域呢，例如訓練無監(jiān)督（有監(jiān)督）機器學習算法或者更復雜的并行任務？

James 的團隊研究了 1954 年到 2014 年間 5000 萬多份論文、專利和軟件產(chǎn)品，以此從中分析團隊合作特點。他們發(fā)現(xiàn)小的團隊在定性工作中表現(xiàn)更佳，大的團隊則在定量工作上更具優(yōu)勢。

Wei Wang：Modeling Dynamic Networks

王偉教授在報告中主要介紹了他們實驗組 ScAi 在動態(tài)網(wǎng)絡中的研究。

很多數(shù)據(jù)是以網(wǎng)絡的形式存在的，例如社交網(wǎng)絡、互聯(lián)網(wǎng)、蛋白質(zhì)交互網(wǎng)絡、道路網(wǎng)絡、引用率網(wǎng)絡等。

考慮到網(wǎng)絡的動態(tài)性，王偉介紹了將網(wǎng)絡結(jié)構描述成時間的一個函數(shù)的方法：時間因式分解網(wǎng)絡模型。也即將矩陣因式分解為兩個時間依賴的矩陣。方法很簡單，但卻很有效，因為當計算的時候不用每次都從頭重新計算。這種方法的應用不分有向圖還是無向圖。在 Link Prediction 問題可以看出這種方法的優(yōu)勢。對于 Anomaly 的檢測，則可以直接通過相鄰時間邊的差異來計算。

除了時間的一致性，還有空間一致性的考慮。通過考慮鄰近邊之間的相互影響，把空間的因素也考慮進動態(tài)網(wǎng)絡當中。

通過考慮時間和空間的動態(tài)性，則能夠更好地預測網(wǎng)絡的發(fā)展。隨后王偉教授講述了具有時空一致性的邊預測（LIST）以及動態(tài)屬性網(wǎng)絡（DANE）和使用動態(tài)網(wǎng)絡 embedding 的異常檢測（NetWalk）。

胡祥恩：語義表示和分析（SRA）以及潛在的應用

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

胡祥恩教授主要從認知心理學的角度來考慮語義表示和分析（SRA），并介紹了相關的一些應用。

胡祥恩認為數(shù)據(jù)和信息不能劃等號。從心理學的角度考慮的重點不是大的數(shù)據(jù)，而是人的行為。

胡祥恩介紹了他們在智能導學 AutoTutor 方面的研究。所謂智能導學就是用認知心理學中學習和記憶的原理來設計計算機的系統(tǒng)，使計算機的系統(tǒng)能跟人進行互動。胡祥恩的研究與其他研究團隊的智能導學研究主要的區(qū)別在于，更強調(diào)自然語言的交互。他在報告中詳細介紹了智能導學的框架及應用。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

自然語言的交互首先就需要創(chuàng)建語義空間，這包括首先構建語料庫，其次將語料庫編碼進語義空間，最后才是應用。針對一個給定的應用（尤其是教育領域），胡祥恩認為我們應當選著最好的語料庫、用最好的編碼方法，用在最恰當?shù)膽蒙?，否則就是對孩子生命的不負責任。

隨后他就 AutoTutor 中如何進行選擇語料庫、編碼和應用做出了詳細講解。

石川：異質(zhì)信息網(wǎng)絡建模與分析

石川首先回顧了社交網(wǎng)絡的三個發(fā)展階段：2000 年以前的對象特征挖掘、2000 年之后基于交互式網(wǎng)絡出現(xiàn)的鏈接關系挖掘，以及隨后出現(xiàn)的對象之間有多種復雜關系的異質(zhì)信息網(wǎng)絡挖掘。

隨后他介紹了異質(zhì)信息網(wǎng)絡的基本概念，并對比了異質(zhì)信息網(wǎng)絡與同質(zhì)信息網(wǎng)絡、多重關系網(wǎng)絡、復雜網(wǎng)絡之間的異同。他認為挖掘異質(zhì)信息網(wǎng)絡的優(yōu)點在于異質(zhì)信息網(wǎng)絡無處不在，包含了大量豐富的語義和綜合信息；但同時也面臨著許多挑戰(zhàn)，例如結(jié)構復雜以及語義難挖掘等。

隨后石川通過幾個具體的實例來介紹如何進行異質(zhì)網(wǎng)絡數(shù)據(jù)挖掘，分別為相似性度量（HeteSim）、推薦（SemRec）和惡意軟件檢測（HinDriod）。其中最后一個為今年 KDD 的最佳應用論文。

最后石川總結(jié)了異質(zhì)信息網(wǎng)絡研究的現(xiàn)狀和未來研究的方向。他認為異質(zhì)信息網(wǎng)絡仍然是一個年輕的、有前途的研究領域。對于大數(shù)據(jù)的 5V（Volume、Velocity、Variety、Veracity 和 Value），異質(zhì)信息網(wǎng)絡對其中的多樣性（Variety）將有很大的促進。其挑戰(zhàn)在于如何解決更復雜的問題（例如知識圖譜）、如何變得更加強大以及如何處理更大的數(shù)據(jù)。當然異質(zhì)信息網(wǎng)絡處理中也有很多機會，包括解釋、表示和分析。石川整理了異質(zhì)信息網(wǎng)絡領域較為重要的論文資料，詳細信息可以訪問石川的個人主頁。

崔鵬：網(wǎng)絡嵌入：在向量空間中啟用網(wǎng)絡分析和推理

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

崔鵬在報告中主要介紹了他們圍繞網(wǎng)絡嵌入的一些工作。崔鵬介紹說，現(xiàn)在大數(shù)據(jù)的體量和計算機的計算能力都在呈指數(shù)增長，如果按照這種趨勢發(fā)展，那么對大數(shù)據(jù)的研究將不成問題。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

但是現(xiàn)實的數(shù)據(jù)之間是存在關聯(lián)的，這就導致數(shù)據(jù)的增長不僅僅是指數(shù)，而是指數(shù)的指數(shù)。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

對于這種大規(guī)模的網(wǎng)絡數(shù)據(jù)，他認為由于 link 的存在，就會造成由迭代和組合造成的復雜性、由耦合帶來的可平行性以及由節(jié)點間的從屬關系帶來的機器學習應用的一些問題。

崔鵬隨后介紹了將網(wǎng)絡嵌入到一個向量空間，那么關于 node importance、community detection、Network distance、link Prediction 等等問題都可以轉(zhuǎn)化為向量空間中的問題。如何將網(wǎng)絡嵌入到向量空間呢？崔鵬認為有兩個目標：1、能否從向量空間重構原網(wǎng)絡；2、向量空間是否支持網(wǎng)絡表示。

介紹完這些背景知識后，崔鵬介紹了他們最近的兩項工作。其一為從更復雜結(jié)構角度考慮的 Hyper-network Embedding，其二為從更多挑戰(zhàn)性的特性角度考慮的 Dynamic Network Embedding。

崔鵬認為現(xiàn)實應用中網(wǎng)絡數(shù)據(jù)還遠沒有被挖掘，主要面臨著復雜性和可擴展性的瓶頸。對這一問題最本質(zhì)的解決就是網(wǎng)絡表示學習，而網(wǎng)絡嵌入則被證明是一個有前景的方法，但仍然還有很長的路要走。

沈華偉：在線社交媒體中的信息傳播預測

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

沈華偉主要從信息傳播預測的角度來講述，報告內(nèi)容主要分為兩個部分。

沈華偉首先分享了影響力最大化的研究。所謂影響力最大化，就是給定一個社會網(wǎng)絡找到一個尺寸固定的子節(jié)點集合，最大限度地擴大影響力。對于這項研究有兩個主要問題：如何確定人際影響節(jié)點間的傳播概率？如何設計高效、準確的影響力最大化算法？現(xiàn)存的算法有 Greedy 算法、Heuristic 算法等，但是它們面臨著可擴展性-準確性的困境。沈華偉他們的解決方法就是在蒙特卡洛模擬中重用相同的集合，并提出了 StaticGreedy 算法。

隨后沈華偉介紹了傳播預測。對于傳播預測現(xiàn)存的方法有兩大類：feature-based methods 和 temporal analysis。但是這些方法忽視了人群動態(tài)是一個反映集體參與的過程。于是他們提出一種 process-based 方法。他認為群體動態(tài)是一個 arrival process 能夠捕獲一個信息如何積累關注，基于特征的方法將會被合并到特征學習方法中。

在報告的最后，沈華偉做出了兩個預測：

1、在未來會由 feature-engineering 變到 feature-learning；
2、明年社會網(wǎng)絡將會成為突破的一年。

劉知遠：語言表示學習與計算社會科學

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

劉知遠的基本觀點是：計算社會科學研究比的是「想法」。他認為語言是研究人類社會的重要角度，他舉了很多有意思的例子。例如哈佛大學研究團隊利用 google books 并掃描識別的 1800 年到 2000 年之間的 500 萬種出版物，通過不同關鍵詞使用頻度隨時間的變化，分析人類文化演進特點；斯坦福大學 Leskovec 團隊收集 9 千萬篇新聞文章，利用引號抽取流行語句作為模因，通過跟蹤模因使用頻率變化能夠及時有效地把握美國政治、經(jīng)濟和文化生活。此外還有研究在線社區(qū)中語言使用變遷模式、利用名人出生死亡信息來研究文化中心變遷、研制微博關鍵詞應用。劉知遠認為以上這些都是「前表示學習時代」——基于符號的表示，這些研究中都是把沒個詞表示為 one-hot 的模型。這種表示模型不能表示不同詞之間的關系。隨后他介紹了分布式表示學習，在這種表示中對象均被表示為稠密、實值、低維向量；向量之間的距離則能夠表示不同詞之間的關系。

基于這種表示，word2vec 的學習模型開始發(fā)展。這種學習模型在詞匯相似度計算上有非常好的效果，同時還能習得詞匯間隱含關系、發(fā)現(xiàn)詞匯語義層級、建立跨語言詞匯表示、建立視覺-文本聯(lián)合表示、檢測詞匯語義變遷。

隨后劉知遠介紹了一份發(fā)表在《nature》上的來自認知科學的研究成果，即語言分布式表示在大腦中的體現(xiàn)，利用分布式表示繪制了詞匯的大腦地圖。研究發(fā)現(xiàn)不同的詞對腦區(qū)的激活并不是局限在某一個腦區(qū)，而是分布在大腦各個部分；意義相關的詞匯所激活的大腦區(qū)域相似。

最后劉知遠還詳細講述了計算社會科學的研究，包括融合 HowNet 的詞義表示、知識圖譜等。他認為分布式表示提供了比符號表示更加強大的計算能力，具有更強更深的洞察能力，但關鍵也看如何能創(chuàng)造性地用起來。

楊洋：社交網(wǎng)絡中的群體用戶行為分析與表示學習

楊洋的報告內(nèi)容主要有兩個主題內(nèi)容，其一為群體用戶的行為分析，其二是面向網(wǎng)絡的表示學習。

針對群體用戶的行為分析，楊洋介紹了三個具體的研究案例。案例一從社會學角度出發(fā)，研究移民者的都市夢——感知移民群體的行為模式，并給出城市規(guī)劃導向性的建議。在這個案例中，楊洋通過使用上海全網(wǎng)通話的 5400 萬用戶的 7 億條元數(shù)據(jù)（無通話內(nèi)容，只有撥打和接聽數(shù)據(jù)）研究了不同群體（本地人、老移民者、新移民者）的行為模式差異。他們發(fā)現(xiàn)新移民者融入新環(huán)境有三種模式：朝向本地人靠攏，朝向老移民者靠攏和移民失敗。他們發(fā)現(xiàn)移民者抵達都市后的前兩周的行為模式?jīng)Q定了他最終是否能夠移民成功。

隨后他講述了他在做的一個電信領域的案例——通過用戶通話記錄來判斷一個用戶是否是電話詐騙分子并挖掘詐騙分子的詐騙策略。數(shù)據(jù)集與上面的案例相同，但構建了一個有向圖。他們發(fā)現(xiàn)詐騙分子在打出電話的頻率比普通用戶要高 200 倍之多、詐騙分子打出電話對象之間的關系極弱。在時間分布上發(fā)現(xiàn)詐騙分子打電話的時間分布與上班族類似。

案例三是金融學領域的——根據(jù)用戶通話模式來判斷借貸是否會逾期還款的金融風控，即給定一名沒有任何借款記錄的新客戶通過他的通話記錄來判斷他是否會逾期還款。

在總結(jié)社交網(wǎng)絡群體用戶行為分析的研究時，楊洋說很多情況下我們并不需要相關的專業(yè)知識，但需要了解用戶的行為。他舉例說為了研究王者榮耀用戶的行為，他和他的學生打了一個月的王者榮耀。

隨后楊洋介紹了他們組兩篇 AAAI 2018 收錄文章的內(nèi)容。其一為 Dynamic Network Embedding by Modeling Triadic Closure Process，介紹了愛你想動態(tài)網(wǎng)絡的表示學習；其二為 Representation Learning for Scale-free networks，介紹了面向無尺度網(wǎng)絡的表示學習。

韓家煒：大規(guī)模語料庫的多維分析

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

韓家煒在報告中分享了他們在將大數(shù)據(jù)變成 Actionable Knowledge 的一些研究。首先他介紹了如何去做。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

在現(xiàn)在的大數(shù)據(jù)中有 80% 的數(shù)據(jù)都是以無結(jié)構的文本、圖片、社交關系等表示。韓家煒介紹說他們的研究組有三個 keywords，分別為：結(jié)構化（structuring）、網(wǎng)絡化（Networking）和挖掘（Mining）。因此他們的工作有三步曲，首先是怎么從文本數(shù)據(jù)中挖掘出隱含的結(jié)構；其次是將文本轉(zhuǎn)化為網(wǎng)絡和 TextCube；最后是從網(wǎng)絡和 TextCube 中挖掘出 Actionable Knowledge。

在挖掘數(shù)據(jù)之前，先將數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡和 TextCube，韓家煒認為這樣處理更 powerful，他舉了一個論文 Co-Authors 預測的例子說明這個問題。

隨后韓家煒介紹了近期的幾項從無結(jié)構文本中挖掘結(jié)構的工作。首先他介紹了短語挖掘的工作，即把原始的語料庫翻譯成高質(zhì)量的短語和分段的語料庫。其次是讓短語有意義，他介紹了實體/關系的解析工作。隨后，他介紹了 MetaPAD 工作，即元模式驅(qū)動的來自大量文本語料庫的屬性發(fā)現(xiàn)。最后他還介紹了多方面分類挖掘（Multifaceted Taxonomy Mining）。

做以上這些研究的目的是用來建立一個多維的 TextCube。韓家煒介紹了如何將文件正確地放入一個 Cube Cell，并用大量數(shù)據(jù)和少量 labels來構建 TextCubes。韓家煒認為要想把 Big Data 變成 Big Knowledge，很重要的一條就是要有結(jié)構；現(xiàn)在這種結(jié)構有兩種，其一是異質(zhì)網(wǎng)絡，其二是 TextCube；用這兩種結(jié)構去挖掘出知識是很 powerful 的；現(xiàn)在如何將異質(zhì)網(wǎng)絡和 TextCube 結(jié)合起來，還沒有解決。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

從無結(jié)構數(shù)據(jù)到知識是一條很長的路，韓家煒說近二十年所做的工作正是沿著這條路走的；現(xiàn)在這條路還只是一條小路，期望最終能成為一條康莊大道。

AI科技評論隨后將整理韓家煒完整報告，敬請期待！

Panel

除了這些精彩的報告外，ADL 還組織了一場精彩異常的 Panel 環(huán)節(jié)。Panel 上有韓家煒、劉知遠、石川、沈華偉、楊洋以及從現(xiàn)場選出的一位學員。下面雷鋒網(wǎng)整理出 Panel 環(huán)節(jié)的部分精彩問答。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘

提問：社交網(wǎng)絡研究的挑戰(zhàn)是什么？

劉知遠認為社交網(wǎng)絡研究的挑戰(zhàn)有兩個層面，第一是：知識是一個重要的切入角度；第二，從技術上 embedding 和 Deep learning 會成為重要的技術手段。

韓家煒認為從無結(jié)構數(shù)據(jù)中提取出有結(jié)構數(shù)據(jù)，從結(jié)構數(shù)據(jù)中提取出網(wǎng)絡和 textCube，以及從后兩者中提取出知識極為重要。要想自動化，很重要的一條就是從大量數(shù)據(jù)中挖掘出結(jié)構來。

沈華偉提出一種比較新穎的觀點，我們總是把網(wǎng)絡化數(shù)據(jù) embedding 到一個空間中，那么是否可以反其道而行之呢？也即是把算子遷移到網(wǎng)絡上，還是把網(wǎng)絡數(shù)據(jù)遷移到算子上。

楊洋認為無論是 embedding 還是社會計算學，做的算法都缺少可解釋性。

提問：如何和其他領域的學者的領域知識進行融合？

沈華偉認為和其他領域的學者合作主要就三件事情：

1、看他們關心什么，我們能否幫上忙；
2、看他們研究的套路是什么，我們能否借鑒；
3、做完上面兩步，你就會發(fā)現(xiàn)其實大家做的都一樣，只是看問題的角度不同、語言不同。

所以其實一點都不難，關鍵是你抱著什么目的去做這個事。

提問：領域知識在當前深度學習發(fā)展如此火熱下怎么應用？

韓家煒認為深度學習仍在發(fā)展?，F(xiàn)在深度學習仍然需要大量 label data。所以如果能將領域知識和深度學習結(jié)合起來可能會讓學習更好。此外，現(xiàn)在很多學者在提出怎么去做小樣本數(shù)據(jù)的深度學習，所以現(xiàn)在一個很重要的矛盾就是 Big Data 和 Little Data 之間的矛盾?，F(xiàn)在不是領域知識沒用，而是 Deep Learning 還沒有走到應用領域知識這一步。

雷鋒網(wǎng)總結(jié)：本期 ADL 講習班由唐杰和劉知遠等老師組織，邀請了國內(nèi)外一眾大牛學者，包括數(shù)據(jù)挖掘領域頂尖學者韓家煒和Philip S Yu等教授，以及諸如胡祥恩、James A. Evans 等心理學和社會學的知名學者。三天的時間里，13位學者分別從各個角度對社交網(wǎng)絡和數(shù)據(jù)挖掘進行了詳細的、全方位的解讀。

從學員的角度來看，可以發(fā)現(xiàn)不僅僅是計算機學科的人對社交網(wǎng)絡和數(shù)據(jù)挖掘感興趣，一些心理學、管理學等專業(yè)的學生也前來聽講，甚至還包括許多高校老師、企業(yè)技術人員以及國家安全部門的一些人員。

有這么多的人對這一領域抱有濃厚的興趣，或許如沈華偉老師所預測的，明年社交網(wǎng)絡可能會是突破的一年。

本次課程早早就報滿，受場地限制并未提供更多名額，而且 CCF 還推出更多 ADL課程。為了讓更多人工智能愛好者、業(yè)界從業(yè)者、科研研究者們都能看到 CCF ADL 課程，人工智能培訓平臺 AI慕課學院獲 CCF 獨家線上視頻版權，點擊報名鏈接或掃描下面?二維碼即可完整再現(xiàn)13位學者現(xiàn)場授課、交流的場景。

CCF ADL 87講習班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡和數(shù)據(jù)挖掘