SMP 2018 首日，前沿技術講習班四大主題報告一覽

本文作者： AI科技評論

編輯：郭奕欣

2018-08-02 22:41

專題：SMP 2018

導語：8 月 2 日舉行了第十期前沿技術講習班（ATT 10），此次講習班邀請四位知名學者圍繞網絡表示學習、因果推論、深度強化學習及數據可視化四個方向進行講座。

由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業(yè)大學承辦的第七屆全國社會媒體處理大會（SMP 2018）將于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網作為獨家戰(zhàn)略媒體帶來合作報道。SMP 專注于以社會媒體處理為主題的科學研究與工程開發(fā)，為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平臺，旨在構建社會媒體處理領域的產學研生態(tài)圈，成為中國乃至世界社會媒體處理的風向標。

SMP 2018 首日，前沿技術講習班四大主題報告一覽

8 月 2 日舉行了第十期前沿技術講習班（ATT 10），此次講習班邀請四位知名學者圍繞網絡表示學習、因果推論、深度強化學習及數據可視化四個方向進行講座。講習班由浙江大學楊洋助理教授擔任主席。

在上午的講習班環(huán)節(jié)中，北京大學信息科學技術學院的宋國杰副教授帶來了《大規(guī)模網絡表示學習》的分享，圍繞網絡表示學習的研究展開了詳細而系統(tǒng)的闡述。

SMP 2018 首日，前沿技術講習班四大主題報告一覽

圖片來源：哈工大 SCIR 李家琦

基于現實世界中的大量數據都是以網絡形式存在的，盡管目前計算機的算力在不斷增強，但考慮到數據的高維性、數據的稀疏性、數據的大體量等多種因素，如何圍繞大規(guī)模網絡數據開展機器學習和數據挖掘研究，也成為了產學高度關注的重要議題。

他首先從線性與非線性的角度回顧了發(fā)展歷程，并強調了表示學習的研究目標主要集中在兩個方面，一個是還原網絡原始節(jié)點中的關系；另一個是維護節(jié)點在網絡空間中的性質。他在講座中還介紹了 Word2Vec、Adjacency-based similarity、LINE 及 Random-walk Approach 等四個經典的表示學習方法。

他結合各項研究的特點做出總結，并從多個方面進行了網絡表示學習的進一步延伸，分別從靜態(tài)數據到動態(tài)數據（如 depthLGP、Dynamic Triad Model 等工作）、從節(jié)點到社群（如 M-NMF 等工作）、從同質到異質（如 meta path 等工作）等多個方面介紹了一系列代表性進展。

隨后，他圍繞多層次網絡表示學習、動態(tài)網絡表示學習及基于網絡表示學習的實體標準化等三個角度深入介紹團隊的相關工作。最后，他建議未來可以圍繞 Graph Neural Network、大規(guī)模 Network Embedding、拓展 embedding space 等方面展開更多研究。

接下來，清華大學政治學系孟天廣副教授帶來了題為《計算社會科學新進展：從探索性分析到因果推論》的主題報告。

SMP 2018 首日，前沿技術講習班四大主題報告一覽

圖片來源：哈工大 SCIR 李家琦

報告伊始，他闡述了大數據分析與因果推論的關系，他表示，大數據分析是以知識發(fā)現為導向的，數據挖掘即從數據中自動抽取模式，然后通過解釋和評價轉換成最終用戶可理解的知識。因果推論視角下的大數據分析則包括描述性推論、因果性推論、機制性推論。

他進一步表明計算社會科學中重視因果關系有如下五點原因：一是好奇心驅動，二是解釋性知識更關鍵，三是需要將社科應用到社會場景，四是識別好的因果關系可以幫助我們更有效地做預測，五是要賦予數據挖掘社會意義。

帶來計算社會科學方法論的進展之后，他也回應了目前對大數據方法的一些批評，如探究「相關關系」而非「因果關系」，在數據采集過程中涉及到個人隱私保護問題等等。他同時指出，大數據方法也帶來了很多機遇。比如數據模態(tài)更加多元，是「全量數據」而不是「樣本數據」，是「真實數據」而不是「設計的數據」，數據里蘊含豐富的時空信息可以用來做數據融合等等。而在經濟上，也具備低成本、時效性和高效率三個特征，此外在學術影響上也極具優(yōu)勢。

此后，他詳述了用大數據做因果推論的四個發(fā)展方向，一是大數據+計量分析，即用大數據的方法降維、測量，然后再做回歸、匹配等，二是大數據+小數據分析，即在大數據里抽取小樣本，進一步檢驗模型假設，三是大數據+時空模型，進行一些因果推斷和可視化，四是大數據分析+實驗設計。

他表示，在大數據分析、因果推論上有一系列工具：例如統(tǒng)計分析方法，如主成分分析、線性回歸、非線性回歸、空間計量等，還有一些現場實驗、自然實驗等實驗方法。

在最后，他詳述了這四個方向的若干方法和工具，并舉了一系列實例，如文本匹配、立案登記制等等。

下午，清華大學計算機系黃民烈副教授分享了《深度強化學習及其在自然語言處理的應用》。他首先介紹了強化學習的基本概念，作為「首個通過交互進行學習的模型」，強化學習通過對策略給予不同的 reward，在試錯的過程中達成最優(yōu)策略。由于具有序列決策、嘗試試錯、延遲獎勵等特點，深度強化學習在游戲、機器人、自動駕駛等多個領域擁有廣泛的應用場景。

SMP 2018 首日，前沿技術講習班四大主題報告一覽

圖片來源：哈工大 SCIR 李家琦

基于 value-based（Q-Learning）、policy based 和 actor-critic 的方法，他對其代表方法及基本思想做出了闡述，他在演講中也總結了強化學習的主要特點，1）當前決策會影響未來的決策；2）強化學習的訓練過程本質上是一個試錯的過程；3）以長期 reward 的最大化為導向。

在強化學習應用于 NLP 領域當中，面臨離散反饋、action space 的高維性等多種層面的挑戰(zhàn)，但在無直接監(jiān)督信息、弱信號場景中，可以利用強化學習的試錯和概率探索能力，通過編碼先驗或領域知識，進而達成學習目標。相應地，從檢索和推理層面，可以借助強化學習進行模型、文本抽取的工作；從樣本選擇上，可以做樣本去噪、標記糾錯等工作；另外在策略優(yōu)化上，也可以進行搜索策略優(yōu)化、語言生成等探索。

在最后，他總結了強化學習在自然語言處理應用中的關鍵點，包括 1）將任務轉化化自然序列決策問題；2）明確強化學習的「試錯」本質；3）在 reward 中加入先驗知識的理解；4）在無監(jiān)督或弱監(jiān)督的場景下行之有效。但與此同時，我們也應看到暖啟動的重要性，此外也應考慮在完全監(jiān)督及 Large Action Space 問題下效果提升的有限性，在訓練技巧及調參上也對研究者提出了更高的要求。

最后一位演講的嘉賓是同濟大學設計創(chuàng)意學院教授、智能大數據可視化實驗室主任曹楠，他帶來了數據可視化的一系列介紹以及可視化在異常檢測中的應用。

SMP 2018 首日，前沿技術講習班四大主題報告一覽

圖片來源：哈工大 SCIR 李家琦

演講伊始，他對同濟大學智能大數據可視化實驗室進行了簡單介紹，實驗室橫跨多個學科，研究領域包括數據可視化、人機交互、機器學習，目前正在招生中。

隨后，他介紹了數據可視化的基礎概念，可視化一個很重要的功能就是數據解釋，當數據量非常大，結果很復雜時，可視化在理解數據中可以發(fā)揮重大作用。他表示，廣義來講，任何能創(chuàng)造圖像、動畫等的技術都可以稱為可視化，數據可視化是可視化的一個分支，數據可視化分為三個子領域：科學可視化、信息圖，信息可視化，這里重點討論的是信息可視化。

他舉了拿破侖對莫斯科進軍路線的一張圖來說明可視化的作用，這張圖用二維圖表一目了然地展現了五六維的信息。他強調，信息可視化不是藝術，也不是計算機圖形，也不是處理圖像，而是圍繞數據，揭示數據真諦。在統(tǒng)計分析時會掩蓋數據的真諦，可視化可以幫助從上下文中觀察數據。

他提到大數據可視化的三點挑戰(zhàn)：視覺混亂、性能瓶頸、人的認知有限。接下來他闡述了創(chuàng)造可視化的幾個關鍵點：理解數據，知道用戶和任務；設計要能達到信、達、雅；布局，即解優(yōu)化方程，但由于時間限制，往往沒法得到全局最優(yōu)解；此外，為了讓人們觀察到數據的變化，必須有動畫。

之后，他介紹了一些流行的可視化開源工具包，例如 D3.js, Tableau，在可視化相關知識的學習上，他推薦了《Visualization Analysis&Design》一書。另外，他介紹了可視化相關的重要學術會議，包括 IEEE InfoVis/VAST/SciVis。

在介紹完可視化一系列基礎概念之后，他提到用可視化來查找社交媒體中的異常用戶，他表示，匿名用戶的行為可能會威脅到整個社區(qū)，這時候找出這些異常用戶意義重大。這時候面臨的挑戰(zhàn)有兩點：很難定義何為正常和異常，很難獲得有標簽的數據來訓練模型。之后，他舉了他們實驗室在異常檢測方面的一連串的工作，研究主要分兩個階段，第一階段是群體異常行為的分析，第二階段是個體異常分析，他們此前的相關工作有如 FluxFlow 謠言檢測，TargetVue 用戶行為畫像等。之后，他也介紹了異常檢測相關競賽 Bot Design/Detection。

至此，講習班內容全部結束，在明后兩天，SMP 2018 將迎來六大特邀報告，八大分論壇、技術測評以及口頭報告等多項精彩環(huán)節(jié)，雷鋒網也將持續(xù)為大家?guī)韺ｎ}報導，敬請期待。雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。