0
本文作者: AI科技評論 | 編輯:郭奕欣 | 2018-08-02 22:41 | 專題:SMP 2018 |
由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業(yè)大學承辦的第七屆全國社會媒體處理大會(SMP 2018)將于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨家戰(zhàn)略媒體帶來合作報道。SMP 專注于以社會媒體處理為主題的科學研究與工程開發(fā),為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平臺,旨在構(gòu)建社會媒體處理領域的產(chǎn)學研生態(tài)圈,成為中國乃至世界社會媒體處理的風向標。
8 月 2 日舉行了第十期前沿技術講習班(ATT 10),此次講習班邀請四位知名學者圍繞網(wǎng)絡表示學習、因果推論、深度強化學習及數(shù)據(jù)可視化四個方向進行講座。講習班由浙江大學楊洋助理教授擔任主席。
在上午的講習班環(huán)節(jié)中,北京大學信息科學技術學院的宋國杰副教授帶來了《大規(guī)模網(wǎng)絡表示學習》的分享,圍繞網(wǎng)絡表示學習的研究展開了詳細而系統(tǒng)的闡述。
圖片來源:哈工大 SCIR 李家琦
基于現(xiàn)實世界中的大量數(shù)據(jù)都是以網(wǎng)絡形式存在的,盡管目前計算機的算力在不斷增強,但考慮到數(shù)據(jù)的高維性、數(shù)據(jù)的稀疏性、數(shù)據(jù)的大體量等多種因素,如何圍繞大規(guī)模網(wǎng)絡數(shù)據(jù)開展機器學習和數(shù)據(jù)挖掘研究,也成為了產(chǎn)學高度關注的重要議題。
他首先從線性與非線性的角度回顧了發(fā)展歷程,并強調(diào)了表示學習的研究目標主要集中在兩個方面,一個是還原網(wǎng)絡原始節(jié)點中的關系;另一個是維護節(jié)點在網(wǎng)絡空間中的性質(zhì)。他在講座中還介紹了 Word2Vec、Adjacency-based similarity、LINE 及 Random-walk Approach 等四個經(jīng)典的表示學習方法。
他結(jié)合各項研究的特點做出總結(jié),并從多個方面進行了網(wǎng)絡表示學習的進一步延伸,分別從靜態(tài)數(shù)據(jù)到動態(tài)數(shù)據(jù)(如 depthLGP、Dynamic Triad Model 等工作)、從節(jié)點到社群(如 M-NMF 等工作)、從同質(zhì)到異質(zhì)(如 meta path 等工作)等多個方面介紹了一系列代表性進展。
隨后,他圍繞多層次網(wǎng)絡表示學習、動態(tài)網(wǎng)絡表示學習及基于網(wǎng)絡表示學習的實體標準化等三個角度深入介紹團隊的相關工作。最后,他建議未來可以圍繞 Graph Neural Network、大規(guī)模 Network Embedding、拓展 embedding space 等方面展開更多研究。
接下來,清華大學政治學系孟天廣副教授帶來了題為《計算社會科學新進展:從探索性分析到因果推論》的主題報告。
圖片來源:哈工大 SCIR 李家琦
報告伊始,他闡述了大數(shù)據(jù)分析與因果推論的關系,他表示,大數(shù)據(jù)分析是以知識發(fā)現(xiàn)為導向的,數(shù)據(jù)挖掘即從數(shù)據(jù)中自動抽取模式,然后通過解釋和評價轉(zhuǎn)換成最終用戶可理解的知識。因果推論視角下的大數(shù)據(jù)分析則包括描述性推論、因果性推論、機制性推論。
他進一步表明計算社會科學中重視因果關系有如下五點原因:一是好奇心驅(qū)動,二是解釋性知識更關鍵,三是需要將社科應用到社會場景,四是識別好的因果關系可以幫助我們更有效地做預測,五是要賦予數(shù)據(jù)挖掘社會意義。
帶來計算社會科學方法論的進展之后,他也回應了目前對大數(shù)據(jù)方法的一些批評,如探究「相關關系」而非「因果關系」,在數(shù)據(jù)采集過程中涉及到個人隱私保護問題等等。他同時指出,大數(shù)據(jù)方法也帶來了很多機遇。比如數(shù)據(jù)模態(tài)更加多元,是「全量數(shù)據(jù)」而不是「樣本數(shù)據(jù)」,是「真實數(shù)據(jù)」而不是「設計的數(shù)據(jù)」,數(shù)據(jù)里蘊含豐富的時空信息可以用來做數(shù)據(jù)融合等等。而在經(jīng)濟上,也具備低成本、時效性和高效率三個特征,此外在學術影響上也極具優(yōu)勢。
此后,他詳述了用大數(shù)據(jù)做因果推論的四個發(fā)展方向,一是大數(shù)據(jù)+計量分析,即用大數(shù)據(jù)的方法降維、測量,然后再做回歸、匹配等,二是大數(shù)據(jù)+小數(shù)據(jù)分析,即在大數(shù)據(jù)里抽取小樣本,進一步檢驗模型假設,三是大數(shù)據(jù)+時空模型,進行一些因果推斷和可視化,四是大數(shù)據(jù)分析+實驗設計。
他表示,在大數(shù)據(jù)分析、因果推論上有一系列工具:例如統(tǒng)計分析方法,如主成分分析、線性回歸、非線性回歸、空間計量等,還有一些現(xiàn)場實驗、自然實驗等實驗方法。
在最后,他詳述了這四個方向的若干方法和工具,并舉了一系列實例,如文本匹配、立案登記制等等。
下午,清華大學計算機系黃民烈副教授分享了《深度強化學習及其在自然語言處理的應用》。他首先介紹了強化學習的基本概念,作為「首個通過交互進行學習的模型」,強化學習通過對策略給予不同的 reward,在試錯的過程中達成最優(yōu)策略。由于具有序列決策、嘗試試錯、延遲獎勵等特點,深度強化學習在游戲、機器人、自動駕駛等多個領域擁有廣泛的應用場景。
圖片來源:哈工大 SCIR 李家琦
基于 value-based(Q-Learning)、policy based 和 actor-critic 的方法,他對其代表方法及基本思想做出了闡述,他在演講中也總結(jié)了強化學習的主要特點,1)當前決策會影響未來的決策;2)強化學習的訓練過程本質(zhì)上是一個試錯的過程;3)以長期 reward 的最大化為導向。
在強化學習應用于 NLP 領域當中,面臨離散反饋、action space 的高維性等多種層面的挑戰(zhàn),但在無直接監(jiān)督信息、弱信號場景中,可以利用強化學習的試錯和概率探索能力,通過編碼先驗或領域知識,進而達成學習目標。相應地,從檢索和推理層面,可以借助強化學習進行模型、文本抽取的工作;從樣本選擇上,可以做樣本去噪、標記糾錯等工作;另外在策略優(yōu)化上,也可以進行搜索策略優(yōu)化、語言生成等探索。
在最后,他總結(jié)了強化學習在自然語言處理應用中的關鍵點,包括 1)將任務轉(zhuǎn)化化自然序列決策問題;2)明確強化學習的「試錯」本質(zhì);3)在 reward 中加入先驗知識的理解;4)在無監(jiān)督或弱監(jiān)督的場景下行之有效。但與此同時,我們也應看到暖啟動的重要性,此外也應考慮在完全監(jiān)督及 Large Action Space 問題下效果提升的有限性,在訓練技巧及調(diào)參上也對研究者提出了更高的要求。
最后一位演講的嘉賓是同濟大學設計創(chuàng)意學院教授、智能大數(shù)據(jù)可視化實驗室主任曹楠,他帶來了數(shù)據(jù)可視化的一系列介紹以及可視化在異常檢測中的應用。
圖片來源:哈工大 SCIR 李家琦
演講伊始,他對同濟大學智能大數(shù)據(jù)可視化實驗室進行了簡單介紹,實驗室橫跨多個學科,研究領域包括數(shù)據(jù)可視化、人機交互、機器學習,目前正在招生中。
隨后,他介紹了數(shù)據(jù)可視化的基礎概念,可視化一個很重要的功能就是數(shù)據(jù)解釋,當數(shù)據(jù)量非常大,結(jié)果很復雜時,可視化在理解數(shù)據(jù)中可以發(fā)揮重大作用。他表示,廣義來講,任何能創(chuàng)造圖像、動畫等的技術都可以稱為可視化,數(shù)據(jù)可視化是可視化的一個分支,數(shù)據(jù)可視化分為三個子領域:科學可視化、信息圖,信息可視化,這里重點討論的是信息可視化。
他舉了拿破侖對莫斯科進軍路線的一張圖來說明可視化的作用,這張圖用二維圖表一目了然地展現(xiàn)了五六維的信息。他強調(diào),信息可視化不是藝術,也不是計算機圖形,也不是處理圖像,而是圍繞數(shù)據(jù),揭示數(shù)據(jù)真諦。在統(tǒng)計分析時會掩蓋數(shù)據(jù)的真諦,可視化可以幫助從上下文中觀察數(shù)據(jù)。
他提到大數(shù)據(jù)可視化的三點挑戰(zhàn):視覺混亂、性能瓶頸、人的認知有限。接下來他闡述了創(chuàng)造可視化的幾個關鍵點:理解數(shù)據(jù),知道用戶和任務;設計要能達到信、達、雅;布局,即解優(yōu)化方程,但由于時間限制,往往沒法得到全局最優(yōu)解;此外,為了讓人們觀察到數(shù)據(jù)的變化,必須有動畫。
之后,他介紹了一些流行的可視化開源工具包,例如 D3.js, Tableau,在可視化相關知識的學習上,他推薦了《Visualization Analysis&Design》一書。另外,他介紹了可視化相關的重要學術會議,包括 IEEE InfoVis/VAST/SciVis。
在介紹完可視化一系列基礎概念之后,他提到用可視化來查找社交媒體中的異常用戶,他表示,匿名用戶的行為可能會威脅到整個社區(qū),這時候找出這些異常用戶意義重大。這時候面臨的挑戰(zhàn)有兩點:很難定義何為正常和異常,很難獲得有標簽的數(shù)據(jù)來訓練模型。之后,他舉了他們實驗室在異常檢測方面的一連串的工作,研究主要分兩個階段,第一階段是群體異常行為的分析,第二階段是個體異常分析,他們此前的相關工作有如 FluxFlow 謠言檢測,TargetVue 用戶行為畫像等。之后,他也介紹了異常檢測相關競賽 Bot Design/Detection。
至此,講習班內(nèi)容全部結(jié)束,在明后兩天,SMP 2018 將迎來六大特邀報告,八大分論壇、技術測評以及口頭報告等多項精彩環(huán)節(jié),雷鋒網(wǎng)也將持續(xù)為大家?guī)韺n}報導,敬請期待。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。