0
雷鋒網(wǎng)AI科技評論按:數(shù)據(jù)挖掘領域的學者們在過去的9天里,紛紛相聚在北京國家會議中心。
從11月3日到7日,舉辦了CIKM 2019會議(相關報道參閱《CIKM投稿數(shù)量1700篇,圖神經(jīng)網(wǎng)絡成熱門方向,最佳論文紛紛進行圖研究》),緊接著從11月8日到11日,在同一地點又繼續(xù)舉辦了數(shù)據(jù)挖掘頂會ICDM 2019 。兩個會議同為CCF列表 B類,其區(qū)別在于前者是ACM舉辦,而后者是IEEE舉辦;此外CIKM覆蓋范圍更廣,包括了數(shù)據(jù)庫、信息檢索和數(shù)據(jù)挖掘三個領域,而ICDM則更為專注數(shù)據(jù)挖掘。
IEEE ICDM 會議首次舉辦于2001年,至今已經(jīng)是第 19屆會議。而作為會議的發(fā)起人、數(shù)據(jù)挖掘領域領軍人物吳信東教授則從會議之初一路相隨,ICDM國際會議舉辦地輾轉(zhuǎn)十個國家之后終于來到中國,而吳信東也當之無愧與Granada大學的Francisco Herrera共同擔任大會主席,大會的組織則由清華大學和吳信東擔任科學院院長的明略科技共同承辦。
本次會議共包含了 3 個主旨報告,3 個 tutorial, 6 個特邀工業(yè)報告,1 個關于“營銷智能”的 pannel 以及 34 個 session。
ICDM從誕生之日起便以錄取率低著稱,今年也不例外。ICDM 2019 共收到來自56個國家和地區(qū)的1046篇投稿,而僅有95篇(9.1%)被錄為regular papers,在此之外還錄用了99篇的short papers,才把總錄取率提升到18.5%。需要提及的是這1046篇投稿中有2/3的論文第一作者都是學生,且今年是ICDM接收論文數(shù)量首次突破一千(去年為948篇)。
注:short paper 指一些篇幅比較短(一般是4頁以下),內(nèi)容比較少但是具有一定的原創(chuàng)型和新穎性的文章。regular paper(長文章)是指內(nèi)容充實,研究比較完整,分析比較充分的文章,文章的篇幅比較長,一般都在10頁左右,甚至更長。
當然組委會也以國籍對投稿論文做了分析,其中40.95%的來自中國,而有25.31%的來自美國,其次則是澳、日、德、印、加等國家。國內(nèi)投稿如此多的原因,一是中國各高校和研究單位在數(shù)據(jù)挖掘領域本身就比較強;二是會議在國內(nèi)開,中國的師生投稿和參會的成本相對較低,而美國的學者則更愿意去投SIGKDD等會議。
不過,從錄取率來看,來自中國的論文平均錄取率只有17.5%,相比美國的23.2%、澳大利亞的27.8%以及日本的29.03%則有不小的距離。這說明啥?離家近了,投稿的膽子也變大了。
最終中國還是勝在了基數(shù)大。據(jù)吳信東教授介紹,在所有錄取的194篇文章中,其中有74篇來自中國,62篇來自美國;也即有70%的錄用文章是被中美兩國所瓜分。
根據(jù)錄用時的平均最高分以及組織會的投票選擇,本次會議的最佳論文獎獲得者授予給了來自GeorgeMason大學的Xiaojie Guo,Liang Zhao等人,而最佳學生論文獎則由Michigan大學的Mark Heimann等人摘取。補充一點,本次會議還授予了研究貢獻獎、10年最具影響力獎、李濤獎。研究貢獻獎的獲得者是來自斯坦福大學的JureLeskovec教授,他也是ICDM 2010最佳應用論文獎的獲得者;而獲得10年最具影響力獎的論文是由 Steffen Rendle發(fā)表在2010年的論文(Factorization Machines ICDM’10, pp.995-1000);李濤獎是為了紀念數(shù)據(jù)挖掘領域著名學者李濤,該獎項于去年設立,今年的獲獎者為UIUC的華人學者Hanghang Tong。
對于投稿分析還有一個比較重要的便是話題分析,組委會對不同的領域投稿做了排序。從下圖可以看出“在傳統(tǒng)領域?qū)π聰?shù)據(jù)進行挖掘的算法”和“網(wǎng)絡環(huán)境的挖掘和關聯(lián)分析”兩年連續(xù)霸榜,其他則都稍有變動,這種分析在一定程度上也反映了數(shù)據(jù)挖掘領域的主流和新趨勢:主流的依舊是主流,新趨勢則在上升或下降。
投稿中,尤為關鍵的一個角色便是審稿人,審稿人的喜好也決定了論文的錄取情況。組委會為了分析本年度審稿人的喜好,也嘗試了對標題詞進行分析,計算方式如下所示:
分析結(jié)果如下圖:
可以看出標題中帶有 adversarial、dynamic、alignment、feature、generation等詞匯時論文更容易被錄取,而標題中帶有 deep 、based、model、prediction、detection等詞匯的論文杯具的概率就比較大了,特別是帶有based的論文杯具率達90.79%。你能從這個標題詞匯正、負率中推測出審稿人的喜好是什么嗎?
那么我們再來一張詞云吧:
真的是成也學習,敗也學習!
本次大會邀請了數(shù)據(jù)挖掘的巨擘UIUC的韓家煒教授、IBM研究院的Ronald Fagin以及康奈爾大學的Joseph Halpern做大會主旨報告。
韓家煒的報道主題是Embedding-Based Text Mining: AFrontier in Data Mining。雷鋒網(wǎng)對韓家煒以往的研究已經(jīng)做過詳細的報道;而Embedding則是韓家煒近來研究的一個重要方向,在CIKM和ICDM兩場會議中,韓教授都詳細介紹過他們實驗室近來在Embedding方面所做的工作《Spherical Text Embedding》,且相應的工作已經(jīng)發(fā)表在NeurIPS 2019。
比較有意思的是,據(jù)他的學生透露,這篇文章是韓家煒教授本年度最喜歡的一篇工作,但很不幸在最初投稿時卻被拒了,因為沒有和最近的顯學BERT進行比較;隨后韓家煒等人做了比較,充分證明并分析了BERT在詞相似等任務中確實不如Embedding,如下圖所示:
讓筆者感到極為佩服的是,作為數(shù)據(jù)挖掘領域的泰斗,從3日的CIKM一直到11日的ICDM結(jié)束,韓家煒教授每天都會去會場參會,讓吾等去一天休三天的年輕人汗顏。
Ronald Fagin是IBMFellow(這個Fellow是IBM的最高榮譽,現(xiàn)在全世界范圍內(nèi)也就100位,這可是從IBM 在全世界40萬雇員中選出的哦,而且整個歷史上總共也就大約250名)。
Ronald老先生笑起來很魔性
他在ICDM上的演講主題為“Applyingtheory of data to practice”,具體來講就是講了兩個IBM的研究案例。第一個是Top k問題的算法研究,Ronald在報告中提供了一種最優(yōu)算法,只需要10行就可以解決這個問題;這個算法也獲得了2014年的哥德爾獎(理論計算機科學中的最高獎),這個問題是由實踐中逐漸提出的,最終卻獲得了理論界的最高獎項。第二個則是從理論層面提出的問題,即數(shù)據(jù)交換,本質(zhì)上來說就是將數(shù)據(jù)從一種格式轉(zhuǎn)換為另一種格式,但其中實踐上的復雜的問題卻讓數(shù)據(jù)交換成為一個新的子領域,甚至有專門的會議。Ronald在這里想要強調(diào)的就是:理論家一定要和實踐家共同起來工作,反之亦然,這樣兩種類型的學者共同受益。康奈爾大學的Joseph Halpern演講的非常理論,主題為“Actual Causality”。事件C“實際引起”事件E是什么意思?這是Joseph提出的問題。
一看Joseph就是個哲學家
在報告中,Joseph分析了自亞里士多德、休謨等哲學家對因果關系的分析,他認為許多定義都是根據(jù)反事實提出的。(如果C沒有發(fā)生,那么C就是E的原因,那么E就不會發(fā)生。)2001年 Joseph等人提出了一種新的實際原因定義,使用結(jié)構(gòu)方程概念對事實進行建模。由于內(nèi)容太過抽象,筆者在此就不再詳細介紹,對此感興趣的讀者可以在「AI科技評論」微信公眾號回復「Joseph」查看PPT照片。
值得一提的是,在本次會議中幾位贊助商也獲得了工業(yè)報告的機會。
明略科技在吳信東的帶領下,目前對知識圖譜做的非常深入,徐凱波博士對明略科技的圖挖掘技術在公共安全中的應用做了介紹。
葉杰平是滴滴人工智能實驗室負責人,滴滴出行副總裁,他在報告中講述了滴滴出行在交通中如何應用人工智能。
百度研究院資深研究員熊昊一博士講述了如何使用百度的AutoDL來實現(xiàn)AI的工業(yè)化。值得一提的最近百度剛剛發(fā)布了最新版的飛槳(PaddlePaddle)框架,而AutoDL正是飛槳里面重要的一個模塊。
南京財經(jīng)大學信息工程學院的曹杰教授講述了從線上、線下融合的實用數(shù)據(jù)管理和商業(yè)智能的解決方案研究。
來自LinkedIn 的李子博士,介紹了LinkedIn大規(guī)模適應端到端的機器學習。他們在LinkedIn上啟動了一個名為“生產(chǎn)機器學習”(簡稱“ Pro-ML”)的程序。Pro-ML使機器學習工程師的效率提高一倍,同時向來自LinkedIn堆棧的工程師開放AI和建模工具。
同盾科技副總裁、人工智能研究院院長李曉林講述了他們的聯(lián)邦學習框架(iBond),以及如何用iBond來把數(shù)據(jù)孤島連接起來,同時能夠保護數(shù)據(jù)隱私。
本次會議的最佳論文獎獲得者授予給了來自George Mason大學的Xiaojie Guo,Liang Zhao等人,而最佳學生論文獎則由Michigan大學的Mark Heimann等人摘取。
1、最佳論文獎
標題:Deep Multi-attributed Graph Translation with Node-Edge Co-evolution
論文鏈接:http://mason.gmu.edu/~lzhao9/materials/papers/ICDM_2019_NEC_DGT-final.pdf
摘要:圖翻譯是將圖像和語言翻譯結(jié)合起來的一項研究,其目的是通過限制源域中的輸入圖來在目標域中生成圖。最近,這個話題引起了越來越多的關注。但現(xiàn)有的工作僅限于預測具有固定拓撲圖的節(jié)點屬性,或者僅在不考慮節(jié)點屬性的情況下僅預測圖拓撲,但由于存在巨大挑戰(zhàn),因此無法同時預測它們的兩者:1)難以描述交互式,迭代式,節(jié)點和邊緣的異步轉(zhuǎn)換過程;2)難以發(fā)現(xiàn)和保持預測圖中節(jié)點和邊緣之間的固有一致性。這些挑戰(zhàn)阻止了用于聯(lián)合節(jié)點和邊緣屬性預測的通用端到端框架,這是對現(xiàn)實世界應用程序的需求,例如物聯(lián)網(wǎng)網(wǎng)絡中的惡意軟件限制以及結(jié)構(gòu)到功能的網(wǎng)絡轉(zhuǎn)換。這些實際應用高度依賴于手工制作和臨時啟發(fā)式模型,但無法充分利用大量的歷史數(shù)據(jù)。
在這篇論文中,作者將此通用問題稱為“多屬性圖轉(zhuǎn)換”,并開發(fā)了一種無縫集成節(jié)點和邊緣轉(zhuǎn)換的新穎框架。這里的邊緣轉(zhuǎn)換路徑是通用的,這被證明是對現(xiàn)有拓撲轉(zhuǎn)換模型的概括。然后,提出了一種基于我們的非參數(shù)圖拉普拉斯算子的頻譜圖正則化方法,以學習和保持預測節(jié)點和邊緣的一致性。最后,作者對合成和實際應用數(shù)據(jù)進行的大量實驗證明了該方法的有效性。
2、最佳學生論文獎
標題:Distribution of Node Embeddings asMultiresolution Features for Graphs
論文鏈接:https://markheimann.github.io/papers/19ICDM_RGM.pdf
摘要:從生物信息學、神經(jīng)科學到計算機視覺和社交網(wǎng)絡分析,圖分類是許多領域的重要問題。也就是說,為了圖形分類的目的而比較圖形的任務面臨著幾個主要挑戰(zhàn)。特別是,有效的圖比較方法必須(1)在表達上和歸納上比較圖;(2)有效地比較大圖;(3)使用快速機器學習模型進行圖分類。
為了解決這些挑戰(zhàn),作者提出了隨機網(wǎng)格映射(RGM),這是一種快速計算的特征圖,通過其節(jié)點嵌入在特征空間中的分布來表示圖。作者通過與內(nèi)核方法的緊密聯(lián)系來證明RGM的合理性:RGM可證明地近似拉普拉斯內(nèi)核均值圖,并且具有金字塔匹配內(nèi)核的多分辨率特性。
作者還表明,可以使用Weisfeiler-Lehman框架將RGM擴展為合并節(jié)點標簽。大量實驗表明,使用RGM特征圖進行圖分類的準確性優(yōu)于或優(yōu)于許多強大的圖核,無監(jiān)督圖特征圖和深度神經(jīng)網(wǎng)絡。此外,在保持高分類精度的同時,將基于其節(jié)點嵌入的圖與RGM進行比較的速度比競爭基準快一個數(shù)量級。
明年ICDM的舉辦地:意大利的Sorrento——
雷鋒網(wǎng)報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。