0
本文作者: camel | 2019-11-06 19:36 |
雷鋒網(wǎng) AI 科技評論按:2019年11月3日-7日,信息檢索和數(shù)據(jù)挖掘的頂會 ACM CKIM 2019在北京召開,并于昨日頒發(fā)了本屆會議的最佳論文獎,其中來自以色列本古里安大學(xué)的Noy Cohen等人獲得最佳研究論文獎,阿里巴巴安全團隊獲得最佳應(yīng)用論文獎、IBM獲得最佳Demo獎。
本屆會議是CIKM的第28屆會議,由梅宏院士和Ramamohanarao Kotagiri擔(dān)任大會榮譽主席,朱文武教授和陶大程教授擔(dān)任大會主席。自1992年首次舉辦至今,CIKM也是第二次來到中國。
在本次會議中著名學(xué)者Steve Maybank、韓家煒、裴健和石建萍等人分別做了主題演講,除了頂會必備的tutorial、workshop、oral以及post外,本次會議還舉辦了AnalytiCup 以及十余場工業(yè)演講(Industrial Plenary Speech)。
本次會議參會人數(shù)達700人次,由于地理原因,其中亞洲學(xué)者占絕大多數(shù)(約65%),而其中大部分又是中國學(xué)者(365人);其次是來自美國的學(xué)者(139人)。
在論文投遞方面,本屆會議共有1720篇投稿,其中長論文1031篇,短論文471篇,應(yīng)用研究論文174篇,Demo論文44篇。相較于去年會議論文顯著增加,其中長論文也在歷史中首次破千。
考慮論文投稿的地理分布,可以看出絕大部分論文是來自中國,占全部論文的四成;其次則來自美國,約有300多篇。
據(jù)大會PC主席介紹本次大會共有5194名審稿人,平均來說每篇文章都會有3.02個審稿人進行評審,這保證了會議論文接收的質(zhì)量。
本次論文共接收202篇長論文(20%)、107篇短論文(23%)、38篇應(yīng)用論文(22%)和26篇Demo論文(59%),平均接收率僅為22%。
而按地域來考察論文的接收率,我們可以從下圖中看出,來自中國的論文接收率為20%多一點,基本與平均接收率持平;而來自美國和澳大利亞的都在30%左右。這說明,在數(shù)據(jù)挖掘、信息檢索和數(shù)據(jù)庫這些領(lǐng)域來自中國的論文質(zhì)量已經(jīng)處于較高水平,但仍需提升。
最有意思的是對論文話題分布的分析。話題論文的接收率(紅線)一定程度上反映了審稿人的興趣,若按接收率進行排序,可以看出廣告和金融方向的論文更容易被接收;而對科學(xué)數(shù)據(jù)進行處理的文章更可能被拒絕掉。而另一方面,柱狀圖的高低則能夠反映研究者的興趣點,顯然data mining、機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)仍然占據(jù)高位,而數(shù)據(jù)庫、網(wǎng)頁挖掘等則相對小眾。
本屆會議的主題是“AI for Future Life”,可見以深度學(xué)習(xí)等為主的人工智能技術(shù)在信息檢索、數(shù)據(jù)挖掘領(lǐng)域已經(jīng)起到了關(guān)鍵作用,成為研究的主流技術(shù)。大會聯(lián)合主席陶大程向雷鋒網(wǎng)表示:“我們認為未來人工智能會滲透到生活的各個方面,目前其主要深度學(xué)習(xí),本屆大會希望討論深度學(xué)習(xí)和傳統(tǒng)的統(tǒng)計學(xué)習(xí)在未來會有什么樣的發(fā)展趨勢。”
在本次會議中,圖神經(jīng)網(wǎng)絡(luò)成為最大的熱點,相關(guān)的tutorial及報告也往往成為參與人員趨之若鶩的重點內(nèi)容。大會程序主席崔鵬告訴AI科技評論:“從第一天講習(xí)班的情況來看,只要涉及到圖,聽的人都比較多?,F(xiàn)在大家對深度學(xué)習(xí)已經(jīng)基本無感了,但圖神經(jīng)網(wǎng)絡(luò)是一個值得研究方向,是深度學(xué)習(xí)的下一波研究?!?/p>
陶大程認為之所以圖神經(jīng)網(wǎng)絡(luò)受到關(guān)注,主要有三點:1、相對于深度學(xué)習(xí),圖的表征比較多;2、目前對于圖的理論分析還比較欠缺,因此還有許多可以研究的地方;3、雖然圖網(wǎng)絡(luò)有各種各樣的問題,但實際上在一些問題上已經(jīng)取得了比其他網(wǎng)絡(luò)較好的優(yōu)勢。
在11月5日的晚宴上頒發(fā)了最佳論文獎,共有三類、四個獎項:最佳研究論文獎、最佳研究論文(runner-up)獎、最佳應(yīng)用論文獎與最佳 Demo獎。
最佳研究論文獎由以色列本古里安大學(xué)的Noy Cohen等人獲得。
論文鏈接:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf
現(xiàn)在,機器學(xué)習(xí)算法已經(jīng)被廣泛地應(yīng)用于許多領(lǐng)域,然而并非所有使用的人都是機器學(xué)習(xí)的專家,在自己的研究中如何找到最合適的算法成為一個函待解決的問題。作者認為對于這些非機器學(xué)習(xí)專家來說,一個正確的算法就是,在給定數(shù)據(jù)集、任務(wù)和評價方法的情況下得到最好的效果?;诖朔N考慮,Cohen等人提出了AutoGRD的模型,這是一種新型的用于算法推薦的元學(xué)習(xí)模型。如下圖所示是AutoGRD訓(xùn)練的流程圖:
AutoGRD首先將數(shù)據(jù)集表示為圖,并將它的隱式表示提取出來,然后將這個表示用來訓(xùn)練排序元模型,這個模型能夠?qū)ξ匆娺^的數(shù)據(jù)集準確地推薦性能最佳的算法。
Cohen等人在250個數(shù)據(jù)集上進行了評估,結(jié)果證明AutoGRD對分類和回歸任務(wù)都極為有效,比最新的元學(xué)習(xí)和貝葉斯方法都要好。
(注:Runner-Up 相當(dāng)于第二名)
Runner-Up獎由北大、微軟和阿里巴巴的研究人員共同獲得,其中第一作者Qingqing Long來自北京大學(xué)。
論文鏈接:http://www.cikm2019.net/attachments/papers/p409-longA.pdf
對于現(xiàn)實世界中普遍存在的關(guān)系數(shù)據(jù),網(wǎng)絡(luò)是對其建模最好的方式。于是將頂點映射到低維空間(即網(wǎng)絡(luò)嵌入)適用于各種各樣的預(yù)測任務(wù)。已經(jīng)有許多工作研究了如何利用真實網(wǎng)絡(luò)所具有的成對接近性(pairwise proximity),然而卻很少有研究者關(guān)注真實網(wǎng)絡(luò)的另一個特性,即聚類性。所謂聚類性,即頂點傾向于形成各種規(guī)模的社區(qū)——由此形成一個囊括不同社區(qū)的層級結(jié)構(gòu)。
在Qingqing Long等人的這篇文章中,作者提出了一種子空間網(wǎng)絡(luò)嵌入的框架SpaceNE(Subspace Network Embedding)。這個框架保留了社區(qū)通過子空間形成的層級結(jié)構(gòu),具有靈活的維數(shù),且本質(zhì)上具有層級結(jié)構(gòu)。此外,在文章中作者認為子空間還能夠解決表征層級社區(qū)的其他問題,例如稀疏性、空間扭曲等。
作者在論文中還提出針對子空間尺寸進行限制從而達到消除噪聲的方法。這些約束條件通過可微分函數(shù)進一步逼近,從而達到聯(lián)合優(yōu)化。此外他們還采用了逐層方案來減少由參數(shù)過多引起的開銷。實驗證明SpaceNE在解決社區(qū)層級結(jié)構(gòu)方面是有效的。
該獎項的獲得者全部來自阿里巴巴安全團隊,研究的內(nèi)容是關(guān)于閑魚上垃圾評論檢測過濾,這也是應(yīng)用向唯一的最佳論文(不像research track還有runner-up獎)。
論文鏈接:http://www.cikm2019.net/attachments/papers/p2703-liA.pdf
網(wǎng)上購物平臺的評論會影響顧客的購買選擇,這是我們每個人的親身體會;但在各個網(wǎng)上購物平臺往往會存在大量具有誤導(dǎo)性的評論。閑魚作為中國最大的二手商品交易平臺,垃圾評論也同樣大量存在。其背后的反垃圾系統(tǒng)面臨著兩個巨大的挑戰(zhàn):數(shù)據(jù)的可擴展性以及垃圾評論者的對抗行為。
阿里的安全團隊提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的大規(guī)模反垃圾的方法,名為GAS(GCN-based Anti-Spam)模型。
論文通過圖神經(jīng)網(wǎng)絡(luò)算法提取閑魚異構(gòu)圖和評論同構(gòu)圖上用戶、商品、評論的表征信息,綜合對評論進行判斷。離線實驗表明,這種方法優(yōu)于利用評論信息、用戶特征和瀏覽商品信息等來反垃圾的基線方法。
目前,這種新的算法已經(jīng)在閑魚評論的線上防控中部署,減少了包括刷單、兼職廣告、引導(dǎo)線下交易的評論,優(yōu)化了交易體驗,降低了平臺交易風(fēng)險。
這里需要著重提一下,本次會議阿里不僅獲得了兩項最佳獎,還獨家承辦了2019年CIKM的挑戰(zhàn)賽。在挑戰(zhàn)賽中,開放了真實電商數(shù)據(jù)集供選手在用戶行為預(yù)測和大規(guī)模推薦系統(tǒng)兩大賽道進行角逐。主會期間,阿里巴巴甚至主辦了一整天的E-commerce AI Workshop,分享了阿里的電商AI算法和電商AI基礎(chǔ)設(shè)施。
最佳Demo獎由IBM拿得。
論文鏈接:http://www.cikm2019.net/attachments/papers/p2953-bozarthA.pdf
深度學(xué)習(xí)模型迅速發(fā)展,現(xiàn)在可以說已經(jīng)無處不在。然而盡管研究人員很興奮,但大多數(shù)軟件開發(fā)者卻并非深度學(xué)習(xí)專家,很難直接將DL的研究成果用到自己的開發(fā)當(dāng)中,最新的DL模型通常需要相當(dāng)長的時間才能在工業(yè)中得以廣泛應(yīng)用。特別是加上TensorFlow、PyTorch、Theano等框架的不兼容更導(dǎo)致這種情況惡化。
IBM的研究人員為了解決這個問題,提出了一個稱為Model Asset Exchange(MAE)的系統(tǒng),使用這個系統(tǒng),開發(fā)人員可以輕松地訪問最先進的深度學(xué)習(xí)模型。
在這個系統(tǒng)中,底層的深度學(xué)習(xí)框架可以是任何一種,在此之上他們提供了一個開源的Python庫(MAX框架),這個庫會將深度學(xué)習(xí)進行封裝,并使用標準化的RESTful API將編程接口進行統(tǒng)一化。開發(fā)者只需使用這些API接口,便可以利用封裝在里面的深度學(xué)習(xí)模型,而不用去管底層的框架。
IBM的研究人員利用MAX,封裝并開源了30多個來自不同研究領(lǐng)域的最先進的深度學(xué)習(xí)模型,包括計算機視覺、自然語言處理和信號處理等。
本次會議滿滿的中國元素,特別是在Banquet中,舞獅、戲劇相繼上演,甚至都把畫臉譜、吹糖人都搬到了現(xiàn)場,看圖說話:
舞獅
京劇
畫臉譜
雷鋒網(wǎng)報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。