0
本文作者: camel | 2019-11-06 19:36 |
雷鋒網(wǎng) AI 科技評(píng)論按:2019年11月3日-7日,信息檢索和數(shù)據(jù)挖掘的頂會(huì) ACM CKIM 2019在北京召開,并于昨日頒發(fā)了本屆會(huì)議的最佳論文獎(jiǎng),其中來自以色列本古里安大學(xué)的Noy Cohen等人獲得最佳研究論文獎(jiǎng),阿里巴巴安全團(tuán)隊(duì)獲得最佳應(yīng)用論文獎(jiǎng)、IBM獲得最佳Demo獎(jiǎng)。
本屆會(huì)議是CIKM的第28屆會(huì)議,由梅宏院士和Ramamohanarao Kotagiri擔(dān)任大會(huì)榮譽(yù)主席,朱文武教授和陶大程教授擔(dān)任大會(huì)主席。自1992年首次舉辦至今,CIKM也是第二次來到中國(guó)。
在本次會(huì)議中著名學(xué)者Steve Maybank、韓家煒、裴健和石建萍等人分別做了主題演講,除了頂會(huì)必備的tutorial、workshop、oral以及post外,本次會(huì)議還舉辦了AnalytiCup 以及十余場(chǎng)工業(yè)演講(Industrial Plenary Speech)。
本次會(huì)議參會(huì)人數(shù)達(dá)700人次,由于地理原因,其中亞洲學(xué)者占絕大多數(shù)(約65%),而其中大部分又是中國(guó)學(xué)者(365人);其次是來自美國(guó)的學(xué)者(139人)。
在論文投遞方面,本屆會(huì)議共有1720篇投稿,其中長(zhǎng)論文1031篇,短論文471篇,應(yīng)用研究論文174篇,Demo論文44篇。相較于去年會(huì)議論文顯著增加,其中長(zhǎng)論文也在歷史中首次破千。
考慮論文投稿的地理分布,可以看出絕大部分論文是來自中國(guó),占全部論文的四成;其次則來自美國(guó),約有300多篇。
據(jù)大會(huì)PC主席介紹本次大會(huì)共有5194名審稿人,平均來說每篇文章都會(huì)有3.02個(gè)審稿人進(jìn)行評(píng)審,這保證了會(huì)議論文接收的質(zhì)量。
本次論文共接收202篇長(zhǎng)論文(20%)、107篇短論文(23%)、38篇應(yīng)用論文(22%)和26篇Demo論文(59%),平均接收率僅為22%。
而按地域來考察論文的接收率,我們可以從下圖中看出,來自中國(guó)的論文接收率為20%多一點(diǎn),基本與平均接收率持平;而來自美國(guó)和澳大利亞的都在30%左右。這說明,在數(shù)據(jù)挖掘、信息檢索和數(shù)據(jù)庫這些領(lǐng)域來自中國(guó)的論文質(zhì)量已經(jīng)處于較高水平,但仍需提升。
最有意思的是對(duì)論文話題分布的分析。話題論文的接收率(紅線)一定程度上反映了審稿人的興趣,若按接收率進(jìn)行排序,可以看出廣告和金融方向的論文更容易被接收;而對(duì)科學(xué)數(shù)據(jù)進(jìn)行處理的文章更可能被拒絕掉。而另一方面,柱狀圖的高低則能夠反映研究者的興趣點(diǎn),顯然data mining、機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)仍然占據(jù)高位,而數(shù)據(jù)庫、網(wǎng)頁挖掘等則相對(duì)小眾。
本屆會(huì)議的主題是“AI for Future Life”,可見以深度學(xué)習(xí)等為主的人工智能技術(shù)在信息檢索、數(shù)據(jù)挖掘領(lǐng)域已經(jīng)起到了關(guān)鍵作用,成為研究的主流技術(shù)。大會(huì)聯(lián)合主席陶大程向雷鋒網(wǎng)表示:“我們認(rèn)為未來人工智能會(huì)滲透到生活的各個(gè)方面,目前其主要深度學(xué)習(xí),本屆大會(huì)希望討論深度學(xué)習(xí)和傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)在未來會(huì)有什么樣的發(fā)展趨勢(shì)?!?/p>
在本次會(huì)議中,圖神經(jīng)網(wǎng)絡(luò)成為最大的熱點(diǎn),相關(guān)的tutorial及報(bào)告也往往成為參與人員趨之若鶩的重點(diǎn)內(nèi)容。大會(huì)程序主席崔鵬告訴AI科技評(píng)論:“從第一天講習(xí)班的情況來看,只要涉及到圖,聽的人都比較多?,F(xiàn)在大家對(duì)深度學(xué)習(xí)已經(jīng)基本無感了,但圖神經(jīng)網(wǎng)絡(luò)是一個(gè)值得研究方向,是深度學(xué)習(xí)的下一波研究。”
陶大程認(rèn)為之所以圖神經(jīng)網(wǎng)絡(luò)受到關(guān)注,主要有三點(diǎn):1、相對(duì)于深度學(xué)習(xí),圖的表征比較多;2、目前對(duì)于圖的理論分析還比較欠缺,因此還有許多可以研究的地方;3、雖然圖網(wǎng)絡(luò)有各種各樣的問題,但實(shí)際上在一些問題上已經(jīng)取得了比其他網(wǎng)絡(luò)較好的優(yōu)勢(shì)。
在11月5日的晚宴上頒發(fā)了最佳論文獎(jiǎng),共有三類、四個(gè)獎(jiǎng)項(xiàng):最佳研究論文獎(jiǎng)、最佳研究論文(runner-up)獎(jiǎng)、最佳應(yīng)用論文獎(jiǎng)與最佳 Demo獎(jiǎng)。
最佳研究論文獎(jiǎng)由以色列本古里安大學(xué)的Noy Cohen等人獲得。
論文鏈接:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf
現(xiàn)在,機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛地應(yīng)用于許多領(lǐng)域,然而并非所有使用的人都是機(jī)器學(xué)習(xí)的專家,在自己的研究中如何找到最合適的算法成為一個(gè)函待解決的問題。作者認(rèn)為對(duì)于這些非機(jī)器學(xué)習(xí)專家來說,一個(gè)正確的算法就是,在給定數(shù)據(jù)集、任務(wù)和評(píng)價(jià)方法的情況下得到最好的效果?;诖朔N考慮,Cohen等人提出了AutoGRD的模型,這是一種新型的用于算法推薦的元學(xué)習(xí)模型。如下圖所示是AutoGRD訓(xùn)練的流程圖:
AutoGRD首先將數(shù)據(jù)集表示為圖,并將它的隱式表示提取出來,然后將這個(gè)表示用來訓(xùn)練排序元模型,這個(gè)模型能夠?qū)ξ匆娺^的數(shù)據(jù)集準(zhǔn)確地推薦性能最佳的算法。
Cohen等人在250個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估,結(jié)果證明AutoGRD對(duì)分類和回歸任務(wù)都極為有效,比最新的元學(xué)習(xí)和貝葉斯方法都要好。
(注:Runner-Up 相當(dāng)于第二名)
Runner-Up獎(jiǎng)由北大、微軟和阿里巴巴的研究人員共同獲得,其中第一作者Qingqing Long來自北京大學(xué)。
論文鏈接:http://www.cikm2019.net/attachments/papers/p409-longA.pdf
對(duì)于現(xiàn)實(shí)世界中普遍存在的關(guān)系數(shù)據(jù),網(wǎng)絡(luò)是對(duì)其建模最好的方式。于是將頂點(diǎn)映射到低維空間(即網(wǎng)絡(luò)嵌入)適用于各種各樣的預(yù)測(cè)任務(wù)。已經(jīng)有許多工作研究了如何利用真實(shí)網(wǎng)絡(luò)所具有的成對(duì)接近性(pairwise proximity),然而卻很少有研究者關(guān)注真實(shí)網(wǎng)絡(luò)的另一個(gè)特性,即聚類性。所謂聚類性,即頂點(diǎn)傾向于形成各種規(guī)模的社區(qū)——由此形成一個(gè)囊括不同社區(qū)的層級(jí)結(jié)構(gòu)。
在Qingqing Long等人的這篇文章中,作者提出了一種子空間網(wǎng)絡(luò)嵌入的框架SpaceNE(Subspace Network Embedding)。這個(gè)框架保留了社區(qū)通過子空間形成的層級(jí)結(jié)構(gòu),具有靈活的維數(shù),且本質(zhì)上具有層級(jí)結(jié)構(gòu)。此外,在文章中作者認(rèn)為子空間還能夠解決表征層級(jí)社區(qū)的其他問題,例如稀疏性、空間扭曲等。
作者在論文中還提出針對(duì)子空間尺寸進(jìn)行限制從而達(dá)到消除噪聲的方法。這些約束條件通過可微分函數(shù)進(jìn)一步逼近,從而達(dá)到聯(lián)合優(yōu)化。此外他們還采用了逐層方案來減少由參數(shù)過多引起的開銷。實(shí)驗(yàn)證明SpaceNE在解決社區(qū)層級(jí)結(jié)構(gòu)方面是有效的。
該獎(jiǎng)項(xiàng)的獲得者全部來自阿里巴巴安全團(tuán)隊(duì),研究的內(nèi)容是關(guān)于閑魚上垃圾評(píng)論檢測(cè)過濾,這也是應(yīng)用向唯一的最佳論文(不像research track還有runner-up獎(jiǎng))。
論文鏈接:http://www.cikm2019.net/attachments/papers/p2703-liA.pdf
網(wǎng)上購物平臺(tái)的評(píng)論會(huì)影響顧客的購買選擇,這是我們每個(gè)人的親身體會(huì);但在各個(gè)網(wǎng)上購物平臺(tái)往往會(huì)存在大量具有誤導(dǎo)性的評(píng)論。閑魚作為中國(guó)最大的二手商品交易平臺(tái),垃圾評(píng)論也同樣大量存在。其背后的反垃圾系統(tǒng)面臨著兩個(gè)巨大的挑戰(zhàn):數(shù)據(jù)的可擴(kuò)展性以及垃圾評(píng)論者的對(duì)抗行為。
阿里的安全團(tuán)隊(duì)提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的大規(guī)模反垃圾的方法,名為GAS(GCN-based Anti-Spam)模型。
論文通過圖神經(jīng)網(wǎng)絡(luò)算法提取閑魚異構(gòu)圖和評(píng)論同構(gòu)圖上用戶、商品、評(píng)論的表征信息,綜合對(duì)評(píng)論進(jìn)行判斷。離線實(shí)驗(yàn)表明,這種方法優(yōu)于利用評(píng)論信息、用戶特征和瀏覽商品信息等來反垃圾的基線方法。
目前,這種新的算法已經(jīng)在閑魚評(píng)論的線上防控中部署,減少了包括刷單、兼職廣告、引導(dǎo)線下交易的評(píng)論,優(yōu)化了交易體驗(yàn),降低了平臺(tái)交易風(fēng)險(xiǎn)。
這里需要著重提一下,本次會(huì)議阿里不僅獲得了兩項(xiàng)最佳獎(jiǎng),還獨(dú)家承辦了2019年CIKM的挑戰(zhàn)賽。在挑戰(zhàn)賽中,開放了真實(shí)電商數(shù)據(jù)集供選手在用戶行為預(yù)測(cè)和大規(guī)模推薦系統(tǒng)兩大賽道進(jìn)行角逐。主會(huì)期間,阿里巴巴甚至主辦了一整天的E-commerce AI Workshop,分享了阿里的電商AI算法和電商AI基礎(chǔ)設(shè)施。
最佳Demo獎(jiǎng)由IBM拿得。
論文鏈接:http://www.cikm2019.net/attachments/papers/p2953-bozarthA.pdf
深度學(xué)習(xí)模型迅速發(fā)展,現(xiàn)在可以說已經(jīng)無處不在。然而盡管研究人員很興奮,但大多數(shù)軟件開發(fā)者卻并非深度學(xué)習(xí)專家,很難直接將DL的研究成果用到自己的開發(fā)當(dāng)中,最新的DL模型通常需要相當(dāng)長(zhǎng)的時(shí)間才能在工業(yè)中得以廣泛應(yīng)用。特別是加上TensorFlow、PyTorch、Theano等框架的不兼容更導(dǎo)致這種情況惡化。
IBM的研究人員為了解決這個(gè)問題,提出了一個(gè)稱為Model Asset Exchange(MAE)的系統(tǒng),使用這個(gè)系統(tǒng),開發(fā)人員可以輕松地訪問最先進(jìn)的深度學(xué)習(xí)模型。
在這個(gè)系統(tǒng)中,底層的深度學(xué)習(xí)框架可以是任何一種,在此之上他們提供了一個(gè)開源的Python庫(MAX框架),這個(gè)庫會(huì)將深度學(xué)習(xí)進(jìn)行封裝,并使用標(biāo)準(zhǔn)化的RESTful API將編程接口進(jìn)行統(tǒng)一化。開發(fā)者只需使用這些API接口,便可以利用封裝在里面的深度學(xué)習(xí)模型,而不用去管底層的框架。
IBM的研究人員利用MAX,封裝并開源了30多個(gè)來自不同研究領(lǐng)域的最先進(jìn)的深度學(xué)習(xí)模型,包括計(jì)算機(jī)視覺、自然語言處理和信號(hào)處理等。
本次會(huì)議滿滿的中國(guó)元素,特別是在Banquet中,舞獅、戲劇相繼上演,甚至都把畫臉譜、吹糖人都搬到了現(xiàn)場(chǎng),看圖說話:
舞獅
京劇
畫臉譜
雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。