0
本文作者: 我在思考中 | 2022-08-03 10:05 | 專題:ICML 2019 |
近日,備受關(guān)注的第十九屆機(jī)器學(xué)習(xí)國際會(huì)議(ICML 2022)在美國馬里蘭州巴爾的摩市舉辦。自新冠疫情以來,大會(huì)首次恢復(fù)線下形式,采取線上線下結(jié)合的方式舉辦。
本屆大會(huì)共收到5630 篇投稿,其中,1117 篇被接收為short oral,118篇被接收為long oral。接收率為21.94%,與以往幾年基本持平。前幾日,本屆大會(huì)的全部獎(jiǎng)項(xiàng)公布,共評(píng)選出15 篇杰出論文獎(jiǎng)和 1 項(xiàng)時(shí)間檢驗(yàn)獎(jiǎng)。其中,復(fù)旦大學(xué)、上海交通大學(xué)、廈門大學(xué)、萊斯大學(xué)等多個(gè)華人團(tuán)隊(duì)的工作被評(píng)位杰出論文獎(jiǎng)。ICML 2012 的一篇論文《Poisoning Attacks against Support Vector Machines》獲得了時(shí)間檢驗(yàn)獎(jiǎng)。
獲獎(jiǎng)?wù)撐男畔⒃斠姡篽ttps://icml.cc/virtual/2022/awards_detail
今年的杰出論文獎(jiǎng)不同尋常,評(píng)選數(shù)量多達(dá) 15 篇。而同樣是 21% 左右的接受率,前年只評(píng)選出2篇杰出論文,去年則僅有1篇。
本文我們來關(guān)注一下今年獲獎(jiǎng)的一篇優(yōu)秀工作。AI 科技評(píng)論此次采訪到獲得杰出論文獎(jiǎng)的萊斯大學(xué)胡俠團(tuán)隊(duì),為我們解讀他們的研究工作。該團(tuán)隊(duì)的獲獎(jiǎng)?wù)撐念}目為:《G-Mixup: Graph Data Augmentation for Graph Classification》。作者:Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。
在這項(xiàng)研究中,作者提出了一種新的圖數(shù)據(jù)增強(qiáng)方法:G-Mixup,實(shí)驗(yàn)表明,G-Mixup 能夠提高圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。
胡俠,現(xiàn)任美國萊斯大學(xué)終身副教授,數(shù)據(jù)科學(xué)中心主任,AIPOW聯(lián)合創(chuàng)始人兼首席科學(xué)家。其主導(dǎo)開發(fā)的開源系統(tǒng)AutoKeras成為最常用的自動(dòng)機(jī)器學(xué)習(xí)框架之一(超過8000次star及1000次fork),開發(fā)的NCF算法及系統(tǒng)(單篇論文他引3000余次)成為主流人工智能框架TensorFlow的官方推薦系統(tǒng),主導(dǎo)開發(fā)的異常檢測(cè)系統(tǒng)在通用、Trane、蘋果等公司的產(chǎn)品中得到廣泛應(yīng)用,研究工作多次獲得最佳論文(提名)獎(jiǎng)。
圖數(shù)據(jù)在我們的現(xiàn)實(shí)生活中無處不在,我們可以使用圖來建模和描述各種復(fù)雜網(wǎng)絡(luò)系統(tǒng)。而為了將圖數(shù)據(jù)應(yīng)用于具體任務(wù),我們首先需要對(duì)圖數(shù)據(jù)進(jìn)行表征。近年來,通過深度學(xué)習(xí)技術(shù)對(duì)圖數(shù)據(jù)進(jìn)行表示學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)(GNNs),在節(jié)點(diǎn)分類任務(wù)上取得了最優(yōu)性能,因而已被廣泛用于圖形分析。同時(shí),數(shù)據(jù)增強(qiáng)(data augmentation)和 Subgraph(子圖)也被用于圖分析,它們通過生成合成圖來創(chuàng)建更多訓(xùn)練數(shù)據(jù),以提高圖分類模型的泛化性能。
當(dāng)前流行的數(shù)據(jù)增強(qiáng)方法 Mixup 通過在兩個(gè)隨機(jī)樣本之間插入特征和標(biāo)簽,在提高神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性方面顯示出優(yōu)越性。但是,Mixup 更適用于處理圖像數(shù)據(jù)或表格數(shù)據(jù),直接將其用于圖數(shù)據(jù)并非易事,因?yàn)椴煌膱D通常:(1)有不同數(shù)量的節(jié)點(diǎn);(2)不容易對(duì)齊;(3)在非歐幾里得空間中的類型學(xué)具有特殊性。
為此,提出了一種 class-level 的圖數(shù)據(jù)增強(qiáng)方法:G-Mixup。具體來說,首先使用同一類中的圖來估計(jì)一個(gè) graphon。然后,在歐幾里得空間中對(duì)不同類的 graphons 進(jìn)行插值,得到混合的 graphons,合成圖便是通過基于混合 graphons 的采樣生成的。經(jīng)實(shí)驗(yàn)評(píng)估,G-Mixup 顯著提高了圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。
G-Mixup。G-Mixup 是一種通過圖形插值的class-level數(shù)據(jù)增強(qiáng)方法。具體來說,G-Mixup 對(duì)不同的圖生成器(graphon)進(jìn)行線性插值以獲得新的混合的生成器。然后,基于混合的新的生成器對(duì)合成圖進(jìn)行采樣得到新的圖數(shù)據(jù)以進(jìn)行數(shù)據(jù)增強(qiáng)。改論文從理論上證明從該生成器中采樣的圖部分具有原始圖的屬性。
如圖1所示,G-Mixup包括三個(gè)關(guān)鍵步驟:(1)為每一類圖估計(jì)一個(gè)graphon,(2)混合不同圖類的graphons,以及(3)基于混合的graphons采樣生成合成圖。
圖 1:在二值圖分類任務(wù)中,有兩類不同的圖 G 和 H,二者拓?fù)洳煌℅ 有兩個(gè)社區(qū),而 H 有八個(gè)社區(qū))。G 和 H 具有不同的graphons。
Graphon 估計(jì)和 Mixup。作者使用矩陣形式的階進(jìn)函數(shù)作為graphon來混合和生成合成圖。對(duì)階躍函數(shù)估計(jì)方法,作者首先根據(jù)節(jié)點(diǎn)測(cè)量值將節(jié)點(diǎn)對(duì)齊在一組圖中,然后從所有對(duì)齊的鄰接矩陣中估計(jì)階躍函數(shù)。
合成圖的生成。一個(gè) graphon W 提供一個(gè)分布來生成任意大小的圖。
那么,G-Mixup 在真實(shí)世界的圖數(shù)據(jù)上表現(xiàn)如何?作者團(tuán)隊(duì)對(duì) G-Mixup 的性能進(jìn)行了評(píng)估。
一個(gè)數(shù)據(jù)集中不同類別的圖的 graphons 顯著不同。圖 2 表明現(xiàn)實(shí)世界中不同類別的圖有完全不同的graphons,這為通過融合 graphon 來生成混合的圖奠定了基礎(chǔ)。
圖2:IMDBBINAERY 的 graphons 顯示 class 1 的 graphon 有更大的密集區(qū)域,這表明該類中的圖比 class 0 中的圖具有更大的社區(qū)。REDDIT-BINARY 的 graphons 顯示,class 0 中的圖有一個(gè)高度節(jié)點(diǎn),而 class 1 中的圖有兩個(gè)。
G-Mixup 合成的圖是原始圖的混合。作者團(tuán)隊(duì)將在 REDDIT-BINARY 數(shù)據(jù)集上生成的合成圖進(jìn)行可視化,如圖 3,混合 graphon(0.5?W0+0.5?W1) 能夠生成包含高度節(jié)點(diǎn)和密集子圖的圖,這可看作是包含 1 個(gè)高度節(jié)點(diǎn)和包含 2 個(gè)高度節(jié)點(diǎn)的圖的混合圖。這驗(yàn)證了 G-Mixup 更傾向于保留來自原始圖的區(qū)別性圖案,其合成圖確實(shí)是原始圖的混合。
圖3:在 REDDIT-BINARY 數(shù)據(jù)集上生成的合成圖的可視化。
G-Mixup 可以提高 GNN 在各種數(shù)據(jù)集上的性能。作者比較了使用 G-Mixup 的各種GNN主干網(wǎng)絡(luò)在不同數(shù)據(jù)集上的性能。實(shí)驗(yàn)結(jié)果表明,G-Mixup可以提高圖神經(jīng)網(wǎng)絡(luò)在各種數(shù)據(jù)集上的性能。
G -Mixup 可以提高 GNN 的魯棒性。作者對(duì) G-Mixup 的兩種魯棒性(標(biāo)簽腐蝕的魯棒性和拓?fù)涓g的魯棒性)進(jìn)行研究,發(fā)現(xiàn) G-Mixup 能夠提高 GNN 的魯棒性。
這項(xiàng)工作提出了一種名為 G-Mixup 的新型圖增強(qiáng)方法。與圖像數(shù)據(jù)不同,圖數(shù)據(jù)是不規(guī)則的、未對(duì)齊的且處于非歐幾里得空間中,因此很難進(jìn)行混合。然而,同一類別中的圖具有相同的生成器(即graphon),它是規(guī)則的、良好對(duì)齊的且處于歐幾里得空間中。因此,作者轉(zhuǎn)而對(duì)不同類別的 graphons進(jìn)行混合來生成合成圖。綜合實(shí)驗(yàn)表明,使用 G-Mixup 訓(xùn)練的 GNN 獲得了更好的性能和泛化能力,并提高了模型對(duì)噪聲標(biāo)簽和被損壞拓?fù)涞聂敯粜浴?/span>
AI 科技評(píng)論:祝賀你們的研究獲得ICML 2022杰出論文獎(jiǎng)。首先,能否概括一下你們這項(xiàng)工作的主要貢獻(xiàn)?
作者團(tuán)隊(duì):我們提出了 G-Mixup 來增強(qiáng)用于圖分類的訓(xùn)練圖。由于直接混合圖是難以處理的,因此 G-Mixup 將不同類別的圖的圖元混合以生成合成圖。其次,我們理論上證明合成圖將是原始圖的混合,其中源圖的關(guān)鍵拓?fù)洌磁袆e主題)將被混合。最后,我們證明了所提出的 G-Mixup 在各種圖神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集上的有效性。大量的實(shí)驗(yàn)結(jié)果表明,G-Mixup 能夠增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的泛化性和魯棒性。
AI 科技評(píng)論:當(dāng)時(shí)論文收到的審稿意見是怎樣的?
作者團(tuán)隊(duì):審稿意見總體比較positive,不過當(dāng)時(shí)審稿人對(duì)我們做數(shù)據(jù)增強(qiáng)的意義有一點(diǎn)疑問,我們對(duì)此作了詳細(xì)的解釋,比如就訓(xùn)練而言,有時(shí)訓(xùn)練數(shù)據(jù)集特別少,我們就可以用數(shù)據(jù)增強(qiáng)來獲取更多的數(shù)據(jù)。審稿人在最后的意見中也表明認(rèn)識(shí)到了數(shù)據(jù)增強(qiáng)的重要意義。
AI 科技評(píng)論:與以往的Mixup方法相比,G-Mixup的不同之處在什么地方?
作者團(tuán)隊(duì):Mixup 技術(shù)主要應(yīng)用在圖像上,已經(jīng)比較成熟,它是將訓(xùn)練數(shù)據(jù)中的兩個(gè)數(shù)據(jù)集線性地加起來,得到一個(gè)新的訓(xùn)練數(shù)據(jù),從而完成數(shù)據(jù)擴(kuò)增。但它在圖數(shù)據(jù)上還沒有一個(gè)很好的解決方案。而我們的G-Mixup 是一個(gè)簡單且有效的方法,它是對(duì)不同類別的圖生成器進(jìn)行混合來生成合成圖。
AI科技評(píng)論:與圖像數(shù)據(jù)和表格數(shù)據(jù)相比,對(duì)圖數(shù)據(jù)做mixup的難點(diǎn)在什么地方?
作者團(tuán)隊(duì):目前針對(duì)圖的mixup的研究比較少,因?yàn)閳D數(shù)據(jù)比較難處理,它不容易表示,而且兩個(gè)圖的節(jié)點(diǎn)數(shù)量、無結(jié)構(gòu)信息是不一樣的,所以很難將其融合到一起。圖像數(shù)據(jù)和表格數(shù)據(jù)可以表示成連續(xù)的向量或矩陣的形式,所以很容易做融合,但圖數(shù)據(jù)無法表示成這種形式。
AI科技評(píng)論:為什么說G-Mixup 是一種Class-level的圖數(shù)據(jù)增強(qiáng)方法?
作者團(tuán)隊(duì):我們是用兩個(gè)類來生成一個(gè)新的類,我們用多張圖來估計(jì)圖的生成規(guī)則也就是圖的生成器,然后對(duì)每一類圖來估計(jì)一個(gè)生成器,這樣來生成一個(gè)新的類別。以往針對(duì)圖像的mixup是用兩張圖片來做,屬于instance-level,但針對(duì)圖的處理方法與此不同。
AI科技評(píng)論:有哪些途徑可以提高圖神經(jīng)網(wǎng)絡(luò)的泛化性?
作者團(tuán)隊(duì):比如設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu),做數(shù)據(jù)增強(qiáng),以及訓(xùn)練技巧方面的一些工作,都可以提高泛化性,我們這項(xiàng)工作展示的是其中一種方法。
AI科技評(píng)論:針對(duì)這項(xiàng)工作所研究的問題,有什么下一步的研究計(jì)劃?
作者團(tuán)隊(duì):我們這項(xiàng)工作提出的方法主要是用于圖分類任務(wù),以后我們可以進(jìn)一步考慮在節(jié)點(diǎn)分類任務(wù)上做融合,節(jié)點(diǎn)分類也是圖神經(jīng)網(wǎng)絡(luò)方面的一個(gè)重要任務(wù)。
AI科技評(píng)論:這次獲得杰出論文獎(jiǎng),有沒有什么經(jīng)驗(yàn)、體會(huì)可以分享?
作者團(tuán)隊(duì):首先文章的寫作質(zhì)量要好,要將研究清楚地表述出來;研究的 idea 要十分合理;以及,研究問題本身要有意義和價(jià)值。
AI科技評(píng)論:這項(xiàng)研究的成果對(duì)相關(guān)領(lǐng)域有怎樣的影響?有哪些實(shí)際應(yīng)用的價(jià)值?
作者團(tuán)隊(duì):由于圖數(shù)據(jù)的本身特性,使得mixup這個(gè)在其他數(shù)據(jù)上很有效的方法不能直接適用在圖數(shù)據(jù)上,我們提出的g-mixup使用了圖生成器去融合圖數(shù)據(jù),實(shí)現(xiàn)了class-level的圖數(shù)據(jù)mixup, 希望能對(duì)圖數(shù)據(jù)的mixup能有一定的啟發(fā)作用。希望提出的方法能夠在圖生成,新藥物發(fā)現(xiàn)方向能有一定的啟發(fā)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章