0
本文作者: 知情人士 | 2021-07-20 10:02 | 專題:ICML 2019 |
原定于在奧地利維也納召開的ICML 2021,受疫情影響已于近日在線上召開。根據(jù)官方消息,會議將在7月18日~7月24日內(nèi)完成所有的日程。
本次會議共收到5513篇論文投稿,接收1184篇論文,其中包含1018篇短論文和166篇長論文,接收率為21.48%,近五年最低。
在接收的一千多篇論文中,組委會最終挑出了四篇論文,分別頒發(fā)了一個(gè)杰出論文獎(jiǎng),三個(gè)杰出論文提名獎(jiǎng)。
杰出論文獎(jiǎng)由康奈爾大學(xué)博士生Yucheng Lu獲得,他本科畢業(yè)于上海交通大學(xué),研究領(lǐng)域是分布式優(yōu)化和機(jī)器學(xué)習(xí)系統(tǒng)。獲獎(jiǎng)?wù)撐臉?biāo)題為“Optimal Complexity in Decentralized Training”,探究了去中心化訓(xùn)練的極限以及如何達(dá)到這種極限。
如上三篇文章獲得了杰出論文榮譽(yù)提名獎(jiǎng),其中論文"Understanding Self-Supervised Learning Dynamics without Contrastive Pairs"由Facebook科學(xué)家田淵棟擔(dān)任一作,其提出了一種新方法DirectPred,它根據(jù)輸入的統(tǒng)計(jì)數(shù)據(jù)直接設(shè)置線性預(yù)測器,而無需梯度訓(xùn)練。
據(jù)田淵棟學(xué)者在知乎發(fā)表的想法,我們可以得知,這篇論文原來獲得過一個(gè)Weak Accept,經(jīng)過他與評審rebuttal,將其改為了Accept,這在某種程度上說明了好的rebuttal的重要性,也說明只要你有“理”,就別怕!
此外,發(fā)表在ICML 2011的論文“Bayesian Learning via Stochastic Gradient Langevin Dynamics”獲得了時(shí)間檢驗(yàn)獎(jiǎng),作者是來自加利福尼亞大學(xué)的Max Welling(現(xiàn)在是高通荷蘭公司技術(shù)副總裁)和倫敦大學(xué)學(xué)院的Yee Whye Teh(中文名字鄭宇懷,現(xiàn)在是牛津大學(xué)教授)。
值得一提的是,鄭宇懷 1997年于加拿大滑鐵盧大學(xué)獲得計(jì)算機(jī)科學(xué)與數(shù)學(xué)學(xué)士學(xué)位,之后在多倫多大學(xué)師從Geoffery Hinton,并于2003年獲得計(jì)算機(jī)博士學(xué)位。他還是Hinton那篇?jiǎng)潟r(shí)代論文《A fast learning algorithm for deep belief nets》的署名作者之一。
獲獎(jiǎng)?wù)撐囊挥[
杰出論文獎(jiǎng):去中心化訓(xùn)練的極限在哪里?
論文標(biāo)題:"Optimal Complexity in Decentralized Training"
作者:Yucheng Lu, Christopher De Sa
機(jī)構(gòu):康奈爾大學(xué)
論文地址:http://proceedings.mlr.press/v139/lu21a.html
去中心化(Decentralization)是擴(kuò)展并行機(jī)器學(xué)習(xí)系統(tǒng)的一種有效方法。本文提供了該方法在隨機(jī)非凸環(huán)境下進(jìn)行復(fù)雜迭代的下界。我們的下界表明,許多現(xiàn)有的分散訓(xùn)練算法(如D-PSGD)在已知收斂速度方面存在理論差距。通過構(gòu)造并證明這個(gè)下界是合理的和可實(shí)現(xiàn)的,我們進(jìn)一步提出了DeTAG,這是一種實(shí)用的gossip風(fēng)格的去中心化算法,只需要一個(gè)對數(shù)間隔就可以達(dá)到下界。本文將DeTAG算法與其他分散算法在圖像分類任務(wù)上進(jìn)行了比較,結(jié)果表明,DeTAG算法比基線算法具有更快的收斂速度,特別是在非緩沖數(shù)據(jù)和稀疏網(wǎng)絡(luò)中。
榮譽(yù)提名獎(jiǎng)之一:離散分布的可伸縮抽樣
論文標(biāo)題:"Oops I Took A Gradient: Scalable Sampling for Discrete Distributions"
作者:Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris Maddison
機(jī)構(gòu):多倫多大學(xué),谷歌大腦
論文地址:http://proceedings.mlr.press/v139/grathwohl21a.html
本文針對離散概率模型,提出了一種通用的、可擴(kuò)展的近似抽樣策略。該方法利用似然函數(shù)對離散輸入的梯度來更新Metropolis-Hastings采樣。實(shí)驗(yàn)表明,這種方法在高難度設(shè)置中,要優(yōu)于一般的采樣器,例如伊辛模型,波特模型,受限玻爾茲曼機(jī),隱馬爾可夫模型。本文還展示了改進(jìn)的采樣器,用于訓(xùn)練基于高維離散圖像數(shù)據(jù)的深層能量模型。這種方法優(yōu)于變分自動(dòng)編碼器和現(xiàn)有的基于能量的模型。此外,本文提供的邊界,表明該方法在更新局部的采樣器類中是接近最優(yōu)的。
榮譽(yù)提名獎(jiǎng)之二:為什么非對比自監(jiān)督學(xué)習(xí)效果好?
論文題目:"Understanding self-supervised learning dynamics without contrastive pairs"
作者:Yuandong Tian、Xinlei Chen、Surya Ganguli
機(jī)構(gòu):FAIR,斯坦福大學(xué)
論文地址:http://proceedings.mlr.press/v139/tian21a.html
一般而言,對比自監(jiān)督學(xué)習(xí)(SSL)通過最小化同一數(shù)據(jù)點(diǎn)(正對)的兩個(gè)增強(qiáng)視圖之間的距離和最大化不同數(shù)據(jù)點(diǎn)(負(fù)對)的視圖來學(xué)習(xí)表征,而最近的非對比SSL(如BYOL和SimSiam)的研究表明,在沒有負(fù)配對的情況下,使用額外的可學(xué)習(xí)預(yù)測器(learnable predictor)和停止梯度操作(stop-gradient operation),可以使模型性能更佳。一個(gè)基本的問題出現(xiàn)了:為什么這些方法沒有引發(fā)崩潰的平凡的表征?
本文通過一個(gè)簡單的理論研究回答了該問題,并提出了新的方法DirectPred,它不需要梯度訓(xùn)練,直接根據(jù)輸入的統(tǒng)計(jì)信息來設(shè)置線性預(yù)測。在ImageNet上,它與更復(fù)雜的BatchNorm(兩個(gè)線性層)預(yù)測器性能相當(dāng),在300個(gè)epoch的訓(xùn)練中比線性預(yù)測器高2.5%(在60個(gè)epoch中高5%)。DirectPred方法,來源于我們對簡單線性網(wǎng)絡(luò)中非對比SSL的非線性學(xué)習(xí)動(dòng)力學(xué)的理論研究。這項(xiàng)研究提供了非對比SSL方法如何學(xué)習(xí)的概念性見解,如何避免表征崩潰,以及預(yù)測網(wǎng)絡(luò)、停止梯度、指數(shù)移動(dòng)平均數(shù)和權(quán)重衰減等因素如何發(fā)揮作用。此外,本文還提供了該方法在STL-10和ImageNet上的消融研究結(jié)果。
榮譽(yù)提名獎(jiǎng)之三:倒向隨機(jī)微分方程結(jié)合張量格式的回歸型方法
論文標(biāo)題:"Solving high-dimensional parabolic PDEs using the tensor train format"
作者:Lorenz Richter 、Leon Sallandt、Nikolas Nüsken
機(jī)構(gòu):德國柏林自由大學(xué),德國波茨坦大學(xué)等
論文地址:http://proceedings.mlr.press/v139/richter21a.html
高維偏微分方程的應(yīng)用在經(jīng)濟(jì)、科學(xué)和工程等研究中普遍存在。然而,由于傳統(tǒng)的基于網(wǎng)格的方法易受到維數(shù)災(zāi)難的影響,該方程在數(shù)值處理上面臨著巨大的挑戰(zhàn)。在本文中,我們認(rèn)為,張量訓(xùn)練為拋物型偏微分方程提供了一個(gè)更合理的近似框架:將倒向隨機(jī)微分方程和張量格式的回歸型方法相結(jié)合,有望利用潛在的低秩結(jié)構(gòu),實(shí)現(xiàn)壓縮和高效計(jì)算。
遵循這一范式,我們開發(fā)了新的迭代方案,包括顯式和快速(或隱式和準(zhǔn)確)的更新。實(shí)驗(yàn)證明,與最先進(jìn)的基于神經(jīng)網(wǎng)絡(luò)的方法相比,我們的方法在精確度和計(jì)算效率之間取得了一個(gè)良好的折中。
時(shí)間檢驗(yàn)獎(jiǎng):隨機(jī)梯度朗格文動(dòng)力學(xué)
論文標(biāo)題:"Bayesian Learning via Stochastic Gradient Langevin Dynamics"
作者:Max Welling、鄭宇懷
機(jī)構(gòu)(原):加利福尼亞大學(xué)、倫敦大學(xué)學(xué)院
論文地址:https://www.cse.iitk.ac.in/users/piyush/courses/tpmi_winter21/readings/sgld.pdf
本文中提出了一個(gè)新的框架,在small mini-batches中迭代學(xué)習(xí)的基礎(chǔ)上,可以用于從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)。通過在標(biāo)準(zhǔn)的隨機(jī)梯度優(yōu)化算法中加入適量的噪聲,論文證明,當(dāng)anneal the stepsize,迭代將收斂到真實(shí)后驗(yàn)分布的樣本。這種優(yōu)化和貝葉斯后驗(yàn)抽樣之間的無縫過渡提供了一個(gè)內(nèi)在的保護(hù),防止過度擬合。此外,還提出了一種實(shí)用的后驗(yàn)統(tǒng)計(jì)蒙特卡羅估計(jì)方法,它可以監(jiān)控 “抽樣閾值”,并在超過該閾值后收集樣本。最后,將該方法應(yīng)用于三種模型:高斯混合模型、邏輯回歸模型和自然梯度的ICA模型。
具體而言,本文提出了一種基于大規(guī)模數(shù)據(jù)集的貝葉斯學(xué)習(xí)方法。將隨機(jī)優(yōu)化似然的Robbins-Monro型算法與Langevin動(dòng)態(tài)相結(jié)合,Langevin動(dòng)態(tài)在參數(shù)更新中注入噪聲,使得參數(shù)的軌跡收斂到完全后驗(yàn)分布,而不僅僅是最大后驗(yàn)分布。由此產(chǎn)生的算法開始類似于隨機(jī)優(yōu)化,然后自動(dòng)過渡到使用Langevin動(dòng)力學(xué)模擬后驗(yàn)樣本的算法。
論文接收一覽
ICML 2021大會上,香港科技大學(xué)教授、大會程序主席張潼通過一則視頻展示了今年的論文收錄情況。
數(shù)據(jù)顯示,今年接收論文投稿5513篇,其中長論文166篇,短論文1017篇。整體來看,ICML近五年來投稿數(shù)量持續(xù)走高,并于2020年首次突破5000關(guān)卡。
兩個(gè)月前,ICML組委會為了保證AC/SAC 接收標(biāo)準(zhǔn)和論文質(zhì)量,宣布將接收論文砍掉10%。今年共接受論文1184篇,接收率21.4%,為近五年來最低。
今年的錄用論文涉及深度學(xué)習(xí)、算法、應(yīng)用、強(qiáng)化學(xué)習(xí)、隱私、理論、概率方法和社會方面等8個(gè)研究方向。
其中,算法方面的論文一枝獨(dú)秀,提交的論文數(shù)量占比31%,比第二名深度學(xué)習(xí),數(shù)量高出近一倍。排名Top3的算法、深度學(xué)習(xí)、理論三大機(jī)器學(xué)習(xí)熱門方向,占據(jù)了總接收論文的50%以上。相對冷門的隱私、概率方法、社會方面等也有20%的論文被接收。
哪個(gè)領(lǐng)域接受率最強(qiáng)?理論工作32%,強(qiáng)化學(xué)習(xí)27%,概率方法26%,社會角度24%,優(yōu)化22%,算法19%,應(yīng)用和深度學(xué)習(xí)只有18%。
一篇論文往往有好幾位合著者,似乎論文接收率有相關(guān)關(guān)系。據(jù)統(tǒng)計(jì)數(shù)據(jù),如果一篇論文有著大于9位的作者,那么它將有1/3的概率被接收,如果僅有1位作者,論文接受率不到1/10;另外,8位作者和4位作者,雖然在人數(shù)上相差一倍,但是接受率僅相差2%。
在所有的提交論文中,有1446篇論文包含3位作者,大于或等于9位作者的論文數(shù)只有104篇;此外,還有205位作者單獨(dú)提交了論文,由2位作者合寫的論文數(shù)有1005篇。
經(jīng)過統(tǒng)計(jì),今年的ICML 2021接收的論文中,如果標(biāo)題中帶有這么幾個(gè)詞,將會有較高的接收率:強(qiáng)化學(xué)習(xí)、噪音、規(guī)劃、Bandits、蒙特卡洛、流、隱私.......
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章