0
本文作者: 知情人士 | 2021-07-20 10:02 | 專題:ICML 2019 |
原定于在奧地利維也納召開的ICML 2021,受疫情影響已于近日在線上召開。根據(jù)官方消息,會議將在7月18日~7月24日內(nèi)完成所有的日程。
本次會議共收到5513篇論文投稿,接收1184篇論文,其中包含1018篇短論文和166篇長論文,接收率為21.48%,近五年最低。
在接收的一千多篇論文中,組委會最終挑出了四篇論文,分別頒發(fā)了一個杰出論文獎,三個杰出論文提名獎。
杰出論文獎由康奈爾大學博士生Yucheng Lu獲得,他本科畢業(yè)于上海交通大學,研究領域是分布式優(yōu)化和機器學習系統(tǒng)。獲獎論文標題為“Optimal Complexity in Decentralized Training”,探究了去中心化訓練的極限以及如何達到這種極限。
如上三篇文章獲得了杰出論文榮譽提名獎,其中論文"Understanding Self-Supervised Learning Dynamics without Contrastive Pairs"由Facebook科學家田淵棟擔任一作,其提出了一種新方法DirectPred,它根據(jù)輸入的統(tǒng)計數(shù)據(jù)直接設置線性預測器,而無需梯度訓練。
據(jù)田淵棟學者在知乎發(fā)表的想法,我們可以得知,這篇論文原來獲得過一個Weak Accept,經(jīng)過他與評審rebuttal,將其改為了Accept,這在某種程度上說明了好的rebuttal的重要性,也說明只要你有“理”,就別怕!
此外,發(fā)表在ICML 2011的論文“Bayesian Learning via Stochastic Gradient Langevin Dynamics”獲得了時間檢驗獎,作者是來自加利福尼亞大學的Max Welling(現(xiàn)在是高通荷蘭公司技術副總裁)和倫敦大學學院的Yee Whye Teh(中文名字鄭宇懷,現(xiàn)在是牛津大學教授)。
值得一提的是,鄭宇懷 1997年于加拿大滑鐵盧大學獲得計算機科學與數(shù)學學士學位,之后在多倫多大學師從Geoffery Hinton,并于2003年獲得計算機博士學位。他還是Hinton那篇劃時代論文《A fast learning algorithm for deep belief nets》的署名作者之一。
獲獎論文一覽
杰出論文獎:去中心化訓練的極限在哪里?
論文標題:"Optimal Complexity in Decentralized Training"
作者:Yucheng Lu, Christopher De Sa
機構:康奈爾大學
論文地址:http://proceedings.mlr.press/v139/lu21a.html
去中心化(Decentralization)是擴展并行機器學習系統(tǒng)的一種有效方法。本文提供了該方法在隨機非凸環(huán)境下進行復雜迭代的下界。我們的下界表明,許多現(xiàn)有的分散訓練算法(如D-PSGD)在已知收斂速度方面存在理論差距。通過構造并證明這個下界是合理的和可實現(xiàn)的,我們進一步提出了DeTAG,這是一種實用的gossip風格的去中心化算法,只需要一個對數(shù)間隔就可以達到下界。本文將DeTAG算法與其他分散算法在圖像分類任務上進行了比較,結(jié)果表明,DeTAG算法比基線算法具有更快的收斂速度,特別是在非緩沖數(shù)據(jù)和稀疏網(wǎng)絡中。
榮譽提名獎之一:離散分布的可伸縮抽樣
論文標題:"Oops I Took A Gradient: Scalable Sampling for Discrete Distributions"
作者:Will Grathwohl, Kevin Swersky, Milad Hashemi, David Duvenaud, Chris Maddison
機構:多倫多大學,谷歌大腦
論文地址:http://proceedings.mlr.press/v139/grathwohl21a.html
本文針對離散概率模型,提出了一種通用的、可擴展的近似抽樣策略。該方法利用似然函數(shù)對離散輸入的梯度來更新Metropolis-Hastings采樣。實驗表明,這種方法在高難度設置中,要優(yōu)于一般的采樣器,例如伊辛模型,波特模型,受限玻爾茲曼機,隱馬爾可夫模型。本文還展示了改進的采樣器,用于訓練基于高維離散圖像數(shù)據(jù)的深層能量模型。這種方法優(yōu)于變分自動編碼器和現(xiàn)有的基于能量的模型。此外,本文提供的邊界,表明該方法在更新局部的采樣器類中是接近最優(yōu)的。
榮譽提名獎之二:為什么非對比自監(jiān)督學習效果好?
論文題目:"Understanding self-supervised learning dynamics without contrastive pairs"
作者:Yuandong Tian、Xinlei Chen、Surya Ganguli
機構:FAIR,斯坦福大學
論文地址:http://proceedings.mlr.press/v139/tian21a.html
一般而言,對比自監(jiān)督學習(SSL)通過最小化同一數(shù)據(jù)點(正對)的兩個增強視圖之間的距離和最大化不同數(shù)據(jù)點(負對)的視圖來學習表征,而最近的非對比SSL(如BYOL和SimSiam)的研究表明,在沒有負配對的情況下,使用額外的可學習預測器(learnable predictor)和停止梯度操作(stop-gradient operation),可以使模型性能更佳。一個基本的問題出現(xiàn)了:為什么這些方法沒有引發(fā)崩潰的平凡的表征?
本文通過一個簡單的理論研究回答了該問題,并提出了新的方法DirectPred,它不需要梯度訓練,直接根據(jù)輸入的統(tǒng)計信息來設置線性預測。在ImageNet上,它與更復雜的BatchNorm(兩個線性層)預測器性能相當,在300個epoch的訓練中比線性預測器高2.5%(在60個epoch中高5%)。DirectPred方法,來源于我們對簡單線性網(wǎng)絡中非對比SSL的非線性學習動力學的理論研究。這項研究提供了非對比SSL方法如何學習的概念性見解,如何避免表征崩潰,以及預測網(wǎng)絡、停止梯度、指數(shù)移動平均數(shù)和權重衰減等因素如何發(fā)揮作用。此外,本文還提供了該方法在STL-10和ImageNet上的消融研究結(jié)果。
榮譽提名獎之三:倒向隨機微分方程結(jié)合張量格式的回歸型方法
論文標題:"Solving high-dimensional parabolic PDEs using the tensor train format"
作者:Lorenz Richter 、Leon Sallandt、Nikolas Nüsken
機構:德國柏林自由大學,德國波茨坦大學等
論文地址:http://proceedings.mlr.press/v139/richter21a.html
高維偏微分方程的應用在經(jīng)濟、科學和工程等研究中普遍存在。然而,由于傳統(tǒng)的基于網(wǎng)格的方法易受到維數(shù)災難的影響,該方程在數(shù)值處理上面臨著巨大的挑戰(zhàn)。在本文中,我們認為,張量訓練為拋物型偏微分方程提供了一個更合理的近似框架:將倒向隨機微分方程和張量格式的回歸型方法相結(jié)合,有望利用潛在的低秩結(jié)構,實現(xiàn)壓縮和高效計算。
遵循這一范式,我們開發(fā)了新的迭代方案,包括顯式和快速(或隱式和準確)的更新。實驗證明,與最先進的基于神經(jīng)網(wǎng)絡的方法相比,我們的方法在精確度和計算效率之間取得了一個良好的折中。
時間檢驗獎:隨機梯度朗格文動力學
論文標題:"Bayesian Learning via Stochastic Gradient Langevin Dynamics"
作者:Max Welling、鄭宇懷
機構(原):加利福尼亞大學、倫敦大學學院
論文地址:https://www.cse.iitk.ac.in/users/piyush/courses/tpmi_winter21/readings/sgld.pdf
本文中提出了一個新的框架,在small mini-batches中迭代學習的基礎上,可以用于從大規(guī)模數(shù)據(jù)集中學習。通過在標準的隨機梯度優(yōu)化算法中加入適量的噪聲,論文證明,當anneal the stepsize,迭代將收斂到真實后驗分布的樣本。這種優(yōu)化和貝葉斯后驗抽樣之間的無縫過渡提供了一個內(nèi)在的保護,防止過度擬合。此外,還提出了一種實用的后驗統(tǒng)計蒙特卡羅估計方法,它可以監(jiān)控 “抽樣閾值”,并在超過該閾值后收集樣本。最后,將該方法應用于三種模型:高斯混合模型、邏輯回歸模型和自然梯度的ICA模型。
具體而言,本文提出了一種基于大規(guī)模數(shù)據(jù)集的貝葉斯學習方法。將隨機優(yōu)化似然的Robbins-Monro型算法與Langevin動態(tài)相結(jié)合,Langevin動態(tài)在參數(shù)更新中注入噪聲,使得參數(shù)的軌跡收斂到完全后驗分布,而不僅僅是最大后驗分布。由此產(chǎn)生的算法開始類似于隨機優(yōu)化,然后自動過渡到使用Langevin動力學模擬后驗樣本的算法。
論文接收一覽
ICML 2021大會上,香港科技大學教授、大會程序主席張潼通過一則視頻展示了今年的論文收錄情況。
數(shù)據(jù)顯示,今年接收論文投稿5513篇,其中長論文166篇,短論文1017篇。整體來看,ICML近五年來投稿數(shù)量持續(xù)走高,并于2020年首次突破5000關卡。
兩個月前,ICML組委會為了保證AC/SAC 接收標準和論文質(zhì)量,宣布將接收論文砍掉10%。今年共接受論文1184篇,接收率21.4%,為近五年來最低。
今年的錄用論文涉及深度學習、算法、應用、強化學習、隱私、理論、概率方法和社會方面等8個研究方向。
其中,算法方面的論文一枝獨秀,提交的論文數(shù)量占比31%,比第二名深度學習,數(shù)量高出近一倍。排名Top3的算法、深度學習、理論三大機器學習熱門方向,占據(jù)了總接收論文的50%以上。相對冷門的隱私、概率方法、社會方面等也有20%的論文被接收。
哪個領域接受率最強?理論工作32%,強化學習27%,概率方法26%,社會角度24%,優(yōu)化22%,算法19%,應用和深度學習只有18%。
一篇論文往往有好幾位合著者,似乎論文接收率有相關關系。據(jù)統(tǒng)計數(shù)據(jù),如果一篇論文有著大于9位的作者,那么它將有1/3的概率被接收,如果僅有1位作者,論文接受率不到1/10;另外,8位作者和4位作者,雖然在人數(shù)上相差一倍,但是接受率僅相差2%。
在所有的提交論文中,有1446篇論文包含3位作者,大于或等于9位作者的論文數(shù)只有104篇;此外,還有205位作者單獨提交了論文,由2位作者合寫的論文數(shù)有1005篇。
經(jīng)過統(tǒng)計,今年的ICML 2021接收的論文中,如果標題中帶有這么幾個詞,將會有較高的接收率:強化學習、噪音、規(guī)劃、Bandits、蒙特卡洛、流、隱私.......
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。