0
本文作者: 楊曉凡 | 2018-01-05 10:59 |
雷鋒網(wǎng) AI 科技評(píng)論按:隨著 2017 年結(jié)束、2018 年開始,各個(gè)媒體和研究者都撰寫了各自的年度總結(jié)和新年祝愿。在過去一年的論文動(dòng)態(tài)里,除了研究者們?cè)诳偨Y(jié)文里根據(jù)自己的研究興趣選出論文回顧之外,我們也想看看論文在社交網(wǎng)絡(luò)上的傳播情況,看看廣大「群眾」都對(duì)哪些論文感興趣。
Twitter 上有個(gè)帳號(hào) StatMLPapers 會(huì)每天摘錄20篇左右機(jī)器學(xué)習(xí)相關(guān)論文分別發(fā)推,2017年一年共發(fā)送了五千多條論文推特。我們找出了其中點(diǎn)贊最多的10條論文推特,給大家看看是哪10篇論文在twitter上得到了最多的關(guān)注。
Top 1. Don't Decay the Learning Rate, Increase the Batch Size
論文地址:https://arxiv.org/abs/1711.00489
內(nèi)容簡(jiǎn)介:當(dāng)學(xué)習(xí)曲線不理想的時(shí)候,大家通常的選擇是選用更小的學(xué)習(xí)率。然而在這篇論文中作者提出此時(shí)應(yīng)該換用更大的 batch size,這對(duì) SGD、帶有動(dòng)量的 SGD、動(dòng)量 Nesterov、Adam 都有效。更大的 batch size 在同樣的訓(xùn)練 epoch 之后可以達(dá)到同等的測(cè)試精度,而所需的參數(shù)更新操作更少,這讓更高的并行度和更短的訓(xùn)練時(shí)間都成為可能。作者們還討論了幾個(gè)訓(xùn)練參數(shù)之間如何協(xié)調(diào)。作者們最終用高達(dá) 65536 的 batch size 在 ImageNet 上訓(xùn)練了 Inception-ResNet-V2,只經(jīng)過 2500 次參數(shù)更新就達(dá)到了 77% 的驗(yàn)證準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練和參數(shù)選擇對(duì)研究人員們來說往往是玄學(xué)般的存在,這篇論文確實(shí)幫大家解答了一些疑惑、給出了新的觀點(diǎn)和方法,同時(shí)也引發(fā)了研究者們之間的更多討論,是一篇有價(jià)值的論文。
Top 2. Stopping GAN Violence: Generative Unadversarial Networks
論文地址:https://arxiv.org/abs/1703.02528
內(nèi)容簡(jiǎn)介:這是一篇非常嚴(yán)肅的論文(誤)。根據(jù)作者們所述,隨著生成性對(duì)抗式網(wǎng)絡(luò) GANs 在研究界的流行,其中的「對(duì)抗性」也越來越多地激發(fā)了人性中的暴力。所以在這篇論文中,作者們對(duì) GANs 引發(fā)的財(cái)經(jīng)、社會(huì)、信仰、文化、語言以及皮膚問題進(jìn)行了量化討論,并據(jù)此提出了生成式不對(duì)抗性網(wǎng)絡(luò)(Generative Unadversarial Networks,GUNs),以便為和平做出貢獻(xiàn)。網(wǎng)絡(luò)中的生成器 G 會(huì)盡力捕捉自己喜歡的數(shù)據(jù)分布,而鼓勵(lì)器 M 則會(huì)幫助 G 達(dá)到自己的目標(biāo)。兩個(gè)模型間的沖突是絕對(duì)禁止的,而且它們能學(xué)會(huì)尊重它們之間的差別從而變得更好。這是一場(chǎng)共贏的比賽,雙方選手需要肩并肩嘗試達(dá)到最高的分?jǐn)?shù)。實(shí)驗(yàn)表明,在和睦的協(xié)作中,所提的模型得以同時(shí)占據(jù)道德和對(duì)數(shù)似然的高地。論文的工作基于積蓄已久的、經(jīng)過反復(fù)詳細(xì)討論的匿名 YouTube 評(píng)論中的觀點(diǎn)立場(chǎng),而這也表明了解決網(wǎng)絡(luò)和網(wǎng)絡(luò)之間的暴力問題需要 GUNs(guns)。
這篇論文正文中還有非常多的笑料,歡迎閱讀雷鋒網(wǎng) AI 科技評(píng)論詳細(xì)報(bào)道文章「用充滿愛與和平的GUNs挑戰(zhàn)GANs?我可能看了篇假論文」
Top 3. Deep Probabilistic Programming
論文地址:https://arxiv.org/abs/1701.03757
內(nèi)容簡(jiǎn)介:這篇論文中,作者們提出了一種圖靈完備的概率編程語言「Edward」。論文中展示出,概率編程的靈活性和計(jì)算高效性就和傳統(tǒng)的深度學(xué)習(xí)一樣好。Edward 也可以集成在 TensorFlow 中,相比其它現(xiàn)有的概率系統(tǒng)取得了明顯的性能提升。這篇論文也被 ICLR 2017 接收。
4. Generalization in Deep Learning
論文地址:https://arxiv.org/abs/1710.05468
內(nèi)容簡(jiǎn)介:如題,這篇論文圍繞深度學(xué)習(xí)領(lǐng)域最令人迷惑的開放性問題之一進(jìn)行了討論,對(duì)深度學(xué)習(xí)模型雖然有很大的容量、可能的算法不穩(wěn)定、不魯棒、尖銳極點(diǎn)等問題,但還是具有優(yōu)秀的泛化性的性質(zhì)給出了自己的解答?;谧髡邆兊睦碚撘娊?,這篇論文還提出了一組新的正則化方法,其中最簡(jiǎn)單的方法也可以幫助基準(zhǔn)模型在 MNIST 和 CIFAR-10 中取得有競(jìng)爭(zhēng)力的表現(xiàn)。此外,這篇論文還提出了依靠數(shù)據(jù)和不依靠數(shù)據(jù)的泛化保證,并帶有更高的收斂速度。
5. Deep Learning: A Bayesian Perspective
論文地址:https://arxiv.org/abs/1706.00473
內(nèi)容簡(jiǎn)介:這篇論文中,作者們把貝葉斯概率方法引入深度學(xué)習(xí)中,為深度學(xué)習(xí)找到更高效的優(yōu)化算法和超參數(shù)調(diào)節(jié)方法。傳統(tǒng)的數(shù)據(jù)降維方法,PCA、PLS、RRR、PPR 等,在基于深度學(xué)習(xí)的降維方法面前都顯得效果一般。另一方面,貝葉斯正則化方法也可以在尋找網(wǎng)絡(luò)的權(quán)重和連接中起到重要作用,在預(yù)測(cè)偏差和穩(wěn)定性之間取得更好的平衡。
6. GPflowOpt: A Bayesian Optimization Library using TensorFlow
論文地址:https://arxiv.org/abs/1711.03845
內(nèi)容簡(jiǎn)介:又一篇貝葉斯相關(guān)的論文,這確實(shí)是今年的熱點(diǎn)話題之一。這篇論文介紹了用于貝葉斯優(yōu)化的新 Python 框架 GPflowOpt。代碼庫基于熱門的高斯過程庫 GPflow,同時(shí)也利用到了自動(dòng)微分、并行化和 GPU 加速等等 TensorFlow 提供的功能??蚣芤呀?jīng)經(jīng)過了徹底的測(cè)試,文檔也編寫精美,同時(shí)提供了一定的拓展性。論文發(fā)表時(shí)的 GPflowOpt 發(fā)行版提供了標(biāo)準(zhǔn)的單一目標(biāo)獲取函數(shù)、最先進(jìn)的最大熵搜索以及貝葉斯多目標(biāo)等方法。GPflowOpt 也提供了易用的自定義建模策略。
7. Dance Dance Convolution
論文地址:https://arxiv.org/abs/1703.06891
內(nèi)容簡(jiǎn)介:2017 年 3 月的時(shí)候游戲 AI 還沒有現(xiàn)在這么火熱,所以這篇用循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)合力玩游戲的論文在當(dāng)時(shí)馬上引發(fā)了關(guān)注。這款游戲名為 Dance Dance Revolution(勁舞革命),玩家需要跟著音樂的節(jié)奏,按游戲的提示按下上下左右鍵,而這款 AI 的要做的就是為歌曲生成新的動(dòng)作單(滿足玩家的新鮮感)。AI 模型也就很自然地分為了兩個(gè)部分,一部分決定何時(shí)布置下一個(gè)動(dòng)作,另一部分選擇一個(gè)方向。作者們用 RNN+CNN 從低階音頻特征中提取節(jié)奏特征用來預(yù)測(cè)布置動(dòng)作的時(shí)間;而方向選擇的生成式 LSTM 也比傳統(tǒng)的 n 元、固定窗口方法有更好的表現(xiàn)。
雷鋒網(wǎng) AI 科技評(píng)論詳細(xì)報(bào)道請(qǐng)見 「人工智能也能玩音樂游戲,自動(dòng)學(xué)習(xí)編曲變身勁舞大師」
8. How Well Can Generative Adversarial Networks (GAN) Learn Densities: A Nonparametric View
論文地址:https://arxiv.org/abs/1712.08244
內(nèi)容簡(jiǎn)介:這篇論文討論了生成性對(duì)抗式網(wǎng)絡(luò) GANs 學(xué)習(xí)數(shù)據(jù)密度時(shí)的收斂速度,同時(shí)加入了一些非參數(shù)化統(tǒng)計(jì)中的思想。作者們提出了一種改進(jìn)的 GAN 估計(jì)器,通過利用目標(biāo)密度和評(píng)價(jià)指標(biāo)的一定光滑性,達(dá)到了更高的收斂速度,同時(shí)也理論上可以緩解其它文獻(xiàn)中提到的模式崩潰問題。作者們構(gòu)建了一個(gè)極大極小下界,顯示出當(dāng)維度很高是,這個(gè)新的 GAN 中的收斂速度的指數(shù)已經(jīng)逼近了最優(yōu)值。對(duì)于讀者來說,可以把這篇文章看作是對(duì)于「在層次化的評(píng)估指標(biāo)下,GAN 學(xué)習(xí)各種各樣的、帶有不同的光滑性的密度的能力有多好」的回答。
9. A Closer Look at Memorization in Deep Networks
論文地址:https://arxiv.org/abs/1706.05394
內(nèi)容簡(jiǎn)介:這篇論文研究了深度學(xué)習(xí)的記憶能力,嘗試在網(wǎng)絡(luò)容量、泛化能力和對(duì)抗性樣本的魯棒性之間建立聯(lián)系。雖然深度神經(jīng)網(wǎng)絡(luò)有能力記憶數(shù)據(jù)噪聲,不過作者們的研究結(jié)果表明,網(wǎng)絡(luò)還是傾向于先學(xué)習(xí)簡(jiǎn)單的模式的。作者們通過實(shí)驗(yàn)揭示了基于梯度優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)噪聲和真實(shí)數(shù)據(jù)之間的量化區(qū)別。同時(shí),作者們也表明,對(duì)于適當(dāng)選擇的顯式正則化方法(比如 dropout),用噪聲數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)時(shí)可以降低網(wǎng)絡(luò)的表現(xiàn),同時(shí)并不影響網(wǎng)絡(luò)在真實(shí)數(shù)據(jù)上的泛化性水平。作者們的分析還指出,獨(dú)立于數(shù)據(jù)集的“有效容量”這一概念并不能解釋用梯度方法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的泛化性表現(xiàn),因?yàn)橛?xùn)練數(shù)據(jù)自身就能夠?qū)W(wǎng)絡(luò)的記憶水平產(chǎn)生影響。
10. On Unifying Deep Generative Models
論文地址:https://arxiv.org/abs/1706.00550
內(nèi)容簡(jiǎn)介:生成式對(duì)抗性網(wǎng)絡(luò) GANs 和變分自動(dòng)解碼器 VAEs 都是強(qiáng)有力的深度生成學(xué)習(xí)范式,人們也往往把它們看作兩種迥異的方法,分別進(jìn)行深入研究。這篇論文通過一種新的 GANs+VAEs 方程在這兩種方法之間建立了正式的聯(lián)系。作者們表明,GANs 和 VAEs 根本上都是在縮小各自的后驗(yàn)概率和推理分布的 KL 距離,只不過是在不同的方向上,從而分別產(chǎn)生了這兩種分時(shí)激活的算法。這篇論文中提出的統(tǒng)一視角為分析現(xiàn)有的各種模型變種提供了一個(gè)有力的工具,并且可以幫助前沿研究人員們以正式的方法交流觀點(diǎn)。量化實(shí)驗(yàn)結(jié)果也表明了不同方法之間互相借用的拓展方法的通用性和有效性。
這十篇論文中毫不意外地包含了工程技術(shù)討論和新開發(fā)框架介紹的論文,而獨(dú)樹一幟的 GUNs (搞笑)論文也讓我們期待起2018年會(huì)不會(huì)有更多一本正經(jīng)地搞笑、甚至就是完全開腦洞的論文呢?論文作者們自黑起來畢竟毫不客氣啊。希望2018年大家都能在做出成果、推動(dòng)學(xué)術(shù)進(jìn)步的同時(shí),也在學(xué)術(shù)研究和社會(huì)生活中獲得更多的樂趣。
雷鋒網(wǎng) AI 科技評(píng)論整理編譯
相關(guān)文章:
回望2017,基于深度學(xué)習(xí)的NLP研究大盤點(diǎn)
2017年度人工智能熱門事件大盤點(diǎn),哪些令你印象最深刻?
迎來 PyTorch,告別 Theano,2017 深度學(xué)習(xí)框架發(fā)展大盤點(diǎn)
2018 年最值得期待的學(xué)術(shù)進(jìn)展——致人工智能研究者們的年終總結(jié)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。