0
本文作者: 楊曉凡 | 2017-08-08 18:14 | 專(zhuān)題:ICML 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:Facebook列出了自己的9篇 ICML 2017論文,Wasserstein GAN 赫然位列其中。
ICML 2017 仍然在悉尼火熱進(jìn)行中,F(xiàn)acebook 研究院今天也發(fā)文介紹了自己的 ICML 論文。Facebook有9篇論文被 ICML 2017接收,這些論文的主題包括語(yǔ)言建模、優(yōu)化和圖像的無(wú)監(jiān)督學(xué)習(xí);另外 Facebook 還會(huì)共同參與組織 Video Games and Machine Learning Workshop。
在9篇接收論文中,F(xiàn)acebook 自己最喜歡的是「Wasserstein Generative Adversarial Networks」(WGAN)這一篇,它也確實(shí)對(duì)整個(gè)機(jī)器學(xué)習(xí)界有巨大的影響力,今年也掀起過(guò)一陣 WGAN 的熱潮。
Ian Goodfellow 提出的原始的 GAN 大家都非常熟悉了,利用對(duì)抗性的訓(xùn)練過(guò)程給生成式問(wèn)題提供了很棒的解決方案,應(yīng)用空間也非常廣泛,從此之后基于 GAN 框架做應(yīng)用的論文層出不窮,但是 GAN 的訓(xùn)練困難、訓(xùn)練進(jìn)程難以判斷、生成樣本缺乏多樣性(mode collapse)等問(wèn)題一直沒(méi)有得到完善解決。 這篇 Facebook 和紐約大學(xué)庫(kù)朗數(shù)學(xué)科學(xué)研究所的研究員們合作完成的 WGAN 論文就是眾多嘗試改進(jìn) GAN、解決它的問(wèn)題的論文中具有里程碑意義的一篇。
WGAN 的作者們其實(shí)花了整整兩篇論文才完全表達(dá)了自己的想法。在第一篇「Towards Principled Methods for Training Generative Adversarial Networks」里面推了一堆公式定理,從理論上分析了原始GAN的問(wèn)題所在,從而針對(duì)性地給出了改進(jìn)要點(diǎn);在這第二篇「Wasserstein Generative Adversarial Networks」里面,又再?gòu)倪@個(gè)改進(jìn)點(diǎn)出發(fā)推了一堆公式定理,最終給出了改進(jìn)的算法實(shí)現(xiàn)流程。
WGAN 成功地做到了以下爆炸性的幾點(diǎn):
徹底解決GAN訓(xùn)練不穩(wěn)定的問(wèn)題,不再需要小心平衡生成器和判別器的訓(xùn)練程度
基本解決了collapse mode的問(wèn)題,確保了生成樣本的多樣性
訓(xùn)練過(guò)程中終于有一個(gè)像交叉熵、準(zhǔn)確率這樣的數(shù)值來(lái)指示訓(xùn)練的進(jìn)程,這個(gè)數(shù)值越小代表GAN訓(xùn)練得越好,代表生成器產(chǎn)生的圖像質(zhì)量越高(如題圖所示)
以上一切好處不需要精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),最簡(jiǎn)單的多層全連接網(wǎng)絡(luò)就可以做到
而改進(jìn)后相比原始GAN的算法實(shí)現(xiàn)流程卻只改了四點(diǎn):
判別器最后一層去掉sigmoid
生成器和判別器的loss不取log
每次更新判別器的參數(shù)之后把它們的絕對(duì)值截?cái)嗟讲怀^(guò)一個(gè)固定常數(shù)c
不要用基于動(dòng)量的優(yōu)化算法(包括momentum和Adam),推薦RMSProp,SGD也行
所以數(shù)學(xué)學(xué)得好真的很重要,正是靠著對(duì) GAN 的原理和問(wèn)題的深入分析,才能夠找到針對(duì)性的方法改進(jìn)問(wèn)題,而且最終的呈現(xiàn)也這么簡(jiǎn)單。( WGAN詳解參見(jiàn)雷鋒網(wǎng) AI 科技評(píng)論文章 令人拍案叫絕的Wasserstein GAN)
WGAN 論文今年1月公布后馬上引起了轟動(dòng),Ian Goodfellow 也在 reddit 上和網(wǎng)友們展開(kāi)了熱烈的討論。不過(guò)在討論中,還是有人反映 WGAN 存在訓(xùn)練困難、收斂速度慢等問(wèn)題,WGAN 論文一作 Martin Arjovsky 也在 reddit 上表示自己意識(shí)到了,然后對(duì) WGAN 做了進(jìn)一步的改進(jìn)。
改進(jìn)后的論文為「Improved Training of Wasserstein GANs」。原來(lái)的 WGAN 中采用的 Lipschitz 限制的實(shí)現(xiàn)方法需要把判別器參數(shù)的絕對(duì)值截?cái)嗟讲怀^(guò)固定常數(shù) c,問(wèn)題也就來(lái)自這里,作者的本意是避免判別器給出的分值區(qū)別太大,用較小的梯度配合生成器的學(xué)習(xí);但是判別器還是會(huì)追求盡量大的分值區(qū)別,最后就導(dǎo)致參數(shù)的取值總是最大值或者最小值,浪費(fèi)了網(wǎng)絡(luò)優(yōu)秀的擬合能力。改進(jìn)后的 WGAN-GP 中更換為了梯度懲罰 gradient penalty,判別器參數(shù)就能夠?qū)W到合理的參數(shù)取值,從而顯著提高訓(xùn)練速度,解決了原始WGAN收斂緩慢的問(wèn)題,在實(shí)驗(yàn)中還第一次成功做到了“純粹的”的文本GAN訓(xùn)練。(WGAN-GP詳解參見(jiàn)雷鋒網(wǎng) AI 科技評(píng)論文章 掀起熱潮的Wasserstein GAN,在近段時(shí)間又有哪些研究進(jìn)展?)
Facebook 此次被 ICML 2017 接收的9篇論文里的另外8篇如下,歡迎感興趣的讀者下載閱讀。
High-Dimensional Variance-Reduced Stochastic Gradient Expectation-Maximization Algorithm
An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis
Convolutional Sequence to Sequence Learning
Efficient softmax approximation for GPUs
Gradient Boosted Decision Trees for High Dimensional Sparse Output
Language Modeling with Gated Convolutional Networks
Parseval Networks: Improving Robustness to Adversarial Examples
Unsupervised Learning by Predicting Noise
雷鋒網(wǎng) AI 科技評(píng)論會(huì)繼續(xù)帶來(lái)更多精彩論文和現(xiàn)場(chǎng)演講報(bào)道,請(qǐng)繼續(xù)關(guān)注。
相關(guān)文章:
掀起熱潮的Wasserstein GAN,在近段時(shí)間又有哪些研究進(jìn)展?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章