ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

本文作者：楊曉凡

2017-11-22 14:48

專題：ICLR 2018

導(dǎo)語：GANs家族新成員，輕松學(xué)到 ImageNet 1000類圖像生成

雷鋒網(wǎng) AI 科技評論按：大家都知道，ICLR 2018的論文投稿已經(jīng)截止，現(xiàn)在正在評審當中。雖然OpenReview上這屆ICLR論文的評審過程已經(jīng)放棄了往屆的雙方身份公開，但仍然比其它會議“open”得多：論文內(nèi)容、以及評審過程中的讀者建議和作者答復(fù)都是可見的。

隨著評審過程持續(xù)進行，近期也不斷有好的評審中的論文被分享到社交平臺上，研究者們得以先睹為快。NVIDIA甚至主動推廣了自己投遞的一篇論文，雷鋒網(wǎng) AI 科技評論也對論文主要內(nèi)容做了報道 NVIDIA論文：用GAN生成高清圖像 | ICLR 2018。

這兩天又有一篇精彩的論文被發(fā)現(xiàn)、分享出來，Ian Goodfellow也給了很真誠且正面的評價：

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

Ian Goodfellow: “雖然GANs從單獨某個類別生成逼真的圖像已經(jīng)做得很棒了（比如用一個GAN生成人臉，另一個GAN生成建筑），但是用一個GAN解決 ImageNet 里的1000個類別就一直都做得不好。這篇ICLR投稿就做到了這件事。”

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

有個網(wǎng)友問為什么學(xué)到生成1000個類非常難，Ian Goodfellow也不是很明白。類別一多，AC-GAN的表現(xiàn)就慘不忍睹。而SN-GAN似乎就解決了其中的問題。

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

背景

這篇論文名為「Spectral Normalization for Generative Adversarial Networks」（對抗性生成式網(wǎng)絡(luò)的光譜標準化），主要改進點在于GANs中鑒別器的表現(xiàn)控制。實際上，我們發(fā)現(xiàn)這篇論文的較為原始的版本在ICML2017的Workshop on Implicit Models上出現(xiàn)過，論文中的內(nèi)容現(xiàn)在又有了明顯的增加和完善。

簡單來說，GANs這種網(wǎng)絡(luò)框架的目標是讓模型生成的數(shù)據(jù)分布模仿給定數(shù)據(jù)的分布，其中的生成器生成數(shù)據(jù)，鑒別器要分辨生成的數(shù)據(jù)分布是否是目標數(shù)據(jù)分布。訓(xùn)練過程中交替更新生成器和鑒別器，目標是減小生成的數(shù)據(jù)分布和給定數(shù)據(jù)分布之間的區(qū)別，而這個區(qū)別是在訓(xùn)練的每一回合中的最好的鑒別器測量得到的。近年來對GANs的研究也表明了鑒別器的訓(xùn)練就等同于訓(xùn)練一個生成和給定數(shù)據(jù)分布的密度比例估計器。

在GANs的訓(xùn)練中有一個永恒的問題，就是鑒別器的表現(xiàn)控制。在高維空間中，鑒別器做出的密度比例估計往往不準確，而且在訓(xùn)練中非常不穩(wěn)定，生成器網(wǎng)絡(luò)也難以學(xué)到目標分布的多模態(tài)結(jié)構(gòu)。更糟糕的是，當生成的和目標數(shù)據(jù)分布區(qū)域不相交的時候，就存在著一個能完美區(qū)分生成的數(shù)據(jù)和目標數(shù)據(jù)的鑒別器。一旦遇到了這樣的狀況、訓(xùn)練出了這樣的鑒別器，生成器的訓(xùn)練就基本停滯了，因為這樣產(chǎn)生的鑒別器的關(guān)于輸入的導(dǎo)數(shù)就成了0。這種情況讓作者們思考如何引入一些新的限制，避免訓(xùn)練出這樣的鑒別器。

SN-GAN

在這篇論文中，作者們提出了一種新的權(quán)重正則化方法，稱作“spectral normalization”（光譜標準化），它可以穩(wěn)定鑒別器網(wǎng)絡(luò)的訓(xùn)練過程。這種正則化方法的性質(zhì)很讓人喜歡：

只需要調(diào)節(jié)Lipschitz常數(shù)一個超參數(shù)，而且想到達到令人滿意的模型表現(xiàn)也不需要反復(fù)調(diào)試僅有的這一個參數(shù)
方法的實現(xiàn)非常簡單，額外的計算開銷也很小

今年火熱過一陣子的Wasserstein GAN中提出了針對輸入樣本增加正則化項、從而限制鑒別器的Lipschitz常數(shù)，以提高訓(xùn)練穩(wěn)定性的方法。基于輸入的正則化方法有較為簡單的計算方程，但它們同樣有一些問題，就是如果不引入一些啟發(fā)式的方法就無法在生成器的數(shù)據(jù)空間和給定數(shù)據(jù)空間之外的空間中進行正則化。

這篇論文所提的方法在WGAN的思路基礎(chǔ)上，提出了一種新的方法解決其中涵待解決的問題，通過給網(wǎng)絡(luò)中每一層的光譜標準值增加實實在在的限制的做法，控制鑒別器函數(shù)的Lipschitz常數(shù)、標準化權(quán)重矩；同時借助「Spectral norm regularization for improving the generalizability of deep learning」提出的技巧，增加的計算開銷也不多。算法的詳細介紹篇幅較長，請點擊文末鏈接閱讀原論文。

Salimans & Kingma在「Weight normalization: A simple reparameterization to accelerate training of deep neural networks」中提出了權(quán)重標準化方法，它的代價是減少了鑒別器使用的特征的數(shù)量，這樣模型產(chǎn)生的數(shù)據(jù)分布就比較任意，只需要符合不多的幾個特征就可以騙過鑒別器；權(quán)重剪切的方法也會遇到類似的問題。而這篇論文的作者們希望鑒別器能夠盡量多地使用圖像中的特征，所以他們的光譜標準化方法可以讓參數(shù)矩陣盡可能多地使用圖像中的不同特征，同時還能滿足局部的1-Lipschitz限制。（雷鋒網(wǎng) AI 科技評論注：SN-GANs盡可能多地使用了圖像中的特征，這是否就是Ian Goodfellow也想知道的它在大數(shù)據(jù)集上有出色表現(xiàn)的重要原因呢？）

Gulrajani 等人在「Improved training of wasserstein GANs」中結(jié)合WGAN的方法使用了梯度懲罰gradient penalty。他們的做法不會造成剛才說的特征空間維度的問題，但是對當前的生成數(shù)據(jù)分布具有高度的依賴性也是一個明顯的弱點。隨著訓(xùn)練過程進行，生成的數(shù)據(jù)分布空間會逐漸變化，接著就會導(dǎo)致這種正則化方法的不穩(wěn)定。實際上，作者們也實驗發(fā)現(xiàn)選用較高的學(xué)習(xí)率就會導(dǎo)致WGAN-GP的表現(xiàn)不穩(wěn)定。作者們提出的光譜標準法方法針對的是操作空間的函數(shù)，受到訓(xùn)練batch的影響更小，即便用很高的學(xué)習(xí)率也不會輕易不穩(wěn)定。WGAN-GP的計算開銷也要高一些。

實驗

作者們基于小數(shù)據(jù)集 CIFAR-10、STL-10 和大數(shù)據(jù)集 ImageNet 分別進行了無監(jiān)督和類別限定的圖像生成實驗，量化評分使用了inception score和Frechet inception distance（FID）。

與SN-GAN進行對比的方法除了上文提到的WGAN-GP（帶有梯度懲罰的WGAN）、WN（權(quán)重標準化）外，還有BN（batch normalization）、LN（layer normalization）、以及單獨使用梯度懲罰的GAN-GP。結(jié)果A-F是使用不同的超參數(shù)訓(xùn)練的，DEF的學(xué)習(xí)率較高。

小數(shù)據(jù)集結(jié)果

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

從圖中可以看到，SN-GAN對不同的學(xué)習(xí)率有較好的健壯性，最佳成績也比所有其它方法都要好。

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

如果分別以每種模型的最優(yōu)參數(shù)訓(xùn)練，SN-GAN的表現(xiàn)也是最好的。（STL-10上訓(xùn)練了SN-GAN兩次，因為收斂沒有那么快）

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

從生成的圖像可以看到，SN-GAN生成的圖像更清晰、更豐富，而且沒有像WGAN-GP那樣在高學(xué)習(xí)率下出現(xiàn)問題。

SN-GANs的表現(xiàn)分析

下圖顯示的是每種方法訓(xùn)練得到的表現(xiàn)最好的網(wǎng)絡(luò)中的鑒別器的權(quán)重矩陣中的平方單值。根據(jù)前文的預(yù)測，用權(quán)重標準化方法訓(xùn)練的網(wǎng)絡(luò)，前1到5層都只會集中在不多的幾種成分上，這幾層的權(quán)重矩陣就會在排名能力上弱一些。另一方面，用光譜標準化訓(xùn)練的網(wǎng)絡(luò)中這幾層權(quán)重矩陣的單值就分布更廣一些。

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

當目標是分辨一對嵌入在高維空間中的低維非線性數(shù)據(jù)復(fù)合體的概率分布時，較低層的排名能力不強會變得尤其致命。網(wǎng)絡(luò)低層的輸出只經(jīng)過了很少的非線性變換，這也就意味著它們多數(shù)時候都更多依靠線性空間。在這樣的空間中省略了輸入分布中的大量特征，造成的結(jié)果就是得到一個過于簡單的鑒別器。

訓(xùn)練時間方面，SN-GANs的訓(xùn)練時間只比權(quán)重標準化增加了10%~20%，仍然比WGAN-GP快多了。

基于 ImageNet 的限定類別圖像生成

為了驗證所提方法在大規(guī)模高維數(shù)據(jù)集中仍然有效，作者們用帶有1000個類別的ImageNet訓(xùn)練了帶有類別條件的GANs，每個類別大概有1300張圖像，訓(xùn)練時都壓縮到了128x128。

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

通過這張學(xué)習(xí)曲線就已經(jīng)可以看到，幾種方法里只有SN-GANs能成功地被訓(xùn)練。以實際生成來講，SN-GANs也是目前唯一一個能夠只用一對生成器和鑒別器就能從 ImageNet 數(shù)據(jù)集生成具有不錯質(zhì)量圖像的方法。SN-GANs的模式崩潰狀況也要比AC-GANs好得多（intra MS-SSIM分數(shù)分別為0.101和約0.25）。

生成的圖像當然就很精彩啦，如下圖是部分類別的圖像

ICLR2018論文投稿搶先看：Ian Goodfellow由衷贊賞的訓(xùn)練穩(wěn)定方法SN-GANs

不僅畫面清晰、顏色生動、內(nèi)容多數(shù)時候比較合理，圖像也有相當?shù)牟町愋裕б谎劭催^去就像是真實的圖像放在了一起。這些生成的圖片的inception score有21.9。也就是這些結(jié)果讓Ian Goodfellow感覺到大為震驚。

結(jié)論

這篇論文中提出了用于增強GANs訓(xùn)練穩(wěn)定性的光譜標準化方法，生成的圖像比傳統(tǒng)的權(quán)重標準化具有更高的豐富性，也取得了與以前的研究相當甚至更高的inception score。這種方法與WGAN-GP提出的局部正則化不同，它對鑒別器施加了全局的限制，而且也可以與其它一些方法共同使用。在未來的研究中，作者們打算繼續(xù)從理論角度深挖這種方法的不同之處，并在更大、更復(fù)雜的數(shù)據(jù)集上實驗算法。

論文地址：ICLR評審中@OpenReview，其中有方法和相關(guān)佐證的詳細描述

早先ICML版本的TF實現(xiàn)：https://github.com/minhnhat93/tf-SNDCGAN

雷鋒網(wǎng) AI 科技評論編譯。更多學(xué)術(shù)報道、精彩論文解讀，請繼續(xù)關(guān)注我們。

學(xué)界 | ICLR 2018截稿：取消公開評審改為雙盲引人關(guān)注

NVIDIA論文：用GAN生成高清圖像 | ICLR 2018

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。