NVIDIA論文：用GAN生成高清圖像 | ICLR 2018

本文作者：岑大師

2017-10-31 05:56

專(zhuān)題：ICLR 2018

導(dǎo)語(yǔ)：NVIDIA在Blog上就發(fā)布了一篇通過(guò)生成對(duì)抗網(wǎng)絡(luò)（GAN）產(chǎn)生獨(dú)特面孔的新方法，這篇論文正是NVIDIA投遞到ICLR的論文之一。

雖然ICLR 2018將公開(kāi)評(píng)審改成了評(píng)審人和作者相互不知道雙方信息的雙盲評(píng)審，但論文的投稿者仍然可以通過(guò)其他公開(kāi)渠道對(duì)其論文進(jìn)行推廣。尤其對(duì)于大公司研究院來(lái)說(shuō)，早早公開(kāi)自己的論文能比盲審有額外加成，例如雷鋒網(wǎng)就注意到，就在上周五ICLR論文投遞截止后不久，NVIDIA在Blog上就發(fā)布了一篇通過(guò)生成對(duì)抗網(wǎng)絡(luò)（GAN）產(chǎn)生獨(dú)特面孔的新方法，這篇論文正是NVIDIA投遞到ICLR的論文之一。

NVIDIA論文：用GAN生成高清圖像 | ICLR 2018

論文題目：Progressive Growing of GANs for Improved Quality, Stability, and Variation

摘要：在本文中，我們描述了生成對(duì)抗網(wǎng)絡(luò)（GAN）的新的訓(xùn)練方法。關(guān)鍵思想是通過(guò)漸進(jìn)的方式訓(xùn)練生成器和鑒別器：從低分辨率開(kāi)始，我們逐步添加新的層次，從而在訓(xùn)練進(jìn)展中增加更精細(xì)的細(xì)節(jié)。這既加快了訓(xùn)練速度，又能增加訓(xùn)練的穩(wěn)定性，從而使我們能夠制作出前所未有的質(zhì)量的圖像，例如用1024x1024像素的CelebA圖像（雷鋒網(wǎng)注：CelebA是香港中文大學(xué)發(fā)布的20多萬(wàn)的名人人臉數(shù)據(jù)庫(kù)，被很多算法用來(lái)訓(xùn)練）制作更高精度的數(shù)據(jù)集。我們還提出了一種增加生成圖像變化的簡(jiǎn)單方法，并且在無(wú)監(jiān)督的CIFAR10中實(shí)現(xiàn)了創(chuàng)記錄的8.80的初始分?jǐn)?shù)。此外，我們描述了幾個(gè)實(shí)現(xiàn)細(xì)節(jié)，這些細(xì)節(jié)對(duì)于抑制生成器和鑒別器之間的不健康競(jìng)爭(zhēng)非常重要。最后，我們提出了一個(gè)新的衡量GAN結(jié)果的指標(biāo)，無(wú)論是在圖像質(zhì)量和變化方面。作為額外的貢獻(xiàn)，我們構(gòu)建了更高質(zhì)量的CelebA數(shù)據(jù)集。

在論文中NVIDIA稱(chēng)，在從高維數(shù)據(jù)分布生成新樣本的方法在圖像領(lǐng)域中被廣泛使用，主流算法包括自回歸模型（Autoregressive Models）、變化自動(dòng)編碼器（VAE）和生成對(duì)抗網(wǎng)絡(luò)（GAN）。這幾種算法都有著各自的優(yōu)勢(shì)和劣勢(shì)：自回歸模型（如PixelCNN）能產(chǎn)生清晰的圖像，但評(píng)估速度較慢，而且由于其直接對(duì)像素的條件分布直接建模，因此沒(méi)有潛在的表征，這也進(jìn)一步限制了其適用性；VAE易于訓(xùn)練，但生成的結(jié)果往往是模糊的；GAN可以生成清晰的圖像，但在分辨率上只能有小范圍的變化，而且質(zhì)量一直不穩(wěn)定；混合方法可以結(jié)合上述三種方法的優(yōu)勢(shì)，但在圖像質(zhì)量上仍落后于GAN。

NVIDIA的主要改進(jìn)方法是使用改進(jìn)的Wasserstein Loss（關(guān)于用Wasserstein GAN生成圖片請(qǐng)參閱雷鋒網(wǎng)之前文章：《令人拍案叫絕的Wasserstein GAN》），同時(shí)也嘗試最小二乘法損失。由于生成高分辨率圖像之所以困難是因?yàn)檫@一過(guò)程中會(huì)極大放大梯度問(wèn)題，而且由于內(nèi)存的限制，大圖片還要分割成若干塊分別計(jì)算，從而影響了訓(xùn)練的穩(wěn)定性。而NVIDIA的做法是從簡(jiǎn)單的低分辨率圖像開(kāi)始，在訓(xùn)練時(shí)逐步添加更高分辨率細(xì)節(jié)的層次，從而大大加快了訓(xùn)練和提高高分辨率的穩(wěn)定性。

讓我們來(lái)看一下圖片生成的效果。

下圖是訓(xùn)練開(kāi)始2個(gè)多小時(shí)候，8X8的效果。

NVIDIA論文：用GAN生成高清圖像 | ICLR 2018