0
本文作者: 岑大師 | 2017-10-31 05:56 | 專題:ICLR 2018 |
雖然ICLR 2018將公開評審改成了評審人和作者相互不知道雙方信息的雙盲評審,但論文的投稿者仍然可以通過其他公開渠道對其論文進(jìn)行推廣。尤其對于大公司研究院來說,早早公開自己的論文能比盲審有額外加成,例如雷鋒網(wǎng)就注意到,就在上周五ICLR論文投遞截止后不久,NVIDIA在Blog上就發(fā)布了一篇通過生成對抗網(wǎng)絡(luò)(GAN)產(chǎn)生獨(dú)特面孔的新方法,這篇論文正是NVIDIA投遞到ICLR的論文之一。
論文題目:Progressive Growing of GANs for Improved Quality, Stability, and Variation
摘要:在本文中,我們描述了生成對抗網(wǎng)絡(luò)(GAN)的新的訓(xùn)練方法。 關(guān)鍵思想是通過漸進(jìn)的方式訓(xùn)練生成器和鑒別器:從低分辨率開始,我們逐步添加新的層次,從而在訓(xùn)練進(jìn)展中增加更精細(xì)的細(xì)節(jié)。 這既加快了訓(xùn)練速度,又能增加訓(xùn)練的穩(wěn)定性,從而使我們能夠制作出前所未有的質(zhì)量的圖像,例如用1024x1024像素的CelebA圖像(雷鋒網(wǎng)注:CelebA是香港中文大學(xué)發(fā)布的20多萬的名人人臉數(shù)據(jù)庫,被很多算法用來訓(xùn)練)制作更高精度的數(shù)據(jù)集。 我們還提出了一種增加生成圖像變化的簡單方法,并且在無監(jiān)督的CIFAR10中實現(xiàn)了創(chuàng)記錄的8.80的初始分?jǐn)?shù)。 此外,我們描述了幾個實現(xiàn)細(xì)節(jié),這些細(xì)節(jié)對于抑制生成器和鑒別器之間的不健康競爭非常重要。 最后,我們提出了一個新的衡量GAN結(jié)果的指標(biāo),無論是在圖像質(zhì)量和變化方面。 作為額外的貢獻(xiàn),我們構(gòu)建了更高質(zhì)量的CelebA數(shù)據(jù)集。
在論文中NVIDIA稱,在從高維數(shù)據(jù)分布生成新樣本的方法在圖像領(lǐng)域中被廣泛使用,主流算法包括自回歸模型(Autoregressive Models)、變化自動編碼器(VAE)和生成對抗網(wǎng)絡(luò)(GAN)。這幾種算法都有著各自的優(yōu)勢和劣勢:自回歸模型(如PixelCNN)能產(chǎn)生清晰的圖像,但評估速度較慢,而且由于其直接對像素的條件分布直接建模,因此沒有潛在的表征,這也進(jìn)一步限制了其適用性;VAE易于訓(xùn)練,但生成的結(jié)果往往是模糊的;GAN可以生成清晰的圖像,但在分辨率上只能有小范圍的變化,而且質(zhì)量一直不穩(wěn)定;混合方法可以結(jié)合上述三種方法的優(yōu)勢,但在圖像質(zhì)量上仍落后于GAN。
NVIDIA的主要改進(jìn)方法是使用改進(jìn)的Wasserstein Loss(關(guān)于用Wasserstein GAN生成圖片請參閱雷鋒網(wǎng)之前文章:《令人拍案叫絕的Wasserstein GAN》),同時也嘗試最小二乘法損失。由于生成高分辨率圖像之所以困難是因為這一過程中會極大放大梯度問題,而且由于內(nèi)存的限制,大圖片還要分割成若干塊分別計算,從而影響了訓(xùn)練的穩(wěn)定性。而NVIDIA的做法是從簡單的低分辨率圖像開始,在訓(xùn)練時逐步添加更高分辨率細(xì)節(jié)的層次,從而大大加快了訓(xùn)練和提高高分辨率的穩(wěn)定性。
讓我們來看一下圖片生成的效果。
下圖是訓(xùn)練開始2個多小時候,8X8的效果。
經(jīng)過11個多小時訓(xùn)練后,生成圖片分辨率提升為32x32,已經(jīng)能看出面孔的輪廓了;
訓(xùn)練16天后的1024x1024分辨率圖片:
NVIDIA還專門準(zhǔn)備了一部關(guān)于這篇論文的說明短片,更加直觀說明了這一算法的具體效果:
據(jù)雷鋒網(wǎng)了解,這一方法也可以用來生成非常精細(xì)的物體和風(fēng)景照片、以及圖像軟件中的變化效果等。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。