丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給雪莉?休斯敦
發(fā)送

0

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

本文作者: 雪莉?休斯敦 編輯:楊曉凡 2017-10-18 17:18
導(dǎo)語:一種解決生成對抗網(wǎng)絡(luò)(GAN)模式崩潰問題的方法

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

雷鋒網(wǎng) AI 科技評論按:近期,澳大利亞迪肯大學(xué)圖像識別和數(shù)據(jù)分析中心發(fā)表了一篇新的論文,由Tu Dinh Nguyen, Trung Le, Hung Vu, Dinh Phung編寫,該論文就生成對抗網(wǎng)絡(luò)(GAN)的模式崩潰問題進行了討論并給出了一種新的有效的解決方案 D2GAN,論文譯稿由雷鋒網(wǎng) AI 科技評論編輯,原文鏈接請點擊。

這篇文章介紹了一種解決生成對抗網(wǎng)絡(luò)(GAN)模式崩潰問題的方法。這種方法很直觀但是證實有效,特別是當對GAN預(yù)先設(shè)置一些限制時。在本質(zhì)上,它結(jié)合了Kullback-Leibler(KL)和反向KL散度的差異,生成一個目標函數(shù),從而利用這些分支的互補統(tǒng)計特性捕捉多模式下分散預(yù)估密度。這種方法稱為雙鑒別器生成對抗網(wǎng)絡(luò)(Dual discriminator generative adversarial nets, D2GAN),顧名思義,與GAN不同的是,D2GAN有兩個鑒別器。這兩個鑒別器仍然與一個生成器一起進行極大極小的博弈,一個鑒別器會給符合分布的數(shù)據(jù)樣本給與高獎勵,而另外一個鑒別器卻更喜歡生成器生成的數(shù)據(jù)。生成器就要嘗試同時欺騙兩個鑒別器。理論分析表明,假設(shè)使用最強的鑒別器,優(yōu)化D2GAN的生成器可以讓原始數(shù)據(jù)庫和生成器產(chǎn)生的數(shù)據(jù)間的KL和反向KL散度最小化,從而有效地避免模式崩潰的問題。作者進行了大量的合成和真實數(shù)據(jù)庫的實驗(MNIST,CIFAR-10,STL-10,ImageNet),對比D2GAN和最新的GAN變種的方法,并進行定性定量評估。實驗結(jié)果有效地驗證了D2GAN的競爭力和優(yōu)越的性能,D2GAN生成樣本的質(zhì)量和多樣性要比基準模型高得多,并可擴展到ImageNet數(shù)據(jù)庫。

簡介

生成式模型是研究領(lǐng)域的一大分支并且在最近幾年得到了飛速的成長,成功地部署到很多現(xiàn)代的應(yīng)用中。一般的方法是通過解決密度預(yù)測問題,即學(xué)習(xí)模型分布Pmodel來預(yù)測置信度,在數(shù)據(jù)分布Pdata未知的情況下。這種方法的實現(xiàn)需要解決兩個基本問題。

首先,生成模型的學(xué)習(xí)表現(xiàn)基于訓(xùn)練這些模型的目標函數(shù)的選擇。最為廣泛使用的目標,即事實標準目標,是遵循遵循最大似然估計原理,尋求模型參數(shù)以最大限度地提高訓(xùn)練數(shù)據(jù)的似然性。這與最小化KL散度數(shù)據(jù)分布和模型分布上的差異的方法相似GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!。這種最小化會導(dǎo)致Pmodel覆蓋Pdata的多種模式,但是可能會引起一些完全看不到的和潛在的不希望的樣本。相反地,另外一種方法通過交換參數(shù),最小化:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!,一般稱其為反KL散度。觀察發(fā)現(xiàn),對反KL散度準則優(yōu)化模擬了模式搜索的過程,Pmodel集中在Pdata的單一模式,而忽略了其他模式,稱這種問題為模式崩潰。

第二個問題是密度函數(shù)Pmodel公式的選擇問題。一種方法是定義一個明確的密度函數(shù),然后直接的根據(jù)最大似然框架進行參數(shù)估計。另外一種方法是使用一個不明確的密度函數(shù)記性數(shù)據(jù)分布估計,不需要使用Pmodel的解析形式。還有一些想法是借用最小包圍球的原理來訓(xùn)練生成器,訓(xùn)練和生成的數(shù)據(jù),在被映射到特征空間后,被封閉在同一個球體中。這種方法最為著名的先驅(qū)應(yīng)用是生成對抗網(wǎng)絡(luò)(GAN),它是一種表達生成模型,具備生成自然場景的尖銳和真實圖像的能力。與大多數(shù)生成模型不同的是,GAN使用了一種激進的方法,模擬了游戲中兩個玩家對抗的方法:一個生成器G通過從噪聲空間映射輸入空間來生成數(shù)據(jù);鑒別器D則表現(xiàn)得像一個分類器,區(qū)分真實的樣本和生成器生成的偽圖像。生成器G和鑒別器D都是通過神經(jīng)網(wǎng)絡(luò)參數(shù)化得來的,因此,這種方法可以歸類為深度生成模型或者生成神經(jīng)模型。

GAN的優(yōu)化實際上是一個極大極小問題,即給定一個最優(yōu)的D,學(xué)習(xí)的目標變成尋找可以最小化Jensen-Shannon散度(JSD)的G:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!。JSD最小化的行為已經(jīng)被實踐證實相較于KL散度更近似于反KL散度。這,另一方面,也導(dǎo)致了之前提到的模式崩潰問題,在GAN的應(yīng)用領(lǐng)域臭名昭著,即生成器只能生成相似的圖片,低熵分布,樣本種類匱乏。

近期的研究通過改進GAN的訓(xùn)練方式來解決模式崩潰的問題。一個方法是使用mini-batch分辨法巧妙地讓鑒別器分辨與其他生成樣本非正常相似的圖片。盡管這種啟發(fā)方式可以幫助快速生成具有視覺吸引力的樣本,但是它的計算代價很高,因此,通常應(yīng)用于鑒別器的最后一個隱藏層。另外一個方法是把鑒別器的優(yōu)化通過幾個步驟展開,在訓(xùn)練中產(chǎn)生一個代理目標來進行生成器的更新。第三種方法是訓(xùn)練多個生成器,發(fā)現(xiàn)不同的數(shù)據(jù)模式。同期的,還有一些其他的方法,運用autoencoders進行正則化或者輔助損失來補償丟失的模式等。這些方法都可以在一定程度上改善模式崩潰的問題,但是由此帶來了更高的計算復(fù)雜度,從而無法擴展到ImageNet這種大規(guī)模的和具有挑戰(zhàn)性的視覺數(shù)據(jù)庫上。

應(yīng)對這些挑戰(zhàn),作者們在這篇論文中提出了一種新的方法,既可以高效地避免模式崩潰問題又可以擴展到龐大的數(shù)據(jù)庫(比如:ImageNet等)。通過結(jié)合KL和反KL散度生成一個統(tǒng)一的目標函數(shù),從而利用了兩種散度的互補統(tǒng)計特性,有效地在多模式下分散預(yù)估密度。使用GAN的框架,量化這種思路,便形成了一種新穎的生成對抗架構(gòu):鑒別器D1(通過鑒別數(shù)據(jù)來自于Pdata而不在生成分布PG中獲取高分),鑒別器D2(相反地,來自于PG而不在Pdata中)和生成器G(嘗試欺騙D1、D2兩個鑒別器)。作者將這種方法命名為雙鑒別器生成對抗網(wǎng)絡(luò)(D2GAN)。

實驗證明,訓(xùn)練D2GAN與訓(xùn)練GAN會遇到同樣的極大極小問題,通過交替更新生成器和鑒別器可以得到解決。理論分析表明,如果G、D1和D2具有足夠的容量,如非參數(shù)的限制下,在最佳點,對KL和反KL散度而言,訓(xùn)練標準確實導(dǎo)致了數(shù)據(jù)和模型分布之間的最小距離。這有助于模型在各種數(shù)據(jù)分布模式下進行公平的概率分布,使得生成器可一次完成數(shù)據(jù)分布恢復(fù)和生成多樣樣本。另外,作者還引入了超參數(shù)實現(xiàn)穩(wěn)定地學(xué)習(xí)和各種散度影響的控制。

作者進行了大量的實驗,包括一個合成數(shù)據(jù)庫和具備不同特征的四個真實大規(guī)模數(shù)據(jù)庫(MNIST、CIFAR10、STL-10、ImageNet)。眾所周知,評估生成模型是非常困難的,作者花費了很多時間,使用了各種評估辦法,定量的對比D2GAN和最新的基線方法。實驗結(jié)果表明,D2GAN可以在保持生成樣本質(zhì)量的同時提高樣本的多樣性。更重要的是,這種方法可以擴展到更大規(guī)模的數(shù)據(jù)庫(ImageNet),并保持具有競爭力的多樣性結(jié)果和生成合理的高品質(zhì)樣本圖片。

簡而言之,這種方法具有三個重要的貢獻:(i)一種新穎的生成對抗模型,提高生成樣本的多樣性;(ii)理論分析證實這種方法的目標是優(yōu)化KL和反KL散度的最小差異,并在PG=Pdata時,實現(xiàn)全局最優(yōu);(iii)使用大量的定量標準和大規(guī)模數(shù)據(jù)庫對這種方法進行綜合評估。

作者們的實現(xiàn)方法如下:

生成對抗網(wǎng)絡(luò)

首先介紹一下生成對抗網(wǎng)絡(luò)(GAN),具有兩個玩家:鑒別器D和生成器G。鑒別器D(x),在數(shù)據(jù)空間中取一個點x,然后計算x在數(shù)據(jù)分布Pdata中而不是生成器G生成的概率。同時,生成器先向數(shù)據(jù)空間映射一個取自先導(dǎo)P(z)的噪聲向量z,獲取一個類似于訓(xùn)練數(shù)據(jù)的樣本G(z),然后使用這個樣本來欺騙鑒別器。G(z)形成了一個在數(shù)據(jù)域的生成分布PG,和概率密度函數(shù)PG(x)。G和D都由神經(jīng)網(wǎng)絡(luò)構(gòu)成(見圖1a),并通過如下的極大極小優(yōu)化得以學(xué)習(xí):

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

學(xué)習(xí)遵循一個迭代的過程,其中鑒別器和生成器交替地更新。假設(shè)固定G,最大化D可以獲得最優(yōu)鑒別器GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!,同時,固定最優(yōu)D*,最小化G可以實現(xiàn)最小化Jensen-Shannon(JS)散度(數(shù)據(jù)和模型分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!)。在博弈的納什均衡下,模型分布完全恢復(fù)了數(shù)據(jù)分布:PG=Pdata,從而鑒別器現(xiàn)在無法分辨真假數(shù)據(jù):GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

由于JS散度通過大量的實驗數(shù)據(jù)證實與反KL散度的特性相同,GAN也會有模式崩潰的問題,因此,其生成的數(shù)據(jù)樣本多樣性很低。

雙鑒別器生成對抗網(wǎng)絡(luò)

為了解決GAN的模式崩潰問題,下方介紹了一種框架,尋求近似分布來有效地涵蓋多模式下的多模態(tài)數(shù)據(jù)。這種方法也是基于GAN,但是有三個組成部分,包括兩個不同的鑒別器D1、D2和一個生成器G。假定一個數(shù)據(jù)空間中的樣本x,如果x是數(shù)據(jù)分布Pdata中的,D1(x)獲得高分,如果是模式分布PG中的,則獲得低分。相反地,如果x是模式分布PG中的,D2(x)獲得高分,如果是數(shù)據(jù)分布Pdata中的,D2(x)獲得低分。與GAN不同的是,得分的表現(xiàn)形式為R+而不是[0,1]中的概率。生成器G的角色與GAN中的相似,即從噪聲空間中映射數(shù)據(jù)與真實數(shù)據(jù)進行合成后欺騙D1和D2兩個鑒別器。這三個部分都由神經(jīng)網(wǎng)絡(luò)參數(shù)化而成,其中D1和D2不分享它們的參數(shù)。這種方法被稱為雙鑒別器生成對抗網(wǎng)絡(luò)(D2GAN),見上圖1b。D1、D2和G遵循如下的極大極小公式:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

其中超參數(shù)GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!為了實現(xiàn)兩個目的。第一個是為了穩(wěn)定化模型的學(xué)習(xí)過程。兩個鑒別器的輸出結(jié)果都是正的,D1(G(z))和D2(x)可能會變得很大并比LogD1(x)和LogD2(x)有指數(shù)性的影響,最終會導(dǎo)致學(xué)習(xí)的不穩(wěn)定。為了克服這個問題,降低α和β的值。第二個目的是控制KL和反KL散度對優(yōu)化的影響。后面介紹過優(yōu)化方法后再對這個部分進行討論。

與GAN相似的是,通過交替更新D1、D2和G可以訓(xùn)練D2GAN。

理論分析

通過理論分析發(fā)現(xiàn),假設(shè)G、D1和D2具備足夠的容量,如非參數(shù)的限制下,在最佳點,G可以通過最小化模型和數(shù)據(jù)分布的KL和反KL散度恢復(fù)數(shù)據(jù)分布。首先,假設(shè)生成器是固定的,通過(w.r.t)鑒別器進行優(yōu)化分析:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

證明:根據(jù)誘導(dǎo)測度定理,兩個期望相等:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!時,GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!。目標函數(shù)可以推演如下:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

考慮到里面的函數(shù)積分,給定x,通過兩個變量D1、D2最大化函數(shù),得到D1*(x)和D2*(x)。將D1和D2設(shè)置為0,可以得到:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!是非正數(shù),則證明成立并得到了最大值。

接下來,GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!,計算生成器G的最優(yōu)方案G*。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

證明:將D1*和D2*代入極大極小方程,得到:

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!分別是KL和反KL散度。這些散度通常是非負的,并且只在PG*=Pdata時等于0。換言之,生成器生成的分布PG*與數(shù)據(jù)分布完全等同,這就意味著由于兩個分布的返回值都是1,兩個鑒別器在這種情況下就不能分辨真假樣本了。

如上公式中生成器的誤差表明提高α可以促進最小化KL散度(GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!)的優(yōu)化,提高β可促進最小化反KL散度(GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!)的優(yōu)化。通過調(diào)整α和β這兩個超參數(shù),可以平衡KL散度和反KL散度的影響,從而有效地避免模式崩潰的問題。

實驗

在這個部分,作者進行了廣泛的實驗來驗證的提高模式覆蓋率和提出的方法應(yīng)用在大規(guī)模數(shù)據(jù)庫上的能力。使用一個合成的2D數(shù)據(jù)庫進行視覺和數(shù)值驗證,并使用四個真實的數(shù)據(jù)庫(具有多樣性和大規(guī)模)進行數(shù)值驗證。同時,將D2GAN和最新的GAN的應(yīng)用進行對比。

從大量的實驗得出結(jié)論:(i)鑒別器的輸出具有softplus activations:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!,如正ReLU;(ii)Adam優(yōu)化器,學(xué)習(xí)速率0.0002,一階動量0.5;(iii)64個樣本作為訓(xùn)練生成器和鑒別器的minibatch訓(xùn)練單元;(iv)0.2斜率的Leaky ReLU;(v)權(quán)重從各項同性的高斯(Gaussian)分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!進行初始化,0偏差。實現(xiàn)的過程使用了TensorFlow,并且在文章發(fā)表后發(fā)布出來。下文將介紹實驗過程,首先是合成數(shù)據(jù)庫,然后是4個真實數(shù)據(jù)庫。

合成數(shù)據(jù)庫

在第一個實驗中,使用已經(jīng)設(shè)計好的實驗方案對D2GAN處理多模態(tài)數(shù)據(jù)的能力進行評估。特別的是,從2D混合8個高斯分布和協(xié)方差矩陣0.02I 獲取訓(xùn)練數(shù)據(jù),同時中位數(shù)分布在半徑2.0零質(zhì)心的圓中。使用一個簡單的架構(gòu),包含一個生成器(兩個全連接隱藏層)和兩個鑒別器(一個ReLU激發(fā)層)。這個設(shè)定是相同的,因此保證了公平的對比。圖2c顯示了512個由D2GAN和基線生成的樣本??梢钥闯觯R?guī)的GAN產(chǎn)生的數(shù)據(jù)在數(shù)據(jù)分布的有效模式附近的一個單一模式上奔潰了。而unrolledGAN和D2GAN可以在8個混合部分分布數(shù)據(jù),這就印證了能夠成功地學(xué)習(xí)多模態(tài)數(shù)據(jù)的能力。最后,D2GAN所截取的數(shù)據(jù)比unrolledGAN更精確,在各種模式下,unrolledGAN只能集中在模式質(zhì)心附近的幾個點,而D2GAN產(chǎn)生的樣本全分布在所有模式附近,這就意味著D2GAN產(chǎn)生的樣本比unrolledGAN多得多。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

下一步,定量的進行生成數(shù)據(jù)質(zhì)量的對比。因為已知真實的分布Pdata,只需進行兩步測量,即對稱KL散度和Wasserstein距離。這些測量分別是對由D2GAN、unrolledGAN和GAN的10000個點歸一化直方與真實的Pdata之間的距離計算。圖2a/b再次清楚了表明了D2GAN相對于unrolled和GAN的優(yōu)勢(距離越小越好);特別是Wasserstein度量,D2GAN離真實分布的距離基本上減小到0了。這些圖片也表達了D2GAN相對于GAN(綠色曲線)和unrolledGAN(藍色曲線)在訓(xùn)練時的穩(wěn)定性。

真實數(shù)據(jù)庫

下面,使用真實數(shù)據(jù)庫對D2GAN進行評估。在真實數(shù)據(jù)庫條件下,數(shù)據(jù)擁有更高的多樣性和更大的規(guī)模。對含有卷積層的網(wǎng)絡(luò),根據(jù)DCGAN進行設(shè)計分析。鑒別器使用帶步長的卷積,生成器使用分步帶步長的卷積。每個層都進行批處理標準化,除了生成器輸出層和鑒別器的輸入層。鑒別器還使用Leaky ReLU 激發(fā)層,生成器使用ReLU層,除非其輸出是tanh,原因是各像素的強度值在反饋到D2GAN模型前已經(jīng)變換到[-1,1]的區(qū)間內(nèi)。唯一的區(qū)別是,在D2GAN下,當從N(0,0.01)初始化權(quán)重時,其表現(xiàn)比從N(0,0.02)初始化權(quán)重的效果好。架構(gòu)的細節(jié)請看論文附件。

評估方式

評估生成對抗模型產(chǎn)生的樣本是很難的,原因有生成概率判斷標準繁多、缺乏有意義的圖像相似性度量標準。盡管生成器可以產(chǎn)生看似真實的圖像,但是如果這些圖像看起來非常近似,樣本依然不可使用。因此,為了量化各種模式下的圖像質(zhì)量,同時生產(chǎn)高質(zhì)量的樣本圖樣,使用各種不用的ad-hoc度量進行不同的實驗來進行D2GAN方法與各基線方法的效果對比。

首先,使用起始分值(Inception Score),計算通過:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!,這里P(y|x)是通過預(yù)訓(xùn)練的初始模型的圖像x的條件標簽分布,P(y)是邊際分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!。這種度量方式會給質(zhì)量高的多樣的圖片給高分,但是有時候很容易被崩潰的模式欺騙,導(dǎo)致產(chǎn)生非常低質(zhì)量的圖片。因此,這種方式不能用于測量模型是否陷入了錯誤的模式。為了解決這個問題,對有標簽的數(shù)據(jù)庫,使用MODE score:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

這里,GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!是訓(xùn)練數(shù)據(jù)的預(yù)估標簽的經(jīng)驗分布。MODE score的值可以充分的反應(yīng)生成圖像的多樣性和視覺質(zhì)量。

手寫數(shù)字圖像

這個部分使用手寫數(shù)字圖像-MNIST,數(shù)據(jù)庫包含有60,000張訓(xùn)練圖像和10,000張測試灰度圖(28*28像素),數(shù)值區(qū)間從0到9。首先,假設(shè)MNIST有10個模式,代表了數(shù)據(jù)分支的連接部分,分為10個數(shù)字等級。然后使用不同的超參數(shù)配置進行擴展的網(wǎng)格搜索,使用兩個正則常數(shù)α和β,數(shù)值為{0.01,0.05,0.1,0.2}。為了進行公平的對比,對不同的架構(gòu)使用相同的參數(shù)和全連接層。

評估部分,首先訓(xùn)練一個簡單的但有效的3-layer卷積網(wǎng)絡(luò)(MNIST測試庫實現(xiàn)0.65%的誤差),然后將它應(yīng)用于預(yù)估標簽的概率和生成樣本的MODE score計算中。圖3左顯示了3個模式下MODE score的分布。清晰的看到,D2GAN相對于標準GAN和Reg-GAN的巨大優(yōu)越性,其分數(shù)的最大值基本落在區(qū)間【8.0-9.0】。值得注意的是,盡管提高網(wǎng)絡(luò)的復(fù)雜度,MODE score基本保持高水平。這幅圖片中只表現(xiàn)了最小網(wǎng)絡(luò)和最少層和隱藏單元的結(jié)果。

為了研究α和β的影響,在不同的α和β的數(shù)值下進行試驗(圖3右)。結(jié)果表明,給定α值,D2GAN可以在β達到一定數(shù)值時獲得更好的MODE score,當β數(shù)值繼續(xù)增大,MODE score降低。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

MNIST-1K.   假定10個模式的標準MNIST數(shù)據(jù)庫相當簡單。因此,基于這個數(shù)據(jù)庫,作者使用一個更具挑戰(zhàn)性的數(shù)據(jù)庫進行測試。沿用上述的方式,假定一個新的有1000個等級的MNIST數(shù)據(jù)庫(MNIST-1K),方法為用3個隨機數(shù)字組成一個RGB圖像。由此,可以組成1000個離散的模式,從000到999。

在這個實驗中,使用一個更強大的模型,鑒別器使用卷積層,生成器使用轉(zhuǎn)置卷積。通過測試模式的數(shù)量進行模型的性能評估,其中模型在25,600個樣本中至少產(chǎn)生一個模式,同時反KL散度分布介于模型分布(如從預(yù)訓(xùn)練的MNIST分類器預(yù)測的標簽分布)和期望的數(shù)據(jù)分布之間。表1報告了D2GAN與GAN、unrolledGAN、GCGAN和Reg-GAN之間的對比。通過對比可以看出D2GAN具有極大的優(yōu)勢,同時模型分布和數(shù)據(jù)分布之間的差距幾近為0。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

自然場景圖像

 下面是將D2GAN應(yīng)用到更廣泛的自然場景圖像上,用于驗證其在大規(guī)模數(shù)據(jù)庫上的表現(xiàn)。使用三個經(jīng)常被使用的數(shù)據(jù)庫:CIFAR-10,STL-10和ImageNet。CIFAR-10包含50,000張32*32的訓(xùn)練圖片,有10個等級:飛機,摩托車,鳥,貓,鹿,狗,青蛙,馬,船和卡車(airplane, automobile, bird, cat, deer, dog, frog, horse, ship, and truck)。STL-10,是ImageNet的子數(shù)據(jù)集,包含10,000張未被標記的96*96的圖片,相對于CIFAR-10更多樣,但是少于ImageNet。將所有的圖片向下縮小3倍至32*32分辨率后,再對網(wǎng)絡(luò)進行訓(xùn)練。ImageNet非常龐大,擁有120百萬自然圖片,包含1000個類別,通常ImageNet是深度網(wǎng)絡(luò)領(lǐng)域訓(xùn)練使用的最為龐大和復(fù)雜的數(shù)據(jù)庫。使用這三個數(shù)據(jù)庫進行蓄念和計算,Inception score的結(jié)果如下圖和下方表格所示:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

表格中和圖4中表示了Inception score在不同數(shù)據(jù)庫和不同模型上的不同值。值得注意的是,這邊的對比是在一個完美無監(jiān)督的方法下,并且沒有標簽的信息。在CIFAR-10數(shù)據(jù)庫上使用的8個基線模型,而在STL-10和ImageNet數(shù)據(jù)庫上使用了DCGAN、DFM(denoising feature matching)作對比。在D2GAN的實現(xiàn)上使用了與DCGAN完全一致的網(wǎng)絡(luò)架構(gòu),以做公平的對比。在這三個實驗結(jié)果中,可以看出,D2GAN的表現(xiàn)低于DFM,但是在很大的程度高于其他任何一個基線模型。這種遜于DFM的結(jié)果印證了對高級別的特征進行自動解碼是提高多樣性的一種有效方法。D2GAN可與這種方式兼容,因此融合這種做法可以為未來的研究帶來更好的效果。

最后,在圖5中展現(xiàn)了使用D2GAN生成的樣本圖片。這些圖片都是隨機產(chǎn)生的,而不是特別挑選的。從圖片中可以看出,D2GAN生成了可以視覺分辨的車,卡車,船和馬(在CIFAR-10數(shù)據(jù)庫的基礎(chǔ)上)。在STL-10的基礎(chǔ)上,圖片看起來相對比較難以辨認,但是飛機,車,卡車和動物的輪廓還是可以識別的;同時圖片還具備了多種背景,如天空,水下,山和森林(在ImageNet的基礎(chǔ)上)。這印證了使用D2GAN可以生成多樣性的圖片的結(jié)論。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

結(jié)論

總結(jié)全文,作者介紹了一種全新的方法,結(jié)合KL(Kullback-Leibler)和反KL散度生成一個統(tǒng)一的目標函數(shù)來解決密度預(yù)測問題。這種方法利用了這兩種散度的互補統(tǒng)計特性來提高生成器產(chǎn)生的圖像的質(zhì)量和樣本的多樣性?;谶@個原理,作者引入了一種新的網(wǎng)絡(luò),基于生成對抗網(wǎng)絡(luò)(GAN),由三方構(gòu)成:兩個鑒別器和一個生成器,并命其為雙鑒別器生成對抗網(wǎng)絡(luò)(dual discriminator GAN, D2GAN)。如果設(shè)定兩個鑒別器是固定的,同時優(yōu)化KL和反KL散度進行生成器的學(xué)習(xí),通過這種方法可以幫助解決模式崩潰的問題(GAN的一大亟待突破的難點)。

作者通過大量的實驗對其提出的方法進行了驗證。這些實驗的結(jié)果證實了D2GAN的高效性和擴展性。實驗使用的數(shù)據(jù)庫包括合成數(shù)據(jù)庫和大規(guī)模真實圖片數(shù)據(jù)庫,即MNIST、CIFAR-10,STL-10和ImageNet。相較于最新的基線方法,D2GAN更具擴展性,可以應(yīng)用于業(yè)內(nèi)最為龐大和復(fù)雜的數(shù)據(jù)庫ImageNet,盡管取得了比融合DFM(denoising feature matching)和GAN的方法低的Inception score,但遠遠高于其他GAN應(yīng)用的實驗結(jié)果。最后,作者指出,未來的研究可以借鑒融合DFM和GAN的做法,在現(xiàn)有的方法基礎(chǔ)上增加類似半監(jiān)督學(xué)習(xí)、條件架構(gòu)和自動編碼等的技術(shù),更進一步的解決生成對抗網(wǎng)絡(luò)在應(yīng)用中的問題。

論文地址:https://arxiv.org/abs/1709.03831 

雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個鑒別器!

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說