丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給雪莉?休斯敦
發(fā)送

0

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

本文作者: 雪莉?休斯敦 編輯:楊曉凡 2017-10-18 17:18
導(dǎo)語:一種解決生成對(duì)抗網(wǎng)絡(luò)(GAN)模式崩潰問題的方法

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

雷鋒網(wǎng) AI 科技評(píng)論按:近期,澳大利亞迪肯大學(xué)圖像識(shí)別和數(shù)據(jù)分析中心發(fā)表了一篇新的論文,由Tu Dinh Nguyen, Trung Le, Hung Vu, Dinh Phung編寫,該論文就生成對(duì)抗網(wǎng)絡(luò)(GAN)的模式崩潰問題進(jìn)行了討論并給出了一種新的有效的解決方案 D2GAN,論文譯稿由雷鋒網(wǎng) AI 科技評(píng)論編輯,原文鏈接請(qǐng)點(diǎn)擊。

這篇文章介紹了一種解決生成對(duì)抗網(wǎng)絡(luò)(GAN)模式崩潰問題的方法。這種方法很直觀但是證實(shí)有效,特別是當(dāng)對(duì)GAN預(yù)先設(shè)置一些限制時(shí)。在本質(zhì)上,它結(jié)合了Kullback-Leibler(KL)和反向KL散度的差異,生成一個(gè)目標(biāo)函數(shù),從而利用這些分支的互補(bǔ)統(tǒng)計(jì)特性捕捉多模式下分散預(yù)估密度。這種方法稱為雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(Dual discriminator generative adversarial nets, D2GAN),顧名思義,與GAN不同的是,D2GAN有兩個(gè)鑒別器。這兩個(gè)鑒別器仍然與一個(gè)生成器一起進(jìn)行極大極小的博弈,一個(gè)鑒別器會(huì)給符合分布的數(shù)據(jù)樣本給與高獎(jiǎng)勵(lì),而另外一個(gè)鑒別器卻更喜歡生成器生成的數(shù)據(jù)。生成器就要嘗試同時(shí)欺騙兩個(gè)鑒別器。理論分析表明,假設(shè)使用最強(qiáng)的鑒別器,優(yōu)化D2GAN的生成器可以讓原始數(shù)據(jù)庫和生成器產(chǎn)生的數(shù)據(jù)間的KL和反向KL散度最小化,從而有效地避免模式崩潰的問題。作者進(jìn)行了大量的合成和真實(shí)數(shù)據(jù)庫的實(shí)驗(yàn)(MNIST,CIFAR-10,STL-10,ImageNet),對(duì)比D2GAN和最新的GAN變種的方法,并進(jìn)行定性定量評(píng)估。實(shí)驗(yàn)結(jié)果有效地驗(yàn)證了D2GAN的競爭力和優(yōu)越的性能,D2GAN生成樣本的質(zhì)量和多樣性要比基準(zhǔn)模型高得多,并可擴(kuò)展到ImageNet數(shù)據(jù)庫。

簡介

生成式模型是研究領(lǐng)域的一大分支并且在最近幾年得到了飛速的成長,成功地部署到很多現(xiàn)代的應(yīng)用中。一般的方法是通過解決密度預(yù)測(cè)問題,即學(xué)習(xí)模型分布Pmodel來預(yù)測(cè)置信度,在數(shù)據(jù)分布Pdata未知的情況下。這種方法的實(shí)現(xiàn)需要解決兩個(gè)基本問題。

首先,生成模型的學(xué)習(xí)表現(xiàn)基于訓(xùn)練這些模型的目標(biāo)函數(shù)的選擇。最為廣泛使用的目標(biāo),即事實(shí)標(biāo)準(zhǔn)目標(biāo),是遵循遵循最大似然估計(jì)原理,尋求模型參數(shù)以最大限度地提高訓(xùn)練數(shù)據(jù)的似然性。這與最小化KL散度數(shù)據(jù)分布和模型分布上的差異的方法相似GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!。這種最小化會(huì)導(dǎo)致Pmodel覆蓋Pdata的多種模式,但是可能會(huì)引起一些完全看不到的和潛在的不希望的樣本。相反地,另外一種方法通過交換參數(shù),最小化:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!,一般稱其為反KL散度。觀察發(fā)現(xiàn),對(duì)反KL散度準(zhǔn)則優(yōu)化模擬了模式搜索的過程,Pmodel集中在Pdata的單一模式,而忽略了其他模式,稱這種問題為模式崩潰。

第二個(gè)問題是密度函數(shù)Pmodel公式的選擇問題。一種方法是定義一個(gè)明確的密度函數(shù),然后直接的根據(jù)最大似然框架進(jìn)行參數(shù)估計(jì)。另外一種方法是使用一個(gè)不明確的密度函數(shù)記性數(shù)據(jù)分布估計(jì),不需要使用Pmodel的解析形式。還有一些想法是借用最小包圍球的原理來訓(xùn)練生成器,訓(xùn)練和生成的數(shù)據(jù),在被映射到特征空間后,被封閉在同一個(gè)球體中。這種方法最為著名的先驅(qū)應(yīng)用是生成對(duì)抗網(wǎng)絡(luò)(GAN),它是一種表達(dá)生成模型,具備生成自然場景的尖銳和真實(shí)圖像的能力。與大多數(shù)生成模型不同的是,GAN使用了一種激進(jìn)的方法,模擬了游戲中兩個(gè)玩家對(duì)抗的方法:一個(gè)生成器G通過從噪聲空間映射輸入空間來生成數(shù)據(jù);鑒別器D則表現(xiàn)得像一個(gè)分類器,區(qū)分真實(shí)的樣本和生成器生成的偽圖像。生成器G和鑒別器D都是通過神經(jīng)網(wǎng)絡(luò)參數(shù)化得來的,因此,這種方法可以歸類為深度生成模型或者生成神經(jīng)模型。

GAN的優(yōu)化實(shí)際上是一個(gè)極大極小問題,即給定一個(gè)最優(yōu)的D,學(xué)習(xí)的目標(biāo)變成尋找可以最小化Jensen-Shannon散度(JSD)的G:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!。JSD最小化的行為已經(jīng)被實(shí)踐證實(shí)相較于KL散度更近似于反KL散度。這,另一方面,也導(dǎo)致了之前提到的模式崩潰問題,在GAN的應(yīng)用領(lǐng)域臭名昭著,即生成器只能生成相似的圖片,低熵分布,樣本種類匱乏。

近期的研究通過改進(jìn)GAN的訓(xùn)練方式來解決模式崩潰的問題。一個(gè)方法是使用mini-batch分辨法巧妙地讓鑒別器分辨與其他生成樣本非正常相似的圖片。盡管這種啟發(fā)方式可以幫助快速生成具有視覺吸引力的樣本,但是它的計(jì)算代價(jià)很高,因此,通常應(yīng)用于鑒別器的最后一個(gè)隱藏層。另外一個(gè)方法是把鑒別器的優(yōu)化通過幾個(gè)步驟展開,在訓(xùn)練中產(chǎn)生一個(gè)代理目標(biāo)來進(jìn)行生成器的更新。第三種方法是訓(xùn)練多個(gè)生成器,發(fā)現(xiàn)不同的數(shù)據(jù)模式。同期的,還有一些其他的方法,運(yùn)用autoencoders進(jìn)行正則化或者輔助損失來補(bǔ)償丟失的模式等。這些方法都可以在一定程度上改善模式崩潰的問題,但是由此帶來了更高的計(jì)算復(fù)雜度,從而無法擴(kuò)展到ImageNet這種大規(guī)模的和具有挑戰(zhàn)性的視覺數(shù)據(jù)庫上。

應(yīng)對(duì)這些挑戰(zhàn),作者們?cè)谶@篇論文中提出了一種新的方法,既可以高效地避免模式崩潰問題又可以擴(kuò)展到龐大的數(shù)據(jù)庫(比如:ImageNet等)。通過結(jié)合KL和反KL散度生成一個(gè)統(tǒng)一的目標(biāo)函數(shù),從而利用了兩種散度的互補(bǔ)統(tǒng)計(jì)特性,有效地在多模式下分散預(yù)估密度。使用GAN的框架,量化這種思路,便形成了一種新穎的生成對(duì)抗架構(gòu):鑒別器D1(通過鑒別數(shù)據(jù)來自于Pdata而不在生成分布PG中獲取高分),鑒別器D2(相反地,來自于PG而不在Pdata中)和生成器G(嘗試欺騙D1、D2兩個(gè)鑒別器)。作者將這種方法命名為雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(D2GAN)。

實(shí)驗(yàn)證明,訓(xùn)練D2GAN與訓(xùn)練GAN會(huì)遇到同樣的極大極小問題,通過交替更新生成器和鑒別器可以得到解決。理論分析表明,如果G、D1和D2具有足夠的容量,如非參數(shù)的限制下,在最佳點(diǎn),對(duì)KL和反KL散度而言,訓(xùn)練標(biāo)準(zhǔn)確實(shí)導(dǎo)致了數(shù)據(jù)和模型分布之間的最小距離。這有助于模型在各種數(shù)據(jù)分布模式下進(jìn)行公平的概率分布,使得生成器可一次完成數(shù)據(jù)分布恢復(fù)和生成多樣樣本。另外,作者還引入了超參數(shù)實(shí)現(xiàn)穩(wěn)定地學(xué)習(xí)和各種散度影響的控制。

作者進(jìn)行了大量的實(shí)驗(yàn),包括一個(gè)合成數(shù)據(jù)庫和具備不同特征的四個(gè)真實(shí)大規(guī)模數(shù)據(jù)庫(MNIST、CIFAR10、STL-10、ImageNet)。眾所周知,評(píng)估生成模型是非常困難的,作者花費(fèi)了很多時(shí)間,使用了各種評(píng)估辦法,定量的對(duì)比D2GAN和最新的基線方法。實(shí)驗(yàn)結(jié)果表明,D2GAN可以在保持生成樣本質(zhì)量的同時(shí)提高樣本的多樣性。更重要的是,這種方法可以擴(kuò)展到更大規(guī)模的數(shù)據(jù)庫(ImageNet),并保持具有競爭力的多樣性結(jié)果和生成合理的高品質(zhì)樣本圖片。

簡而言之,這種方法具有三個(gè)重要的貢獻(xiàn):(i)一種新穎的生成對(duì)抗模型,提高生成樣本的多樣性;(ii)理論分析證實(shí)這種方法的目標(biāo)是優(yōu)化KL和反KL散度的最小差異,并在PG=Pdata時(shí),實(shí)現(xiàn)全局最優(yōu);(iii)使用大量的定量標(biāo)準(zhǔn)和大規(guī)模數(shù)據(jù)庫對(duì)這種方法進(jìn)行綜合評(píng)估。

作者們的實(shí)現(xiàn)方法如下:

生成對(duì)抗網(wǎng)絡(luò)

首先介紹一下生成對(duì)抗網(wǎng)絡(luò)(GAN),具有兩個(gè)玩家:鑒別器D和生成器G。鑒別器D(x),在數(shù)據(jù)空間中取一個(gè)點(diǎn)x,然后計(jì)算x在數(shù)據(jù)分布Pdata中而不是生成器G生成的概率。同時(shí),生成器先向數(shù)據(jù)空間映射一個(gè)取自先導(dǎo)P(z)的噪聲向量z,獲取一個(gè)類似于訓(xùn)練數(shù)據(jù)的樣本G(z),然后使用這個(gè)樣本來欺騙鑒別器。G(z)形成了一個(gè)在數(shù)據(jù)域的生成分布PG,和概率密度函數(shù)PG(x)。G和D都由神經(jīng)網(wǎng)絡(luò)構(gòu)成(見圖1a),并通過如下的極大極小優(yōu)化得以學(xué)習(xí):

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

學(xué)習(xí)遵循一個(gè)迭代的過程,其中鑒別器和生成器交替地更新。假設(shè)固定G,最大化D可以獲得最優(yōu)鑒別器GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!,同時(shí),固定最優(yōu)D*,最小化G可以實(shí)現(xiàn)最小化Jensen-Shannon(JS)散度(數(shù)據(jù)和模型分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!)。在博弈的納什均衡下,模型分布完全恢復(fù)了數(shù)據(jù)分布:PG=Pdata,從而鑒別器現(xiàn)在無法分辨真假數(shù)據(jù):GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!。

由于JS散度通過大量的實(shí)驗(yàn)數(shù)據(jù)證實(shí)與反KL散度的特性相同,GAN也會(huì)有模式崩潰的問題,因此,其生成的數(shù)據(jù)樣本多樣性很低。

雙鑒別器生成對(duì)抗網(wǎng)絡(luò)

為了解決GAN的模式崩潰問題,下方介紹了一種框架,尋求近似分布來有效地涵蓋多模式下的多模態(tài)數(shù)據(jù)。這種方法也是基于GAN,但是有三個(gè)組成部分,包括兩個(gè)不同的鑒別器D1、D2和一個(gè)生成器G。假定一個(gè)數(shù)據(jù)空間中的樣本x,如果x是數(shù)據(jù)分布Pdata中的,D1(x)獲得高分,如果是模式分布PG中的,則獲得低分。相反地,如果x是模式分布PG中的,D2(x)獲得高分,如果是數(shù)據(jù)分布Pdata中的,D2(x)獲得低分。與GAN不同的是,得分的表現(xiàn)形式為R+而不是[0,1]中的概率。生成器G的角色與GAN中的相似,即從噪聲空間中映射數(shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行合成后欺騙D1和D2兩個(gè)鑒別器。這三個(gè)部分都由神經(jīng)網(wǎng)絡(luò)參數(shù)化而成,其中D1和D2不分享它們的參數(shù)。這種方法被稱為雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(D2GAN),見上圖1b。D1、D2和G遵循如下的極大極小公式:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

其中超參數(shù)GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!為了實(shí)現(xiàn)兩個(gè)目的。第一個(gè)是為了穩(wěn)定化模型的學(xué)習(xí)過程。兩個(gè)鑒別器的輸出結(jié)果都是正的,D1(G(z))和D2(x)可能會(huì)變得很大并比LogD1(x)和LogD2(x)有指數(shù)性的影響,最終會(huì)導(dǎo)致學(xué)習(xí)的不穩(wěn)定。為了克服這個(gè)問題,降低α和β的值。第二個(gè)目的是控制KL和反KL散度對(duì)優(yōu)化的影響。后面介紹過優(yōu)化方法后再對(duì)這個(gè)部分進(jìn)行討論。

與GAN相似的是,通過交替更新D1、D2和G可以訓(xùn)練D2GAN。

理論分析

通過理論分析發(fā)現(xiàn),假設(shè)G、D1和D2具備足夠的容量,如非參數(shù)的限制下,在最佳點(diǎn),G可以通過最小化模型和數(shù)據(jù)分布的KL和反KL散度恢復(fù)數(shù)據(jù)分布。首先,假設(shè)生成器是固定的,通過(w.r.t)鑒別器進(jìn)行優(yōu)化分析:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

證明:根據(jù)誘導(dǎo)測(cè)度定理,兩個(gè)期望相等:

當(dāng)GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!時(shí),GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!。目標(biāo)函數(shù)可以推演如下:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

考慮到里面的函數(shù)積分,給定x,通過兩個(gè)變量D1、D2最大化函數(shù),得到D1*(x)和D2*(x)。將D1和D2設(shè)置為0,可以得到:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!是非正數(shù),則證明成立并得到了最大值。

接下來,GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!,計(jì)算生成器G的最優(yōu)方案G*。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

證明:將D1*和D2*代入極大極小方程,得到:

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

 GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!分別是KL和反KL散度。這些散度通常是非負(fù)的,并且只在PG*=Pdata時(shí)等于0。換言之,生成器生成的分布PG*與數(shù)據(jù)分布完全等同,這就意味著由于兩個(gè)分布的返回值都是1,兩個(gè)鑒別器在這種情況下就不能分辨真假樣本了。

如上公式中生成器的誤差表明提高α可以促進(jìn)最小化KL散度(GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!)的優(yōu)化,提高β可促進(jìn)最小化反KL散度(GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!)的優(yōu)化。通過調(diào)整α和β這兩個(gè)超參數(shù),可以平衡KL散度和反KL散度的影響,從而有效地避免模式崩潰的問題。

實(shí)驗(yàn)

在這個(gè)部分,作者進(jìn)行了廣泛的實(shí)驗(yàn)來驗(yàn)證的提高模式覆蓋率和提出的方法應(yīng)用在大規(guī)模數(shù)據(jù)庫上的能力。使用一個(gè)合成的2D數(shù)據(jù)庫進(jìn)行視覺和數(shù)值驗(yàn)證,并使用四個(gè)真實(shí)的數(shù)據(jù)庫(具有多樣性和大規(guī)模)進(jìn)行數(shù)值驗(yàn)證。同時(shí),將D2GAN和最新的GAN的應(yīng)用進(jìn)行對(duì)比。

從大量的實(shí)驗(yàn)得出結(jié)論:(i)鑒別器的輸出具有softplus activations:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!,如正ReLU;(ii)Adam優(yōu)化器,學(xué)習(xí)速率0.0002,一階動(dòng)量0.5;(iii)64個(gè)樣本作為訓(xùn)練生成器和鑒別器的minibatch訓(xùn)練單元;(iv)0.2斜率的Leaky ReLU;(v)權(quán)重從各項(xiàng)同性的高斯(Gaussian)分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!進(jìn)行初始化,0偏差。實(shí)現(xiàn)的過程使用了TensorFlow,并且在文章發(fā)表后發(fā)布出來。下文將介紹實(shí)驗(yàn)過程,首先是合成數(shù)據(jù)庫,然后是4個(gè)真實(shí)數(shù)據(jù)庫。

合成數(shù)據(jù)庫

在第一個(gè)實(shí)驗(yàn)中,使用已經(jīng)設(shè)計(jì)好的實(shí)驗(yàn)方案對(duì)D2GAN處理多模態(tài)數(shù)據(jù)的能力進(jìn)行評(píng)估。特別的是,從2D混合8個(gè)高斯分布和協(xié)方差矩陣0.02I 獲取訓(xùn)練數(shù)據(jù),同時(shí)中位數(shù)分布在半徑2.0零質(zhì)心的圓中。使用一個(gè)簡單的架構(gòu),包含一個(gè)生成器(兩個(gè)全連接隱藏層)和兩個(gè)鑒別器(一個(gè)ReLU激發(fā)層)。這個(gè)設(shè)定是相同的,因此保證了公平的對(duì)比。圖2c顯示了512個(gè)由D2GAN和基線生成的樣本??梢钥闯觯R?guī)的GAN產(chǎn)生的數(shù)據(jù)在數(shù)據(jù)分布的有效模式附近的一個(gè)單一模式上奔潰了。而unrolledGAN和D2GAN可以在8個(gè)混合部分分布數(shù)據(jù),這就印證了能夠成功地學(xué)習(xí)多模態(tài)數(shù)據(jù)的能力。最后,D2GAN所截取的數(shù)據(jù)比unrolledGAN更精確,在各種模式下,unrolledGAN只能集中在模式質(zhì)心附近的幾個(gè)點(diǎn),而D2GAN產(chǎn)生的樣本全分布在所有模式附近,這就意味著D2GAN產(chǎn)生的樣本比unrolledGAN多得多。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

下一步,定量的進(jìn)行生成數(shù)據(jù)質(zhì)量的對(duì)比。因?yàn)橐阎鎸?shí)的分布Pdata,只需進(jìn)行兩步測(cè)量,即對(duì)稱KL散度和Wasserstein距離。這些測(cè)量分別是對(duì)由D2GAN、unrolledGAN和GAN的10000個(gè)點(diǎn)歸一化直方與真實(shí)的Pdata之間的距離計(jì)算。圖2a/b再次清楚了表明了D2GAN相對(duì)于unrolled和GAN的優(yōu)勢(shì)(距離越小越好);特別是Wasserstein度量,D2GAN離真實(shí)分布的距離基本上減小到0了。這些圖片也表達(dá)了D2GAN相對(duì)于GAN(綠色曲線)和unrolledGAN(藍(lán)色曲線)在訓(xùn)練時(shí)的穩(wěn)定性。

真實(shí)數(shù)據(jù)庫

下面,使用真實(shí)數(shù)據(jù)庫對(duì)D2GAN進(jìn)行評(píng)估。在真實(shí)數(shù)據(jù)庫條件下,數(shù)據(jù)擁有更高的多樣性和更大的規(guī)模。對(duì)含有卷積層的網(wǎng)絡(luò),根據(jù)DCGAN進(jìn)行設(shè)計(jì)分析。鑒別器使用帶步長的卷積,生成器使用分步帶步長的卷積。每個(gè)層都進(jìn)行批處理標(biāo)準(zhǔn)化,除了生成器輸出層和鑒別器的輸入層。鑒別器還使用Leaky ReLU 激發(fā)層,生成器使用ReLU層,除非其輸出是tanh,原因是各像素的強(qiáng)度值在反饋到D2GAN模型前已經(jīng)變換到[-1,1]的區(qū)間內(nèi)。唯一的區(qū)別是,在D2GAN下,當(dāng)從N(0,0.01)初始化權(quán)重時(shí),其表現(xiàn)比從N(0,0.02)初始化權(quán)重的效果好。架構(gòu)的細(xì)節(jié)請(qǐng)看論文附件。

評(píng)估方式

評(píng)估生成對(duì)抗模型產(chǎn)生的樣本是很難的,原因有生成概率判斷標(biāo)準(zhǔn)繁多、缺乏有意義的圖像相似性度量標(biāo)準(zhǔn)。盡管生成器可以產(chǎn)生看似真實(shí)的圖像,但是如果這些圖像看起來非常近似,樣本依然不可使用。因此,為了量化各種模式下的圖像質(zhì)量,同時(shí)生產(chǎn)高質(zhì)量的樣本圖樣,使用各種不用的ad-hoc度量進(jìn)行不同的實(shí)驗(yàn)來進(jìn)行D2GAN方法與各基線方法的效果對(duì)比。

首先,使用起始分值(Inception Score),計(jì)算通過:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!,這里P(y|x)是通過預(yù)訓(xùn)練的初始模型的圖像x的條件標(biāo)簽分布,P(y)是邊際分布:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!。這種度量方式會(huì)給質(zhì)量高的多樣的圖片給高分,但是有時(shí)候很容易被崩潰的模式欺騙,導(dǎo)致產(chǎn)生非常低質(zhì)量的圖片。因此,這種方式不能用于測(cè)量模型是否陷入了錯(cuò)誤的模式。為了解決這個(gè)問題,對(duì)有標(biāo)簽的數(shù)據(jù)庫,使用MODE score:GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

這里,GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!是訓(xùn)練數(shù)據(jù)的預(yù)估標(biāo)簽的經(jīng)驗(yàn)分布。MODE score的值可以充分的反應(yīng)生成圖像的多樣性和視覺質(zhì)量。

手寫數(shù)字圖像

這個(gè)部分使用手寫數(shù)字圖像-MNIST,數(shù)據(jù)庫包含有60,000張訓(xùn)練圖像和10,000張測(cè)試灰度圖(28*28像素),數(shù)值區(qū)間從0到9。首先,假設(shè)MNIST有10個(gè)模式,代表了數(shù)據(jù)分支的連接部分,分為10個(gè)數(shù)字等級(jí)。然后使用不同的超參數(shù)配置進(jìn)行擴(kuò)展的網(wǎng)格搜索,使用兩個(gè)正則常數(shù)α和β,數(shù)值為{0.01,0.05,0.1,0.2}。為了進(jìn)行公平的對(duì)比,對(duì)不同的架構(gòu)使用相同的參數(shù)和全連接層。

評(píng)估部分,首先訓(xùn)練一個(gè)簡單的但有效的3-layer卷積網(wǎng)絡(luò)(MNIST測(cè)試庫實(shí)現(xiàn)0.65%的誤差),然后將它應(yīng)用于預(yù)估標(biāo)簽的概率和生成樣本的MODE score計(jì)算中。圖3左顯示了3個(gè)模式下MODE score的分布。清晰的看到,D2GAN相對(duì)于標(biāo)準(zhǔn)GAN和Reg-GAN的巨大優(yōu)越性,其分?jǐn)?shù)的最大值基本落在區(qū)間【8.0-9.0】。值得注意的是,盡管提高網(wǎng)絡(luò)的復(fù)雜度,MODE score基本保持高水平。這幅圖片中只表現(xiàn)了最小網(wǎng)絡(luò)和最少層和隱藏單元的結(jié)果。

為了研究α和β的影響,在不同的α和β的數(shù)值下進(jìn)行試驗(yàn)(圖3右)。結(jié)果表明,給定α值,D2GAN可以在β達(dá)到一定數(shù)值時(shí)獲得更好的MODE score,當(dāng)β數(shù)值繼續(xù)增大,MODE score降低。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

MNIST-1K.   假定10個(gè)模式的標(biāo)準(zhǔn)MNIST數(shù)據(jù)庫相當(dāng)簡單。因此,基于這個(gè)數(shù)據(jù)庫,作者使用一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)庫進(jìn)行測(cè)試。沿用上述的方式,假定一個(gè)新的有1000個(gè)等級(jí)的MNIST數(shù)據(jù)庫(MNIST-1K),方法為用3個(gè)隨機(jī)數(shù)字組成一個(gè)RGB圖像。由此,可以組成1000個(gè)離散的模式,從000到999。

在這個(gè)實(shí)驗(yàn)中,使用一個(gè)更強(qiáng)大的模型,鑒別器使用卷積層,生成器使用轉(zhuǎn)置卷積。通過測(cè)試模式的數(shù)量進(jìn)行模型的性能評(píng)估,其中模型在25,600個(gè)樣本中至少產(chǎn)生一個(gè)模式,同時(shí)反KL散度分布介于模型分布(如從預(yù)訓(xùn)練的MNIST分類器預(yù)測(cè)的標(biāo)簽分布)和期望的數(shù)據(jù)分布之間。表1報(bào)告了D2GAN與GAN、unrolledGAN、GCGAN和Reg-GAN之間的對(duì)比。通過對(duì)比可以看出D2GAN具有極大的優(yōu)勢(shì),同時(shí)模型分布和數(shù)據(jù)分布之間的差距幾近為0。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

自然場景圖像

 下面是將D2GAN應(yīng)用到更廣泛的自然場景圖像上,用于驗(yàn)證其在大規(guī)模數(shù)據(jù)庫上的表現(xiàn)。使用三個(gè)經(jīng)常被使用的數(shù)據(jù)庫:CIFAR-10,STL-10和ImageNet。CIFAR-10包含50,000張32*32的訓(xùn)練圖片,有10個(gè)等級(jí):飛機(jī),摩托車,鳥,貓,鹿,狗,青蛙,馬,船和卡車(airplane, automobile, bird, cat, deer, dog, frog, horse, ship, and truck)。STL-10,是ImageNet的子數(shù)據(jù)集,包含10,000張未被標(biāo)記的96*96的圖片,相對(duì)于CIFAR-10更多樣,但是少于ImageNet。將所有的圖片向下縮小3倍至32*32分辨率后,再對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。ImageNet非常龐大,擁有120百萬自然圖片,包含1000個(gè)類別,通常ImageNet是深度網(wǎng)絡(luò)領(lǐng)域訓(xùn)練使用的最為龐大和復(fù)雜的數(shù)據(jù)庫。使用這三個(gè)數(shù)據(jù)庫進(jìn)行蓄念和計(jì)算,Inception score的結(jié)果如下圖和下方表格所示:

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

表格中和圖4中表示了Inception score在不同數(shù)據(jù)庫和不同模型上的不同值。值得注意的是,這邊的對(duì)比是在一個(gè)完美無監(jiān)督的方法下,并且沒有標(biāo)簽的信息。在CIFAR-10數(shù)據(jù)庫上使用的8個(gè)基線模型,而在STL-10和ImageNet數(shù)據(jù)庫上使用了DCGAN、DFM(denoising feature matching)作對(duì)比。在D2GAN的實(shí)現(xiàn)上使用了與DCGAN完全一致的網(wǎng)絡(luò)架構(gòu),以做公平的對(duì)比。在這三個(gè)實(shí)驗(yàn)結(jié)果中,可以看出,D2GAN的表現(xiàn)低于DFM,但是在很大的程度高于其他任何一個(gè)基線模型。這種遜于DFM的結(jié)果印證了對(duì)高級(jí)別的特征進(jìn)行自動(dòng)解碼是提高多樣性的一種有效方法。D2GAN可與這種方式兼容,因此融合這種做法可以為未來的研究帶來更好的效果。

最后,在圖5中展現(xiàn)了使用D2GAN生成的樣本圖片。這些圖片都是隨機(jī)產(chǎn)生的,而不是特別挑選的。從圖片中可以看出,D2GAN生成了可以視覺分辨的車,卡車,船和馬(在CIFAR-10數(shù)據(jù)庫的基礎(chǔ)上)。在STL-10的基礎(chǔ)上,圖片看起來相對(duì)比較難以辨認(rèn),但是飛機(jī),車,卡車和動(dòng)物的輪廓還是可以識(shí)別的;同時(shí)圖片還具備了多種背景,如天空,水下,山和森林(在ImageNet的基礎(chǔ)上)。這印證了使用D2GAN可以生成多樣性的圖片的結(jié)論。

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

結(jié)論

總結(jié)全文,作者介紹了一種全新的方法,結(jié)合KL(Kullback-Leibler)和反KL散度生成一個(gè)統(tǒng)一的目標(biāo)函數(shù)來解決密度預(yù)測(cè)問題。這種方法利用了這兩種散度的互補(bǔ)統(tǒng)計(jì)特性來提高生成器產(chǎn)生的圖像的質(zhì)量和樣本的多樣性。基于這個(gè)原理,作者引入了一種新的網(wǎng)絡(luò),基于生成對(duì)抗網(wǎng)絡(luò)(GAN),由三方構(gòu)成:兩個(gè)鑒別器和一個(gè)生成器,并命其為雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(dual discriminator GAN, D2GAN)。如果設(shè)定兩個(gè)鑒別器是固定的,同時(shí)優(yōu)化KL和反KL散度進(jìn)行生成器的學(xué)習(xí),通過這種方法可以幫助解決模式崩潰的問題(GAN的一大亟待突破的難點(diǎn))。

作者通過大量的實(shí)驗(yàn)對(duì)其提出的方法進(jìn)行了驗(yàn)證。這些實(shí)驗(yàn)的結(jié)果證實(shí)了D2GAN的高效性和擴(kuò)展性。實(shí)驗(yàn)使用的數(shù)據(jù)庫包括合成數(shù)據(jù)庫和大規(guī)模真實(shí)圖片數(shù)據(jù)庫,即MNIST、CIFAR-10,STL-10和ImageNet。相較于最新的基線方法,D2GAN更具擴(kuò)展性,可以應(yīng)用于業(yè)內(nèi)最為龐大和復(fù)雜的數(shù)據(jù)庫ImageNet,盡管取得了比融合DFM(denoising feature matching)和GAN的方法低的Inception score,但遠(yuǎn)遠(yuǎn)高于其他GAN應(yīng)用的實(shí)驗(yàn)結(jié)果。最后,作者指出,未來的研究可以借鑒融合DFM和GAN的做法,在現(xiàn)有的方法基礎(chǔ)上增加類似半監(jiān)督學(xué)習(xí)、條件架構(gòu)和自動(dòng)編碼等的技術(shù),更進(jìn)一步的解決生成對(duì)抗網(wǎng)絡(luò)在應(yīng)用中的問題。

論文地址:https://arxiv.org/abs/1709.03831 

雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

GAN生成的結(jié)果多樣性不足怎么辦?那就再添一個(gè)鑒別器!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說