0
在機(jī)器學(xué)習(xí)研究領(lǐng)域,生成式對(duì)抗網(wǎng)絡(luò)(GAN)在學(xué)習(xí)生成模型方面占據(jù)著統(tǒng)治性的地位,在使用圖像數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,GAN能夠生成視覺上以假亂真的圖像樣本。但是這種靈活的算法也伴隨著優(yōu)化的不穩(wěn)定性,導(dǎo)致模式崩潰(mode collapse)。將自動(dòng)編碼器(auto-encoder)與GAN相結(jié)合,能夠使模型更好的表示所有被訓(xùn)練的數(shù)據(jù),以阻止模式崩潰。雷鋒網(wǎng)了解到,來自Google DeepMind的研究者M(jìn)ihaela Rosca等人利用生成模型的層級(jí)結(jié)構(gòu),提出了將自動(dòng)編碼器與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合的原則,結(jié)合了兩種方法的優(yōu)點(diǎn),得到了頂尖結(jié)果。
而Ian Goodfellow也鼎力推薦了論文內(nèi)容。
以下為雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論據(jù)論文內(nèi)容進(jìn)行的部分編譯:
生成對(duì)抗網(wǎng)絡(luò)是目前機(jī)器學(xué)習(xí)研究領(lǐng)域?qū)W習(xí)生成模型的最主要的方法之一,它提供了一種學(xué)習(xí)隱變量模型的更靈活的算法。定向隱變量模型描述了源噪聲數(shù)據(jù)是如何通過非線性函數(shù)變換為貌似真實(shí)的數(shù)據(jù)樣本的,而GAN則通過辨別真實(shí)數(shù)據(jù)和模型生成數(shù)據(jù)來驅(qū)動(dòng)學(xué)習(xí)過程。GAN可以在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,當(dāng)使用圖像數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,GAN能夠生成視覺上相當(dāng)真實(shí)的圖像樣本。但這種靈活性也帶來了優(yōu)化過程中的不穩(wěn)定性,會(huì)導(dǎo)致模式崩潰的問題,即生成的數(shù)據(jù)不能反應(yīng)潛在的數(shù)據(jù)分布的差異。基于自編碼器的GAN(auto-encoder-based GAN, AE-GAN)正是為了解決這個(gè)問題的GAN變種,它使用了自動(dòng)編碼器來鼓勵(lì)模型更好的表示所有被訓(xùn)練的數(shù)據(jù),從而阻止模式崩潰。
自動(dòng)編碼器的應(yīng)用成功的改善了GAN訓(xùn)練。例如,即插即用生成網(wǎng)絡(luò)(plug and play generative network, PPGN)通過優(yōu)化結(jié)合了自動(dòng)編碼器損失,GAN損失,和通過與訓(xùn)練的分類器定于的分類損失的目標(biāo)函數(shù),得到了最高水平的樣本。AE-GAN可以大致分為三種:(1)使用自動(dòng)編碼器作為判別器,例如energy-based GAN和boundary-equilibrium GAN。(2)使用去噪自動(dòng)編碼器以得到更稱其的輔助損失函數(shù),例如denoising feature matching GAN。(3)結(jié)合了VAE和GAN的方法,例如變分自動(dòng)編碼器GAN(variational auto-encoder GAN, VAE-GAN)。
該論文中,作者提出了結(jié)合AE-GAN的原則性方法。通過探索由GAN學(xué)習(xí)到的隱變量模型的層次結(jié)構(gòu),作者展示了如何將變分自動(dòng)編碼器與GAN結(jié)合到一起。該方法能夠克服各自方法的限制,因此具有極大的優(yōu)勢(shì)。當(dāng)基于圖像進(jìn)行訓(xùn)練時(shí),VAE方法經(jīng)常會(huì)生成模糊的圖像,但VAE不會(huì)像GAN一樣受到模式崩潰問題的困擾。GAN幾乎不允許對(duì)模型進(jìn)行分布假設(shè),而VAE允許對(duì)隱變量進(jìn)行推斷,這對(duì)于表征學(xué)習(xí),可視化和解釋是很有用的。該論文開發(fā)的方法結(jié)合了這兩個(gè)方法中的優(yōu)點(diǎn),提供統(tǒng)一的學(xué)習(xí)目標(biāo)函數(shù),無監(jiān)督,不需要預(yù)訓(xùn)練或外部分類器,并且可以輕松的擴(kuò)展到其他生成模型任務(wù)。
該論文主要進(jìn)行了一下工作:
表明變分推理(variational inference)同樣使用與GAN,以及如何可以將判別器用于具有隱式后驗(yàn)近似的變分推理。
在學(xué)習(xí)生成模型時(shí),可以組合likelihood-based和likelihood-free模型。在likelihood-free設(shè)定中,開發(fā)了具有合成似然性的變分推理,使得可以學(xué)習(xí)這種模型。
制定了自動(dòng)編碼GAN(auto-encoding GAN,α-GAN)的原則目標(biāo)函數(shù),并描述了使它進(jìn)行實(shí)際工作所需的思考。
評(píng)估是GAN研究中的主要挑戰(zhàn)之一,作者使用了一系列評(píng)估措施仔細(xì)評(píng)估了該方法的性能,與DC-GAN, WGAN和對(duì)抗-生成-編碼器(adversarial-generator-encoder,AGE)進(jìn)行比較,展示了論文中的方法與這些方法有相媲美的性能,并強(qiáng)調(diào)隱生成模型中持續(xù)評(píng)估的挑戰(zhàn)。
為了更好地理解基于自動(dòng)編碼器的方法在GAN領(lǐng)域中的重要性,作者將該方法與其他GAN方法在三個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比,包括混合模型AGE,和其他純GAN方法的變種,例如DCGAN和WGAN-GP。數(shù)據(jù)集為ColorMNIST,CelebA和CIFAR-10。在實(shí)驗(yàn)中,使用了Inception score,MS-SSIM和Independent Wasserstein critic作為評(píng)估指標(biāo)。為了綜合分析實(shí)驗(yàn)結(jié)果,結(jié)果采用了每個(gè)算法獲得的最佳值。為了評(píng)估模型對(duì)超參數(shù)的敏感性,采用了每個(gè)模型各個(gè)超參數(shù)中最好的十個(gè),在圖中由黑色圓圈表示。
圖一:Wasserstein critic指標(biāo)下各方法的實(shí)驗(yàn)結(jié)果
圖二:Sample diversity和Inception score指標(biāo)下各方法實(shí)驗(yàn)結(jié)果
ColorMNIST數(shù)據(jù)集結(jié)果:
在上圖(a)中比較了Wasserstein critic指標(biāo)的值,其中值越高越好。該方法對(duì)超參數(shù)的敏感度較低,在這個(gè)指標(biāo)下,該方法在各種設(shè)置下都取得了最佳的性能。這也在下圖生成的樣本中得到了證明:
從左到右分別為:DCGAN,WGAN-GP,AGE,論文中方法
CelebA數(shù)據(jù)集結(jié)果:
CelebA數(shù)據(jù)集有64*64像素的名人臉圖片組成。下圖展示了四種模型生成的樣本。作者也在Wasserstein critic指標(biāo)下(見圖一(b))和sample diversity score標(biāo)準(zhǔn)下(見圖二(a))對(duì)各方法進(jìn)行了比較,論文中方法與WGAN-GP和AGE方法有接近的表現(xiàn)。
從左到右分別為:DCGAN,WGAN-GP,AGE,論文中方法
CIFAR-10數(shù)據(jù)集結(jié)果:
下圖中展示了CIFAR-10數(shù)據(jù)集上四種模型生成的樣本。如圖一(c)所示,在Wasserstein critc指標(biāo)下,WGAN-GP是最佳模型。如圖二(b)所示,基于ImageNet的Inception score中,論文種方法有最佳的性能,如圖二(c)所示,基于CIFAR-10的Inception score中,論文中方法與DC-GAN有相近的性能。
從左到右分別為:DCGAN,WGAN-GP,AGE,論文采用的方法
想要深入了解該方法的請(qǐng)閱讀原論文:https://arxiv.org/pdf/1706.04987.pdf, 雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。