GANs中的明星StarGAN：使用單一模型執(zhí)行多個(gè)域的圖像轉(zhuǎn)換，GAN之父點(diǎn)贊

本文作者：岑大師

2017-11-29 02:44

導(dǎo)語(yǔ)：StarGAN：一種新穎且可擴(kuò)展的方法，可以僅使用一個(gè)模型來(lái)執(zhí)行多個(gè)域的圖像到圖像的轉(zhuǎn)換。

雷鋒網(wǎng)按：2017年可謂“GANs之年”，各種基于GANs的模型和變化層出不窮。近日，來(lái)自韓國(guó)首爾大學(xué)、Naver等研究者發(fā)布了一篇“StarGAN：Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation”的文章，下面雷鋒網(wǎng)和大家來(lái)看下這篇論文。

論文摘要：最近的研究表明在兩個(gè)領(lǐng)域的圖像轉(zhuǎn)化方面取得了顯著的成功。然而，現(xiàn)有的方法在處理兩個(gè)以上的域時(shí)在可伸縮性和魯棒性上存在局限，原因在于應(yīng)該為每一對(duì)圖像域獨(dú)立建立不同的模型。為了解決這個(gè)限制，我們提出了StarGAN，這是一種新穎且可擴(kuò)展的方法，可以僅使用一個(gè)模型來(lái)執(zhí)行多個(gè)域的圖像到圖像的轉(zhuǎn)換。 StarGAN這樣一個(gè)統(tǒng)一的模型體系架構(gòu)讓我們可以同時(shí)訓(xùn)練單個(gè)網(wǎng)絡(luò)中具有不同域的多個(gè)數(shù)據(jù)集，這導(dǎo)致StarGAN的圖像轉(zhuǎn)化結(jié)果比現(xiàn)有模型質(zhì)量更高，并具有將輸入圖像靈活轉(zhuǎn)化成任何期望目標(biāo)域的新穎能力。我們憑經(jīng)驗(yàn)證明了我們的方法在面部屬性轉(zhuǎn)移和面部表情合成任務(wù)上的有效性。

GANs中的明星StarGAN：使用單一模型執(zhí)行多個(gè)域的圖像轉(zhuǎn)換，GAN之父點(diǎn)贊

（圖2：StarGAN進(jìn)行多個(gè)域的圖像轉(zhuǎn)換）

圖2為在CelebA數(shù)據(jù)集上通過(guò)傳遞從RaFD數(shù)據(jù)集中學(xué)習(xí)到的知識(shí)，進(jìn)行多領(lǐng)域圖像到圖像的轉(zhuǎn)換結(jié)果。第一列和第六列顯示輸入圖像，而其余的列是由StarGAN生成的圖像。（值得注意的是，圖像由一個(gè)單一的生成器網(wǎng)絡(luò)產(chǎn)生，如憤怒、快樂(lè)和恐懼等面部表情標(biāo)簽來(lái)自RaFD，而不是CelebA。）

圖像到圖像轉(zhuǎn)換的任務(wù)是將給定圖像的某個(gè)特定屬性改變?yōu)榱硪环N屬性，例如將人的面部表情從微笑改變?yōu)榘櫭迹ㄒ妶D2）。而在引入生成對(duì)抗網(wǎng)絡(luò)（GAN）之后，這個(gè)任務(wù)進(jìn)一步升級(jí)，生成結(jié)果包括改變頭發(fā)顏色、從邊緣映射重建照片、改變風(fēng)景圖像的季節(jié)等。

給定來(lái)自兩個(gè)不同域的訓(xùn)練數(shù)據(jù)，這些模型將學(xué)習(xí)如何將圖像從一個(gè)域轉(zhuǎn)換到另一個(gè)域中。在這里，我們將術(shù)語(yǔ)屬性用諸如頭發(fā)顏色、性別或年齡等這些圖像中固有意義的特征來(lái)表示，并將屬性值作為屬性的特定值，例如頭發(fā)顏色：黑色/金色/棕色，或性別：男性/女性。我們進(jìn)一步將域表示為一組共享相同屬性值的圖像。例如，女性的圖像可以代表一個(gè)域，而男性的圖像則代表另一個(gè)域。

某些圖像數(shù)據(jù)集會(huì)帶有一些標(biāo)注屬性，例如，CelebA數(shù)據(jù)集包含40個(gè)與面部屬性相關(guān)的標(biāo)簽，如頭發(fā)顏色、性別和年齡等，而RaFD數(shù)據(jù)集有8個(gè)面部表情標(biāo)簽，如“開心”、“憤怒”、“悲傷”等。這些設(shè)置屬性使我們能夠執(zhí)行更多有趣的任務(wù)，我們稱之為多域的圖像到圖像轉(zhuǎn)換，即根據(jù)來(lái)自多個(gè)域的屬性來(lái)變換圖像，如圖2中的前五列顯示了一個(gè)CelebA圖像是如何按照“金發(fā)”、“性別”、“老年”和“蒼白的皮膚”四這個(gè)域中來(lái)進(jìn)行轉(zhuǎn)換的。我們還可以進(jìn)一步擴(kuò)展到從不同的數(shù)據(jù)集中訓(xùn)練多個(gè)域，如聯(lián)合訓(xùn)練CelebA和RaFD圖像，如圖2最右一列就是使用在RaFD訓(xùn)練過(guò)程中學(xué)習(xí)的特征來(lái)改變CelebA圖像的面部表情。

GANs中的明星StarGAN：使用單一模型執(zhí)行多個(gè)域的圖像轉(zhuǎn)換，GAN之父點(diǎn)贊

（圖3：StarGAN與Cross-domain models的區(qū)別）

然而，目前的模型在這種多域的圖像轉(zhuǎn)換任務(wù)中效率不高且效果低下。它們效率不高主要是為了學(xué)習(xí)k個(gè)域之間的所有映射，必須訓(xùn)練k（k-1）個(gè)生成器，如圖3所示，左邊表明了在4個(gè)不同的域中進(jìn)行圖像轉(zhuǎn)換需要訓(xùn)練12個(gè)不同的生成器，而它們效果也不是很好。即便存在諸如面部形狀這樣可以從所有域的圖像中學(xué)習(xí)的全局特征，每個(gè)生成器都不能充分利用整個(gè)訓(xùn)練數(shù)據(jù)，而只能從k個(gè)中的兩個(gè)域中進(jìn)行學(xué)習(xí)，這也進(jìn)一步限制了生成圖像的質(zhì)量。此外，由于每個(gè)數(shù)據(jù)集已經(jīng)是部分標(biāo)注的，所以他們無(wú)法聯(lián)合訓(xùn)練來(lái)自不同數(shù)據(jù)集的域。

基于此，我們提出StarGAN，一個(gè)能夠?qū)W習(xí)多個(gè)域之間相互映射的生成對(duì)抗網(wǎng)絡(luò)。如上圖右側(cè)所示，我們的模型可以從多個(gè)域中提取訓(xùn)練數(shù)據(jù)，并僅使用一個(gè)生成器就可以學(xué)習(xí)所有可用域之間的映射。這個(gè)想法很簡(jiǎn)單：我們的模型將圖像和域信息作為輸入而不是學(xué)習(xí)固定轉(zhuǎn)換（例如，黑色到金色的頭發(fā)），并學(xué)習(xí)將輸入圖像靈活地轉(zhuǎn)換到相應(yīng)的域。我們使用標(biāo)簽（例如，二進(jìn)制或onehot向量）來(lái)表示域信息。在訓(xùn)練中，我們隨機(jī)生成一個(gè)目標(biāo)域標(biāo)簽，并訓(xùn)練模型以靈活地將輸入圖像轉(zhuǎn)換到目標(biāo)域。這樣，我們可以控制域標(biāo)簽，并在測(cè)試階段將圖像轉(zhuǎn)換成任何期望的域。

我們還提出了一種簡(jiǎn)單而有效的方法，這一方法可以通過(guò)向域標(biāo)簽添加一個(gè)掩碼向量，來(lái)實(shí)現(xiàn)不同數(shù)據(jù)集的域之間的聯(lián)合訓(xùn)練。這一方法確保模型可以忽略未知的標(biāo)簽并聚焦于特定數(shù)據(jù)集提供的標(biāo)簽。這樣，我們的模型可以很好地完成如使用從RaFD學(xué)習(xí)的特征來(lái)合成CelebA圖像的面部表情的任務(wù)（如圖2最右一列）。據(jù)我們所知，我們的該項(xiàng)研究是第一個(gè)在不同數(shù)據(jù)集上成功執(zhí)行多域圖像轉(zhuǎn)換的研究。

總的來(lái)說(shuō)，我們的貢獻(xiàn)如下：

?我們提出了一種全新的生成對(duì)抗網(wǎng)絡(luò)StarGAN，該網(wǎng)絡(luò)只使用一個(gè)生成器和一個(gè)鑒別器來(lái)學(xué)習(xí)多個(gè)域之間的映射，并從各個(gè)域的圖像中有效地進(jìn)行訓(xùn)練；

?我們演示了如何使用掩模向量方法（mask vector method）成功學(xué)習(xí)多個(gè)數(shù)據(jù)集之間的多域圖像轉(zhuǎn)換，并使得StarGAN控制所有可用的域標(biāo)簽；

?我們使用StarGAN進(jìn)行面部屬性轉(zhuǎn)換和面部表情合成任務(wù)，并對(duì)結(jié)果進(jìn)行了定性和定量分析，結(jié)果顯示其優(yōu)于基準(zhǔn)線模型。

點(diǎn)擊此處可閱讀完整論文。

反響：Ian GoodFellow點(diǎn)贊，網(wǎng)友熱議

GANs中的明星StarGAN：使用單一模型執(zhí)行多個(gè)域的圖像轉(zhuǎn)換，GAN之父點(diǎn)贊

不出所料，這篇論文被GAN的提出者Ian Goodfellow發(fā)推點(diǎn)贊，重點(diǎn)提了StarGAN在多個(gè)域中用非監(jiān)督學(xué)習(xí)方法進(jìn)行轉(zhuǎn)換的成果（之前的研究是在兩個(gè)域中進(jìn)行轉(zhuǎn)換）。

而在Reddit的Machine Learning版塊上，這篇論文也引起了熱烈討論，Reddit指數(shù)直逼一千。雷鋒網(wǎng)摘錄了幾條關(guān)于這篇文章的評(píng)價(jià)如下：

@ReginaldIII：

很酷的研究。令人驚訝的是，他們沒(méi)有在相關(guān)的工作中引用任何Google的神經(jīng)轉(zhuǎn)換的論文。將多個(gè)生成器模型編碼到一個(gè)共同的空間并在整個(gè)集合上進(jìn)行訓(xùn)練，這種想法并不是新鮮。盡管GAN的應(yīng)用給出了很好的結(jié)果。

@ajinkyablaze：

對(duì)于那些你的角色頂著丑陋的頭像的視頻游戲來(lái)說(shuō)是個(gè)不錯(cuò)的東西。

@Reiinakano對(duì)這條評(píng)論進(jìn)行了回復(fù)：

說(shuō)實(shí)話，這件事正在進(jìn)行，我敢說(shuō)現(xiàn)在已經(jīng)有一個(gè)非常清晰的路徑來(lái)生成惡搞奧巴馬（雷鋒網(wǎng)注：原文為“Obama punching babies”，punching babies為“喝酒”或“聚會(huì)”的代名詞）的視頻。

@bigassholeredditor ：

這看起來(lái)很棒。你們有預(yù)訓(xùn)練的模型嗎？

第一作者@Yunjey回復(fù)：

我們很快將上傳預(yù)訓(xùn)練的模型。

于是下面就被“一月內(nèi)求通知”刷了屏。

@abhik_singla：

這與Pix2Pix方法有什么區(qū)別？

@ProgrammerChilli回復(fù)：

論文中有提到。簡(jiǎn)單說(shuō)，Pix2pix要求明確地學(xué)習(xí)從一個(gè)域到另一個(gè)域的任何轉(zhuǎn)換，StarGAN可以一次學(xué)習(xí)幾個(gè)領(lǐng)域，并從任何領(lǐng)域轉(zhuǎn)換到另一個(gè)領(lǐng)域。我想，這就是它為什么用“STAR”命名的原因吧？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

9人收藏

相關(guān)文章

岑大師

發(fā)私信

當(dāng)月熱門文章