深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

本文作者： skura

2019-07-10 09:58

導(dǎo)語：一文看盡10大生成對抗網(wǎng)絡(luò)

雷鋒網(wǎng) AI 科技評論按，生成對抗網(wǎng)絡(luò)是當(dāng)前最熱門的技術(shù)之一，它掀起了一場技術(shù)革命，取得了很多重大的突破。不久前，伊利諾伊大學(xué)香檳分校的學(xué)生 Ajay Uppili Arasanipalai 在 Deep Learning 專欄發(fā)布了一篇文章，文章詳細介紹了 GAN 自被提出以來的發(fā)展歷史，以及各種相關(guān)的論文、代碼和博客。雷鋒網(wǎng) AI 科技評論將他的文章編譯整理如下。

當(dāng) Ian Goodfellow 在 2014 年喝了一杯啤酒之后，在夢中產(chǎn)生了「生成對抗網(wǎng)絡(luò)」（GANs）的想法時，他可能沒想到這一領(lǐng)域進展如此之快：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

你可能不知道我要表達什么意思——其實你剛才看到的圖片完全、不可否認、100%…是假的。

此外，我并不是說，這些圖片都是 photoshop、CGI 或用 Nvidia 目前的高級新技術(shù)填補空白產(chǎn)生的。

我的意思是，這些圖像完全是通過加法、乘法在花費了大量 GPU 計算之后生成的。

實現(xiàn)這些玩意兒的算法被稱為生成性對抗網(wǎng)絡(luò)，在過去幾年中，F(xiàn)acebook 致力于生成對抗網(wǎng)絡(luò)的研究和創(chuàng)新比在隱私保護問題上更多。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

2019 年 1 月 15 日，Ian Goodfellow 在 twitter 中表示，過去 4 年半，GAN 在人臉生成方面的進展可以查看下面的資料：

https://t.co/kiQkuYULMC
https://t.co/S4aBsU536b
https://t.co/8di6K6BxVC
https://t.co/UEFhewds2M
https://t.co/s6hKQz9gLz
https://t.co/F9Dkcfrq8l

總結(jié) 2014 年 vanilla GAN 的每一個進步，就和觀看第 8 季《權(quán)力的游戲》一樣困難。因此，我將回顧幾年來 GAN 研究中最酷結(jié)果背后的關(guān)鍵思想。

我不打算詳細解釋轉(zhuǎn)置卷積和 Wasserstein 距離等概念。相反，我將提供一些最好的資源的鏈接，你可以使用這些資源快速了解這些概念，這樣你就會了解它們是如何融入大局的。

如果你還在閱讀，我假設(shè)你知道深度學(xué)習(xí)的基礎(chǔ)知識，你知道卷積神經(jīng)網(wǎng)絡(luò)是如何工作的。
帶著這些前提，下面先看看 GAN 的發(fā)展路線圖：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

GAN 的發(fā)展路線圖

我們將按照下面的順序，一步一步學(xué)習(xí)它：

GAN：生成對抗網(wǎng)絡(luò)
DCGAN：深度卷積生成對抗網(wǎng)絡(luò)
CGAN：條件生成對抗網(wǎng)絡(luò)
CycleGAN
CoGAN：耦合生成對抗網(wǎng)絡(luò)
ProGAN：生成對抗網(wǎng)絡(luò)的漸進式增長
WGAN：Wasserstein 生成對抗網(wǎng)絡(luò)
SAGAN：自注意力生成對抗網(wǎng)絡(luò)
BigGAN：大生成對抗性網(wǎng)絡(luò)
StyleGAN：基于風(fēng)格的生成對抗網(wǎng)絡(luò)

接下來讓我們開始吧！

1.GAN：生成對抗網(wǎng)絡(luò)

圖片來自于這篇論文：https://arxiv.org/pdf/1406.2661.pdf

相關(guān)資源：

論文
代碼
其他重要資源：Ian Goodfellow 的 NIPS 2016 教程

現(xiàn)在，我知道你在想什么了——天啊，那張令人毛骨悚然的、模糊的圖像看起來像是一個數(shù)學(xué)迷從 Excel 表格中制作圖片后放大的結(jié)果。

好吧，其實你猜的多多少少是對的（除去 excel 部分）。

早在 2014 年，Ian Goodfellow 就提出了一個革命性的想法——讓兩個神經(jīng)網(wǎng)絡(luò)相互競爭（或合作，這是一個觀點問題）。

一個神經(jīng)網(wǎng)絡(luò)試圖生成接近真實的數(shù)據(jù)（注意，GANs 可以用來模擬任何數(shù)據(jù)分布，但目前主要用于圖像），另一個網(wǎng)絡(luò)試圖區(qū)分真實的數(shù)據(jù)和由生成網(wǎng)絡(luò)生成的數(shù)據(jù)。

生成器網(wǎng)絡(luò)使用判別器作為損耗函數(shù)，并更新其參數(shù)以生成看起來更真實的數(shù)據(jù)。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

另一方面，判別器網(wǎng)絡(luò)更新其參數(shù)，以便更好地從真實數(shù)據(jù)中識別出假數(shù)據(jù)。所以它的性能也變得更好了。

這個貓鼠游戲繼續(xù)進行，直到系統(tǒng)達到所謂的「平衡」。達到平衡以后，生成器創(chuàng)建的數(shù)據(jù)看起來足夠真實，因此判別器能做的只是是隨機猜測。

希望到目前為止，如果你正確地縮進了代碼，并且 Amazon 決定不停止你的 SPOT 實例（順便說一句，這不會發(fā)生在 FloydHub 上，因為它們提供了專用的 GPU 機器），那么你現(xiàn)在就有了一個生成器，可以精確地創(chuàng)建和你的訓(xùn)練數(shù)據(jù)集相同的新數(shù)據(jù)。

現(xiàn)在，這是公認的 GANs 的一個非常簡單的觀點。你需要從這里學(xué)到的思想是，通過使用兩個神經(jīng)網(wǎng)絡(luò)——一個神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)，另一個神經(jīng)網(wǎng)絡(luò)從假數(shù)據(jù)中分類出真實數(shù)據(jù)。從理論上來說，你可以同時訓(xùn)練它們，收斂到一個點，在這個點上，生成器可以生成全新的、真實的數(shù)據(jù)。

2.DCGAN：深卷積生成對抗網(wǎng)絡(luò)

圖片來源：https://arxiv.org/pdf/1511.06434.pdf

相關(guān)資源：

論文
代碼
其他資源: 媒體文章

看到了吧，我會給你節(jié)省時間。

卷積=對于圖像處理來說很有用

GANs=適合生成一些東西

卷積+GANs=適合生成圖像

事后看來，正如 Ian Goodfellow 在與 Lex Fridman 在一次廣播節(jié)目中所指出的那樣，他們將這種模型稱為 DCGAN（即「深層卷積生成對抗網(wǎng)絡(luò)」）似乎很愚蠢，因為現(xiàn)在幾乎所有與深度學(xué)習(xí)和圖像相關(guān)的東西都是深度的、卷積的。

另外，當(dāng)大多數(shù)人了解到 GANs 時，他們或多或少都會知道它們是「深度而卷積」的。

然而，曾經(jīng)有一段時間，GANs 并不一定使用基于卷積的操作，而是依賴于標準的多層感知器架構(gòu)。
DCGAN 改變了這一點，使用了一種被稱為轉(zhuǎn)置卷積運算的方法，它還有一個「不幸的」名稱，即反卷積層。

轉(zhuǎn)置卷積可以進行向上縮放操作。它們幫助我們將低分辨率圖像轉(zhuǎn)換為高分辨率圖像。

但是，嚴肅地說，你需要通過上面介紹的論文、低嗎和媒體資源來更好地理解轉(zhuǎn)置卷積，因為它們是所有現(xiàn)代 GAN 架構(gòu)的基礎(chǔ)。

不過，如果你的時間有點短，那么你可以通過觀看一個簡單的動畫，來大概了解轉(zhuǎn)置卷積是如何工作的：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

在 vanilla 卷積中，你應(yīng)用一系列卷積（連同其他操作）來將圖像映射到更低維的向量。

同樣，按順序應(yīng)用多個轉(zhuǎn)置卷積可以使我們將一個低分辨率的單陣列演化為一個色彩明艷的全彩圖像。
現(xiàn)在，在繼續(xù)之前，我們先來探索一下使用 GAN 的一些獨特方法。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

你現(xiàn)在處在第二個紅色的「X」的位置

3.CGAN：條件生成對抗網(wǎng)絡(luò)

圖片來源于論文：https://arxiv.org/pdf/1411.1784.pdf

相關(guān)資源：

論文
代碼
其他重要資源：博客

原始的 GAN 從隨機噪聲中生成數(shù)據(jù)。這意味著你可以訓(xùn)練它，以小狗圖像為例，它會產(chǎn)生更多的小狗圖像。

你還可以在小貓圖像上訓(xùn)練它，在這種情況下，它將生成小貓的圖像。

你也可以在演員 Nicholas Cage 的照片圖像上訓(xùn)練它，在這種情況下，它將生成 Nicholas Cage 圖像。

你也可以在很多別的圖像上訓(xùn)練它。明白了嗎？在什么圖像上訓(xùn)練 GAN，它就能生成更多的類似圖像。

然而，如果你同時嘗試在狗和貓的圖像上訓(xùn)練它，它會生成模糊的半品種，就和下圖一樣。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

圖片由 Anusha Barwa 拍攝于 Unsplash

CGAN（代表「條件生成對抗網(wǎng)絡(luò)」）旨在通過告訴生成器只生成一個特定類的圖像來解決這個問題，例如貓、狗或 Nicholas Cage。

具體來說，CGAN 將一個 one-hot 向量 y 連接到隨機噪聲矢量 z，得到如下結(jié)構(gòu)：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

現(xiàn)在，我們就可以利用同一個 GAN 生成貓和狗。

4.CycleGAN

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

相關(guān)資源：

論文：
代碼
其他重要資源：Cyclegan 項目
媒體文章

GANs 不僅僅用于生成圖像。他們還可以創(chuàng)造外表上同時具有馬和斑馬特點的生物，如上圖所示。

為了創(chuàng)建這些圖像，CycleGAN 致力于解決一個被稱為圖像到圖像翻譯的問題。

CycleGAN 不是一種新的 GAN 架構(gòu)，雖然它推動了最先進的圖像合成技術(shù)。相反，它是一種使用 GANs 的聰明方法。所以你可以自由地在任何你喜歡的架構(gòu)中使用這種技術(shù)。

這里有一篇文章，我建議你讀一下。它寫得非常好，甚至對初學(xué)者來說也很容易理解。文章地址：https://arxiv.org/abs/1703.10593v6。

這里的任務(wù)是訓(xùn)練網(wǎng)絡(luò) G（X），將圖像從源域 X 映射到目標域 Y

但是，等等，你可能會問，「這和常規(guī)的深度學(xué)習(xí)或風(fēng)格轉(zhuǎn)換有什么不同」。

好吧，下面的圖片很好地總結(jié)了這一點。CycleGAN 進行未配對的圖像到圖像的轉(zhuǎn)換。這意味著我們正在訓(xùn)練的圖像不必代表相同的東西。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

如果我們有大量的圖像（DaVinci-ify 的圖像繪畫）對收藏的話，DaVinci-ify 將（相對地）很容易識別圖像。

不幸的是，這家伙沒來得及完成太多的畫。

然而，CycleGAN 使用未配對的數(shù)據(jù)進行訓(xùn)練。所以我們不需要相同事物的兩個圖像。

另一方面，我們可以使用樣式轉(zhuǎn)換。但這只會提取一個特定圖像的樣式，并將其轉(zhuǎn)換為另一個圖像，這意味著我們無法從馬轉(zhuǎn)換為斑馬。

然而，CycleGAN 學(xué)習(xí)從一個圖像域到另一個圖像域的映射。所以我們可以在所有 Monet 繪畫的集合上對它進行訓(xùn)練。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

他們使用的方法相當(dāng)優(yōu)雅。CycleGAN 由兩個生成器 G 和 F 以及兩個判別器 Dx 和 Dy 組成。

G 從 X 中獲取圖像，并試圖將其映射到 Y 中的某個圖像。判別器 Dy 判斷圖像是由 G 生成的，還是實際上是在 Y 中生成的。

同樣地，F(xiàn) 從 Y 中獲取一個圖像，并試圖將其映射到 X 中的某個圖像，判別器 Dx 預(yù)測圖像是由 F 生成的還是實際存在于 X 中的。

所有四個網(wǎng)絡(luò)都是以普通的 GAN 的方式訓(xùn)練的，直到得到強大的生成器 G 和 F，它們可以很好地執(zhí)行圖像到圖像的翻譯任務(wù)，騙過判別器。

這種對抗性的損失聽起來是個好主意，但還不夠。為了進一步提高性能，CycleGAN 使用另一個度量，即循環(huán)一致性損失。

一般來說，想想好的翻譯人員的特點。其中之一是，當(dāng)你來回翻譯時，你應(yīng)該得到同樣的東西。

CycleGAN 巧妙地實現(xiàn)了這個想法，它強制網(wǎng)絡(luò)遵守這些限制條件：

F（G（x））≈x，x∈X
G（F（y））≈y，y∈Y

從視覺上看，循環(huán)一致性如下：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

總損耗函數(shù)的構(gòu)造方式是，懲罰不符合上述特性的網(wǎng)絡(luò)。我不打算在這里寫出損失函數(shù)，因為這會破壞它在論文里面的組合方式。

好吧，在越聊越偏之前，讓我們回到尋找更好的 GAN 架構(gòu)的主要任務(wù)。

5.CoGAN：耦合生成對抗網(wǎng)絡(luò)

圖片來源于論文：https://arxiv.org/pdf/1606.07536.pdf

相關(guān)資源：

論文：
代碼：
其他重要資源：博客論文

你知道什么比一個 GAN 更好嗎？兩個 GAN！

CoGAN 就是這樣做的（CoGAN 代表「耦合生成對抗網(wǎng)絡(luò)」，不要與 CGAN 混淆，CGAN 代表條件生成對抗網(wǎng)絡(luò)）。它訓(xùn)練的是「兩個」GAN 而不是一個。

當(dāng)然，GAN 的研究人員也無法停止將 GAN 類比成警察和偽造者的言論。因此，GAN 背后的思想，用作者自己的話說就是：

在比賽中，有兩個隊，每個隊有兩名隊員。生成模型組成一個團隊，共同在兩個不同的域中合成一對圖像，以混淆區(qū)分模型。判別模型試圖將從各自領(lǐng)域的訓(xùn)練數(shù)據(jù)分布中提取的圖像與從各自生成模型中提取的圖像區(qū)分開來。同一隊的隊員之間的協(xié)作是從權(quán)重分擔(dān)機制中建立起來的。

好吧，有一個由多個 GAN 組成的局域網(wǎng)絡(luò)聽起來不錯，但你如何使它工作？

結(jié)果證明這并不太復(fù)雜，你只需要讓網(wǎng)絡(luò)對某些層使用完全相同的權(quán)重。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

在我看來，CoGAN 最酷的地方不在于它能提高圖像生成質(zhì)量，也不在于它可以在多個圖像域上訓(xùn)練。

事實上，你只需要花費 1.5 張圖片的代價來得到 2 張圖片。

因為共享了一些權(quán)重，所以與兩個單獨的 GAN 相比，CoGAN 的參數(shù)更少（因此可以節(jié)省更多的內(nèi)存、計算和存儲空間）。

這是一種「過時」的微妙技巧，而且我們今天看到的一些 GAN 的新方法是不使用它們的。

但總有一天，我想我們會再次用到它們的。

6.ProGAN：漸進式增長的生成對抗網(wǎng)絡(luò)

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

圖片來源于論文：https://arxiv.org/pdf/1710.10196.pdf

相關(guān)資源推薦：

論文：
代碼
其他優(yōu)秀資源：媒體文章

演示視頻

在訓(xùn)練 GANs 的時候會有很多問題，其中最重要的是訓(xùn)練的不穩(wěn)定性。

有時，GAN 的損耗會波動，因為生成器和判別器會相互破壞另一方的學(xué)習(xí)。其他時候，在網(wǎng)絡(luò)聚合后損耗可能會爆炸，圖像開始變得看起來可怕。

ProGAN（代表了生成對抗網(wǎng)絡(luò)的逐步增長）是一種通過增加生成圖像的分辨率來幫助穩(wěn)定 GAN 訓(xùn)練的技術(shù)。

這里我們會有一種直覺，那就是生成 4x4 圖像比生成 1024x1024 圖像更容易。此外，將 16x16 圖像映射到 32x32 圖像比將 2x2 圖像映射到 32x32 圖像更容易。

因此，ProGAN 首先訓(xùn)練一個 4x4 生成器和一個 4x4 判別器，然后在訓(xùn)練過程中添加對應(yīng)于更高分辨率的層。這個動畫總結(jié)了我所描述的：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

7.WGAN: Wasserstein 生成對抗網(wǎng)絡(luò)

圖片來源于論文：https://arxiv.org/pdf/1701.07875.pdf

相關(guān)資源推薦：

論文
代碼
其他優(yōu)秀資源：DFL 課程

博客文章

其它博客

媒體文章

這一部分也許是這篇文章中最偏理論和數(shù)學(xué)的一部分。作者把大量的證明、推論和一些數(shù)學(xué)術(shù)語塞進其中。所以如果積分概率度量和 Lipschitz 連續(xù)性不是你關(guān)心的事情，我不會在這件事上花太多時間。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

簡而言之，WGAN（W 代表 Wasserstein）提出了一種新的成本函數(shù)，這種函數(shù)有一些非常好的性質(zhì)，使得它在數(shù)學(xué)家和統(tǒng)計學(xué)家中非常流行。

這是舊版的 GANGAN minimax 優(yōu)化公式：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

這里是 WGAN 使用的新方法：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

在大多數(shù)情況下，這就是在實踐中使用 WGAN 所需要知道的全部內(nèi)容。

只需剔除舊的成本函數(shù)，它近似一個稱為 Jensen-Shannon 散度的統(tǒng)計量。然后加入新的成本函數(shù)，它近似一個稱為 1-Wasserstein 距離的統(tǒng)計量。

原因如下：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

圖片來源于論文：https://arxiv.org/pdf/1701.07875.pdf

然而，如果你感興趣，下面是對它的數(shù)學(xué)原理的快速回顧，而且這也正是 WGAN 論文如此受歡迎的原因。

原始的 GAN 論文表明，當(dāng)判別器為最優(yōu)時，生成器被更新，以使 Jensen-Shannon 散度最小化。

如果你不熟悉 Jensen-Shannon，我來解釋一下。Jensen-Shannon 散度是一種測量兩種不同的概率是如何分布的方法。JSD 越大，兩個分布越「不同」，反之亦然。計算方法如下：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

然而，最小化 JSD 是最好的方法嗎？

WGAN 論文的作者認為這可能不是，這是出于一個特殊的原因——當(dāng)兩個分布完全不重疊時，你可以發(fā)現(xiàn)，JSD 的值保持為 2log2 的常量值。

當(dāng)一個函數(shù)值為一個常量值時，它的梯度等于零，而零梯度是不好的，因為這意味著生成器什么也學(xué)不到。

WGAN 作者提出的替代距離度量的是 1-Wasserstein 距離，有時稱為地球移動距離。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

圖片來源于論文：https://arxiv.org/pdf/1701.07875.pdf

地球移動距離這個名稱是類比得來的。你可以想象，假設(shè)兩個分布中的一個是一堆土，另一個是一個坑。地球移動距離是指將土堆運至坑內(nèi)的成本，其前提是要盡可能高效地運輸泥土、沙子、灰塵等。在這里，「成本」被認為是點之間的距離×移動的土方量。

具體來說（沒有雙關(guān)語），兩個分布之間的地球移動距離可寫為：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

其中 inf 是中位數(shù)（最小值），x 和 y 是兩個分布上的點，γ是最佳的運輸方法。

不幸的是，它的計算非常復(fù)雜，難以解決。因此，我們計算的是完全不同的東西：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

這兩個方程之間的聯(lián)系一開始似乎并不明顯，但通過一個叫做 Kantorovich-Rubenstein 對偶的奇特數(shù)學(xué)公式，你可以證明這些 Wasserstein/地球移動器距離的公式正試圖計算相同的事情。

如果你不能在我給出的論文和博客文章中學(xué)到一些重要的數(shù)學(xué)知識，不要擔(dān)心太多。關(guān)于 WGAN 的大部分工作，其實都只是為公認的簡單想法提供一個復(fù)雜的（嚴格的）理由。

8.SAGAN：自注意力生成對抗網(wǎng)絡(luò)

圖片來源于論文：https://arxiv.org/pdf/1805.08318v1.pdf

相關(guān)資源推薦：

論文
代碼
其他重要資源：博客文章

媒體文章

由于 GANs 使用轉(zhuǎn)置卷積來「掃描」特征圖，因此它們只能訪問附近的信息。

單獨使用轉(zhuǎn)置卷積就像在繪制圖片的時候，只查看畫筆小半徑范圍內(nèi)的畫布區(qū)域。

即使是可以完美地完成最特殊、最復(fù)雜的細節(jié)的最偉大的藝術(shù)家們，也需要后退一步，觀察全局。

SAGAN 使用自注意力機制，由于其轉(zhuǎn)換架構(gòu)，近年來它已非常流行。

自注意力讓生成器后退一步，看看「大局」。

9.BigGAN

相關(guān)資源推薦：

論文：
代碼：
其他重要資源：兩分鐘的論文視頻

梯度 pub 論文

媒體文章

四年之后，DeepMind 決定使用 GANs 做以前沒人做過的事。他們使用了一種神秘的深度學(xué)習(xí)技術(shù)，這種技術(shù)非常強大，使得當(dāng)前最先進的模型在恐懼中顫抖，因為它遠遠超越了當(dāng)時最先進的排行榜上的所有技術(shù)。

我向你介紹了 BigGAN，它是一個完全不做任何事情的 GAN（但是它運行著一組 TPU 集群，不知為何我覺得它應(yīng)該在這個列表中）。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

看起來像開玩笑的是，DeepMind 團隊的確利用 BigGAN 完成了很多工作。除了用真實的圖像吸引了所有的目光之外，BigGAN 還向我們展示了一些非常詳細的大規(guī)模訓(xùn)練的結(jié)果。

BigGAN 背后的團隊引入了各種技術(shù)，以克服跨多臺機器大批量訓(xùn)練 GAN 的不穩(wěn)定性。

首先，DeepMind 使用 SAGAN 作為基線，并附加了一個稱為譜歸一化的特征。他們將 batch 的大小縮放了 50%，寬度（通道數(shù)）縮放了 20%。最初，增加層的數(shù)量似乎沒有幫助。

在嘗試了很多其他方法之后，作者使用「截斷技巧」來提高采樣圖像的質(zhì)量。

在訓(xùn)練過程中，如果潛在向量在生成圖像時落在給定范圍之外，則對其重新采樣。給定范圍是一個超參數(shù)，用ψ表示。較小的ψ縮小了范圍，犧牲多樣性以增加樣品保真度。

那么，所有這些復(fù)雜的調(diào)優(yōu)工作都會產(chǎn)生什么結(jié)果呢？好吧，有人稱之為 dogball：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

BigGAN 還表明，大規(guī)模的訓(xùn)練會有自己的一系列問題。值得注意的是，通過增加 batch 大小和寬度等參數(shù)，訓(xùn)練似乎可以很好地擴展，但出于某種原因，訓(xùn)練最終會崩潰。

如果你覺得分析奇異常值來理解這種不穩(wěn)定性聽起來很有趣，請看這篇論文，在論文中，你會發(fā)現(xiàn)很多不穩(wěn)定性。

最后，作者還訓(xùn)練了一個 BigGAN 的新數(shù)據(jù)集，叫做 JFT-300，它是一個類似于 ImageNet 的數(shù)據(jù)集，大概有 3 億張圖片。BigGAN 在這個數(shù)據(jù)集上的表現(xiàn)更好，這表明更大規(guī)模的數(shù)據(jù)集可能是 GANs 的發(fā)展方向。

在論文的第一版發(fā)表后，過了幾個月，作者重新嘗試了 BigGAN。還記得我說過增加層數(shù)不起作用嗎？后面發(fā)現(xiàn)這是由于糟糕的架構(gòu)。

該團隊沒有將更多的層塞進模型中，而是進行了實驗，發(fā)現(xiàn)使用深度殘差網(wǎng)絡(luò) bottleneck 是解決問題的方法。

通過上述所有的調(diào)整、縮放和仔細的實驗，BigGAN 以最高 152.8 分的表現(xiàn)完全超越了先前的最先進的起步分數(shù) 52.52。

如果這都不是進步，那么我不知道什么才是進步。

10.StyleGAN：基于風(fēng)格的生成對抗性網(wǎng)絡(luò)

圖片來源于論文：https://arxiv.org/abs/1812.04948

相關(guān)資源推薦：

論文：
代碼：
其他優(yōu)質(zhì)資源：thispersondoesnotexist

博文

另外一篇博文

技術(shù)總結(jié)文

StyleGAN（style generative adversarial network）是 NVIDIA 研究院的成果，它與傳統(tǒng)的 GAN 的研究背道而馳，后者側(cè)重于損失函數(shù)、穩(wěn)定性、體系結(jié)構(gòu)等。

如果你想生成汽車的圖像，那么擁有一個世界級的、可以愚弄地球上大多數(shù)人的人臉圖像生成器是毫無意義的。

因此，StyleGAN 沒有專注于創(chuàng)建更真實的圖像，而是改進了 GANs 對生成的圖像進行精細控制的能力。

正如我提到的，StyleGAN 不專注于架構(gòu)和損失函數(shù)。相反，它是一套技術(shù)，可以與任何 GAN 一起使用，允許你執(zhí)行各種酷的事情，如混合圖像、在多個級別上改變細節(jié)以及執(zhí)行更高級的樣式轉(zhuǎn)換。

換言之，StyleGAN 就像一個 photoshop 插件，而大多數(shù) GAN 的進展都像是 photoshop 的新版本。

為了實現(xiàn)這一級別的圖像樣式控制，StyleGAN 使用了現(xiàn)有的技術(shù)，如自適應(yīng)實例規(guī)范化、潛在的矢量映射網(wǎng)絡(luò)和持續(xù)的學(xué)習(xí)輸入。

很難在不了解細節(jié)的情況下進一步描述 StyleGAN，因此如果你感興趣，請查看我的文章，我在其中演示了如何使用 StyleGAN 生成權(quán)力游戲里面的人物。我對其中所有的技術(shù)都有詳細的解釋，這里面有很多很酷的結(jié)果。

結(jié)論

哇，你做到了，祝賀你！你現(xiàn)在知道了這個領(lǐng)域里面的所有最新突破，包括制作虛假的個人資料圖片。
但是，在你躺在沙發(fā)上開始無休止的瀏覽推特之前，花點時間看看你已經(jīng)走了多遠：

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

接下來是什么？！未勘探區(qū)域！

在攀登了 ProGAN 和 StyleGAN 的山脈，穿越計算的海洋到達了 BigGAN 的廣闊領(lǐng)域之后，你很容易在這些地方迷路。

但是，請放大地圖仔細看看。你看到那片綠色的土地了嗎？看到北部的紅色三角洲了嗎？

這些是未經(jīng)探索的區(qū)域，還有待取得突破。如果你堅持信仰一直努力，他們都可以是你的。

再見，我的朋友，還有更大的海洋需要去航行。

結(jié)語：一些有趣的現(xiàn)代研究

到目前為止，如果你已經(jīng)閱讀了我共享的所有資源，那么你應(yīng)該對 GAN 技術(shù)的一些最重要的突破有了扎實的理解。

但毫無疑問，還會有更多的技術(shù)。跟上研究是困難的，但這并非不可能。我建議你盡量堅持閱讀最新的論文，因為它們可能會幫助你的項目產(chǎn)生最好的結(jié)果。

為了幫助你開始，以下是一些前沿研究項目（截至 2019 年 5 月）：

你現(xiàn)在可能已經(jīng)聽說了「DeOldify」。如果沒有，跳到這里！但它最近有一個更新，它引入了一種新的訓(xùn)練技術(shù) NoGAN。你可以在他們的博客和代碼中查看詳細信息。
如果你沒有 Google 級的數(shù)據(jù)量，那么從頭再現(xiàn) BigGAN 的結(jié)果是很有挑戰(zhàn)性的。這里有一篇 ICML2019 論文，它提議用更少的標簽來訓(xùn)練 BigGAN 模型。
當(dāng)然，GANs 并不是唯一一種基于深度學(xué)習(xí)的圖像生成技術(shù)。最近，OpenAI 推出了一個全新的模型，叫做稀疏 transformer，它利用 transformer 架構(gòu)來生成圖像。和往常一樣，他們發(fā)布了論文、博客和代碼。
雖然，這不是什么新的研究，但你應(yīng)該聽聽 GANs 的起源故事：

Nvidia 有一個非?？岬捻椖浚凶?GauGAN，它可以把隨手亂描的涂鴉變成現(xiàn)實主義的杰作。這確實是你需要經(jīng)歷才能理解的事情。所以先看看演示視頻，然后讀他們的博客和論文。
你有沒有想過如何「調(diào)試」一個 GAN？現(xiàn)在有一篇 ICLR 2019 論文提出了一個有希望的解決方案。
盡管我讓 GAN 看起來很酷，但接下來還有很多工作要做。有一篇優(yōu)秀的總結(jié)文總結(jié)了一些尚未解決的問題。
看起來，有人找到了另一種在真實世界中用 GAN 的方法。

深度學(xué)習(xí)最強資源推薦：一文看盡 GAN 的前世今生

關(guān)于這一點，可以查看 6 月 13 日，Yann LeCun 推薦的文章：https://t.co/IFYJwb30cw。

via：https://blog.floydhub.com/gans-story-so-far/

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

15人收藏

相關(guān)文章

skura

編輯

發(fā)私信

當(dāng)月熱門文章