深度：生成模型（GAN）的最新進展

本文作者：深度學習大講堂

2016-09-01 15:17

導語：GAN的簡介和最新進展介紹。

雷鋒網(wǎng)按：本文作者李嫣然，香港理工大學在讀博士生，研究方向為自然語言理解與對話生成。

摘要

在過去一兩年中，生成式模型 Generative Adversarial Networks（GAN）的新興為生成式任務帶來了不小的進展。盡管 GAN 在被提出時存在訓練不穩(wěn)定等諸多問題，但后來的研究者們分別從模型、訓練技巧和理論等方面對它做了改進。本文旨在梳理這些相關工作。

盡管大部分時候，有監(jiān)督學習比無監(jiān)督的能獲得更好的訓練效果。但真實世界中，有監(jiān)督學習需要的數(shù)據(jù)標注（label）是相對少的。所以研究者們從未放棄去探索更好的無監(jiān)督學習策略，希望能從海量的無標注數(shù)據(jù)中學到對于這個真實世界的表示（representation）甚至知識，從而去更好地理解我們的真實世界。

評價無監(jiān)督學習好壞的方式有很多，其中生成任務就是最直接的一個。只有當我們能生成/創(chuàng)造我們的真實世界，才能說明我們是完完全全理解了它。然而，生成任務所依賴的生成式模型（generative models）往往會遇到兩大困難。

首先是我們需要大量的先驗知識去對真實世界進行建模，其中包括選擇什么樣的先驗、什么樣的分布等等。而建模的好壞直接影響著我們的生成模型的表現(xiàn)。
另一個困難是，真實世界的數(shù)據(jù)往往很復雜，我們要用來擬合模型的計算量往往非常龐大，甚至難以承受。

而在過去一兩年中，有一個讓人興奮的新模型，則很好地避開了這兩大困難。這個模型叫做 Generative Adversarial Networks（GAN），由 [1] 提出。在原始的 GAN paper [1] 中，作者是用博弈論來闡釋了 GAN 框架背后的思想。每一個 GAN 框架，都包含著一對模型 —— 一個生成模型（G）和一個判別模型（D）。因為 D 的存在，才使得 GAN 中的 G 不再需要對于真實數(shù)據(jù)的先驗知識和復雜建模，也能學習去逼近真實數(shù)據(jù)，最終讓其生成的數(shù)據(jù)達到以假亂真的地步 —— D 也無法分別 —— 從而 G 和 D 達到了某種納什均衡。

[1] 的作者曾在他們的 slides 中，給出過一個比喻：在 GAN 中，生成模型（G）和判別模型（D）是小偷與警察的關系。G 生成的數(shù)據(jù)，目標是要騙過身為警察的判別模型（D）。也就是說，G 作為小偷，要盡可能地提高自己的偷竊手段，而 D 作為警察也要盡可能地提高自己的業(yè)務水平防止被欺騙。所以，GAN 框架下的學習過程就變成了一種生成模型（G）和判別模型（D）之間的競爭過程 —— 隨機從真實樣本和由生成模型（G）生成出的 “假樣本” 中取一個，讓判別模型（D）去判斷是否為真。所以，體現(xiàn)在公式上，就是下面這樣一個 minmax 的形式。

深度：生成模型（GAN）的最新進展

然而，GAN 雖然不再需要預先建模，但這個優(yōu)點同時也帶來了一些麻煩。那就是盡管它用一個 noise z 作為先驗，但生成模型如何利用這個 z，是無法控制的。也就是說，GAN 的學習模式太過于自由了，使得 GAN 的訓練過程和訓練結果很多時候都不太可控。為了穩(wěn)定 GAN ，后來的研究者們分別從 heuristic 、模型改進和理論分析的角度上提出了許多訓練技巧和改進方法。

比如在原始 GAN 論文 [1] 中，每次學習參數(shù)的更新過程，被設為 D 更新 k 回， G 才更新 1 回，就是出于減少 G 的 “自由度” 的考慮。

深度：生成模型（GAN）的最新進展

另一篇重量級的關于 GAN 訓練技巧的研究的工作便是 Deep Convolutional Generative Adversarial Networks（DCGAN）[6] 。[6] 中總結了許多對于 GAN 這的網(wǎng)絡結構設計和針對 CNN 這種網(wǎng)絡的訓練經(jīng)驗。比如，他們用 strided convolutional networks 替代傳統(tǒng) CNN 中的 pooling 層，從而將 GAN 中的生成模型（G）變成了 fully differentiable 的，結果使得 GAN 的訓練更加穩(wěn)定和可控。

為了提高訓練的穩(wěn)定性，另一個很自然的角度就是改變學習方法。把純無監(jiān)督的 GAN 變成半監(jiān)督或者有監(jiān)督的。這便可以為 GAN 的訓練加上一點點束縛，或者說加上一點點目標。[2] 中提出的 Conditional Generative Adversarial Nets （CGAN）便是十分直接的模型改變，在生成模型（G）和判別模型（D）的建模中均引入 conditional variable y，這個 y 就是數(shù)據(jù)的一種 label。也因此，CGAN 可以看做把無監(jiān)督的 GAN 變成有監(jiān)督的模型的一種改進。這個簡單直接的改進被證明非常有效，并廣泛用于后續(xù)的相關工作中。

深度：生成模型（GAN）的最新進展

第三種改進 GAN 過于自由的思路，和第一種會比較相似。既然太難控制 GAN 的學習，不如我們就拆解一下，不要讓 GAN 一次學完全部的數(shù)據(jù)，而是讓 GAN 一步步完成這個學習過程。具體到圖片生成來說就是，不要讓 GAN 中的生成模型（G）每次都直接生成一整張圖片，而是讓它生成圖片的一部分。這個思想可以認為是 DeepMind 也很有名的工作 DRAW 的一種變形。DRAW 的論文 [3] 開篇就說，我們?nèi)祟愒诶L制一張圖片時，很少是一筆完成的。既然我們?nèi)祟惗疾皇沁@樣，為什么我們要寄希望于機器可以做到呢？

論文 [4] 中提出的 LAPGAN 就是基于這個思想，將 GAN 的學習過程變成了 sequential “序列式” 的。具體上，LAPGAN 采用了 Laplacian Pyramid 實現(xiàn)了 “序列化” ，也因此起名做 LAPGAN 。值得一提的是，這個 LAPGAN 中也有 “殘差” 學習的思想（與后來大火的 ResNet 也算是有一點關聯(lián)）。在學習序列中，LAPGAN 不斷地進行 downsample 和 upsample 操作，然后在每一個 Pyramid level 中，只將殘差傳遞給判別模型（D）進行判斷。這樣的 sequential + 殘差結合的方式，能有效減少 GAN 需要學習的內(nèi)容和難度，從而達到了 “輔助” GAN 學習的目的。

深度：生成模型（GAN）的最新進展

另一個基于 sequential 思想去改進 GAN 的工作來自于 [5] 中的 GRAN。與 LAPGAN [4] 每一個 sequential step（Pyramid level）都是獨立訓練的不同的是，GRAN 把 GAN 和 LSTM 結合，讓 sequence 中的每一步學習和生成能充分利用上一步的結果。具體上來看，GRAN 的每一步都有一個像 LSTM 中的 cell，C_t，它決定了每一步生成的內(nèi)容和結果；GRAN 中的 h_{c,t} 也如 LSTM 一樣，代表著 hidden states 。既然是結合 LSTM 和 GAN，那么說完了 LSTM 方面的引入，便是 GAN 方面的了。GRAN 將 GAN 中生成模型（G）的先驗也進行了建模，變成了 hidden of prior h_z；然后將 h_z 和 h_{c,t} 拼接（concatenate）之后傳遞給每一步的 C_t。

深度：生成模型（GAN）的最新進展

最后一種改進 GAN 的訓練穩(wěn)定性的方式則更加貼近本質(zhì)，也是最新的研究成果。這便是號稱 openAI 近期五大突破之一的 infoGAN [7] 。InfoGAN [7] 的出發(fā)點是，既然 GAN 的自由度是由于僅有一個 noise z，而無法控制 GAN 如何利用這個 z。那么我們就盡量去想辦法在 “如何利用 z” 上做文章。于是，[7] 中將 z 做了拆解，認為 GAN 中生成模型（G）應該包含的 “先驗” 分成兩種：

（1）不能再做壓縮的 noise z；
（2）和可解釋地、有隱含意義的一組隱變量 c_1, c_2, …, c_L，簡寫為 c 。這里面的思想主要是，當我們學習生成圖像時，圖像有許多可控的有含義的維度，比如筆劃的粗細、圖片的光照方向等等，這些便是 c ；而剩下的不知道怎么描述的便是 z 。

這樣一來，[7] 實際上是希望通過拆解先驗的方式，讓 GAN 能學出更加 disentangled 的數(shù)據(jù)表示（representation），從而既能控制 GAN 的學習過程，又能使得學出來的結果更加具備可解釋性。為了引入這個 c ，[7] 利用了互信息的建模方式，即 c 應該和生成模型（G）基于 z 和 c 生成的圖片，即 G ( z,c )，高度相關 —— 互信息大。

利用這種更加細致的隱變量建?？刂疲琲nfoGAN 可以說將 GAN 的發(fā)展又推動了一步。首先，它們證明了 infoGAN 中的 c 對于 GAN 的訓練是有確實的幫助的，即能使得生成模型（G）學出更符合真實數(shù)據(jù)的結果。其次，他們利用 c 的天然特性，控制 c 的維度，使得 infoGAN 能控制生成的圖片在某一個特定語義維度的變化。

深度：生成模型（GAN）的最新進展

然而實際上， infoGAN 并不是第一個將信息論的角度引入 GAN 框架的工作。這是因為，在 infoGAN 之前，還有一個叫做 f-GAN [8] 的工作。并且，GAN 本身也可以從信息論角度去解釋。如本文開篇所說，在原始 GAN 論文 [1] 中，作者是通過博弈論的角度解釋了 GAN 的思想。然而，GAN 的生成模型（G）產(chǎn)生的數(shù)據(jù)和真實數(shù)據(jù)就可以看做一顆硬幣的兩面。當拋硬幣拋到正面時，我們就將一個真實數(shù)據(jù)樣本展示給判別模型（D）；反之，則展示由生成模型（G）生成的“假”樣本。

而 GAN 的理想狀態(tài)是，判別模型（D）對于硬幣的判斷幾乎等同于隨機，也就是生成模型（G）產(chǎn)生的數(shù)據(jù)完全符合真實數(shù)據(jù)。那么這時候，GAN 的訓練過程實際在做的就是最小化這顆硬幣和真實數(shù)據(jù)之間的互信息。互信息越小，判別模型（D）能從觀察中獲得的信息越少，也就越只能像 “隨機” 一樣猜結果。既然有了這樣一個從互信息角度的對于 GAN 的理解，那么是否能對 GAN 進行更進一步的改造呢？其實是可以的。比如可以把針對互信息的建模更進一步地泛化為基于 divergence 的優(yōu)化目標。這方面的討論和改進可以見論文 [8]，f-GAN 。

上面這些對于 GAN 的改進工作都幾乎是在短短一年半時間內(nèi)完成的，尤其是近半年。這里面最大的原因就在于 GAN 相較于以前的 generative models，巧妙地將 “真假” 樣本轉換為一種隱性的 label，從而實現(xiàn)了一種 “無監(jiān)督” 的生成式模型訓練框架。這種思想也可以從某種程度上看做 word2vec 中 Skip-Gram 的一種變形。未來，不僅僅是 GAN 的更多改進值得被期待，無監(jiān)督學習和生成式模型的發(fā)展也同樣值得關注。

References:

1.《Generative Adversarial Nets》
2.《Conditional Generative Adversarial Nets》
3.《DRAW: A Recurrent Neural Network For Image Generation》
4.《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》
5.《Generating Images with Recurrent Adversarial Networks》
6.《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》
7.《InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets》
8.《f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization》

雷鋒網(wǎng)注：本文由深度學習大講堂授權雷鋒網(wǎng)發(fā)布，如需轉載請聯(lián)系原作者并注明作者出處，不得刪減內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

4人收藏

深度學習大講堂

專欄作者

高質(zhì)量原創(chuàng)內(nèi)容平臺，學術界、工業(yè)界一線專家撰稿，致力于推送人工智能與深度學習最新技術、產(chǎn)品和活動。

掃描關注作者微信

發(fā)私信

當月熱門文章