丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

1

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

本文作者: skura 2019-04-15 14:23
導語:都是干貨~

雷鋒網(wǎng) AI 科技評論按,本文作者是我愛饅頭,原載于知乎

前陣子學習 GAN 的過程發(fā)現(xiàn)現(xiàn)在的 GAN 綜述文章大都是 2016 年 Ian Goodfellow 或者自動化所王飛躍老師那篇??墒窃谏疃葘W習,GAN 領(lǐng)域,其進展都是以月來計算的,感覺那兩篇綜述有些老了。最近發(fā)現(xiàn)有一篇最新的有關(guān) GAN 綜述的 paper[1],四十余頁,介紹了 GAN 的各個方面,于是就學習并整理筆記如下。文中許多內(nèi)容大都根據(jù)自己所學總結(jié),有不當之處歡迎指出。此外,本文參考了許多博客資料,已給出參考鏈接。如有侵權(quán),請私信刪除。文章目錄如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

1. GAN 的基本介紹

生成對抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks)作為一種優(yōu)秀的生成式模型,引爆了許多圖像生成的有趣應(yīng)用。GAN 相比于其他生成式模型,有兩大特點:

  • 不依賴任何先驗假設(shè)。傳統(tǒng)的許多方法會假設(shè)數(shù)據(jù)服從某一分布,然后使用極大似然去估計數(shù)據(jù)分布。

  • 生成 real-like 樣本的方式非常簡單。GAN 生成 real-like 樣本的方式通過生成器 (Generator) 的前向傳播,而傳統(tǒng)方法的采樣方式非常復雜,有興趣的同學可以參考下周志華老師的《機器學習》一書中對各種采樣方式的介紹。

下面,我們圍繞上述兩點展開介紹。

1.1 GAN 的基本概念

GAN(Generative Adversarial Networks)從其名字可以看出,是一種生成式的,對抗網(wǎng)絡(luò)。再具體一點,就是通過對抗的方式,去學習數(shù)據(jù)分布的生成式模型。所謂的對抗,指的是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的互相對抗。生成網(wǎng)絡(luò)盡可能生成逼真樣本,判別網(wǎng)絡(luò)則盡可能去判別該樣本是真實樣本,還是生成的假樣本。示意圖如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

隱變量 z(通常為服從高斯分布的隨機噪聲)通過 Generator 生成  Xfake,判別器負責判別輸入的 data 是生成的樣本 Xfake 還是真實樣本 Xreal。優(yōu)化的目標函數(shù)如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

對于判別器 D 來說,這是一個二分類問題,V(D,G) 為二分類問題中常見的交叉熵損失。對于生成器 G 來說,為了盡可能欺騙 D,所以需要最大化生成樣本的判別概率 D(G(z)),即最小化萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用 (注意: 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用一項與生成器 G 無關(guān),所以可以忽略。)

實際訓練時,生成器和判別器采取交替訓練,即先訓練 D,然后訓練 G,不斷往復。值得注意的是,對于生成器,其最小化的是萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用,即最小化 V(D,G) 的最大值。為了保證 V(D,G) 取得最大值,所以我們通常會訓練迭代 k 次判別器,然后再迭代 1 次生成器(不過在實踐當中發(fā)現(xiàn),k 通常取 1 即可)。當生成器 G 固定時,我們可以對 V(D,G) 求導,求出最優(yōu)判別器D*(x) :

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

把最優(yōu)判別器代入上述目標函數(shù),可以進一步求出在最優(yōu)判別器下,生成器的目標函數(shù)等價于優(yōu)化  pdata(x) , pg(x) 的 JS 散度 (JSD, Jenson Shannon Divergence)。

可以證明,當 G,D 二者的 capacity 足夠時,模型會收斂,二者將達到納什均衡。此時,pdata(x) = pg(x),判別器不論是對于 pdata(x) 還是 pg(x) 中采樣的樣本,其預測概率均為 0.5,即生成樣本與真實樣本達到了難以區(qū)分的地步。

1.2 目標函數(shù)

前面我們提到了 GAN 的目標函數(shù)是最小化兩個分布的 JS 散度。實際上,衡量兩個分布距離的方式有很多種,JS 散度只是其中一種。如果我們定義不同的距離度量方式,就可以得到不同的目標函數(shù)。許多對 GAN 訓練穩(wěn)定性的改進,比如 EBGAN,LSGAN 等都是定義了不同的分布之間距離度量方式。

1.2.1 f-divergence

f-divergence 使用下面公式來定義兩個分布之間的距離:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

上述公式中 f 為凸函數(shù),且 f(1) = 0。采用不同的 f 函數(shù)(Generator),可以得到不同的優(yōu)化目標。具體如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

值得注意的是,散度這種度量方式不具備對稱性,即萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用不相等(嚴格來說,距離度量方式必須具備對稱性,所以散度不是一種距離度量方式,不過此處不去刻意關(guān)注這一點,直接把散度也作為一種距離度量方式,下文也是如此)。

LSGAN

上面提到,LSGAN 是 f-divergence 中 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用 時的特殊情況。具體來說 LSGAN 的 Loss 如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

原作中取 a = c = 1,b = 0。LSGAN 有兩大優(yōu)點 [2]:

  • 穩(wěn)定訓練:解決了傳統(tǒng) GAN 訓練過程中的梯度飽和問題

  • 改善生成質(zhì)量:通過懲罰遠離判別器決策邊界的生成樣本來實現(xiàn)

對于第一點,穩(wěn)定訓練,可以先看一張圖:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

上圖左邊是傳統(tǒng) GAN 使用 sigmoid 交叉熵作為 loss 時,輸入與輸出的對照關(guān)系圖。上圖右邊是 LSGAN 使用最小二乘 loss 時,輸入與輸出的對照關(guān)系圖。可以看到,在左圖,輸入比較大的時候,梯度為 0,即交叉熵損失的輸入容易出現(xiàn)梯度飽和現(xiàn)象。而右邊的最小二乘 loss 則不然。

對于第二點,改善生成質(zhì)量。這個在原文也有詳細的解釋。具體來說:對于一些被判別器分類正確的樣本,其對梯度是沒有貢獻的。但是判別器分類正確的樣本就一定是很接近真實數(shù)據(jù)分布的樣本嗎?顯然不一定。

考慮如下理想情況,一個訓練良好的 GAN,真實數(shù)據(jù)分布 pdata 和 pg 生成數(shù)據(jù)分布 完全重合,判別器決策面穿過真實數(shù)據(jù)點,所以,反過來,我們利用樣本點離決策面的遠近來度量生成樣本的質(zhì)量,樣本離決策面越近,則 GAN 訓練的越好。

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

上圖 b 中,一些離決策面比較遠的點,雖然被分類正確,但是這些并不是好的生成樣本。傳統(tǒng) GAN 通常會將其忽略。而對于 LSGAN,由于采用最小二乘損失,計算決策面到樣本點的距離,如圖 c,可以把離決策面比較遠的點「拉」回來,也就是把離真實數(shù)據(jù)比較遠的點「拉」回來。

1.2.2 Integral probality metric(IPM)

IPM 定義了一個評價函數(shù)族 f,用于度量任意兩個分布之間的距離。在一個緊湊的空間 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用 中,定義  p(x) 為在 x上的概率測度。那么兩個分布 pdata,pg 之間的 IPM 可以定義為如下公式:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

類似于 f-divergence,不同函數(shù) f 也可以定義出一系列不同的優(yōu)化目標。典型的有 WGAN,F(xiàn)isher GAN 等。下面簡要介紹一下 WGAN。

WGAN

WGAN 提出了一種全新的距離度量方式——地球移動距離 (EM, Earth-mover distance),也叫 Wasserstein 距離。關(guān)于 Wasserstein 距離的介紹可以參考:

我愛饅頭:白話 Wassertein 距離

Wasserstein 距離具體定義如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用表示一組聯(lián)合分布,這組聯(lián)合分布里的任一分布 r 的邊緣分布均為 pdata(x) 和 pg(x)。

直觀上來說,概率分布函數(shù)(PDF)可以理解為隨機變量在每一點的質(zhì)量,所以  W(pdata, pg) 則表示把概率分布 pdata(x) 搬到 pg(x) 需要的最小工作量。

WGAN 也可以用最優(yōu)傳輸理論來解釋,WGAN 的生成器等價于求解最優(yōu)傳輸映射,判別器等價于計算 Wasserstein 距離,即最優(yōu)傳輸總代價 [4]。關(guān)于 WGAN 的理論推導和解釋比較復雜,不過代碼實現(xiàn)非常簡單。具體來說 [3]:

  • 判別器最后一層去掉 sigmoid

  • 生成器和判別器的 loss 不取 log

  • 每次更新判別器的參數(shù)之后把它們的絕對值截斷到不超過一個固定常數(shù) c

上述第三點,在 WGAN 的后來一篇工作 WGAN-GP 中,將梯度截斷替換為了梯度懲罰。

1.2.3 f-divergence 和 IPM 對比

  • f-divergence 存在兩個問題:其一是隨著數(shù)據(jù)空間的維度 的增加萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用,f-divergence 會非常難以計算。其二是兩個分布的支撐集 [3] 通常是未對齊的,這將導致散度值趨近于無窮。

  • IPM 則不受數(shù)據(jù)維度的影響,且一致收斂于 pdata, pg 兩個分布之間的距離。而且即便是在兩個分布的支撐集不存在重合時,也不會發(fā)散。

1.2.4 輔助的目標函數(shù)

在許多 GAN 的應(yīng)用中,會使用額外的 Loss 用于穩(wěn)定訓練或者達到其他的目的。比如在圖像翻譯,圖像修復,超分辨當中,生成器會加入目標圖像作為監(jiān)督信息。EBGAN 則把 GAN 的判別器作為一個能量函數(shù),在判別器中加入重構(gòu)誤差。CGAN 則使用類別標簽信息作為監(jiān)督信息。

1.3 其他常見生成式模型

1.3.1 自回歸模型:pixelRNN 與 pixelCNN

自回歸模型通過對圖像數(shù)據(jù)的概率分布 p_{data}(x) 進行顯式建模,并利用極大似然估計優(yōu)化模型。具體如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

上述公式很好理解,給定 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用 條件下,所有 p(xi) 的概率乘起來就是圖像數(shù)據(jù)的分布。如果使用 RNN 對上述依然關(guān)系建模,就是 pixelRNN。如果使用 CNN,則是 pixelCNN。具體如下 [5]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

pixelRNN

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

pixelCNN

顯然,不論是對于 pixelCNN 還是 pixelRNN,由于其像素值是一個個生成的,速度會很慢。語音領(lǐng)域大火的 WaveNet 就是一個典型的自回歸模型。

1.3.2 VAE

PixelCNN/RNN 定義了一個易于處理的密度函數(shù),我們可以直接優(yōu)化訓練數(shù)據(jù)的似然;對于變分自編碼器我們將定義一個不易處理的密度函數(shù),通過附加的隱變量 z 對密度函數(shù)進行建模。VAE 原理圖如下 [6]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

在 VAE 中,真實樣本 X 通過神經(jīng)網(wǎng)絡(luò)計算出均值方差(假設(shè)隱變量服從正態(tài)分布),然后通過采樣得到采樣變量 Z 并進行重構(gòu)。VAE 和 GAN 均是學習了隱變量 z 到真實數(shù)據(jù)分布的映射。但是和 GAN 不同的是:

  • GAN 的思路比較粗暴,使用一個判別器去度量分布轉(zhuǎn)換模塊(即生成器)生成分布與真實數(shù)據(jù)分布的距離。

  • VAE 則沒有那么直觀,VAE 通過約束隱變量 服從標準正態(tài)分布以及重構(gòu)數(shù)據(jù)實現(xiàn)了分布轉(zhuǎn)換映射

生成式模型對比

  • 自回歸模型通過對概率分布顯式建模來生成數(shù)據(jù)

  • VAE 和 GAN 均是:假設(shè)隱變量 z 服從某種分布,并學習一個映射 X = G(z),實現(xiàn)隱變量分布 z 與真實數(shù)據(jù)分布 pdata(x) 的轉(zhuǎn)換。

  • GAN 使用判別器去度量映射 X = G(z) 的優(yōu)劣,而 VAE 通過隱變量 z 與標準正態(tài)分布的 KL 散度和重構(gòu)誤差去度量。

1.4 GAN 常見的模型結(jié)構(gòu)

1.4.1 DCGAN

DCGAN 提出使用 CNN 結(jié)構(gòu)來穩(wěn)定 GAN 的訓練,并使用了以下一些 trick:

  • Batch Normalization

  • 使用 Transpose convlution 進行上采樣

  • 使用 Leaky ReLu 作為激活函數(shù)

上面這些 trick 對于穩(wěn)定 GAN 的訓練有許多幫助,自己設(shè)計 GAN 網(wǎng)絡(luò)時也可以酌情使用。

1.4.2 層級結(jié)構(gòu)

GAN 對于高分辨率圖像生成一直存在許多問題,層級結(jié)構(gòu)的 GAN 通過逐層次,分階段生成,一步步提生圖像的分辨率。典型的使用多對 GAN 的模型有 StackGAN,GoGAN。使用單一 GAN,分階段生成的有 ProgressiveGAN。StackGAN 和 ProgressiveGAN 結(jié)構(gòu)如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

1.4.3 自編碼結(jié)構(gòu)

經(jīng)典的 GAN 結(jié)構(gòu)里面,判別網(wǎng)絡(luò)通常被當做一種用于區(qū)分真實/生成樣本的概率模型。而在自編碼器結(jié)構(gòu)里面,判別器(使用 AE 作為判別器)通常被當做能量函數(shù) (Energy function)。對于離數(shù)據(jù)流形空間比較近的樣本,其能量較小,反之則大。有了這種距離度量方式,自然就可以使用判別器去指導生成器的學習。

AE 作為判別器,為什么就可以當做能量函數(shù),用于度量生成樣本離數(shù)據(jù)流形空間的距離呢?首先,先看 AE 的 loss:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

AE 的 loss 是一個重構(gòu)誤差。使用 AE 做為判別器時,如果輸入真實樣本,其重構(gòu)誤差會很小。如果輸入生成的樣本,其重構(gòu)誤差會很大。因為對于生成的樣本,AE 很難學習到一個圖像的壓縮表示(即生成的樣本離數(shù)據(jù)流行形空間很遠)。所以,VAE 的重構(gòu)誤差作為 pdata 和 pg 之間的距離度量是合理的。典型的自編碼器結(jié)構(gòu)的 GAN 有:BEGAN, EBGAN, MAGAN 等

1.5 GAN 的訓練障礙 (Obstacles)

1.5.1 理論中存在的問題

經(jīng)典 GAN 的判別器有兩種 loss,分別是:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

  • 使用上面第一個公式作為 loss 時:在判別器達到最優(yōu)的時候,等價于最小化生成分布與真實分布之間的 JS 散度,由于隨機生成分布很難與真實分布有不可忽略的重疊以及 JS 散度的突變特性,使得生成器面臨梯度消失的問題

  • 使用上面第二個公式作為 loss 時:在最優(yōu)判別器下,等價于既要最小化生成分布與真實分布直接的 KL 散度,又要最大化其 JS 散度,相互矛盾,導致梯度不穩(wěn)定,而且 KL 散度的不對稱性使得生成器寧可喪失多樣性也不愿喪失準確性,導致 collapse mode 現(xiàn)象 [7]。

1.5.2 實踐中存在的問題

GAN 在實踐中存在兩個問題:

其一,GAN 提出者 Ian Goodfellow 在理論中雖然證明了 GAN 是可以達到納什均衡的。可是我們在實際實現(xiàn)中,我們是在參數(shù)空間優(yōu)化,而非函數(shù)空間,這導致理論上的保證在實踐中是不成立的。

其二,GAN 的優(yōu)化目標是一個極小極大 (minmax) 問題,即萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用,也就是說,優(yōu)化生成器的時候,最小化的是萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用??墒俏覀兪堑鷥?yōu)化的,要保證 V(G,D) 最大化,就需要迭代非常多次,這就導致訓練時間很長。如果我們只迭代一次判別器,然后迭代一次生成器,不斷循環(huán)迭代。這樣原先的極小極大問題,就容易變成極大極小 (maxmin) 問題,可二者是不一樣的,即:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

如果變化為極小極大問題,那么迭代就是這樣的,生成器先生成一些樣本,然后判別器給出錯誤的判別結(jié)果并懲罰生成器,于是生成器調(diào)整生成的概率分布??墒沁@樣往往導致生成器變「懶」,只生成一些簡單的,重復的樣本,即缺乏多樣性,也叫 mode collapse。

1.5.3 穩(wěn)定 GAN 訓練的技巧

如上所述,GAN 在理論上和實踐上存在三個大問題,導致訓練過程十分不穩(wěn)定,且存在 mode collapse 的問題。為了改善上述情況,可以使用以下技巧穩(wěn)定訓練:

  • Feature matching: 方法很簡單,使用判別器某一層的特征替換原始 GAN Loss 中的輸出。即最小化:生成圖片通過判別器的特征和真實圖片通過判別器得到的特征之間的距離。

  • 標簽平滑:GAN 訓練中的標簽非 0 即 1,這使得判別器預測出來的 confidence 傾向于更高的值。使用標簽平滑可以緩解該問題。具體來說,就是把標簽 1 替換為 0.8~1.0 之間的隨機數(shù)。

  • 譜歸一化:WGAN 和 Improve WGAN 通過施加 Lipschitz 條件來約束優(yōu)化過程,譜歸一化則是對判別器的每一層都施加 Lipschitz 約束,但是譜歸一化相比于 Improve WGAN 計算效率要高一些。

  • PatchGAN:準確來說 PatchGAN 并不是用于穩(wěn)定訓練,但這個技術(shù)被廣泛用于圖像翻譯當中,PatchGAN 相當于對圖像的每一個小 Patch 進行判別,這樣可以使得生成器生成更加銳利清晰的邊緣。具體做法是這樣的:假設(shè)輸入一張 256x256 的圖像到判別器,輸出的是一個 4x4 的 confidence map,confidence map 中每一個像素值代表當前 patch 是真實圖像的置信度,即為 PatchGAN。當前圖像 patch 的大小就是感受野的大小,最后將所有 Patch 的 Loss 求平均作為最終的 Loss。

1.6 GAN mode collapse 的解決方案

1.6.1 針對目標函數(shù)的改進方法

為了避免前面提到的由于優(yōu)化 maxmin 導致 mode 跳來跳去的問題,UnrolledGAN 采用修改生成器 loss 來解決。具體而言,UnrolledGAN 在更新生成器時更新 k 次生成器,參考的 Loss 不是某一次的 loss,是判別器后面 k 次迭代的 loss。注意,判別器后面 k 次迭代不更新自己的參數(shù),只計算 loss 用于更新生成器。這種方式使得生成器考慮到了后面 k 次判別器的變化情況,避免在不同 mode 之間切換導致的模式崩潰問題。此處務(wù)必和迭代 k 次生成器,然后迭代 1 次判別器區(qū)分開 [8]。DRAGAN 則引入博弈論中的無后悔算法,改造其 loss 以解決 mode collapse 問題 [9]。前文所述的 EBGAN 則是加入 VAE 的重構(gòu)誤差以解決 mode collapse。

1.6.2 針對網(wǎng)絡(luò)結(jié)構(gòu)的改進方法

Multi agent diverse GAN(MAD-GAN) 采用多個生成器,一個判別器以保障樣本生成的多樣性。具體結(jié)構(gòu)如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

相比于普通 GAN,多了幾個生成器,且在 loss 設(shè)計的時候,加入一個正則項。正則項使用余弦距離懲罰三個生成器生成樣本的一致性。

MRGAN 則添加了一個判別器來懲罰生成樣本的 mode collapse 問題。具體結(jié)構(gòu)如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

輸入樣本 x 通過一個 Encoder 編碼為隱變量 E(x),然后隱變量被 Generator 重構(gòu),訓練時,Loss 有三個。DM 和 R(重構(gòu)誤差)用于指導生成 real-like 的樣本。而 DD 則對 E(x) 和 z 生成的樣本進行判別,顯然二者生成樣本都是 fake samples,所以這個判別器主要用于判斷生成的樣本是否具有多樣性,即是否出現(xiàn) mode collapse。

1.6.3 Mini-batch Discrimination

Mini-batch discrimination 在判別器的中間層建立一個 mini-batch layer 用于計算基于 L1 距離的樣本統(tǒng)計量,通過建立該統(tǒng)計量去判別一個 batch 內(nèi)某個樣本與其他樣本有多接近。這個信息可以被判別器利用到,從而甄別出哪些缺乏多樣性的樣本。對生成器而言,則要試圖生成具有多樣性的樣本。

2. 關(guān)于 GAN 隱空間的理解

隱空間是數(shù)據(jù)的一種壓縮表示的空間。通常來說,我們直接在數(shù)據(jù)空間對圖像進行修改是不現(xiàn)實的,因為圖像屬性位于高維空間中的流形中。但是在隱空間,由于每一個隱變量代表了某個具體的屬性,所以這是可行的。

在這部分,我們會探討 GAN 是如何處理隱空間及其屬性的,此外還將探討變分方法如何結(jié)合到 GAN 的框架中。

2.1 隱空間分解

GAN 的輸入隱變量 z 是非結(jié)構(gòu)化的,我們不知道隱變量中的每一位數(shù)分別控制著什么屬性。因此有學者提出,將隱變量分解為一個條件變量 c 和標準輸入隱變量 z。具體包括有監(jiān)督的方法和無監(jiān)督的方法。

2.1.1 有監(jiān)督方法

典型的有監(jiān)督方法有 CGAN,ACGAN。

CGAN 將隨機噪聲 z 和類別標簽 c 作為生成器的輸入,判別器則將生成的樣本/真實樣本與類別標簽作為輸入。以此學習標簽和圖片之間的關(guān)聯(lián)性。

ACGAN 將隨機噪聲 和類別標簽 作為生成器的輸入,判別器則將生成的樣本/真實樣本輸入,且回歸出圖片的類別標簽。以此學習標簽和圖片之間的關(guān)聯(lián)性。二者結(jié)構(gòu)如下 (左邊為 CGAN,右邊為 ACGAN):

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

2.1.2 無監(jiān)督方法

相比于有監(jiān)督方法,無監(jiān)督方法不使用任何標簽信息。因此,無監(jiān)督方法需要對隱空間進行解耦得到有意義的特征表示。

InfoGAN 對把輸入噪聲分解為隱變量 z 和條件變量 c(訓練時,條件變量 c 從均勻分布采樣而來。),二者被一起送入生成器。在訓練過程中通過最大化 c 和 G(z, c) 的互信息 I(c,G(z,c))  以實現(xiàn)變量解耦(萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用的互信息表示 c 里面關(guān)于 G(z,c) 的信息有多少,如果最大化互信息萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用,也就是最大化生成結(jié)果和條件變量 c 的關(guān)聯(lián)性)。模型結(jié)構(gòu)和 CGAN 基本一致,除了 Loss 多了一項最大互信息。具體如下 [10]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

從上面分析可以看出,InfoGAN 只是實現(xiàn)了信息的解耦,至于條件變量 c 每一個值的具體含義是什么,我們無法控制。于是 ss-InfoGAN 出現(xiàn)了,ss-InfoGAN 采用半監(jiān)督學習方法,把條件變量 c 分成兩部分萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用,css則利用標簽像 CGAN 一樣學習,則像 InfoGAN 一樣學習。

2.2 GAN 與 VAE 的結(jié)合

GAN 相比于 VAE 可以生成清晰的圖像,但是卻容易出現(xiàn) mode collapse 問題。VAE 由于鼓勵重構(gòu)所有樣本,所以不會出現(xiàn) mode collapse 問題。

一個典型結(jié)合二者的工作是 VAEGAN,結(jié)構(gòu)很像前文提及的 MRGAN,具體如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

上述模型的 Loss 包括三個部分,分別是判別器某一層特征的重構(gòu)誤差,VAE 的 Loss,GAN 的 Loss。

2.3 GAN 模型總結(jié)

前面兩節(jié)介紹了各種各樣的 GAN 模型,這些模型大都是圍繞著 GAN 的兩大常見問題:模式崩潰,以及訓練崩潰來設(shè)計的。下表總結(jié)了這些模型,讀者可以根據(jù)下表回顧對照:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

3. GAN 的應(yīng)用

由于 GAN 在生成樣本過程成不需要顯式建模任何數(shù)據(jù)分布就可以生成 real-like 的樣本,所以 GAN 在圖像,文本,語音等諸多領(lǐng)域都有廣泛的應(yīng)用。下表總結(jié)了 GAN 在各個方面的應(yīng)用,后文會這些算法做相應(yīng)介紹。

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

3.1 圖像

3.1.1 圖像翻譯

所謂圖像翻譯,指從一副(源域)圖像到另一副(目標域)圖像的轉(zhuǎn)換??梢灶惐葯C器翻譯,一種語言轉(zhuǎn)換為另一種語言。翻譯過程中會保持源域圖像內(nèi)容不變,但是風格或者一些其他屬性變成目標域。

Paired two domain data

成對圖像翻譯典型的例子就是 pix2pix,pix2pix 使用成對數(shù)據(jù)訓練了一個條件 GAN,Loss 包括 GAN 的 loss 和逐像素差 loss。而 PAN 則使用特征圖上的逐像素差作為感知損失替代圖片上的逐像素差,以生成人眼感知上更加接近源域的圖像。

Unpaired two domain data

對于無成對訓練數(shù)據(jù)的圖像翻譯問題,一個典型的例子是 CycleGAN。CycleGAN 使用兩對 GAN,將源域數(shù)據(jù)通過一個 GAN 網(wǎng)絡(luò)轉(zhuǎn)換到目標域之后,再使用另一個 GAN 網(wǎng)絡(luò)將目標域數(shù)據(jù)轉(zhuǎn)換回源域,轉(zhuǎn)換回來的數(shù)據(jù)和源域數(shù)據(jù)正好是成對的,構(gòu)成監(jiān)督信息。

3.1.2 超分辨

SRGAN 中使用 GAN 和感知損失生成細節(jié)豐富的圖像。感知損失重點關(guān)注中間特征層的誤差,而不是輸出結(jié)果的逐像素誤差。避免了生成的高分辨圖像缺乏紋理細節(jié)信息問題。

3.1.3 目標檢測

得益于 GAN 在超分辨中的應(yīng)用,針對小目標檢測問題,可以理由 GAN 生成小目標的高分辨率圖像從而提高目標檢測精度

3.1.4 圖像聯(lián)合分布學習

大部分 GAN 都是學習單一域的數(shù)據(jù)分布,CoupledGAN 則提出一種部分權(quán)重共享的網(wǎng)絡(luò),使用無監(jiān)督方法來學習多個域圖像的聯(lián)合分布。具體結(jié)構(gòu)如下 [11]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

如上圖所示,CoupledGAN 使用兩個 GAN 網(wǎng)絡(luò)。生成器前半部分權(quán)重共享,目的在于編碼兩個域高層的,共有信息,后半部分沒有進行共享,則是為了各自編碼各自域的數(shù)據(jù)。判別器前半部分不共享,后半部分用于提取高層特征共享二者權(quán)重。對于訓練好的網(wǎng)絡(luò),輸入一個隨機噪聲,輸出兩張不同域的圖片。

值得注意的是,上述模型學習的是聯(lián)合分布 P(x,y),如果使用兩個單獨的 GAN 分別取訓練,那么學習到的就是邊際分布 P(x) 和 P(y)。通常情況下,萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

3.1.5 視頻生成

通常來說,視頻有相對靜止的背景和運動的前景組成。VideoGAN 使用一個兩階段的生成器,3D CNN 生成器生成運動前景,2D CNN 生成器生成靜止的背景。Pose GAN 則使用 VAE 和 GAN 生成視頻,首先,VAE 結(jié)合當前幀的姿態(tài)和過去的姿態(tài)特征預測下一幀的運動信息,然后 3D CNN 使用運動信息生成后續(xù)視頻幀。Motion and Content GAN(MoCoGAN) 則提出在隱空間對運動部分和內(nèi)容部分進行分離,使用 RNN 去建模運動部分。

3.2 序列生成

相比于 GAN 在圖像領(lǐng)域的應(yīng)用,GAN 在文本,語音領(lǐng)域的應(yīng)用要少很多。主要原因有兩個:

  • GAN 在優(yōu)化的時候使用 BP 算法,對于文本,語音這種離散數(shù)據(jù),GAN 沒法直接跳到目標值,只能根據(jù)梯度一步步靠近。

  • 對于序列生成問題,每生成一個單詞,我們就需要判斷這個序列是否合理,可是 GAN 里面的判別器是沒法做到的。除非我們針對每一個 step 都設(shè)置一個判別器,這顯然不合理。

為了解決上述問題,強化學習中的策略梯度下降(Policy gredient descent)被引入到 GAN 中的序列生成問題。

3.2.1 音樂生成

RNN-GAN 使用 LSTM 作為生成器和判別器,直接生成整個音頻序列。然而,正如上面提到的,音樂當做包括歌詞和音符,對于這種離散數(shù)據(jù)生成問題直接使用 GAN 存在很多問題,特別是生成的數(shù)據(jù)缺乏局部一致性。

相比之下,SeqGAN 把生成器的輸出作為一個智能體 (agent) 的策略,而判別器的輸出作為獎勵 (reward),使用策略梯度下降來訓練模型。ORGAN 則在 SeqGAN 的基礎(chǔ)上,針對具體的目標設(shè)定了一個特定目標函數(shù)。

3.2.2 語言和語音

VAW-GAN(Variational autoencoding Wasserstein GAN) 結(jié)合 VAE 和 WGAN 實現(xiàn)了一個語音轉(zhuǎn)換系統(tǒng)。編碼器編碼語音信號的內(nèi)容,解碼器則用于重建音色。由于 VAE 容易導致生成結(jié)果過于平滑,所以此處使用 WGAN 來生成更加清晰的語音信號。

3.3 半監(jiān)督學習

圖像數(shù)據(jù)的標簽獲得需要大量的人工標注,這個過程費時費力。

3.3.1 利用判別器進行半監(jiān)督學習

基于 GAN 的半監(jiān)督學習方法 [12] 提出了一種利用無標簽數(shù)據(jù)的方法。實現(xiàn)方法和原始 GAN 基本一樣,具體框架如下 [13]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

相比于原始 GAN,主要區(qū)別在于判別器輸出一個 K+1 的類別信息(生成的樣本為第 K+1 類)。對于判別器,其 Loss 包括兩部分,一個是監(jiān)督學習損失(只需要判斷樣本真假),另一個是無監(jiān)督學習損失(判斷樣本類別)。生成器則只需要盡量生成逼真的樣本即可。訓練完成后,判別器就可以作為一個分類模型去分類。

從直觀上來看,生成的樣本主要在于輔助分類器學會區(qū)分真實的數(shù)據(jù)空間在哪里。

3.2.2 使用輔助分類器的半監(jiān)督學習

上面提及的利用判別器進行半監(jiān)督學習的模型存在一個問題。判別器既要學習區(qū)分正負樣本,也要學習預測標簽。二者目標不一致,容易導致二者都達不到最優(yōu)。一個直觀的想法就把預測標簽和區(qū)分正負樣本分開。Triple-GAN 就是這么做的 [14]:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用分別表示生成的數(shù)據(jù),有標簽的數(shù)據(jù),無標簽的數(shù)據(jù)。CE 表示交叉熵損失。

3.4 域適應(yīng)

域適應(yīng)是一個遷移學習里面的概念。簡單說來,我們定義源數(shù)據(jù)域分布為 Ds(x,y),目標數(shù)據(jù)域分布為DT(x,y)。對于源域數(shù)據(jù),我們有許多標簽,但是對于目標域的數(shù)據(jù)沒有標簽。我們希望能通過源域的有標簽數(shù)據(jù)和目標域的無標簽數(shù)據(jù)學習一個模型,在目標域泛化的很好。遷移學習的「遷移」二字指的是源域數(shù)據(jù)分布向目標域數(shù)據(jù)分布的遷移。

GAN 用于遷移學習時,核心思想在于使用生成器把源域數(shù)據(jù)特征轉(zhuǎn)換成目標域數(shù)據(jù)特征,而判別器則盡可能區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù)特征。以下是兩個把 GAN 應(yīng)用于遷移學習的例子 DANN 和 ARDA:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

以上圖左邊的 DANN 為例,Is,It 分別代表源域數(shù)據(jù),目標域的數(shù)據(jù),ys 表示源域數(shù)據(jù)的標簽。Fs,F(xiàn)t 表示源域特征,目標域特征。DANN 中,生成器用于提取特征,并使得提取的特征難以被判別器區(qū)分是源域數(shù)據(jù)特征還是目標域數(shù)據(jù)特征。

在行人重識別領(lǐng)域,有許多基于 CycleGAN 的遷移學習以進行數(shù)據(jù)增廣的應(yīng)用。行人重識別問題一個難點在于不同攝像頭下拍攝的人物環(huán)境,角度差別非常大,導致存在較大的 Domain gap。因此,可以考慮使用 GAN 來產(chǎn)生不同攝像頭下的數(shù)據(jù)進行數(shù)據(jù)增廣。[15] 中提出了一個 cycleGAN 用于數(shù)據(jù)增廣的方法。具體模型結(jié)構(gòu)如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

對于每一對攝像頭都訓練一個 cycleGAN,這樣就可以實現(xiàn)將一個攝像頭下的數(shù)據(jù)轉(zhuǎn)換成另一個攝像頭下的數(shù)據(jù),但是內(nèi)容(人物)保持不變。

3.5 其他應(yīng)用

GAN 的變體繁多,應(yīng)用非常廣泛,在一寫非機器學習領(lǐng)域也有應(yīng)用,以下是一些例子。

3.5.1 醫(yī)學圖像分割

[16] 提出了一種 segmentor-critic 結(jié)構(gòu)用于分割醫(yī)學圖像。segmentor 類似于 GAN 中的生成器用于生成分割圖像,critic 則最大化生成的分割圖像和 ground truth 之間的距離。此外,DI2IN 使用 GAN 分割 3D CT 圖像,SCAN 使用 GAN 用于分割 X 射線圖像。

3.5.2 圖片隱寫

隱寫指的是把秘密信息隱藏到非秘容器,比如圖片中。隱寫分析器則用于判別容器是否含有秘密信息。一些研究嘗試使用 GAN 的生成器生成帶有隱寫信息的圖片,判別器則有兩個,一個用于判別圖片是否是真實圖片,另一個則判別圖片是否具有秘密信息 [17]。

3.6.3 連續(xù)學習

連續(xù)學習目的在于解決多個任務(wù),且在學習過程中不斷積累新知識。連續(xù)學習中存在一個突出的問題就是「知識遺忘」。[18] 中使用 GAN 的生成器作為一個 scholars model,生成器不斷使用以往知識進行訓練,solver 則給出答案,以此避免「知識遺忘」問題。

4. 討論

在第一,二部分我們討論了 GAN 及其變體,第三部分討論了 GAN 的應(yīng)用。下表總結(jié)了比較有名的一些 GAN 的模型結(jié)構(gòu)及其施加的額外約束。

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

前面都是對于 GAN 的微觀層面的探討。接下來,我們會站在一個宏觀的視角來討論 GAN。

4.1 GAN 的評價

GAN 的評價方法多種多樣,現(xiàn)有的 example-based(顧名思義,基于樣本層面做評價)方法,均是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量。具體框架如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

關(guān)于本小節(jié)的符號對照關(guān)系如下:

  • Pg:生成數(shù)據(jù)分布

  • Pr:表示真實數(shù)據(jù)分布

  • E:數(shù)學期望

  • x:輸入樣本

  • 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用:表示 x 為生成樣本的采樣

  • 萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用:表示 x 為真實樣本的采樣。

  • y:樣本標簽

  • M:分類網(wǎng)絡(luò),通常選擇 Inception network

下面分別對常見的評價指標進行一一介紹:

4.1.1 Inception Score

對于一個在 ImageNet 訓練良好的 GAN,其生成的樣本丟給 Inception 網(wǎng)絡(luò)進行測試的時候,得到的判別概率應(yīng)該具有如下特性:

  • 對于同一個類別的圖片,其輸出的概率分布應(yīng)該趨向于一個脈沖分布??梢员WC生成樣本的準確性。

  • 對于所有類別,其輸出的概率分布應(yīng)該趨向于一個均勻分布,這樣才不會出現(xiàn) mode collapsing 等,可以保證生成樣本的多樣性。

因此,可以設(shè)計如下指標:萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用 根據(jù)前面分析,如果是一個訓練良好的 GAN,萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用趨近于脈沖分布,萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用趨近于均勻分布。二者 KL 散度會很大。Inception Score 自然就高。實際實驗表明,Inception Score 和人的主觀判別趨向一致。IS 的計算沒有用到真實數(shù)據(jù),具體值取決于模型 M 的選擇。

特點:可以一定程度上衡量生成樣本的多樣性和準確性,但是無法檢測過擬合。Mode Score 也是如此。不推薦在和 ImageNet 數(shù)據(jù)集差別比較大的數(shù)據(jù)上使用。

4.1.2 Mode Score

Mode Score 作為 Inception Score 的改進版本,添加了關(guān)于生成樣本和真實樣本預測的概率分布相似性度量一項。具體公式如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

4.1.3 Kernel MMD (Maximum Mean Discrepancy)

計算公式如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

對于 Kernel MMD 值的計算,首先需要選擇一個核函數(shù) k,這個核函數(shù)把樣本映射到再生希爾伯特空間 (Reproducing Kernel Hilbert Space, RKHS),RKHS 相比于歐幾里得空間有許多優(yōu)點,對于函數(shù)內(nèi)積的計算是完備的。將上述公式展開即可得到下面的計算公式:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

MMD 值越小,兩個分布越接近。

特點:可以一定程度上衡量模型生成圖像的優(yōu)劣性,計算代價小。推薦使用。

4.1.4 Wasserstein distance

Wasserstein distance 在最優(yōu)傳輸問題中通常也叫做推土機距離。這個距離的介紹在 WGAN 中有詳細討論。公式如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

Wasserstein distance 可以衡量兩個分布之間的相似性。距離越小,分布越相似。

特點:如果特征空間選擇合適,會有一定的效果。但是計算復雜度為 O(n^3) 太高

4.1.5 Fréchet Inception Distance (FID)

FID 距離計算真實樣本,生成樣本在特征空間之間的距離。首先利用 Inception 網(wǎng)絡(luò)來提取特征,然后使用高斯模型對特征空間進行建模。根據(jù)高斯模型的均值和協(xié)方差來進行距離計算。具體公式如下:

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用分別代表協(xié)方差和均值。

特點:盡管只計算了特征空間的前兩階矩,但是魯棒,且計算高效。

4.1.6 1-Nearest Neighbor classifier

使用留一法,結(jié)合 1-NN 分類器(別的也行)計算真實圖片,生成圖像的精度。如果二者接近,則精度接近 50%,否則接近 0%。對于 GAN 的評價問題,作者分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性,多樣性。

  • 對于真實樣本 xr,進行 1-NN 分類的時候,如果生成的樣本越真實。則真實樣本空間 R 將被生成的樣本 xg 包圍。那么 xr 的精度會很低。

  • 對于生成的樣本 xg,進行 1-NN 分類的時候,如果生成的樣本多樣性不足。由于生成的樣本聚在幾個 mode,則 xg 很容易就和 xr 區(qū)分,導致精度會很高。

特點:理想的度量指標,且可以檢測過擬合。

4.1.7 其他評價方法

AIS,KDE 方法也可以用于評價 GAN,但這些方法不是 model agnostic metrics。也就是說,這些評價指標的計算無法只利用:生成的樣本,真實樣本來計算。

4.1.8 總結(jié)

實際實驗發(fā)現(xiàn),MMD 和 1-NN two-sample test 是最為合適的評價指標,這兩個指標可以較好的區(qū)分:真實樣本和生成的樣本, mode collapsing。且計算高效。

總體說來,GAN 的學習是一個無監(jiān)督學習過程,所以很難找到一個比較客觀的,可量化的評估指標。有許多指標在數(shù)值上雖然高,但是生成效果卻未必好??傊?,GAN 的評價目前依然是一個開放性的問題。

4.2 GAN 與強化學習的關(guān)系

強化學習的目標是對于一個智能體,給定狀態(tài) s,去選擇一個最佳的行為 a(action)。通常的可以定義一個價值函數(shù) Q(s,a) 來衡量,對于狀態(tài) s,采取行動 a 的回報是 Q(s,a),顯然,我們希望最大化這個回報值。對于很多復雜的問題,我們是很難定義這個價值函數(shù) Q(s,a) 的,就像我們很難定義 GAN 生成的圖片到底有多好一樣。

說到這里,大家可能反應(yīng)過來了。GAN 生成的圖片好不好,我確實找不到一個合適的指標,那我學習一個判別器去判斷一下生成圖片和真實圖片的距離不就好了嗎。強化學習里面的價值函數(shù) Q(s,a) 難以定義,那直接用個神經(jīng)網(wǎng)絡(luò)去學習它就好了。典型的模型有 InverseRL,GAIL 等等

4.3 GAN 的優(yōu)缺點

4.3.1 優(yōu)點

GAN 的優(yōu)點在開頭已有所介紹。這里再總結(jié)一下:

  • GAN 可以并行生成數(shù)據(jù)。相比于 PixelCNN,PixelRNN 這些模型,GAN 生成非???,因為 GAN 使用 Generator 替代了采樣的過程

  • GAN 不需要通過引入下界來近似似然。VAE 由于優(yōu)化困難,引入了變分下界來優(yōu)化似然。但是 VAE 對于先驗和后驗分布做了假設(shè),使得 VAE 很難逼近其變分下界。

  • 從實踐來看,GAN 生成的結(jié)過要比 VAE 更清晰的多。

4.3.2 缺點

GAN 的缺點在前文也有詳細討論,主要問題在于:

  • 訓練不穩(wěn)定,容易崩潰。這個問題有學者提出了許多解決方案,比如 WGAN,LSGAN 等

  • 模式崩潰。盡管有很多相關(guān)的研究,但是由于圖像數(shù)據(jù)的高維度特性,這個問題依然還沒完全解決。

4.4 未來的研究方向

  • GAN 的訓練崩潰,模式崩潰問題等依然有待研究改進。

  • Deep learning 盡管很強大,但目前仍有許多領(lǐng)域無法征服,期待 GAN 在此基礎(chǔ)上會有一些作為

有同學希望給出 PDF,這里轉(zhuǎn)成了 PDF 放到了 github,需要的同學自行下載:

Morde-kaiser/LearningNotesgithub.com

[1]: Hong, Yongjun, et al. "How Generative Adversarial Networks and its variants Work: An Overview of GAN."

[2] https://blog.csdn.net/victoriaw/article/details/60755698

[3] https://zhuanlan.zhihu.com/p/25071913

[4] https://mp.weixin.qq.com/s/gv-cpK161oyXinUyh05KXA

[5] https://blog.csdn.net/poulang5786/article/details/80766498

[6] https://spaces.ac.cn/archives/5253

[7] https://www.jianshu.com/p/42c42e13d09b

[8] https://medium.com/@jonathan_hui/gan-unrolled-gan-how-to-reduce-mode-collapse-af5f2f7b51cd

[9] https://medium.com/@jonathan_hui/gan-dragan-5ba50eafcdf2

[10] https://medium.com/@jonathan_hui/gan-cgan-infogan-using-labels-to-improve-gan-8ba4de5f9c3d

[11] https://blog.csdn.net/carrierlxksuper/article/details/60479883

[12]: Salimans, Tim, et al. "Improved techniques for training gans." Advances in neural information processing systems. 2016.

[13] https://blog.csdn.net/qq_25737169/article/details/78532719

[14] https://medium.com/@hitoshinakanishi/reading-note-triple-generative-adversarial-nets-fc3775e52b1e1

[15]: Zheng Z , Zheng L , Yang Y . Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in VitroC// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society, 2017.

[16]: Yuan Xue, Tao Xu, Han Zhang, Rodney Long, and Xiaolei Huang. Segan: Adversar- ial network with multi-scale l_1 loss for medical image segmentation. arXiv preprint arXiv:1706.01805, 2017.

[17]: Denis Volkhonskiy, Ivan Nazarov, Boris Borisenko, and Evgeny Burnaev. Steganographicgenerative adversarial networks. arXiv preprint arXiv:1703.05502, 2017.

[18]: Shin, Hanul, et al. "Continual learning with deep generative replay." Advances in Neural Information Processing Systems. 2017.                

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

萬字長文解讀GAN:從基本概念、原理到實際應(yīng)用

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說