丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社
發(fā)送

0

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

本文作者: AI研習社 2017-02-24 11:38
導語:今天我們來聊一個輕松一些的話題—— GAN 的應(yīng)用。

雷鋒網(wǎng)按:本文原載于微信公眾號學術(shù)興趣小組,作者為 Gapeng。作者已授權(quán)雷鋒網(wǎng)發(fā)布。

今天我們來聊一個輕松一些的話題——GAN 的應(yīng)用。

在此之前呢,先推薦大家去讀一下一篇新的文章 LS-GAN(Loss-sensitive GAN)[1]。

這個文章比 WGAN 出現(xiàn)的時間要早幾天,它在真實分布滿足 Lipschitz 條件的假設(shè)下,提出了 LS-GAN,并證明了它的納什均衡解存在。它也能解決 generator 梯度消失的問題,實驗發(fā)現(xiàn)不存在 mode collapse 的問題。

作者齊國君老師在知乎上寫了一篇文章介紹 LS-GAN,建議感興趣的童鞋也去閱讀一下,地址:https://zhuanlan.zhihu.com/p/25204020

回到今天的主題 GAN 的應(yīng)用上來。GAN 的應(yīng)用按照大類分為在圖像上的應(yīng)用、在 NLP 上的應(yīng)用,以及與增強學習結(jié)合。我們分這兩個大類進行介紹。今天介紹的應(yīng)用不涉及算法細節(jié)(除了能簡短介紹清楚的算法),基本上都有源碼,參見文末。

GAN 在圖像上的應(yīng)用

從目前的文獻來看,GAN 在圖像上的應(yīng)用主要是往圖像修改方向發(fā)展。涉及的圖像修改包括:單圖像超分辨率(single image super-resolution)、交互式圖像生成、圖像編輯、圖像到圖像的翻譯等。

單圖像超分辨率

單圖像超分辨率任務(wù)(SISR)就是給定單張低分辨率圖像,生成它的高分辨率圖像。傳統(tǒng)方法一般是插值,但是插值不可避免地會產(chǎn)生模糊。GAN怎么應(yīng)用到這個任務(wù)上去呢?

首先,GAN 有兩個博弈的對手:G(generator)和D(discriminator),容易想到一種可能的方案是:G的輸入是低分辨率圖像(LR),輸出應(yīng)該是高分辨率圖像(HR)。文獻 [9] 正是采用這種做法。作者采用 ResNet 作為 G,網(wǎng)絡(luò)架構(gòu)如下圖所示:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

對于一批 N 張圖像,G 的 loss 定義為

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

其中,lSR 包含兩部分:content loss 和 adversarial loss。G 的 loss 包含 content loss 部分,因此 G 并非完全的非監(jiān)督,它也用到了監(jiān)督信息:它強制要求生成圖像提取的特征與真實圖像提取的特征要匹配,文中用到的特征提取網(wǎng)絡(luò)為 VGG,content loss 定義如下:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

而 adversarial loss 就是我們常見的 GAN loss:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

文中采用的 lSR 為:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

文獻 [9] 的實驗效果如下圖所示,可以看出,SRGAN 效果比其他方法要好,生成的圖像模糊程度更低。代碼參見文末的 SRGAN。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

此外,還有另外一個文章 [3] 也做了 GAN 在 SISR 上的應(yīng)用,文中提出了 AffGAN。這里不再展開介紹,感興趣的同學請參看原文。

交互式圖像生成

這個工作來自于 Adobe 公司。他們構(gòu)建了一套圖像編輯操作,能使得經(jīng)過這些操作以后,圖像依舊在“真實圖像流形”上,因此編輯后的圖像更接近真實圖像。

具體來說,iGAN 的流程包括以下幾個步驟:

  1. 將原始圖像投影到低維的隱向量空間

  2. 將隱向量作為輸入,利用 GAN 重構(gòu)圖像

  3. 利用畫筆工具對重構(gòu)的圖像進行修改(顏色、形狀等)

  4. 將等量的結(jié)構(gòu)、色彩等修改應(yīng)用到原始圖像上。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況


值得一提的是,作者提出 G 需為保距映射的限制,這使得整個過程的大部分操作可以轉(zhuǎn)換為求解優(yōu)化問題,整個修改過程近乎實時。細節(jié)比較多,這里不再展開,請參考文獻 [6],代碼請參考文末的 iGAN。下面的 demo 經(jīng)過壓縮圖像質(zhì)量比較差,查看清晰版本請移步 iGAN 的 github 頁面。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

圖像編輯

GAN 也可以應(yīng)用到圖像編輯上,文獻 [14] 提出了 IAN 方法(Introspective Adversarial Network),它融合了 GAN 和 VAE(variational autoencoder,另一種生成模型)。如果你對 VAE、GAN 以及它們的融合都比較熟悉,理解 IAN 應(yīng)該是很容易的。文章的主要創(chuàng)新在于 loss 的設(shè)計上。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

以下是 IAN 編輯圖像的一個 demo,代碼可以在文末的 IAN 部分找到。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況    

圖像到圖像的翻譯

所謂“圖像到圖像的翻譯”( image to image translation),是指將一種類型的圖像轉(zhuǎn)換為另一種類型的圖像,比如:將草圖具象化、根據(jù)衛(wèi)星圖生成地圖等。文獻 [7] 設(shè)計了一種算法 pix2pix,將 GAN 應(yīng)用到 image to image translation 上。

作者采用 CGAN(conditional GAN,關(guān)于 CGAN 的介紹,參見兩周前的推送 20170203),將待轉(zhuǎn)換的圖像作為 condition,加上高斯噪聲作為 generator 的輸入,generator 將輸入轉(zhuǎn)換為我們需要的目標圖像,而 discriminator 判斷圖像是 generator 產(chǎn)生的,還是真實的目標圖像。為了能讓 generator 產(chǎn)生的圖像逼近真實的目標圖像,generator 的 loss 還包含目標圖像匹配度的懲罰項,采用 L1 范數(shù),generator 的 loss 設(shè)計如下:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

其中,y 即為真實的目標圖像。

然而,作者在實驗中發(fā)現(xiàn),generator 會忽略高斯噪聲 z,而直接根據(jù)輸入圖像 x 產(chǎn)生目標圖像 y。為了解決這個問題,作者只在 generator 的某些層上以 dropout 的形式加入噪聲(training 和 test 時都需要 dropout)。代碼參見文末的 pix2pix,實驗效果如下圖所示:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

GAN 在 NLP 上的應(yīng)用

目前來說 GAN 在 NLP 上的應(yīng)用可以分為兩類:生成文本、根據(jù)文本生成圖像。其中,生成文本包括兩種:根據(jù)隱向量(噪聲)生成一段文本;對話生成。

如果你對 GAN 在 NLP 中的應(yīng)用感興趣,推薦閱讀下面的文章:

http://www.machinedlearnings.com/2017/01/generating-text-via-adversarial-training.html

或者可以查看 AI100 翻譯的版本:

http://mp.weixin.qq.com/s/-lcEuxPnTrQFVJV61MWsAQ

我對 NLP 的了解比較少,這里只列舉其中一部分應(yīng)用。

對話生成

GAN 應(yīng)用到對話生成的例子,可以看這篇文章 [2],文末也有相關(guān)的代碼(參看 GAN for Neural dialogue generation)。下圖是 GAN 對話生成算法的偽代碼,省略了很多細節(jié):

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

實驗效果如下圖:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

這個工作很有意思。可以看出,生成的對話具有一定的相關(guān)性,但是效果并不是很好,而且這只能做單輪對話。

文本到圖像的翻譯

GAN 也能用于文本到圖像的翻譯(text to image),在 ICML 2016 會議上,Scott Reed 等人提出了基于 CGAN 的一種解決方案 [13]:將文本編碼作為 generator 的 condition 輸入;對于 discriminator,文本編碼在特定層作為 condition 信息引入,以輔助判斷輸入圖像是否滿足文本描述。文中用到的 GAN 架構(gòu)如下:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

作者提出了兩種基于 GAN 的算法,GAN-CLS 和 GAN-INT。GAN-CLS 算法如下:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

GAN-INT 對多種文本編碼做一個加權(quán),在這種設(shè)計下,generator 的 loss 為:

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

其中,β 控制兩種文本編碼的加權(quán)系數(shù)。

實驗發(fā)現(xiàn)生成的圖像相關(guān)性很高。代碼參見文末的 text2image。

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

此外,GAN 還可以跟增強學習(RL)結(jié)合。

Ian Goodfellow 指出,GAN 很容易嵌入到增強學習(reinforcement learning)的框架中。例如,用增強學習求解規(guī)劃問題時,可以用 GAN 學習一個 actions 的條件概率分布,agent 可以根據(jù)生成模型對不同的 actions 的響應(yīng),選擇合理的 action。

GAN 與 RL 結(jié)合的典型工作有:將 GAN 嵌入模仿學習(imitation learning)中 [5];將 GAN 嵌入到策略梯度算法(policy gradient)中 [11],將 GAN 嵌入到 actor-critic 算法中 [15],等。

GAN 與增強學習結(jié)合的相關(guān)工作多數(shù)在 16 年才開始出現(xiàn),GAN 和 RL 屬于近年來的研究熱點,兩者結(jié)合預(yù)計在接下來的一兩年里將得到更多研究者的青睞。

常見GAN

最后,作為 GAN 專題的結(jié)尾,我們列舉一下目前常見的 GAN 模型(可以根據(jù) arxiv id 去尋找、下載文獻),歡迎補充。

  • GAN - Ian Goodfellow, arXiv:1406.2661v1

  • DCGAN - Alec Radford & Luke Metz, arxiv:1511.06434

  • CGAN - Mehdi Mirza, arXiv:1411.1784v1

  • LAPGAN - Emily Denton & Soumith Chintala, arxiv: 1506.05751

  • InfoGAN - Xi Chen, arxiv: 1606.03657

  • PPGAN - Anh Nguyen, arXiv:1612.00005v1

  • WGAN - Martin Arjovsky, arXiv:1701.07875v1

  • LS-GAN - Guo-Jun Qi, arxiv: 1701.06264

  • SeqGAN - Lantao Yu, arxiv: 1609.05473

  • EBGAN - Junbo Zhao, arXiv:1609.03126v2

  • VAEGAN - Anders Boesen Lindbo Larsen, arxiv: 1512.09300

......

此外,還有一些在特定任務(wù)中提出來的模型,如本期介紹的 GAN-CLS、GAN-INT、SRGAN、iGAN、IAN 等等,這里就不再列舉。

代碼

LS-GAN

Torch 版本:https://github.com/guojunq/lsgan

SRGAN

TensorFlow 版本:https://github.com/buriburisuri/SRGAN

Torch 版本:https://github.com/leehomyc/Photo-Realistic-Super-Resoluton

Keras 版本:https://github.com/titu1994/Super-Resolution-using-Generative-Adversarial-Networks

iGAN

Theano 版本:https://github.com/junyanz/iGAN

IAN

Theano 版本:https://github.com/ajbrock/Neural-Photo-Editor

Pix2pix

Torch 版本:https://github.com/phillipi/pix2pix

TensorFlow 版本:https://github.com/yenchenlin/pix2pix-tensorflow

GAN for Neural dialogue generation

Torch 版本:https://github.com/jiweil/Neural-Dialogue-Generation

Text2image

Torch 版本:https://github.com/reedscot/icml2016

TensorFlow+Theano 版本:https://github.com/paarthneekhara/text-to-image

GAN for Imitation Learning

Theano 版本:https://github.com/openai/imitation

SeqGAN

TensorFlow 版本:https://github.com/LantaoYu/SeqGAN 

參考文獻

  1.  Qi G J. Loss-Sensitive Generative Adversarial Networks onLipschitz Densities[J]. arXiv preprint arXiv:1701.06264, 2017.

  2.  Li J, Monroe W, Shi T, et al. Adversarial Learning for NeuralDialogue Generation[J]. arXiv preprint arXiv:1701.06547, 2017.

  3.  S?nderby C K, Caballero J, Theis L, et al. Amortised MAPInference for Image Super-resolution[J]. arXiv preprint arXiv:1610.04490, 2016.

  4.  Ravanbakhsh S, Lanusse F, Mandelbaum R, et al. Enabling DarkEnergy Science with Deep Generative Models of Galaxy Images[J]. arXiv preprintarXiv:1609.05796, 2016.

  5. Ho J, Ermon S. Generative adversarial imitationlearning[C]//Advances in Neural Information Processing Systems. 2016:4565-4573.

  6. Zhu J Y, Kr?henbühl P, Shechtman E, et al. Generative visualmanipulation on the natural image manifold[C]//European Conference on ComputerVision. Springer International Publishing, 2016: 597-613.

  7. Isola P, Zhu J Y, Zhou T, et al. Image-to-image translationwith conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004,2016.

  8. Shrivastava A, Pfister T, Tuzel O, et al. Learning fromSimulated and Unsupervised Images through Adversarial Training[J]. arXivpreprint arXiv:1612.07828, 2016.

  9. Ledig C, Theis L, Huszár F, et al. Photo-realistic singleimage super-resolution using a generative adversarial network[J]. arXivpreprint arXiv:1609.04802, 2016.

  10. Nguyen A, Yosinski J, Bengio Y, et al. Plug & playgenerative networks: Conditional iterative generation of images in latentspace[J]. arXiv preprint arXiv:1612.00005, 2016.

  11. Yu L, Zhang W, Wang J, et al. Seqgan: sequence generativeadversarial nets with policy gradient[J]. arXiv preprint arXiv:1609.05473,2016.

  12. Lotter W, Kreiman G, Cox D. Unsupervised learning of visualstructure using predictive generative networks[J]. arXiv preprintarXiv:1511.06380, 2015.

  13. Reed S, Akata Z, Yan X, et al. Generative adversarial textto image synthesis[C]//Proceedings of The 33rd International Conference onMachine Learning. 2016, 3.

  14. Brock A, Lim T, Ritchie J M, et al. Neural photo editingwith introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093,2016.

  15. Pfau D, Vinyals O. Connecting generative adversarialnetworks and actor-critic methods[J]. arXiv preprint arXiv:1610.01945, 2016.

編者按:在下周二(2月28日)雷鋒網(wǎng)硬創(chuàng)公開課欄目將會推出黃文堅老師的公開課《深度學習之經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)淺析》(點擊了解詳情),歡迎大家報名!

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

GAN(生成對抗網(wǎng)絡(luò))的最新應(yīng)用狀況

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說