丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給小哲打豆豆
發(fā)送

2

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

本文作者: 小哲打豆豆 2017-03-27 11:53
導語:這份深度學習研究簡報總結了最近在深度學習領域下的生成對抗網(wǎng)絡(Generative Adversarial Networks,GANs)方向的最新研究論文。

雷鋒網(wǎng)按:本文由作者Adit Deshpande總結,雷鋒網(wǎng)編譯整理。Adit Deshpande目前是UCLA計算機科學專業(yè)生物信息學方向的大二學生。他熱衷于將自己的機器學習和計算機視覺技術應用在健康領域,給醫(yī)生和患者帶來更好的解決方案。

一直以來,Adit Deshpande 都有總結和解釋一些深度學習論文的習慣,在本文中,Adit Deshpande 將圍繞對抗生成網(wǎng)絡(GANs)的主題來展開介紹。以下為雷鋒網(wǎng)編譯整理的內容:

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

介紹

Yann LeCun在Quora上曾說,“對抗訓練是有史以來最酷的東西”。我也同意他說的,因為切片面包從未在深度學習的圈子里引起如此多的關注和興奮。在這篇總結里,我們一起來看看3篇基于Ian Goodfellow在2014年發(fā)表的開拓性工作的文章。 

生成對抗網(wǎng)絡(GANs)概述 

我在之前的博文,《9篇你要知道的深度學習論文》,里提到過Ian Goodfellow生成對抗網(wǎng)絡的論文。那些網(wǎng)絡模型大致是,你有兩個模型,一個生成模型(generative model)和一個辨別模型(discriminative model)。辨別模型的任務是決定一張圖片是自然的(來自數(shù)據(jù)集)還是人工合成的。生成器的任務是生成看起來自然,和原始數(shù)據(jù)分布類似的圖片。

這可以被看做是一個兩者間的零和或極小極大博弈。這篇文章中比喻到,生成模型就像“一群制印使用假鈔的造假者”,而辨別模型就像“查驗假鈔的警察”。生成器想要騙過鑒別器,鑒別器則努力防止被騙。兩個模型經(jīng)過交替優(yōu)化的訓練,直到偽造品和真品不能被區(qū)分。

論文1. 對抗網(wǎng)絡的拉普拉斯金字塔

簡介

對抗網(wǎng)絡最重要的一個應用就是在足夠的訓練后,生成器能合成看起來自然的圖片。在Goodfellow 2014年的文章中有一些生成器輸出的例子。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

如圖所示,生成器能很好地處理數(shù)字和人臉,但在遇到CIFAR-10數(shù)據(jù)集的時候,生成的圖片就很模糊不清。 

為了矯正這個問題,Emily Denton, Soumith Chintala, Arthur Szlam, 和Rob Fergus四人發(fā)表了《基于拉普拉斯金字塔生成式對抗網(wǎng)絡的深度生成圖像模型(Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks)》。這篇文章的主要貢獻是一種網(wǎng)絡結構,它能生成在40%情況下讓人類評測者誤以為真的高質量合成圖像。 

方法 

在談論論文之前,讓我們回顧下生成器在GAN里的作用。它需要能夠生成大型,復雜且自然的,能夠騙過經(jīng)過訓練的鑒別器的圖像。這可不是一個一蹴而就的任務。作者們的解決方法是,使用多重CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡)模型,依次生成更大的圖像。正如Emily Denton在她LAPGANs的演講中提到的: 

“低清晰度的圖像很容易生成,根據(jù)低清圖像生成清晰度稍高一些的也不算難?!?/p>

這篇文章使用的方法就是建立一個生成模型的拉普拉斯金字塔。對那些不熟悉這個概念的讀者來說,拉普拉斯金字塔是一種圖像表示方法,它包含一系列連續(xù)經(jīng)濾波的更低密度的圖像(更多背景請看這里)。每一層金字塔樣本都包含了圖像在某個尺寸下的信息。它其實是原圖的一種分解方法。我們來看一下一個簡單GAN的輸入和輸出是什么。生成器接收分布的噪聲向量輸入,并輸出一幅圖像。鑒別器讀入這幅圖像(或者是一張來自訓練數(shù)據(jù)中的真實圖像),并輸出一個標量來描述這個圖像有多“真實”?,F(xiàn)在我們來看一下有條件的生成對抗網(wǎng)絡(conditional GAN,CGAN)。它的所有條件都與GAN一樣,除了一點,生成器和鑒別器都還要接收另一條信息作為輸入。這條信息通常是一種類標簽,或另一幅圖像。

網(wǎng)絡結構

作者提出了一組卷積網(wǎng)絡(ConvNet)模型,金字塔的每一層都有一個相關的卷積網(wǎng)絡。與傳統(tǒng)GAN結構不同的是,我們使用一系列的CNN,通過緩慢增加清晰度(也就是順著金字塔)來一步步生成圖像,并由粗到細的精化圖像,而不是只用一個CNN生成整個圖像。每一層都有它自己的CNN,并由兩部分訓練。一部分是低清圖像,另一部分是噪聲向量(這是傳統(tǒng)GAN的唯一輸入)。這就是在多輸入情況下,CGAN發(fā)揮作用的時候了。輸出將會是一幅將要被上采樣,作為下一級金字塔輸入的生成圖像。因為各層的生成器可以使用不同清晰度下的信息,在連續(xù)的層級里生成更精細的輸出,所以這個方法是非常有效的。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?自Ian Goodfellow之后,GANs還有哪些開拓性進展?

論文2:生成對抗文本到圖像合成

簡介

這篇論文發(fā)表在剛剛過去的六月(譯者注:本博文發(fā)表于2016年),它研究了如何將文字描述轉化為圖 像。例如,網(wǎng)絡的輸入可以是“有粉色花瓣的一朵花”,輸出就是一幅包含這些元素的圖像。這個任務包含兩個部分,一是使用自然語言處理的方法來理解輸入的描述,另一部分是能夠輸出精確且自然圖片樣本的生成網(wǎng)絡。作者提到的一點是,從文本到圖像的轉化要比從圖像到文本轉化(可以回顧下Karpathy的論文)難得多。這不光因為有無數(shù)種的像素配置,還因為我們不能把任務分解為“預測下一個詞”那么簡單的事情(就像圖片到文字的轉化所使用的方法)。 

方法

作者使用的方法是,訓練一個基于循環(huán)文本編碼器創(chuàng)建的文本特征的GAN網(wǎng)絡(在此就不深入展開了,有興趣的讀者可以在此閱讀原文)。生成器和鑒別器都在它們相應的網(wǎng)絡結構中用到了這個架構。這使得GAN能夠將輸入的描述文本和生成的圖片關聯(lián)起來。 

網(wǎng)絡結構

我們先來看生成器。我們把噪聲向量z和文本編碼做為網(wǎng)絡的輸入。簡單來說,這個文本編碼是一種使其能和噪聲向量連接的,封裝輸入描述信息的方法(見下圖)。然后反卷積層(Deconv layer)會被用來把輸入向量轉化為合成圖片。

鑒別器讀入一幅圖片,然后經(jīng)過一系列卷積層的處理(用BatchNorm和 leaky ReLUs)。當空間維度到達4x4的時候,網(wǎng)絡會和前邊提到的文本編碼執(zhí)行深度并置(depth concatenation)。之后,就會有多于兩個的卷積層,并且會輸出(且一直輸出)反應圖像真實程度的分數(shù)。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

訓練

這個模型被訓練的方式非常有趣。如果你仔細想想模型的任務,生成器有兩個任務必須要正確達成。一個是它必須生成自然且合理的圖像;另一個任務是圖像必須和給定的描述相關。如此一來,鑒別器必須要考慮到這兩個方面,確保假的,或者不自然的圖像以及不符原文的圖像被拒絕。為了做出如此適應性強的模型,作者用到了三類數(shù)據(jù)來進行訓練:{自然圖像,匹配文本},{不自然圖像,匹配文本},以及{自然圖片,不匹配文本}。遇到最后一種訓練數(shù)據(jù)類型時,鑒別器必須學習拒絕不符合文本的圖像(即使它們看起來很自然)。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

論文3.基于GANs的超解析

簡介

推特Cortex的一個研究小組在幾周前(譯者注:本博文發(fā)表于2016年)發(fā)表的這篇文章是這個領域飛速創(chuàng)新的一個縮影。這篇文章中提出的模型是超解析度生成對抗網(wǎng)絡,簡稱SRGAN(super-resolution generative adversarial network)。它主要的貢獻在于一種全新的損失函數(shù)(要比舊的MSE好),這個函數(shù)可以使網(wǎng)絡從被嚴重下采樣的圖像中恢復出逼真的紋理和細節(jié)。 

方法

我們先來看看這個新的感知損失函數(shù)(perceptual loss function)。這個損失函數(shù)分為兩部分,對抗損失(adversarial loss)和內容損失(content loss)。宏觀來看,對抗損失幫助圖像看起來更逼真(看起來像原圖),內容損失保證新清晰度的圖像和原來低清的圖像有相似的特征。

網(wǎng)絡結構

好了,現(xiàn)在我們來看一些細節(jié)。我們先來看一個高清晰度版本的圖像,然后再來看低清晰度的。我們想把生成器訓練為,當給定一個低清圖像后,它能輸出盡可能高清的圖像。這個輸出就叫做超解析圖像。鑒別器會被訓練來區(qū)分這些圖像。還是老一套,不是么?生成器網(wǎng)絡結構使用一組包含ReLUs 和BatchNorm 和卷積層的B殘量塊(譯者注:見下圖B residual blocks)。一旦低清圖像經(jīng)過這些模塊處理時,就會有兩個反卷積層來提高清晰度。然后再看鑒別器,我們有8個卷積層組成的Sigmoid激活函數(shù),它可以輸出圖像是真實(高清)或者合成(超解析)的概率。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

損失函數(shù)

我們再來看看新的損失函數(shù)。它實際上是單獨的損失函數(shù)的加權和。第一部分被稱為內容損失(content loss)。簡單來說,它是新的重構圖像(網(wǎng)絡的輸出)的特征圖(在訓練前的VGG網(wǎng)絡中)到真實高清訓練圖像的歐氏距離(Euclidean distance)損失。如果我沒理解錯的話,它主要的目標是,如果把兩幅圖送到經(jīng)過訓練的卷積網(wǎng)絡后,再比較兩幅圖各自的特征激活量,兩幅圖是相似的。 

另一個作者定義的主要的損失函數(shù)是對抗損失(adversarial loss)。這個函數(shù)和通常和你期望從GANs里得到的差不多。它激勵和原始數(shù)據(jù)分布負對數(shù)似然類似的輸出。正則化損失是損失函數(shù)的第三項。有了這個新的損失函數(shù),生成器可以確保輸出看起來自然的更高清圖像,同時相比低清圖像,也有相似的像素空間。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

后記:

GANs使用大部分無監(jiān)督的訓練(你要做的只要有一個真實圖片的數(shù)據(jù)集,不需要標簽和其他信息)。這意味著我們可以利用很多現(xiàn)有的未分類的圖像數(shù)據(jù)。經(jīng)過訓練,我們可以用輸出或者中間層作為特征提取器,如此就不需要那么多訓練數(shù)據(jù)來達到高準確率了。

我拿不到,但是超級酷的文章還有:DCGANs。作者們沒做什么太夸張的事,他們只是訓練了一個特別特別大的卷積網(wǎng)絡。但是特別的地方在于他們有正確的超級參數(shù)來使訓練真正的有用(也就是BatchNorm, Adam, Leaky ReLUs)。

via kdnuggets,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

自Ian Goodfellow之后,GANs還有哪些開拓性進展?

分享:
相關文章

作者

關注IoT和電動汽車,歡迎勾搭
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說