丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給小哲打豆豆
發(fā)送

2

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

本文作者: 小哲打豆豆 2017-03-27 11:53
導(dǎo)語(yǔ):這份深度學(xué)習(xí)研究簡(jiǎn)報(bào)總結(jié)了最近在深度學(xué)習(xí)領(lǐng)域下的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)方向的最新研究論文。

雷鋒網(wǎng)按:本文由作者Adit Deshpande總結(jié),雷鋒網(wǎng)編譯整理。Adit Deshpande目前是UCLA計(jì)算機(jī)科學(xué)專(zhuān)業(yè)生物信息學(xué)方向的大二學(xué)生。他熱衷于將自己的機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用在健康領(lǐng)域,給醫(yī)生和患者帶來(lái)更好的解決方案。

一直以來(lái),Adit Deshpande 都有總結(jié)和解釋一些深度學(xué)習(xí)論文的習(xí)慣,在本文中,Adit Deshpande 將圍繞對(duì)抗生成網(wǎng)絡(luò)(GANs)的主題來(lái)展開(kāi)介紹。以下為雷鋒網(wǎng)編譯整理的內(nèi)容:

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

介紹

Yann LeCun在Quora上曾說(shuō),“對(duì)抗訓(xùn)練是有史以來(lái)最酷的東西”。我也同意他說(shuō)的,因?yàn)榍衅姘鼜奈丛谏疃葘W(xué)習(xí)的圈子里引起如此多的關(guān)注和興奮。在這篇總結(jié)里,我們一起來(lái)看看3篇基于Ian Goodfellow在2014年發(fā)表的開(kāi)拓性工作的文章。 

生成對(duì)抗網(wǎng)絡(luò)(GANs)概述 

我在之前的博文,《9篇你要知道的深度學(xué)習(xí)論文》,里提到過(guò)Ian Goodfellow生成對(duì)抗網(wǎng)絡(luò)的論文。那些網(wǎng)絡(luò)模型大致是,你有兩個(gè)模型,一個(gè)生成模型(generative model)和一個(gè)辨別模型(discriminative model)。辨別模型的任務(wù)是決定一張圖片是自然的(來(lái)自數(shù)據(jù)集)還是人工合成的。生成器的任務(wù)是生成看起來(lái)自然,和原始數(shù)據(jù)分布類(lèi)似的圖片。

這可以被看做是一個(gè)兩者間的零和或極小極大博弈。這篇文章中比喻到,生成模型就像“一群制印使用假鈔的造假者”,而辨別模型就像“查驗(yàn)假鈔的警察”。生成器想要騙過(guò)鑒別器,鑒別器則努力防止被騙。兩個(gè)模型經(jīng)過(guò)交替優(yōu)化的訓(xùn)練,直到偽造品和真品不能被區(qū)分。

論文1. 對(duì)抗網(wǎng)絡(luò)的拉普拉斯金字塔

簡(jiǎn)介

對(duì)抗網(wǎng)絡(luò)最重要的一個(gè)應(yīng)用就是在足夠的訓(xùn)練后,生成器能合成看起來(lái)自然的圖片。在Goodfellow 2014年的文章中有一些生成器輸出的例子。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

如圖所示,生成器能很好地處理數(shù)字和人臉,但在遇到CIFAR-10數(shù)據(jù)集的時(shí)候,生成的圖片就很模糊不清。 

為了矯正這個(gè)問(wèn)題,Emily Denton, Soumith Chintala, Arthur Szlam, 和Rob Fergus四人發(fā)表了《基于拉普拉斯金字塔生成式對(duì)抗網(wǎng)絡(luò)的深度生成圖像模型(Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks)》。這篇文章的主要貢獻(xiàn)是一種網(wǎng)絡(luò)結(jié)構(gòu),它能生成在40%情況下讓人類(lèi)評(píng)測(cè)者誤以為真的高質(zhì)量合成圖像。 

方法 

在談?wù)撜撐闹埃屛覀兓仡櫹律善髟贕AN里的作用。它需要能夠生成大型,復(fù)雜且自然的,能夠騙過(guò)經(jīng)過(guò)訓(xùn)練的鑒別器的圖像。這可不是一個(gè)一蹴而就的任務(wù)。作者們的解決方法是,使用多重CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))模型,依次生成更大的圖像。正如Emily Denton在她LAPGANs的演講中提到的: 

“低清晰度的圖像很容易生成,根據(jù)低清圖像生成清晰度稍高一些的也不算難?!?/p>

這篇文章使用的方法就是建立一個(gè)生成模型的拉普拉斯金字塔。對(duì)那些不熟悉這個(gè)概念的讀者來(lái)說(shuō),拉普拉斯金字塔是一種圖像表示方法,它包含一系列連續(xù)經(jīng)濾波的更低密度的圖像(更多背景請(qǐng)看這里)。每一層金字塔樣本都包含了圖像在某個(gè)尺寸下的信息。它其實(shí)是原圖的一種分解方法。我們來(lái)看一下一個(gè)簡(jiǎn)單GAN的輸入和輸出是什么。生成器接收分布的噪聲向量輸入,并輸出一幅圖像。鑒別器讀入這幅圖像(或者是一張來(lái)自訓(xùn)練數(shù)據(jù)中的真實(shí)圖像),并輸出一個(gè)標(biāo)量來(lái)描述這個(gè)圖像有多“真實(shí)”?,F(xiàn)在我們來(lái)看一下有條件的生成對(duì)抗網(wǎng)絡(luò)(conditional GAN,CGAN)。它的所有條件都與GAN一樣,除了一點(diǎn),生成器和鑒別器都還要接收另一條信息作為輸入。這條信息通常是一種類(lèi)標(biāo)簽,或另一幅圖像。

網(wǎng)絡(luò)結(jié)構(gòu)

作者提出了一組卷積網(wǎng)絡(luò)(ConvNet)模型,金字塔的每一層都有一個(gè)相關(guān)的卷積網(wǎng)絡(luò)。與傳統(tǒng)GAN結(jié)構(gòu)不同的是,我們使用一系列的CNN,通過(guò)緩慢增加清晰度(也就是順著金字塔)來(lái)一步步生成圖像,并由粗到細(xì)的精化圖像,而不是只用一個(gè)CNN生成整個(gè)圖像。每一層都有它自己的CNN,并由兩部分訓(xùn)練。一部分是低清圖像,另一部分是噪聲向量(這是傳統(tǒng)GAN的唯一輸入)。這就是在多輸入情況下,CGAN發(fā)揮作用的時(shí)候了。輸出將會(huì)是一幅將要被上采樣,作為下一級(jí)金字塔輸入的生成圖像。因?yàn)楦鲗拥纳善骺梢允褂貌煌逦认碌男畔ⅲ谶B續(xù)的層級(jí)里生成更精細(xì)的輸出,所以這個(gè)方法是非常有效的。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

論文2:生成對(duì)抗文本到圖像合成

簡(jiǎn)介

這篇論文發(fā)表在剛剛過(guò)去的六月(譯者注:本博文發(fā)表于2016年),它研究了如何將文字描述轉(zhuǎn)化為圖 像。例如,網(wǎng)絡(luò)的輸入可以是“有粉色花瓣的一朵花”,輸出就是一幅包含這些元素的圖像。這個(gè)任務(wù)包含兩個(gè)部分,一是使用自然語(yǔ)言處理的方法來(lái)理解輸入的描述,另一部分是能夠輸出精確且自然圖片樣本的生成網(wǎng)絡(luò)。作者提到的一點(diǎn)是,從文本到圖像的轉(zhuǎn)化要比從圖像到文本轉(zhuǎn)化(可以回顧下Karpathy的論文)難得多。這不光因?yàn)橛袩o(wú)數(shù)種的像素配置,還因?yàn)槲覀儾荒馨讶蝿?wù)分解為“預(yù)測(cè)下一個(gè)詞”那么簡(jiǎn)單的事情(就像圖片到文字的轉(zhuǎn)化所使用的方法)。 

方法

作者使用的方法是,訓(xùn)練一個(gè)基于循環(huán)文本編碼器創(chuàng)建的文本特征的GAN網(wǎng)絡(luò)(在此就不深入展開(kāi)了,有興趣的讀者可以在此閱讀原文)。生成器和鑒別器都在它們相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)中用到了這個(gè)架構(gòu)。這使得GAN能夠?qū)⑤斎氲拿枋鑫谋竞蜕傻膱D片關(guān)聯(lián)起來(lái)。 

網(wǎng)絡(luò)結(jié)構(gòu)

我們先來(lái)看生成器。我們把噪聲向量z和文本編碼做為網(wǎng)絡(luò)的輸入。簡(jiǎn)單來(lái)說(shuō),這個(gè)文本編碼是一種使其能和噪聲向量連接的,封裝輸入描述信息的方法(見(jiàn)下圖)。然后反卷積層(Deconv layer)會(huì)被用來(lái)把輸入向量轉(zhuǎn)化為合成圖片。

鑒別器讀入一幅圖片,然后經(jīng)過(guò)一系列卷積層的處理(用BatchNorm和 leaky ReLUs)。當(dāng)空間維度到達(dá)4x4的時(shí)候,網(wǎng)絡(luò)會(huì)和前邊提到的文本編碼執(zhí)行深度并置(depth concatenation)。之后,就會(huì)有多于兩個(gè)的卷積層,并且會(huì)輸出(且一直輸出)反應(yīng)圖像真實(shí)程度的分?jǐn)?shù)。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

訓(xùn)練

這個(gè)模型被訓(xùn)練的方式非常有趣。如果你仔細(xì)想想模型的任務(wù),生成器有兩個(gè)任務(wù)必須要正確達(dá)成。一個(gè)是它必須生成自然且合理的圖像;另一個(gè)任務(wù)是圖像必須和給定的描述相關(guān)。如此一來(lái),鑒別器必須要考慮到這兩個(gè)方面,確保假的,或者不自然的圖像以及不符原文的圖像被拒絕。為了做出如此適應(yīng)性強(qiáng)的模型,作者用到了三類(lèi)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練:{自然圖像,匹配文本},{不自然圖像,匹配文本},以及{自然圖片,不匹配文本}。遇到最后一種訓(xùn)練數(shù)據(jù)類(lèi)型時(shí),鑒別器必須學(xué)習(xí)拒絕不符合文本的圖像(即使它們看起來(lái)很自然)。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

論文3.基于GANs的超解析

簡(jiǎn)介

推特Cortex的一個(gè)研究小組在幾周前(譯者注:本博文發(fā)表于2016年)發(fā)表的這篇文章是這個(gè)領(lǐng)域飛速創(chuàng)新的一個(gè)縮影。這篇文章中提出的模型是超解析度生成對(duì)抗網(wǎng)絡(luò),簡(jiǎn)稱(chēng)SRGAN(super-resolution generative adversarial network)。它主要的貢獻(xiàn)在于一種全新的損失函數(shù)(要比舊的MSE好),這個(gè)函數(shù)可以使網(wǎng)絡(luò)從被嚴(yán)重下采樣的圖像中恢復(fù)出逼真的紋理和細(xì)節(jié)。 

方法

我們先來(lái)看看這個(gè)新的感知損失函數(shù)(perceptual loss function)。這個(gè)損失函數(shù)分為兩部分,對(duì)抗損失(adversarial loss)和內(nèi)容損失(content loss)。宏觀來(lái)看,對(duì)抗損失幫助圖像看起來(lái)更逼真(看起來(lái)像原圖),內(nèi)容損失保證新清晰度的圖像和原來(lái)低清的圖像有相似的特征。

網(wǎng)絡(luò)結(jié)構(gòu)

好了,現(xiàn)在我們來(lái)看一些細(xì)節(jié)。我們先來(lái)看一個(gè)高清晰度版本的圖像,然后再來(lái)看低清晰度的。我們想把生成器訓(xùn)練為,當(dāng)給定一個(gè)低清圖像后,它能輸出盡可能高清的圖像。這個(gè)輸出就叫做超解析圖像。鑒別器會(huì)被訓(xùn)練來(lái)區(qū)分這些圖像。還是老一套,不是么?生成器網(wǎng)絡(luò)結(jié)構(gòu)使用一組包含ReLUs 和BatchNorm 和卷積層的B殘量塊(譯者注:見(jiàn)下圖B residual blocks)。一旦低清圖像經(jīng)過(guò)這些模塊處理時(shí),就會(huì)有兩個(gè)反卷積層來(lái)提高清晰度。然后再看鑒別器,我們有8個(gè)卷積層組成的Sigmoid激活函數(shù),它可以輸出圖像是真實(shí)(高清)或者合成(超解析)的概率。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

損失函數(shù)

我們?cè)賮?lái)看看新的損失函數(shù)。它實(shí)際上是單獨(dú)的損失函數(shù)的加權(quán)和。第一部分被稱(chēng)為內(nèi)容損失(content loss)。簡(jiǎn)單來(lái)說(shuō),它是新的重構(gòu)圖像(網(wǎng)絡(luò)的輸出)的特征圖(在訓(xùn)練前的VGG網(wǎng)絡(luò)中)到真實(shí)高清訓(xùn)練圖像的歐氏距離(Euclidean distance)損失。如果我沒(méi)理解錯(cuò)的話,它主要的目標(biāo)是,如果把兩幅圖送到經(jīng)過(guò)訓(xùn)練的卷積網(wǎng)絡(luò)后,再比較兩幅圖各自的特征激活量,兩幅圖是相似的。 

另一個(gè)作者定義的主要的損失函數(shù)是對(duì)抗損失(adversarial loss)。這個(gè)函數(shù)和通常和你期望從GANs里得到的差不多。它激勵(lì)和原始數(shù)據(jù)分布負(fù)對(duì)數(shù)似然類(lèi)似的輸出。正則化損失是損失函數(shù)的第三項(xiàng)。有了這個(gè)新的損失函數(shù),生成器可以確保輸出看起來(lái)自然的更高清圖像,同時(shí)相比低清圖像,也有相似的像素空間。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

后記:

GANs使用大部分無(wú)監(jiān)督的訓(xùn)練(你要做的只要有一個(gè)真實(shí)圖片的數(shù)據(jù)集,不需要標(biāo)簽和其他信息)。這意味著我們可以利用很多現(xiàn)有的未分類(lèi)的圖像數(shù)據(jù)。經(jīng)過(guò)訓(xùn)練,我們可以用輸出或者中間層作為特征提取器,如此就不需要那么多訓(xùn)練數(shù)據(jù)來(lái)達(dá)到高準(zhǔn)確率了。

我拿不到,但是超級(jí)酷的文章還有:DCGANs。作者們沒(méi)做什么太夸張的事,他們只是訓(xùn)練了一個(gè)特別特別大的卷積網(wǎng)絡(luò)。但是特別的地方在于他們有正確的超級(jí)參數(shù)來(lái)使訓(xùn)練真正的有用(也就是BatchNorm, Adam, Leaky ReLUs)。

via kdnuggets,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

自Ian Goodfellow之后,GANs還有哪些開(kāi)拓性進(jìn)展?

分享:
相關(guān)文章

作者

關(guān)注IoT和電動(dòng)汽車(chē),歡迎勾搭
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)