丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

6

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

本文作者: 亞萌 2017-01-07 15:56 專題:雷峰網(wǎng)公開課
導(dǎo)語:新加坡國立大學(xué)馮佳時(shí)通過【硬創(chuàng)公開課】為我們洞悉GAN的誕生和走向。

編者按:本文內(nèi)容來自新加坡國立大學(xué)【機(jī)器學(xué)習(xí)與視覺實(shí)驗(yàn)室】負(fù)責(zé)人馮佳時(shí)博士在雷鋒網(wǎng)【硬創(chuàng)公開課】的分享。如果讀者想獲得關(guān)于本次公開課的PPT,可前往雷鋒網(wǎng)旗下微信公眾號(hào)【AI科技評(píng)論】,關(guān)注后回復(fù)“馮佳時(shí)PPT”獲得下載地址。

近年來,基于數(shù)據(jù)而習(xí)得“特征”的深度學(xué)習(xí)技術(shù)受到狂熱追捧,而其中GAN模型訓(xùn)練方法更加具有激進(jìn)意味:它生成數(shù)據(jù)本身。

GAN是“生成對(duì)抗網(wǎng)絡(luò)”(Generative Adversarial Networks)的簡稱,由2014年還在蒙特利爾讀博士的Ian Goodfellow引入深度學(xué)習(xí)領(lǐng)域。2016年,GAN熱潮席卷AI領(lǐng)域頂級(jí)會(huì)議,從ICLR到NIPS,大量高質(zhì)量論文被發(fā)表和探討。Yann LeCun曾評(píng)價(jià)GAN是“20年來機(jī)器學(xué)習(xí)領(lǐng)域最酷的想法”。

在GAN這片新興沃土,除了Ian Goodfellow所在的OpenAI在火力全開,F(xiàn)acebook的人工智能實(shí)驗(yàn)室也在這一領(lǐng)域馬不停蹄深耕,而蘋果近日曝出的首篇AI論文,就是基于GANs的變種“SimGAN”。從學(xué)術(shù)界到工業(yè)界,GANs席卷而來。

經(jīng)360首席科學(xué)家、人工智能研究院院長顏水成強(qiáng)力推薦,【硬創(chuàng)公開課】特邀馮佳時(shí)博士,在1月5日為大家?guī)砹艘黄谝浴渡疃葘W(xué)習(xí)新星:GANs的誕生與走向》為主題的演講,撥開圍繞GANs的迷霧。

嘉賓介紹

馮佳時(shí),現(xiàn)任新加坡國立大學(xué)電子與計(jì)算機(jī)工程系助理教授,機(jī)器學(xué)習(xí)與視覺實(shí)驗(yàn)室負(fù)責(zé)人。

中國科學(xué)技術(shù)大學(xué)自動(dòng)化系學(xué)士,新加坡國立大學(xué)電子與計(jì)算機(jī)工程系博士。2014-2015年在加州大學(xué)伯克利分校人工智能實(shí)驗(yàn)室從事博士后研究。現(xiàn)研究方向?yàn)閳D像識(shí)別、深度學(xué)習(xí)及面向大數(shù)據(jù)的魯棒機(jī)器學(xué)習(xí)。

馮佳時(shí)博士曾獲ICCV’2015 TASK-CV最佳論文獎(jiǎng),2012年ACM多媒體會(huì)議最佳技術(shù)演示獎(jiǎng)。擔(dān)任ICMR 2017技術(shù)委員會(huì)主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、會(huì)議審稿人。馮佳時(shí)博士已在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域發(fā)表論文60余篇。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

以下內(nèi)容整理自公開課分享。

GANs是深度學(xué)習(xí)領(lǐng)域比較重要的一個(gè)模型,也是人工智能研究的一個(gè)重要工具。

我們現(xiàn)在所追求的人工智能,一個(gè)很重要的特性就是能夠像我們?nèi)祟愐粯?,理解周圍?fù)雜的世界。包括識(shí)別和理解現(xiàn)實(shí)中的三維世界,人類、動(dòng)物和各種工具。這樣才能在對(duì)現(xiàn)實(shí)世界理解的基礎(chǔ)上,進(jìn)行推理和創(chuàng)造。

而正像著名物理學(xué)家,理查德?費(fèi)曼說的一樣,如果要真正理解一個(gè)東西,我們必須要能夠把它創(chuàng)造出來。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

正是基于這樣的想法,機(jī)器學(xué)習(xí)以及人工智能的研究者們提出了概率生成模型,致力于用概率和統(tǒng)計(jì)的語言,描述周圍的世界。

作為一種概率生成模型:GAN

簡單說, 概率生成模型的目的,就是找出給定觀測數(shù)據(jù)內(nèi)部的統(tǒng)計(jì)規(guī)律,并且能夠基于所得到的概率分布模型,產(chǎn)生全新的,與觀測數(shù)據(jù)類似的數(shù)據(jù)。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

舉個(gè)例子,概率生成模型可以用于自然圖像的生成。假設(shè)給定1000萬張圖片之后,生成模型可以自動(dòng)學(xué)習(xí)到其內(nèi)部分布,能夠解釋給定的訓(xùn)練圖片,并同時(shí)生成新的圖片。

與龐大的真實(shí)數(shù)據(jù)相比,概率生成模型的參數(shù)個(gè)數(shù)要遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)的數(shù)量。因此,在訓(xùn)練過程中,生成模型會(huì)被強(qiáng)迫去發(fā)現(xiàn)數(shù)據(jù)背后更為簡單的統(tǒng)計(jì)規(guī)律,從而能夠生成這些數(shù)據(jù)。

現(xiàn)在比較流行的生成模型,其實(shí)可以分為三類:

  1. 生成對(duì)抗網(wǎng)絡(luò)(GAN)。這個(gè)是我們今天要重點(diǎn)介紹的內(nèi)容。


  2. 變分自動(dòng)編碼模型(VAE)。它依靠的是傳統(tǒng)的概率圖模型的框架,通過一些適當(dāng)?shù)穆?lián)合分布的概率逼近,簡化整個(gè)學(xué)習(xí)過程,使得所學(xué)習(xí)到的模型能夠很好地解釋所觀測到的數(shù)據(jù)。


  3. 自回歸模型(Auto-regressive)。在這種模型里,我們簡單地認(rèn)為,每個(gè)變量只依賴于它的分布,只依賴于它在某種意義上的近鄰。例如將自回歸模型用在圖像的生成上。那么像素的取值只依賴于它在空間上的某種近鄰?,F(xiàn)在比較流行的自回歸模型,包括最近剛剛提出的像素CNN或者像素RNN,它們可以用于圖像或者視頻的生成。

GAN熱度從學(xué)術(shù)界蔓延至工業(yè)界

這三種生成模型都有各自的優(yōu)缺點(diǎn),然后也在不同的領(lǐng)域上得到廣泛的關(guān)注。而今天我們要介紹的GAN實(shí)際上是一種比較年輕的方法。兩年半之前, Ian Goodfellow的一篇論文首次將其引入,雖然時(shí)間很短,但我們看Google的搜索熱度和Google學(xué)術(shù)上論文引用的次數(shù),它一直受到學(xué)術(shù)界廣泛的關(guān)注,而且熱度一直快速增長。

除了學(xué)術(shù)界,GAN還受到工業(yè)界的廣泛關(guān)注。有許多做人工智能研究的公司正在投入大量的精力來發(fā)展和推廣GAN模型。其中包括 Ian Goodfellow 如今所在的 OpenAI 公司。這個(gè)公司一直在致力于研究推廣GAN,并將其應(yīng)用在不同的任務(wù)上。同時(shí) Facebook 和 Twitter 最近兩年也投入了大量的精力來研究,并將GAN應(yīng)用在了圖像生成和視頻生成上。尤其值得一提的是,Apple最近發(fā)表了其關(guān)于人工智能研究的首篇論文,恰恰是應(yīng)用GAN來做數(shù)據(jù)的生成,幫助更好地訓(xùn)練機(jī)器學(xué)習(xí)模型。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

那么,GAN為什么會(huì)受到這樣廣泛的關(guān)注呢?

Goodfellow在他的論文中,給出了一些解釋。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

GAN是更好的生成模型,在某種意義上避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制,這使得它能夠區(qū)別于傳統(tǒng)的概率生成模型。傳統(tǒng)概率生成模型一般都需要進(jìn)行馬可夫鏈?zhǔn)降牟蓸雍屯茢啵鳪AN避免了這個(gè)計(jì)算復(fù)雜度特別高的過程,直接進(jìn)行采樣和推斷,從而提高了GAN的應(yīng)用效率,所以其實(shí)際應(yīng)用場景也就更為廣泛。

其次GAN是一個(gè)非常靈活的設(shè)計(jì)框架,各種類型的損失函數(shù)都可以整合到GAN模型當(dāng)中,這樣使得針對(duì)不同的任務(wù),我們可以設(shè)計(jì)不同類型的損失函數(shù),都會(huì)在GAN的框架下進(jìn)行學(xué)習(xí)和優(yōu)化。

再次,最重要的一點(diǎn)是,當(dāng)概率密度不可計(jì)算的時(shí)候,傳統(tǒng)依賴于數(shù)據(jù)自然性解釋的一些生成模型就不可以在上面進(jìn)行學(xué)習(xí)和應(yīng)用。但是GAN在這種情況下依然可以使用,這是因?yàn)镚AN引入了一個(gè)非常聰明的內(nèi)部對(duì)抗的訓(xùn)練機(jī)制,可以逼近一些不是很容易計(jì)算的目標(biāo)函數(shù)。

Facebook人工智能研究院的Yann LeCun也一直是GAN的積極倡導(dǎo)者。其中一個(gè)最重要的原因就是GAN為無監(jiān)督學(xué)習(xí)提供了一個(gè)強(qiáng)有力的算法框架,而無監(jiān)督學(xué)習(xí)被廣泛認(rèn)為是通往人工智能重要的一環(huán)。就像Yann LeCun所給出的一個(gè)比喻一樣:

“如果人工智能是一塊蛋糕,那么強(qiáng)化學(xué)習(xí)是蛋糕上的一粒櫻桃,監(jiān)督學(xué)習(xí)是外面的一層糖霜,無監(jiān)督/預(yù)測學(xué)習(xí)則是蛋糕胚。目前我們只知道如何制作糖霜和櫻桃,卻不知如何制作蛋糕胚?!?/p>

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

雖然還在快速的發(fā)展當(dāng)中,但是GAN確實(shí)為無監(jiān)督學(xué)習(xí),提供了一個(gè)非常有潛力的解決方案。

樸素GAN的基本框架

一個(gè)最樸素的GAN模型,實(shí)際上是將一個(gè)隨機(jī)變量(可以是高斯分布,或0到1之間的均勻分布),通過參數(shù)化的概率生成模型(通常是用一個(gè)神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行參數(shù)化),進(jìn)行概率分布的逆變換采樣,從而得到一個(gè)生成的概率分布(圖中綠色的分布模型)。

而GAN的或者一般概率生成模型的訓(xùn)練目的,就是要使得生成的概率分布和真實(shí)數(shù)據(jù)的分布盡量接近,從而能夠解釋真實(shí)的數(shù)據(jù)。但是在實(shí)際應(yīng)用中,我們完全沒有辦法知道真實(shí)數(shù)據(jù)的分布。我們所能夠得到的只是從這個(gè)真實(shí)的數(shù)據(jù)分布中所采樣得到的一些真實(shí)數(shù)據(jù)。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

通過優(yōu)化目標(biāo),使得我們可以調(diào)節(jié)概率生成模型的參數(shù)\theta,從而使得生成的概率分布和真實(shí)數(shù)據(jù)分布盡量接近。

那么怎么去定義一個(gè)恰當(dāng)?shù)膬?yōu)化目標(biāo)或一個(gè)損失?傳統(tǒng)的生成模型,一般都采用數(shù)據(jù)的似然性來作為優(yōu)化的目標(biāo),但GAN創(chuàng)新性地使用了另外一種優(yōu)化目標(biāo)。首先,它引入了一個(gè)判別模型(常用的有支持向量機(jī)和多層神經(jīng)網(wǎng)絡(luò))。其次,它的優(yōu)化過程就是在尋找生成模型和判別模型之間的一個(gè)納什均衡。

GAN所建立的一個(gè)學(xué)習(xí)框架,實(shí)際上就是生成模型和判別模型之間的一個(gè)模仿游戲。生成模型的目的,就是要盡量去模仿、建模和學(xué)習(xí)真實(shí)數(shù)據(jù)的分布規(guī)律;而判別模型則是要判別自己所得到的一個(gè)輸入數(shù)據(jù),究竟是來自于真實(shí)的數(shù)據(jù)分布還是來自于一個(gè)生成模型。通過這兩個(gè)內(nèi)部模型之間不斷的競爭,從而提高兩個(gè)模型的生成能力和判別能力。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

如果我們把生成模型比作是一個(gè)偽裝者的話,那么判別模型就是一個(gè)警察的角色。偽裝者的目的,就是通過不斷的學(xué)習(xí)來提高自己的偽裝能力,從而使得自己提供的數(shù)據(jù)能夠更好地欺騙這個(gè)判別模型。而判別模型則是通過不斷的訓(xùn)練來提高自己判別的能力,能夠更準(zhǔn)確地判斷數(shù)據(jù)來源究竟是哪里。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

當(dāng)一個(gè)判別模型的能力已經(jīng)非常強(qiáng)的時(shí)候,如果生成模型所生成的數(shù)據(jù),還是能夠使它產(chǎn)生混淆,無法正確判斷的話,那我們就認(rèn)為這個(gè)生成模型實(shí)際上已經(jīng)學(xué)到了真實(shí)數(shù)據(jù)的分布。

GAN的基本原理

GAN模型包括了一個(gè)生成模型G和一個(gè)判別模型D,GAN的目標(biāo)函數(shù)是關(guān)于D與G的一個(gè)零和游戲。也是一個(gè)最小-最大化問題。

這里判別模型D實(shí)際上是對(duì)數(shù)據(jù)的來源進(jìn)行一個(gè)判別:究竟這個(gè)數(shù)據(jù)是來自真實(shí)的數(shù)據(jù)分布Pdata,還是來自于一個(gè)生成模型G所產(chǎn)生的一個(gè)數(shù)據(jù)分布Pg。

判別模型D的訓(xùn)練目的就是要盡量最大化自己的判別準(zhǔn)確率。當(dāng)這個(gè)數(shù)據(jù)被判別為來自于真實(shí)數(shù)據(jù)時(shí),標(biāo)注 1,自于生成數(shù)據(jù)時(shí),標(biāo)注 0。

而與這個(gè)目的相反的是,生成模型G的訓(xùn)練目標(biāo),就是要最小化判別模型D的判別準(zhǔn)確率。在訓(xùn)練過程中,GAN采用了一種非常直接的交替優(yōu)化方式,它可以分為兩個(gè)階段,第一個(gè)階段是固定判別模型D,然后優(yōu)化生成模型G,使得判別模型的準(zhǔn)確率盡量降低。而另一個(gè)階段是固定生成模型G,來提高判別模型的準(zhǔn)確率。

下面這張圖,可視化了GAN學(xué)習(xí)的過程,從左到右是隨著訓(xùn)練過程的進(jìn)展,依次得到的訓(xùn)練結(jié)果。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

圖(a)中黑色大點(diǎn)虛線P(x)是真實(shí)的數(shù)據(jù)分布,綠線G(z)是通過生成模型產(chǎn)生的數(shù)據(jù)分布(輸入是均勻分布變量z,輸出是綠色的曲線)。藍(lán)色的小點(diǎn)虛線D(x)代表判別函數(shù)。

在圖(a)中,我們可以看到,綠線G(z)分布和黑色P(x)真實(shí)分布,還有比較大的差異。這點(diǎn)也反映在藍(lán)色的判別函數(shù)上,判別函數(shù)能夠準(zhǔn)確的對(duì)左面的真實(shí)數(shù)據(jù)輸入,輸出比較大的值。對(duì)右面虛假數(shù)據(jù),產(chǎn)生比較小的值。但是隨著訓(xùn)練次數(shù)的增加,圖(b)和圖(c)反映出,綠色的分布在逐漸靠近黑色的分布。到圖(d),產(chǎn)生的綠色分布和真實(shí)數(shù)據(jù)分布已經(jīng)完全重合。這時(shí),判別函數(shù)對(duì)所有的數(shù)據(jù)(無論真實(shí)的還是生成的數(shù)據(jù)),輸出都是一樣的值,已經(jīng)不能正確進(jìn)行分類。G成功學(xué)習(xí)到了數(shù)據(jù)分布,這樣就達(dá)到了GAN的訓(xùn)練和學(xué)習(xí)目的。

  • GAN的全局最優(yōu)解和收斂性

但是GAN有一些待加強(qiáng)的理論保證,其中一個(gè)是說,GAN是存在全局最優(yōu)解的。這個(gè)全局最優(yōu)解可以通過一些簡單的分析得到。首先,如果固定G,那么D的最優(yōu)解就是一個(gè)貝葉斯分類器。將這個(gè)最優(yōu)解形式帶入,可以得到關(guān)于G的優(yōu)化函數(shù)。簡單的計(jì)算可以證明,當(dāng)產(chǎn)生的數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布完全一致時(shí),這個(gè)優(yōu)化函數(shù)達(dá)到全局最小值。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

另外一點(diǎn),是關(guān)于GAN的收斂性。如果G和D的學(xué)習(xí)能力足夠強(qiáng),兩個(gè)模型可以收斂。但在實(shí)際中,GAN的優(yōu)化還存在諸如不穩(wěn)定等一些問題。如何平衡兩個(gè)模型在訓(xùn)練中是一個(gè)很重要的問題。

  • GAN的優(yōu)點(diǎn)和缺點(diǎn)

GAN的優(yōu)點(diǎn)很多,前面我們提到了一部分。這里要提到的一個(gè)重要優(yōu)點(diǎn),就是生成模型G的參數(shù)更新不是來自于數(shù)據(jù)樣本本身(不是對(duì)數(shù)據(jù)的似然性進(jìn)行優(yōu)化),而是來自于判別模型D的一個(gè)反傳梯度。

GAN可以和CNN、RNN結(jié)合在一起。任何一個(gè)可微分的函數(shù),都可以用來參數(shù)化GAN的生成模型和判別模型。那么,在實(shí)際中,我們就可以使用深度卷積網(wǎng)絡(luò),來參數(shù)化生成模型。另外,GAN和RNN結(jié)合在一起,用來處理和描述一些連續(xù)的序列數(shù)據(jù),可以學(xué)習(xí)到序列數(shù)據(jù)的分布,同時(shí)也可以產(chǎn)生序列數(shù)據(jù)應(yīng)用,包括對(duì)音樂數(shù)據(jù)或者是一些自然語言數(shù)據(jù)的建模和生成。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

但GAN的缺點(diǎn)也同樣明顯。

第一個(gè)是GAN的可解釋性非常差,因?yàn)槲覀冏詈笏鶎W(xué)到的一個(gè)數(shù)據(jù)分布Pg(G),沒有顯示的表達(dá)式。它只是一個(gè)黑盒子一樣的映射函數(shù):輸入是一個(gè)隨機(jī)變量,輸出是我們想要的一個(gè)數(shù)據(jù)分布。

其次,在實(shí)際應(yīng)用中GAN比較難訓(xùn)練。因?yàn)镚AN要交替優(yōu)化兩個(gè)部件,而這兩個(gè)部件之間的優(yōu)化需要很好的同步。例如,在實(shí)際中我們常常需要 D 更新 K次, G 才能更新 1 次,如果沒有很好地平衡這兩個(gè)部件的優(yōu)化,那么G最后就極大可能會(huì)坍縮到一個(gè)鞍點(diǎn)。

GAN的應(yīng)用實(shí)例

作為一個(gè)生成模型,GAN最直接的應(yīng)用,就是用于真實(shí)數(shù)據(jù)分布的建模和生成,包括可以生成一些圖像和視頻,以及生成一些自然語句和音樂等。其次,因?yàn)閮?nèi)部對(duì)抗訓(xùn)練的機(jī)制,GAN可以解決一些傳統(tǒng)的機(jī)器學(xué)習(xí)中所面臨的數(shù)據(jù)不足的問題,因此可以應(yīng)用在半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、多視角、多任務(wù)學(xué)習(xí)的任務(wù)中。還有,就是最近有一些工作已經(jīng)將進(jìn)行成功應(yīng)用在強(qiáng)化學(xué)習(xí)中,來提高強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率。因此GAN有著非常廣泛的應(yīng)用。

  • 應(yīng)用實(shí)例 1:圖像超分辨率(Twitter)

Twitter 公司最近發(fā)表了一篇圖像超分辨率的論文,就是應(yīng)用了GAN模型。圖像超分辨率的目的,是將一個(gè)低分辨率的模糊圖像,進(jìn)行某種變換,得到一個(gè)高分辨率的帶有豐富細(xì)節(jié)的清晰圖像。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

超分辨率問題,實(shí)際上是一個(gè)病態(tài)問題,因?yàn)樵趫D像分辨率降低的過程中,丟失的高頻細(xì)節(jié)很難恢復(fù)。但是GAN在某種程度上可以學(xué)習(xí)到高分辨率圖像的分布,從而能夠生成質(zhì)量比較好的高分辨率圖像。

生成模型要將模糊的低分辨率圖像作為輸入,并輸出一個(gè)高分辨率的清晰圖像。而判別模型,就要判斷所輸入的圖像究竟是“真實(shí)高分辨率圖像”還是由低分辨率圖像“轉(zhuǎn)化來的高分辨率圖像”。而這就大大簡化了圖像超分辨率模型的學(xué)習(xí)過程。因?yàn)閭鹘y(tǒng)上做一個(gè)圖像超分辨率,都要去對(duì)一些高頻細(xì)節(jié)進(jìn)行建模,而這里生成模型訓(xùn)練目的就簡化為迷惑判別模型。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

為了使得整個(gè)GAN能夠取得比較好的結(jié)果,我們常常要求生成模型和判別模型都要有很強(qiáng)的學(xué)習(xí)能力,所以在實(shí)際應(yīng)用中,我們常常用一個(gè)多層的神經(jīng)網(wǎng)絡(luò)來參數(shù)化生成模型或者判別模型。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

在 Twitter 這篇論文中,他們用一個(gè)16個(gè)殘差塊的網(wǎng)絡(luò)來參數(shù)化生成模型。而判別模型使用的是一個(gè)VGG網(wǎng)絡(luò)。這個(gè)實(shí)驗(yàn)結(jié)果也說明了使用GAN模型能夠得到更好的結(jié)果。與以往基于深度學(xué)習(xí)模型做圖像超分辨率的結(jié)果相比的話(比如SRResNet等),我們可以看到GAN的結(jié)果圖能夠提供更豐富的細(xì)節(jié)。這也就是GAN做圖像生成時(shí)的一個(gè)顯著優(yōu)點(diǎn),即能夠提供更銳利的數(shù)據(jù)細(xì)節(jié)。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

  • 應(yīng)用實(shí)例 2:數(shù)據(jù)合成(Apple)

Apple最近剛剛發(fā)表了其第一篇AI論文,論文要解決的問題,就是如何使得模擬的數(shù)據(jù)更加逼真,與真實(shí)圖像的差異性盡量小。

這篇論文中使用了類似GAN的框架,將模擬器(Simulator)產(chǎn)生的虛擬數(shù)據(jù)作為輸入,通過一個(gè)叫做改進(jìn)器(Refiner)的模型(對(duì)應(yīng)生成模型)來產(chǎn)生改進(jìn)后的虛擬數(shù)據(jù)。再同樣的,使用一個(gè)判別器,來判斷所產(chǎn)生的圖像是真實(shí)的,還是虛擬的 。

Apple對(duì)GAN主要做了兩個(gè)方面的改進(jìn)。

第一個(gè)就是,為了最大程度保留虛擬圖像的類別,引入了額外的一個(gè)自正則項(xiàng)(Self-Regularization Term),最小化生成圖像與合成圖像的絕對(duì)值誤差,從而保留圖像的標(biāo)注信息,如眼睛視線的方向,使得生成圖像可以用于訓(xùn)練機(jī)器學(xué)習(xí)模型。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

另外一個(gè)改進(jìn),是引入了一個(gè)局部對(duì)抗損失函數(shù)(Local adversarial loss),而不是像之前的判別器,使用的是一個(gè)全局的損失函數(shù)。這里不同于樸素GAN將整張圖作為一個(gè)輸入進(jìn)行真與假的判別,而是將輸入的圖像分成若干個(gè)圖像塊,對(duì)每個(gè)圖像塊進(jìn)行判別。這樣的話可以避免過于強(qiáng)調(diào)某些特定的圖像特征而導(dǎo)致的尾插。同時(shí)實(shí)驗(yàn)結(jié)果也表明,使用這種局部的對(duì)抗損失,確實(shí)可以提供一些更銳利的細(xì)節(jié),使得生成結(jié)果具有更豐富的信息。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

那么除了剛才介紹的兩個(gè)例子,GAN還有其他一些非常有意思的應(yīng)用。

  • 其它有趣的應(yīng)用實(shí)例

首先,圖像到圖像的翻譯。比如說將語義標(biāo)注圖、灰度圖或邊緣圖作為GAN的輸入,那么我們希望它輸出能夠和輸入圖一致的真實(shí)圖像,例如這里的街景圖和彩色圖。

其次,文本到圖像的翻譯。GAN的輸入是一個(gè)描述圖像內(nèi)容的一句話,比如“一只有著粉色的胸和冠的小鳥”,那么所生成的圖像內(nèi)容要和這句話所描述的內(nèi)容相匹配。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

GAN可以用在特定的人臉圖像生成上,例如戴著墨鏡的人臉。還可用在圖像語音分割上,通過引入對(duì)抗訓(xùn)練,得到更銳利的風(fēng)格結(jié)果。GAN可以用于視頻生成,通過過去的一些幀來預(yù)測未來的一些幀,從而捕捉到一些運(yùn)動(dòng)的信息。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

最近,我們自己的實(shí)驗(yàn)室團(tuán)隊(duì)在GAN上也有一些應(yīng)用和發(fā)展,其中一個(gè)是將GAN應(yīng)用在“人臉去遮擋”。我們引入了一種保持人的身份信息的GAN模型,實(shí)驗(yàn)結(jié)果證明,這個(gè)模型不僅能夠檢測和去掉在人臉上的遮擋,同時(shí)還能保持人的身份信息,從而提高人臉的識(shí)別準(zhǔn)確率。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

我們實(shí)驗(yàn)室的另一個(gè)GAN應(yīng)用,是在小物體的檢測上,例如在自動(dòng)駕駛領(lǐng)域?qū)煌?biāo)志進(jìn)行檢測。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

我們發(fā)現(xiàn),小的交通標(biāo)志和大的交通標(biāo)志實(shí)際上在特征表示上有著顯著的差異。因此,如果我們直接將所學(xué)習(xí)到的特征表示作為輸入,進(jìn)行檢測的話,那么小物體上的檢測結(jié)果往往都不是特別好。所以,我們提出了一個(gè)“感知GAN模型”(Perceptual GAN),應(yīng)用在小物體特征表示的超分辨率上,而不是對(duì)原始圖像進(jìn)行超分辨率,使得小物體的特征表示和大物體的特征角表示盡量接近,這樣我們就能夠成功檢測到小物體。我們將這個(gè)感知GAN模型應(yīng)用在了交通標(biāo)志檢測上,取得了比較好的實(shí)驗(yàn)結(jié)果。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

GAN的未來發(fā)展方向

  1. 針對(duì)GAN可解釋性差進(jìn)行改進(jìn)。包括最近剛提出的InfoGANs。InfoGANs通過最大化隱變量與觀測數(shù)據(jù)的互信息,來改進(jìn)GAN的解釋性。

  2. 進(jìn)一步提高GAN的學(xué)習(xí)能力。包括引入“多主體的GAN”。在多主體的GAN中,有多個(gè)生成器和判別器,它們之間可以進(jìn)行交流,進(jìn)行知識(shí)的共享,從而提高整體的學(xué)習(xí)能力。

  3. 針對(duì)GAN優(yōu)化不穩(wěn)定性進(jìn)行改進(jìn)。例如使用 F 散度來作為一個(gè)優(yōu)化目標(biāo)和手段,對(duì)GAN進(jìn)行訓(xùn)練。

  4. 應(yīng)用在一些更廣泛的領(lǐng)域。包括遷移學(xué)習(xí)以及領(lǐng)域自適應(yīng)學(xué)習(xí)。還有一個(gè)最近比較有意思的應(yīng)用,是建立了GAN和強(qiáng)化學(xué)習(xí)之間的聯(lián)系,將GAN用在了逆強(qiáng)化學(xué)習(xí)和模擬學(xué)習(xí)上,從而能夠大幅度提高強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率。另外還可以用在數(shù)據(jù)的壓縮上以及應(yīng)用在除了圖像以外其他的數(shù)據(jù)模式上,比如用于自然語句的生成,還有音樂的生成。

總結(jié)

  1. GAN的優(yōu)勢(shì)。作為一個(gè)生成模型,GAN模型避免了一些傳統(tǒng)生成模型在實(shí)際應(yīng)用中的一些困難,巧妙地通過對(duì)抗學(xué)習(xí)來近似一些不可解的損失函數(shù)。

  2. 應(yīng)用方。GAN現(xiàn)在廣泛應(yīng)用圖像和視頻等數(shù)據(jù)的生成,還可以用在自然語言和音樂生成上。

  3. 存在的問題。一個(gè)是GAN的優(yōu)化過程中存在不穩(wěn)定性,很容易坍縮到一個(gè)鞍點(diǎn)上;其次是GAN的可解釋性比較差;再次,需要提高訓(xùn)練過程中的穩(wěn)定性和GAN模型的延展性,尤其在處理大規(guī)模數(shù)據(jù)的時(shí)候。

  4. 應(yīng)用前景。在未來,我們希望看到GAN應(yīng)用在無監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)上,提供有效的解決方案。同時(shí)GAN還可以建立與強(qiáng)化學(xué)習(xí)之間的聯(lián)系,應(yīng)用在強(qiáng)化學(xué)習(xí)上。

最后,回到Y(jié)ann LeCun提出的那個(gè)比喻,我們對(duì)它進(jìn)行一點(diǎn)修改。就是如果人工智能是一個(gè)蛋糕的話,那么“蛋糕胚”不僅是指無監(jiān)督的數(shù)據(jù)表示學(xué)習(xí),還應(yīng)該包括“無監(jiān)督推斷學(xué)習(xí)”,而GAN確實(shí)很好地連接了這兩個(gè)重要的人工智能主體。

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

另外,除了強(qiáng)化學(xué)習(xí)這顆“櫻桃”之外,實(shí)際上還有很多其他的“櫻桃”。比如說魯棒學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和在線學(xué)習(xí)等。所以實(shí)際上還有許多問題需要大家一起來解決。

最后我要感謝一下實(shí)驗(yàn)室的博士后和訪問學(xué)生對(duì)我們GAN工作的貢獻(xiàn),他們?cè)谛履甑臅r(shí)候還要熬夜幫我準(zhǔn)備這次PPT的一些素材。另外,謝謝大家來聽這次分享課。

PS:可關(guān)注雷鋒網(wǎng)公眾號(hào),每天定時(shí)獲得最新科技圈資訊。


相關(guān)文章:

Jeff Dean親自站臺(tái)背書,揭秘谷歌大腦培訓(xùn)生養(yǎng)成計(jì)劃

深度學(xué)習(xí)零基礎(chǔ)進(jìn)階第四彈?|干貨分享

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

深度學(xué)習(xí)新星:GAN的基本原理、應(yīng)用和走向 | 雷鋒網(wǎng)公開課

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說