0
本文作者: 我在思考中 | 2021-11-19 18:14 |
編輯 | 青暮
首先想讓大家猜一猜,這四張圖中你覺得哪張是P過(guò)的?小編先留個(gè)懸念不公布答案,請(qǐng)繼續(xù)往下看。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)是通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)抗學(xué)習(xí)生成數(shù)據(jù)的方法。GAN從伊始到現(xiàn)在發(fā)展“壯大”,比如我們熟悉的PGGAN和StyleGAN,已經(jīng)可以生成高質(zhì)量、高分辨率的圖片。最近英偉達(dá)、多倫多大學(xué)和麻省理工大學(xué)的研究者們?yōu)镚AN“家族”又添一員—— EditGAN。
大多數(shù)基于 GAN 的圖像編輯都需要在具有語(yǔ)義分割注釋的大規(guī)模數(shù)據(jù)集上訓(xùn)練,并只提供極少的修改,或僅在不同圖像之間進(jìn)行插值。
而EditGAN作為一種高質(zhì)量、高精度語(yǔ)義圖像編輯的新模型,允許通過(guò)修改高精細(xì)度零件的分割掩碼(Segmentation mask)來(lái)編輯圖像。簡(jiǎn)而言之,EditGAN能自己P圖,而且還P得特別好。就如上圖所示,除了第一張是小哥原版的“邪魅笑容”,其余都是EditGAN的作品,請(qǐng)問你猜對(duì)了嗎?
EditGAN是建立在GAN框架上,該框架是對(duì)圖像及其語(yǔ)義分割 (DatasetGAN) 進(jìn)行聯(lián)合建模,只需要少量標(biāo)記數(shù)據(jù)就能訓(xùn)練,進(jìn)而成為可擴(kuò)展的編輯工具。
使用 EditGAN 進(jìn)行高精度語(yǔ)義圖像編輯
具體來(lái)說(shuō),就是將圖像嵌入到GAN潛在空間中,并根據(jù)分割編輯執(zhí)行潛在的代碼優(yōu)化從而高效地修改圖像。為了攤銷優(yōu)化,研究人員在潛在空間中找到編輯向量,并允許任意數(shù)量的編輯向量以交互速率直接應(yīng)用于其他圖像。
以可愛貓貓的“張嘴編輯”為例:
橫向第一排是圖像和學(xué)習(xí)編輯向量的蒙版,編輯前后的對(duì)比及原圖的分割掩碼和手動(dòng)修改后的目標(biāo)分割掩碼。第二排是EditGAN將學(xué)習(xí)提煉到的編輯應(yīng)用于新圖像的前后對(duì)比。
目前只有EditGAN可以達(dá)到這樣的效果!大多數(shù)基于GAN 的圖像編輯方法,有的依賴于GAN對(duì)類標(biāo)簽或像素級(jí)語(yǔ)義分割注釋的調(diào)節(jié),其他則需要輔助屬性分類器指導(dǎo)合成編輯圖像。而且訓(xùn)練它們必須背靠大型標(biāo)記數(shù)據(jù)集,導(dǎo)致這些方法目前僅適用于大型注釋數(shù)據(jù)集的圖像類型。除此之外,即使注釋可用,但由于注釋只包含高級(jí)別全局屬性或相對(duì)粗略的像素分割,大多數(shù)技術(shù)只提供有限編輯操作。
而EditGAN的“制勝法寶”就在于:高精度的分割掩碼(Segmentation mask)。
詳細(xì)的面部標(biāo)記,連魚尾紋、法令紋都有屬于自己的語(yǔ)義模塊,其實(shí)大可不必這么真實(shí)的。
汽車、鳥和貓的部分標(biāo)記模版也是無(wú)比精細(xì)了。
在EditGAN的交互式演示工具中,通過(guò)調(diào)整相應(yīng)部位的分割掩碼就修改圖像。
還能同時(shí)應(yīng)用多個(gè)編輯,并利用預(yù)定義的編輯向量生成新圖像。
EditGAN在繪畫作品上的泛化應(yīng)用也很出色。
可以說(shuō),EditGAN是第一個(gè)GAN驅(qū)動(dòng)的圖像編輯框架,它能提供非常高精度的編輯,只需要很少帶注釋的訓(xùn)練數(shù)據(jù)(并且不依賴于外部分類器),運(yùn)行實(shí)時(shí)交互,允許多個(gè)編輯的直接組合,并適用于真實(shí)嵌入、GAN生成圖像,甚至是域外圖像。
計(jì)算機(jī)視覺(Computer Vision, 簡(jiǎn)稱CV)領(lǐng)域取得了許多進(jìn)展。2012年之前,人工設(shè)計(jì)(hand-designed)是計(jì)算機(jī)視覺的主要研究方法。2012年,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在ImageNet的分類任務(wù)上發(fā)揮了巨大作用,熱門研究如:自動(dòng)駕駛,物體識(shí)別,對(duì)人體的理解等等。直到2014年,計(jì)算機(jī)科學(xué)家Ian Goodfellow發(fā)表生成對(duì)抗網(wǎng)絡(luò)(GAN)的開創(chuàng)性論文,開啟了深度學(xué)習(xí)的變革,取得了很多技術(shù)上的重大突破。雖然生成對(duì)抗網(wǎng)絡(luò)原先是為了無(wú)監(jiān)督學(xué)習(xí)提出的,它也被證明對(duì)半監(jiān)督學(xué)習(xí)、完全監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)是有用的。在一個(gè)2016年的研討會(huì),楊立昆描述生成式對(duì)抗網(wǎng)絡(luò)是“機(jī)器學(xué)習(xí)這二十年來(lái)最酷的想法”。
GAN包含了兩個(gè)神經(jīng)網(wǎng)絡(luò),生成器G(Generator)和鑒別器D(Discriminator),生成器的作用是生成圖片,鑒別器則接收?qǐng)D片作為輸入對(duì)象,隨后對(duì)圖像的真假進(jìn)行辨別,輸出1為真,輸出0則為假。在博弈的過(guò)程中兩者都在不斷變強(qiáng),即生成器產(chǎn)出的圖像愈發(fā)“惟妙惟肖”,鑒別器也更加“火眼金睛”。訓(xùn)練效果達(dá)到峰值后,這時(shí)再把D直接拿來(lái)作為圖片生成器。
下面我們將從風(fēng)格遷移、特征解耦和語(yǔ)言概念解耦三個(gè)方面,向大家展示GAN框架之下的視覺生成發(fā)展歷程。
這一階段的圖像生成技術(shù)繼承自CycleGAN、pix2pix等經(jīng)典模型,屬于條件生成,也就是基于確定的輸入來(lái)得到輸出,而不是像GAN那樣通過(guò)隨機(jī)采樣生成,從而輸出更加可控,或者得以實(shí)現(xiàn)對(duì)輸入的風(fēng)格化編輯。
在此基礎(chǔ)上,人們按照“輸入-輸出”配對(duì)的套路開發(fā)出了各種不同的玩法,比如漫畫真人化、風(fēng)景動(dòng)漫化、靜物變“動(dòng)物”、2D變3D等等。
“紙片人”變“真人”
YouTube博主AIみかん通過(guò)機(jī)器學(xué)習(xí)生成灌籃高手里各角色的真人版,80后90后淚目直呼“爺青回”。他使用的正是由藝術(shù)家Joel Simon在2018年創(chuàng)建的Artbreeder。Artbreeder是基于StyleGAN和bigGAN的在線圖像生成網(wǎng)站(曾被GANBreeder),人們使用它已經(jīng)創(chuàng)造了超過(guò)5400萬(wàn)張圖像。除了可將漫畫人物轉(zhuǎn)化為真人,還有肖像,風(fēng)景,建筑等圖片生成模式,網(wǎng)址:https://artbreeder.com/browse。
現(xiàn)實(shí)變“漫畫風(fēng)”
由清華大學(xué),卡迪夫大學(xué)的研究人員提出的CartoonGAN,作者們?cè)O(shè)計(jì)了一個(gè)GAN網(wǎng)絡(luò)框架,用非成對(duì)圖像訓(xùn)練GAN模型,能夠使用漫畫風(fēng)格直接重現(xiàn)現(xiàn)實(shí)世界的場(chǎng)景。
論文鏈接:https://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_CartoonGAN_Generative_Adversarial_CVPR_2018_paper.pdf
研究人員提出了損失函數(shù),在生成器里VGG網(wǎng)絡(luò)中引入高階特征映射稀疏正則化以保證現(xiàn)實(shí)照片和生成漫畫之間風(fēng)格差。在鑒別器里提出推進(jìn)邊緣的對(duì)抗損失,以確保生成邊緣清晰的圖片。CartoonGAN有四種訓(xùn)練好的模型:宮崎駿風(fēng)、細(xì)田守風(fēng)、今敏風(fēng)和新海誠(chéng)風(fēng)。
“靜物”變“動(dòng)態(tài)”
2020年大谷老師使用四個(gè)AI模型“復(fù)活”了兵馬俑。分別是基于StyleGan2的Artbreeder、First-order-model、DAIN、Topaz Labs,都是訓(xùn)練好的模型。
在整個(gè)修復(fù)過(guò)程中,每張圖都要按照順序用這4個(gè)AI模型進(jìn)行處理。其中,Artbreeder把角色從繪畫轉(zhuǎn)成寫實(shí)風(fēng)格,F(xiàn)irst-order-model生成人物動(dòng)態(tài),DAIN進(jìn)行補(bǔ)幀(60fps),最后用Topaz Labs提升分辨率,使用的顯卡是Nvidia 2080Ti。
“2D”變“3D”
上海交通大學(xué)和華為公司聯(lián)合提出基于GAN的感知生成器CIPS- 3D,使用單視角圖片,無(wú)需采集樣本,就能生成視覺立體圖像。CIPS- 3D在淺層使用的是主負(fù)責(zé)把人像從2D變3D的NeRF(Neural Radiance Fields,隱式神經(jīng)表達(dá)法),在深層網(wǎng)絡(luò)設(shè)置為能讓合成圖像保真的INR(Implicit Neural Representations,神經(jīng)輻射場(chǎng))。為解決鏡像對(duì)稱問題,研究人員在神經(jīng)網(wǎng)絡(luò)中添加了一個(gè)鑒別器,用以輔助甄別鏡像問題。
論文地址:https://arxiv.org/pdf/2110.09788.pdf
不支持在 Docs 外粘貼 block
當(dāng)然,這種圖像生成或編輯模式比較單一,通常一個(gè)模型只能實(shí)現(xiàn)一個(gè)功能。
人們開始思考,是否可以實(shí)現(xiàn)一個(gè)模型、多種PS?當(dāng)然可以,秘密藏在向量空間的特征解耦中。
特征解耦就是,在神經(jīng)網(wǎng)絡(luò)的輸入層和輸出層之間的編碼層,也就是向量空間中,將圖像的不同特征分解開來(lái),從而改變一個(gè)特征的時(shí)候,不會(huì)影響另一個(gè)特征。這正是實(shí)現(xiàn)一個(gè)模型、多種PS的必要條件。
比如由加州大學(xué)伯克利分校提出的InfoGAN。InfoGAN可以在向量空間控制生成圖像的不同變量,并且不會(huì)互相干擾,比如MNIST數(shù)據(jù)集中的數(shù)字類型、旋轉(zhuǎn)角度,以及人臉生成中的五官控制等等。
論文鏈接:https://arxiv.org/pdf/1606.03657.pdf
在標(biāo)準(zhǔn)的GAN中,生成數(shù)據(jù)的來(lái)源一般是一段連續(xù)單一的噪聲z,這會(huì)導(dǎo)致Generator會(huì)將z高度耦合處理,z將不可解釋。作者對(duì)GAN的目標(biāo)函數(shù)進(jìn)行改進(jìn),讓網(wǎng)絡(luò)學(xué)習(xí)擁有可解釋的特征表示。
在InfoGAN中,模型的輸入就被分成了兩部分:
(1)不可壓縮的 z,該部分不存在可以被顯式理解的語(yǔ)義信息。
(2)可解釋的隱變量 c,該部分包含我們關(guān)心的語(yǔ)義特征(如 MNIST 數(shù)據(jù)集中數(shù)字的傾斜程度、筆畫的粗細(xì)),與生成的數(shù)據(jù)之間具有高相關(guān)性(即二者之間的互信息越大越好)。
對(duì)于可解釋的部分,另一篇論文在特征空間層面給出了更加具體的解釋。
香港中文大學(xué)助理教授周博磊在CVPR2020提出了一個(gè)叫InterFaceGAN的方法,這個(gè)方法就是為了在隱空間跟最后輸出圖片的語(yǔ)義空間建立聯(lián)系。這個(gè)方法本身非常簡(jiǎn)單,但是很有效。
具體步驟是,訓(xùn)練好了生成模型過(guò)后,就得到了一個(gè)隱空間。然后可以從隱空間里面進(jìn)行采樣,把這些采樣出來(lái)的向量放到生成器之中,進(jìn)行圖片生成,后面可以再接一個(gè)現(xiàn)有的分類器,給生成的圖片打上一個(gè)具體的語(yǔ)義標(biāo)簽(比如性別標(biāo)簽)。
這樣就可以把預(yù)測(cè)出來(lái)的標(biāo)簽當(dāng)做隱空間向量的真實(shí)標(biāo)簽,從而進(jìn)一步再回到隱空間,把預(yù)測(cè)的標(biāo)簽當(dāng)成真實(shí)標(biāo)簽,然后訓(xùn)練一個(gè)分類器,對(duì)隱空間向量進(jìn)行分類。
研究發(fā)現(xiàn),在隱空間里面,GAN其實(shí)已經(jīng)把隱空間的向量變得非常解耦。只需要用一個(gè)線性分類器,就可以在隱空間里實(shí)現(xiàn)90%左右的二分分類準(zhǔn)確率。
在訓(xùn)練了一個(gè)線性分類器后可在隱空間里得到了一個(gè)子空間,這個(gè)子空間就對(duì)應(yīng)了生成圖片的性別。
當(dāng)然,要實(shí)現(xiàn)這種有明確語(yǔ)義的編輯方式,除了依靠數(shù)學(xué)的力量,也可以借助語(yǔ)言的魔法。比如,OpenAI在2021年初提出的DALL·E就通過(guò)直接的文本-圖像映射,實(shí)現(xiàn)了視覺效果驚艷,同時(shí)語(yǔ)義對(duì)應(yīng)上接近填空的控制力。
比如輸入“豎琴狀的蝸?!保珹I可以生成這樣的圖像:
要知道,這些圖像在訓(xùn)練集中是不存在的,不得不令人懷疑AI獲得了人類般的概念組合能力,也就是基于語(yǔ)言思維的概念解耦能力。
StyleCLIP進(jìn)一步將這個(gè)能力精細(xì)化,當(dāng)然這個(gè)模型也比DALL·E好實(shí)現(xiàn)多了。
由自希伯來(lái)大學(xué)、特拉維夫大學(xué)、Adobe 等機(jī)構(gòu)的學(xué)者們提出了名為StyleCLIP模型,它可以只“聽”文字指令就能“畫”出你想要的圖片。
論文地址:https://arxiv.org/pdf/2103.17249.pdf
論文中有3種結(jié)合StyleGAN和CLIP的方法:
Optimizer:以文本為指導(dǎo)的latent優(yōu)化,其中 CLIP 模型被用作損失網(wǎng)絡(luò)。
Mapper:訓(xùn)練一個(gè)特定文本提示的latent殘差映射器,使?jié)撛谙蛄颗c特定文本一一對(duì)應(yīng)。
Global dir:一種在StyleGAN的style space中將文本描述映射到輸入圖像的全局方向(global direction),提供了對(duì)操作強(qiáng)度和解耦的控制。
從風(fēng)格遷移到特征解耦、語(yǔ)言概念解耦,研究者們正通過(guò)數(shù)學(xué)和語(yǔ)言逐步改善GAN的功能,無(wú)論是從基本能力上,還是從功能精細(xì)化上,我們也在這個(gè)過(guò)程中不斷增進(jìn)對(duì)GAN的理解。當(dāng)然,這兩個(gè)方向并無(wú)優(yōu)劣之分,未來(lái)皆可期。
鏈接:
https://arxiv.org/pdf/2111.03186.pdf
https://mp.weixin.qq.com/s/h5gZCKRGZlG03DZL-2FWIw
https://tandon-a.github.io/Image-Editing-using-GAN/
https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247571522&idx=1&sn=380ab14b7cf34783fd412e60713b6b48&chksm=9095d1d1a7e258c79fbfda93ac25b66f651af60b77e28c4c17855aecfc1979471a03205e1e55&token=1979387772&lang=zh_CN#rd
https://mp.weixin.qq.com/s?__biz=MzA5ODEzMjIyMA==&mid=2247629931&idx=1&sn=3ee515e9f3e618c4cd05bb5841a96ecc&chksm=909af5f8a7ed7ceebfcc48fd9e38140412b6244de846b6bd11e800f3f65b0985dfa4f674c927&token=1979387772&lang=zh_CN#rd
https://arxiv.org/pdf/2103.17249.pdf
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。