0
本文作者: 我在思考中 | 2021-10-13 17:29 |
太狂野了!
你永遠(yuǎn)不知道StyleGAN的想象力可以有多強(qiáng)大。
剛剛英偉達(dá)最新推出的升級(jí)版StyleGAN 3,因?yàn)橐唤M合成藝術(shù)作品刷爆Twitter,不少網(wǎng)友感嘆:AI 制造了人類無(wú)法理解的恐怖!
StyleGAN生成式對(duì)抗網(wǎng)絡(luò)是一種最先進(jìn)的高分辨率圖像合成方法,從最初的GAN到StyleGAN2變體,其圖像合成能力一直在突破人類的想象,而這次升級(jí)版StyleGAN3的對(duì)生成細(xì)節(jié)的把控更是令人驚嘆!
AI科技評(píng)論發(fā)現(xiàn),這項(xiàng)研究出自英偉達(dá)最新論文《Alias-Free Generative Adversarial Networks》,論文中表明,它從根本上解決了StyleGAN2 圖像坐標(biāo)與特征粘連的問(wèn)題,實(shí)現(xiàn)了真正的圖像平移、旋轉(zhuǎn)等不變性,大幅提高了圖像合成質(zhì)量。
何謂等變性?簡(jiǎn)單理解就是生成的物體和圖像的像素坐標(biāo)沒(méi)關(guān)系,仔細(xì)看下圖:
你會(huì)發(fā)現(xiàn)StyleGAN2生成的動(dòng)物毛發(fā)會(huì)粘在屏幕上,和動(dòng)物的形態(tài)變化不一致。這就是StyleGAN變體一直無(wú)法解決的難題之一。果然魔鬼都在細(xì)節(jié)里!
StyleGAN3的魔力
我們知道,盡管生成式對(duì)抗網(wǎng)絡(luò)具有層級(jí)卷積的性質(zhì),但由于過(guò)度依賴絕對(duì)像素坐標(biāo)往往會(huì)出現(xiàn)圖像細(xì)節(jié)“粘”在坐標(biāo)上的現(xiàn)象,原因多出自”粗糙“的信號(hào)處理過(guò)程和神經(jīng)網(wǎng)絡(luò)混疊上。
在這項(xiàng)研究中,英偉達(dá)將網(wǎng)絡(luò)中的所有信號(hào)解釋為連續(xù)的,并對(duì)架構(gòu)進(jìn)行輕微調(diào)整保證不需要的信息不會(huì)泄漏到分層合成過(guò)程,最終得到了StyleGAN3,相比于StyleGAN2,它在保證了圖像基本質(zhì)量的同時(shí),明顯改善了其內(nèi)部的表示方式——即使在亞像素尺度上也能實(shí)現(xiàn)絕對(duì)的平移和旋轉(zhuǎn)。
項(xiàng)目主頁(yè):https://nvlabs.github.io/stylegan3/
雖然生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)已被廣泛用于各種應(yīng)用,包括圖像編輯、圖像翻譯以及視頻生成,現(xiàn)有的控制生成的模型也達(dá)到了很高的水平,但總體而言,在合成過(guò)程的基礎(chǔ)層面仍有極大的改善空間。
在現(xiàn)實(shí)世界中,圖像在不同尺度上的細(xì)節(jié)往往是層次變化的。例如,頭部的移動(dòng)可能導(dǎo)致頭發(fā)、鼻子,甚至皮膚上毛孔隨之改變。
通常,典型GAN生成器的結(jié)構(gòu)化處理過(guò)程是:粗糙、低分辨率的特征通過(guò)上采樣層分層細(xì)化,再通過(guò)卷積局部混合,以及非線性引入新的細(xì)節(jié)。這種體系結(jié)構(gòu)可能基本還原了圖像的表面特征,但它并沒(méi)有以一種“自然而然”的方式合成更逼真的圖像,也就是說(shuō),粗糙特征確保了圖像細(xì)節(jié)的存在,但沒(méi)有控制它們的精確位置,細(xì)節(jié)被固定在了圖像坐標(biāo)上。
所形成的“紋理粘附”特征在隱藏表示的插值中清晰可見(jiàn),打破了動(dòng)態(tài)物體在空間中移動(dòng)的連貫性。
這項(xiàng)研究的目標(biāo)就是,創(chuàng)建更自然的轉(zhuǎn)換層次的體系結(jié)構(gòu),讓每個(gè)特征的精確亞像素位置都從底層粗特征中獲得。我們?cè)賮?lái)看一組最終的效果圖:
可以看到,在頭部移動(dòng)的情況下,左圖 StyleGAN2 生成的頭發(fā)、皺紋等粘在了屏幕坐標(biāo)上,而右圖StyleGAN3生成的所有細(xì)節(jié)都可以連貫地轉(zhuǎn)換,效果絲滑。
在 MetFaces 、animal數(shù)據(jù)集中的效果同樣如此,StyleGAN3中的場(chǎng)景與其余部分平滑地轉(zhuǎn)換。
還可以注意到,在風(fēng)景圖生成中,StyleGAN3似乎已經(jīng)學(xué)會(huì)模仿鏡頭運(yùn)動(dòng)(beach數(shù)據(jù)集)。
下圖展示了幾種“橋式(bridge)”配置中平移等變性或缺乏平移等變性的現(xiàn)象。
第一列圖像是利用具有解析傅立葉輸入特征的生成器生成的圖像;第二列圖像基于第一列圖像,通過(guò)使用高質(zhì)量的重采樣濾波器進(jìn)行反向平移來(lái)“不變換”像素。
第三列圖像展示了前兩列圖像的不同。對(duì)于完美“等變”生成器(第5張圖和第6張圖),前兩列圖像是相同的,由模圖像邊界(由于光裁剪而未顯示)和重采樣產(chǎn)生數(shù)字噪聲??梢钥闯?,在60 dB范圍內(nèi),其在視覺(jué)上堪稱完美。
下圖以類似于上圖的方式說(shuō)明了StyleGAN3的旋轉(zhuǎn)等變性。
第一行中的StyleGAN3-T只為平移等變性而設(shè)計(jì),正如預(yù)期的那樣,它在旋轉(zhuǎn)不變性上完全失敗了。第二行展示的是StyleGAN3-T的一種變體,它使用p4對(duì)稱G-CNN實(shí)現(xiàn)旋轉(zhuǎn)等變。在360度的人臉旋轉(zhuǎn)中,在90度的倍數(shù)處是精確的,但在中間角度處會(huì)發(fā)生扭曲。而StyleGAN3-R展示了高保真的旋轉(zhuǎn)等變性(盡管視覺(jué)上還不算完美)。
下圖演示了點(diǎn)態(tài)非線性(這里是ReLU)固有的混疊,以及StyleGAN3的解決方案。
左列:原始限帶信號(hào)z,對(duì)其理想版本(上)進(jìn)行采樣(中),然后根據(jù)采樣(下)進(jìn)行重構(gòu)。由于采樣率足夠高,可以捕獲信號(hào),因此不會(huì)發(fā)生混疊。
中間列:在連續(xù)域(頂部)應(yīng)用點(diǎn)向非線性會(huì)產(chǎn)生一個(gè)非光滑函數(shù),這是由于在零交叉點(diǎn)處的剪切。采樣這個(gè)信號(hào)(中間)并從樣本(底部)重建函數(shù)會(huì)產(chǎn)生一個(gè)混疊的結(jié)果,因?yàn)橛刹眉舢a(chǎn)生的高頻不能用樣本網(wǎng)格表示。
右列:在連續(xù)域中對(duì)ReLUed函數(shù)應(yīng)用低通濾波器(上),再次得到平滑函數(shù):對(duì)它進(jìn)行采樣(中間)可以實(shí)現(xiàn)真實(shí)的重構(gòu)(底部)。
下圖比較了StyleGAN3和StyleGAN2(第一行)的內(nèi)部激活模式。StyleGAN3-T(中間,平移等變)和StyleGAN3-R(底部,旋轉(zhuǎn)等變)兩個(gè)等變網(wǎng)絡(luò)構(gòu)建圖像的方式,與StyleGAN2的最終圖像中遵循特征的多尺度相位信號(hào)的方式完全不同。
基于StyleGAN3的構(gòu)造,這些信號(hào)必須控制圖像特征的外觀和相對(duì)位置。研究人員假設(shè)局部定向振蕩形成一個(gè)基底,從而使分層定位成為可能。StyleGAN3的構(gòu)造似乎使網(wǎng)絡(luò)很自然地從低頻輸入的傅里葉特征構(gòu)造圖像。
下圖解釋了切片可視化對(duì)比,表明在人臉平移時(shí),對(duì)于某個(gè)固定的坐標(biāo)切片,StyleGAN3可以隨人臉移動(dòng)變化紋理,而StyleGAN2則傾向于生成固定的紋理。
StyleGAN3的技術(shù)創(chuàng)新
以上示例證明,StyleGAN 的層次結(jié)構(gòu)通過(guò)圖像邊界、像素噪聲輸入和位置編碼以及混疊,可以利用中間層實(shí)現(xiàn)位置精確。
在GAN的相關(guān)文獻(xiàn)中,混疊這一概念很少被提及,作者在這項(xiàng)研究中,提供了兩個(gè)混疊來(lái)源 :1)由非理想上采樣濾波器(如卷積、雙線性卷積或跨步卷積)產(chǎn)生的像素網(wǎng)格后模糊圖像。2)非線性的逐點(diǎn)應(yīng)用,如ReLU或swish。
他們發(fā)現(xiàn),混疊網(wǎng)絡(luò)具有放大并在多個(gè)尺度上組合圖像像素的能力,這對(duì)于弱化固定在屏幕坐標(biāo)中的紋理圖案至關(guān)重要。并且實(shí)驗(yàn)證明,該網(wǎng)絡(luò)還適用于深度學(xué)習(xí)中所有常用過(guò)濾器,甚至圖像處理中使用的高質(zhì)量過(guò)濾器。
我們知道,成功消除所有位置參考來(lái)源意味著無(wú)論像素坐標(biāo)如何,細(xì)節(jié)都可以被很好地生成,它相當(dāng)于在所有層中對(duì)亞像素平移(和旋轉(zhuǎn))實(shí)施連續(xù)的等方差。
事實(shí)證明,當(dāng)前的上采樣濾波器在抑制混疊方面根本不夠積極,而且需要具有超過(guò)100dB衰減的高質(zhì)量濾波器。這項(xiàng)研究提出了一種解決點(diǎn)態(tài)非線性引起的混疊的原理,考慮了它們?cè)谶B續(xù)域的影響,并對(duì)結(jié)果進(jìn)行適當(dāng)?shù)牡屯V波。
此外,實(shí)驗(yàn)證明:一個(gè)基于1×1卷積的模型能夠產(chǎn)生強(qiáng)旋轉(zhuǎn)的等變生成器。一旦適當(dāng)?shù)匾种屏嘶殳B以迫使模型實(shí)現(xiàn)更自然的層次細(xì)化,它的操作模式就會(huì)發(fā)現(xiàn)顯著變化:坐標(biāo)系統(tǒng)等內(nèi)部表示,允許細(xì)節(jié)準(zhǔn)確地附加到底層表面。這將顯著改進(jìn)用于生成視頻和動(dòng)畫的模型。
效果如此完美,真的不是cherry-picking?
英偉達(dá)也怕你不服氣,火速開(kāi)源了項(xiàng)目,還提供了colab供小白嘗試。
參考資料
項(xiàng)目主頁(yè):https://nvlabs.github.io/stylegan3/
論文地址:https://arxiv.org/pdf/2106.12423.pdf
Github地址:https://github.com/NVlabs/stylegan3
colab:https://colab.research.google.com/drive/1BXNHZBai-pXtP-ncliouXo_kUiG1Pq7M?usp=sharing
https://news.ycombinator.com/item?id=28833213
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。