0
本文作者: 我在思考中 | 2022-05-16 10:05 |
作者丨OGAI
計算機視覺是人工智能技術(shù)的重要應(yīng)用方向。在深度學(xué)習(xí)時代,大量以 ImageNet 為代表的數(shù)據(jù)集被用于訓(xùn)練各種視覺理解模型,從而完成圖像分類、目標(biāo)檢測、圖像分割、場景理解等任務(wù)。在 ImageNet 數(shù)據(jù)集中,物體往往單獨出現(xiàn)在圖像的中央?yún)^(qū)域。然而,真實的視覺世界則要豐富得多。
圖 1:ImageNet 數(shù)據(jù)集
對于人類視覺和計算機視覺而言,在場景的上下文中理解、建模對象是最重要的任務(wù)之一。在人類文明發(fā)展的長河中,藝術(shù)家們逐漸掌握了場景形成的規(guī)則,并發(fā)展出了超現(xiàn)實主義等藝術(shù)流派,能夠熟練打破這些規(guī)則。他們能夠?qū)鼍爸械母鞣N視覺元素進行解構(gòu)、重組、藝術(shù)化加工,從而創(chuàng)作出新穎而又能夠被人類所理解的藝術(shù)作品。
遺憾的是,在深度學(xué)習(xí)時代,面向分析和合成任務(wù)的場景建模并沒有得到足夠的重視。有時,我們采用和對象建模類似的自頂向下方式建模場景,例如:對于 GAN 或圖像分類器而言,「臥室」和「廚房」等場景類別的表征方式與「床」或「椅子」的表征方式類似。有時,我們又采用和語義分割任務(wù)類似的自底向上的方式為圖像中的每一個像素賦予語義標(biāo)簽。
然而,對于場景理解而言,上述兩種方法都不盡如人意,它們無法將場景中的各個部分作為實體,從而進行簡單的推理。場景中的部分要么被融合為一個耦合的潛向量(自頂向下),要么需要根據(jù)獨立的像素標(biāo)簽聚合在一起(自底向上)。
為此,在資深計算機視覺學(xué)者 Alexei A.Efros 教授的指導(dǎo)下,來自 UC Berkeley 和 Adobe 的研究人員近期發(fā)布了論文「BlobGAN: Spatially Disentangled Scene Representations」,為場景生成模型提供了一種介于像素和圖像之間的無監(jiān)督中間表征。在該工作中,研究者們將場景建模為在空間、深度上有序的高斯 Blob 連通區(qū)域的集合。
圖 3:BlobGAN 模型架構(gòu)
如圖 3 所示,這些 Blob 的集合處于生成器架構(gòu)的「瓶頸」處,迫使每個 Blob 對應(yīng)于場景中的一個特定對象,從而產(chǎn)生在空間上解耦的表征。如圖 4 所示,在該模型的幫助下,我們可以在沒有語義監(jiān)督的情況下完成許多場景編輯任務(wù)。
圖 4:利用 BlobGAN 完成的場景編輯任務(wù)。
目前,該工作在 Reddit 上引起了熱議,許多網(wǎng)友們紛紛為 BlobGAN 的驚人表現(xiàn)而折服。
BlobGAN 的實現(xiàn)方法充分體現(xiàn)了深度學(xué)習(xí)和基于手工設(shè)計的傳統(tǒng)計算機視覺方法的結(jié)合。如圖 1 所示,在 BlobGAN 中,滿足標(biāo)準(zhǔn)正太分布的隨機噪聲 z 會被輸入給一個布局網(wǎng)絡(luò) F,布局網(wǎng)絡(luò)會將噪聲映射為一組描述 Blob 的參數(shù) β(見圖 5)。Blob 可以作為一種強大的中間生成表征。接著,我們將 Blob 可微地描繪在空間網(wǎng)格上,該網(wǎng)格也描述了 Blob 的透明度。接著,我們利用一個類似于 StyleGAN2 的解碼器 G 將其轉(zhuǎn)化為逼真、和諧的圖像。我們使用一個不會被修改的判別器在對抗框架下訓(xùn)練模型。在沒有顯式標(biāo)簽的情況下,我們的模型可以學(xué)會將場景中的實體及其布局解耦開來。
算法細(xì)節(jié)
具體而言,橢圓 Blob 的參數(shù)包含 Blob 的中心坐標(biāo) x ∈ [0, 1]^2、尺度 s ∈ R、縱橫比 a ∈ R、旋轉(zhuǎn)角度 θ ∈ [?π, π]。每個 Blob 都帶有一個結(jié)構(gòu)特征 和風(fēng)格特征
,我們在將 Blob 轉(zhuǎn)換為 2D 特征網(wǎng)格時會用廣播的矩陣乘法操作將兩個特征向量。Blob 表征可寫作:
在得到了 Blob 后,我們以 StyleGAN2 為基礎(chǔ)構(gòu)建了生成器 G 將 Blob 轉(zhuǎn)換為真實、和諧的圖像。在這里,我們基于 Blob 的結(jié)構(gòu)特征采用了歲空間變化的輸入張量,而不是單一、全局的向量,并進行了隨空間變化的調(diào)制。標(biāo)準(zhǔn)的 StyleGAN 要求每個風(fēng)格向量 w 必須囊括場景所有方面的信息,而 BlobGAN 則可以將布局和外觀解耦開。
直觀地說,Blob 內(nèi)的所有激活值都由相同的特征向量控制,促使 Blob 產(chǎn)生自相似屬性的圖像區(qū)域(場景中的實體)。此外,由于卷積是局部的,輸入中的 Blob 的布局必須很強地包含圖像區(qū)域的最終組織的信息。最后,我們的潛空間通過構(gòu)造過程將 Blob 的布局與外觀解耦。這有助于我們的模型學(xué)會將單個 Blob 與不同的對象綁定,并將這些 Blob 組織到合理的布局中,從空間上將場景分解為一系列組成部分。
BlobGAN 學(xué)習(xí)到的表征可以從空間上解耦場景。下面,我們分別從定量和定性的角度展示 BlobGAN 如何將 Blob 與場景中的某個目標(biāo)對應(yīng)起來,并展示學(xué)到的表征如何捕獲場景布局的分布。
如圖 4 所示,我們對模型生成的圖像的 Blob 圖進行一系列的修改,例如:清空場景中的實體、增加床和窗戶、縮小窗戶、移動窗戶、自動補全場景、移動吊扇、改變床的風(fēng)格。BlobGAN 可以靈活地編輯場景。
場景編輯可視化結(jié)果
具體而言,BlobGAN 可以將復(fù)雜的場景圖像分解為組成它們的物體。無監(jiān)督表征使我們可以很容易地在場景中重新排列、移除、克隆和重塑物體。如圖 6 所示,通過修改某些 Blob 的坐標(biāo),重新組織臥室中的家具。由于表征是分層的,我們可以建模家居之間的遮擋關(guān)系。
圖 6:移動 Blob 從而重新組織物體
圖 7 展示了從表征中完全刪除某些 Blob 的影響。盡管在訓(xùn)練數(shù)據(jù)中,沒有床的臥室非常罕見,但通過移除相應(yīng)的 Blob,可以將床從場景中移除。我們也可以以同樣的方式移除窗戶、燈具和風(fēng)扇、畫作、梳妝臺和床頭柜。
圖 7:移除 Blob
BlobGAN 生成的表征使我們可以進行跨圖像的編輯。在圖 8 中,我們通過交換 Blob 的風(fēng)格向量高度模塊化地重新裝配了場景。例如,在不改變布局的情況下,我們將某一場景下的床單風(fēng)格與另一場景下的床單風(fēng)格交換。
圖 8:交換 Blob 風(fēng)格
如圖 9 所示,如果我們想要引入新的 Blob,可以在新的位置上復(fù)制粘貼相同的 Blob,形成新的布局。
圖 9:復(fù)制粘貼 Blob
定量的 Blob 分析
Blob 和場景中的實體具有很強的關(guān)聯(lián)。我們通過將 Blob 的尺寸參數(shù) s 隨機設(shè)置為負(fù)數(shù)來刪除它。然后,我們使用分割模型觀察消失的語義類。圖 10(左)展示了類和 Blob 之間的相關(guān)性。該矩陣十分稀疏,這表明 Blob 隨著學(xué)習(xí)專門對應(yīng)到不同的場景實體。圖 10(右)展示了 Blob 的中心的分布。合成的熱力圖展示了訓(xùn)練數(shù)據(jù)中物體的分布。模型會學(xué)著在特定的圖像區(qū)域定位 Blob,通過改變風(fēng)格向量控制表征的物體。
將 Blob 組合到布局中
除了將圖像分解為若干部分,理想的場景表征還需要捕獲各部分之間豐富的上下文關(guān)系,這些關(guān)系決定了場景的生成過程。BlobGAN 的表征可以顯式地發(fā)現(xiàn)場景中物體的布局。
在測試時,我們通過求解一個簡單的約束優(yōu)化問題,可以對滿足底層場景約束的展示圖像進行采樣,進行「場景自動補全」。如圖 11 所示,不同的空房間具有各自的背景向量,以及由潛變量 z 生成的裝飾,我們通過優(yōu)化合理地裝飾場景,使之與背景向量相匹配。
圖 11:生成并填充空房間。
通過使用布局網(wǎng)絡(luò) F 對滿足 Blob 參數(shù)子集約束的不同場景進行采樣,我們可以進行帶條件的場景自動生成/補全。圖 12 展示了特定布局條件下的風(fēng)格生成、根據(jù)床和梳妝臺的位置和大小預(yù)測可信的場景。比起使用 F 自動補全場景,我們還可以生成一個隨機的場景并簡單地替換感興趣的參數(shù)以匹配所需的值。我們可以對場景進行物體的插入、移除、方向調(diào)整。
圖 12:場景自動補全
我們通過替換目標(biāo)圖像中的屬性來編輯圖像,這些屬性要么是隨機生成的,要么是使用模型進行條件采樣得來的。通過改變網(wǎng)絡(luò)深度,我們切換 StyleGAN 中的風(fēng)格。為了進一步保持全局布局并提高一致性,我們的模型還可以使用源圖片中的結(jié)構(gòu)網(wǎng)格 Φ。我們通過 FID 來評估模型生成樣本的多樣性和質(zhì)量。在所有情況下,BlobGAN 的場景自動補全性能都優(yōu)于基線。
表 1:自動補全的定量分析結(jié)果
BlobGAN 可以在 LSUN 房間中獲得與 StyleGAN 相媲美的視覺質(zhì)量。BlobGAN 生成的樣本更加逼真。
表 2:評估視覺質(zhì)量和多樣性
區(qū)域級圖像解析
BlobGAN 得到的表征還可以通過將圖像反演到 Blob 空間來解析這些真實圖像。我們可以移除并重新定位真實圖像中的物體,發(fā)現(xiàn)其與原始圖像的差異。
圖 13:通過反演解析真實圖像
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。