用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

本文作者：我在思考中

2022-01-24 15:07

導(dǎo)語(yǔ)：生成輻射場(chǎng)的發(fā)展推動(dòng)了3D感知圖像合成的發(fā)展。

用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

編譯 | 莓酊

編輯 | 青暮

生成輻射場(chǎng)的發(fā)展推動(dòng)了3D感知圖像合成的發(fā)展。由于觀察到3D對(duì)象從多個(gè)視點(diǎn)看起來(lái)十分逼真，這些方法引入了多視圖約束作為正則化，以從2D圖像學(xué)習(xí)有效的3D輻射場(chǎng)。盡管取得了進(jìn)展，但由于形狀-顏色的模糊性，它們往往無(wú)法捕獲準(zhǔn)確的3D形狀，從而限制了在下游任務(wù)中的適用性。

在這項(xiàng)研究工作中，來(lái)自馬普所和港中文大學(xué)的學(xué)者通過(guò)提出一種新的著色引導(dǎo)生成隱式模型ShadeGAN來(lái)解決這種模糊性，它學(xué)習(xí)了一種改進(jìn)的形狀表示。

論文地址：https://arxiv.org/pdf/2110.15678.pdf

代碼地址：https://github.com/xingangpan/shadegan

關(guān)鍵在于，精確的3D形狀還應(yīng)在不同的照明條件下產(chǎn)生逼真的渲染效果。多重照明約束通過(guò)顯式建模照明和在各種照明條件下執(zhí)行著色實(shí)現(xiàn)。梯度是通過(guò)將合成圖像饋送到鑒別器得到的。

為了補(bǔ)償計(jì)算曲面法線的額外計(jì)算負(fù)擔(dān)，研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了通過(guò)曲面跟蹤的高效體繪制策略，將訓(xùn)練和推理時(shí)間分別減少24%和48%。

在多個(gè)數(shù)據(jù)集上實(shí)驗(yàn)表明，在捕獲精確的底層三維形狀的同時(shí)，ShadeGAN做到了實(shí)現(xiàn)具備真實(shí)感的三維感知圖像合成。他們還展示了該方法在三維形狀重建方面相對(duì)于現(xiàn)有方法的改進(jìn)性能，在圖像重照明方面亦有適用性。

介紹

高級(jí)深度生成模型，例如StyleGAN和BigGAN，在自然圖像合成方面取得了巨大成功。但這些基于2D表示的模型無(wú)法以3D一致性方式合成實(shí)例新視圖。它們也無(wú)法表示明確的三維物體形狀。

為了克服這些限制，研究人員提出了新的深度生成模型，將3D場(chǎng)景表示為神經(jīng)輻射場(chǎng)。3D感知生成模型可以顯式控制視點(diǎn)，同時(shí)在圖像合成過(guò)程中保持3D一致性。它們展示了在無(wú)監(jiān)督情況下從一組無(wú)約束的2D圖像中學(xué)習(xí)3D形狀的巨大潛力。如果可以訓(xùn)練出學(xué)習(xí)精確3D物體形狀的3D感知生成模型，各種下游應(yīng)用就可以的到拓展，如3D形狀重建和圖像重照明。

現(xiàn)有3D感知圖像合成嘗試傾向于學(xué)習(xí)不準(zhǔn)確且有噪聲的粗略3D形狀，如下圖所示。研究發(fā)現(xiàn)，這種不準(zhǔn)確是由于方法所采用的訓(xùn)練策略不可避免地存在模糊性。特別是一種正則化，稱之為“多視圖約束”，用于強(qiáng)制三維表示，使其從不同的視點(diǎn)看起來(lái)更逼真。

這種約束通常首先將生成器的輸出（例如，輻射場(chǎng)）投影到隨機(jī)采樣視點(diǎn)，然后將它作為假圖像提供給鑒別器進(jìn)行訓(xùn)練。雖然這種約束使模型能夠以3D感知的方式合成圖像，但會(huì)受到形狀-顏色模糊關(guān)聯(lián)的影響，即便有微小的形狀變化也能生成類似的RGB圖像，這些圖像在鑒別器看來(lái)同樣可信，因?yàn)樵S多物體顏色是局部平滑的。因此，不準(zhǔn)確的形狀仍然隱藏在這個(gè)約束下。

在本文中，研究團(tuán)隊(duì)提出了一種新的著色引導(dǎo)生成隱式模型（ShadeGAN）來(lái)解決上述歧義。特別是，ShadeGAN通過(guò)顯式建模著色（即照明和形狀的交互）學(xué)習(xí)更精確的3D形狀。

一個(gè)精確的3D形狀不僅應(yīng)該從不同的角度看起來(lái)很逼真，在不同的照明條件下也應(yīng)該十分逼真，即滿足“多重照明約束”。這一想法與光度立體有著相似的直覺(jué)，它表明可以從不同照明條件下拍攝的圖像中恢復(fù)精確表面法線。

請(qǐng)注意，多重照明約束是可行的，因?yàn)橛糜谟?xùn)練的真實(shí)圖像通常是在各種照明條件下拍攝的。為了滿足此約束，ShadeGAN采用可重新照明的顏色場(chǎng)作為中間表示，近似反照率，但不一定滿足視點(diǎn)獨(dú)立性。渲染期間，顏色場(chǎng)在隨機(jī)采樣的照明條件下著色。由于通過(guò)這種著色處理的圖像外觀強(qiáng)烈依賴于曲面法線，因此與早期的著色不可知生成模型相比，不準(zhǔn)確的3D形狀表示將更清晰地顯示出來(lái)。通過(guò)滿足多重照明約束，可以鼓勵(lì)ShadeGAN推斷更精確的3D形狀，如上圖中右下所示。

上述著色處理需要通過(guò)反向傳播來(lái)通過(guò)生成器計(jì)算法線方向，并且在3D體繪制中，對(duì)于單個(gè)像素的計(jì)算需要重復(fù)幾十次，從而引入額外的計(jì)算開(kāi)銷。現(xiàn)有高效體繪制技術(shù)主要針對(duì)靜態(tài)場(chǎng)景，面對(duì)動(dòng)態(tài)特性無(wú)法直接應(yīng)用于生成模型。為了提高ShadeGAN的渲染速度，研究團(tuán)隊(duì)建立了一個(gè)有效的曲面跟蹤網(wǎng)絡(luò)，以評(píng)估基于潛在代碼的渲染對(duì)象曲面。這使他們能夠通過(guò)僅查詢預(yù)測(cè)曲面附近的點(diǎn)來(lái)節(jié)省渲染計(jì)算，從而在不影響渲染圖像質(zhì)量的情況下減少24%和48%的訓(xùn)練和推理時(shí)間。

通過(guò)多個(gè)數(shù)據(jù)集上進(jìn)行綜合實(shí)驗(yàn)驗(yàn)證ShadeGAN的有效性。結(jié)果表明，與之前的生成方法相比，本文提出的方法能夠合成照片級(jí)真實(shí)感圖像，同時(shí)捕獲更精確的底層三維形狀。學(xué)習(xí)到的三維形狀分布能夠?qū)崿F(xiàn)各種下游任務(wù)，比如三維形狀重建，其中ShadeGAN明顯優(yōu)于BFM數(shù)據(jù)集上的其他基線。對(duì)著色過(guò)程進(jìn)行建模，可以顯式控制照明條件，實(shí)現(xiàn)圖像重照明效果。

ShadeGAN可以總結(jié)如下：

1）使用滿足多重照明約束的著色引導(dǎo)生成模型，從而解決現(xiàn)有三維感知圖像合成中形狀-顏色模糊問(wèn)題。ShadeGAN能夠?qū)W習(xí)更精確的3D形狀，從而更好地進(jìn)行圖像合成。

2）通過(guò)曲面跟蹤設(shè)計(jì)了一種高效的繪制技術(shù)，這大大節(jié)省了基于體繪制生成模型的訓(xùn)練和推理時(shí)間。

3）ShadeGAN學(xué)會(huì)了將陰影和顏色分離，更接近反照率，在圖像合成中達(dá)到了自然重新照明效果。

ShadeGAN

神經(jīng)體繪制

從神經(jīng)輻射場(chǎng)（NeRF）的開(kāi)創(chuàng)性工作開(kāi)始，神經(jīng)體繪制在表示3D場(chǎng)景和合成新視圖方面得到了廣泛的應(yīng)用。通過(guò)基于坐標(biāo)神經(jīng)網(wǎng)絡(luò)與體繪制相結(jié)合，NeRF以3D一致性完成高保真視圖合成。目前已經(jīng)提出了一些嘗試擴(kuò)展或改進(jìn)NeRF。比如進(jìn)一步模擬照明，然后學(xué)習(xí)在給定對(duì)齊多視圖、多照明圖像情況下，將反射與著色分離。此外，許多研究從空間稀疏性、建筑設(shè)計(jì)或高效渲染角度加速了靜態(tài)場(chǎng)景的渲染。這些照明和加速技術(shù)應(yīng)用于基于體繪制的生成模型并非易事，因?yàn)樗鼈兺ǔ臑槎ㄎ?、未配?duì)的圖像中學(xué)習(xí)，表示相對(duì)于輸入潛在編碼變化的動(dòng)態(tài)場(chǎng)景。

研究團(tuán)隊(duì)首次嘗試在基于體繪制的生成模型中對(duì)照明進(jìn)行建模，作為精確三維形狀學(xué)習(xí)的正則化。并進(jìn)一步為方法設(shè)計(jì)了高校的渲染技術(shù)，它具有相似的見(jiàn)解，但不依賴于通過(guò)真實(shí)深度進(jìn)行訓(xùn)練，也不限于視點(diǎn)小范圍。

生成三維感知圖像合成

生成對(duì)抗網(wǎng)絡(luò)（GANs）可以生成高分辨率的真實(shí)照片圖像，但對(duì)攝像機(jī)視點(diǎn)的明確控制卻很匱乏。為了能夠以3D感知的方式合成圖像，許多最新方法研究了如何將3D表示合并到GANs中。

有些研究直接從3D數(shù)據(jù)中學(xué)習(xí)，但在本文中，研究團(tuán)隊(duì)關(guān)注的是只能訪問(wèn)無(wú)約束2D圖像方法，因?yàn)檫@是更實(shí)際的設(shè)置。

研究團(tuán)隊(duì)多次嘗試采用3D體素特征和學(xué)習(xí)神經(jīng)渲染，雖然產(chǎn)生了逼真的3D感知合成，但3D體素不可解釋，無(wú)法轉(zhuǎn)換為3D形狀。

NeRF可以成功促使在GANs中使用輻射場(chǎng)作為中間3D表示，是有一些令人印象深刻、具有多視圖一致性的3D感知圖像合成，但這些方法提取的3D形狀通常不精確且有噪聲。

在本文中，研究團(tuán)隊(duì)的主要目標(biāo)是通過(guò)在渲染過(guò)程中顯式地建模照明來(lái)解決不準(zhǔn)確形狀。這項(xiàng)創(chuàng)新有助于實(shí)現(xiàn)更好的3D感知圖像合成，將具有更廣泛的應(yīng)用。

從2D圖像進(jìn)行無(wú)監(jiān)督的3D形狀學(xué)習(xí)

ShadeGAN涉及無(wú)監(jiān)督方法，即從無(wú)約束單目視圖2D圖像中學(xué)習(xí)3D物體形狀。雖然一些方法使用外部3D形狀模板或2D關(guān)鍵點(diǎn)作為弱監(jiān)督，但本文考慮了更有難度的設(shè)置——只有2D圖像是可用的。

大多數(shù)方法采用“綜合分析”范式，就是設(shè)計(jì)了照片幾何自動(dòng)編碼器，以在重建損失情況下推斷每個(gè)圖像的三維形狀和視點(diǎn)。這是可以學(xué)習(xí)一些對(duì)象類的3D形狀，只是通常依賴正則化來(lái)防止瑣碎的解決方案，如常用的對(duì)象形狀對(duì)稱假設(shè)。這種假設(shè)傾向于產(chǎn)生對(duì)稱結(jié)果，可能忽略對(duì)象的不對(duì)稱方面。最近，GAN2Shape表明，可以為2D GAN生成的圖像恢復(fù)3D形狀。但這種方法需要低效的實(shí)例特定訓(xùn)練，并恢復(fù)深度貼圖，而不是完整的三維表示。

本文提出的三維感知生成模型也可以作為無(wú)監(jiān)督三維形狀學(xué)習(xí)的有力方法。與上述基于自動(dòng)編碼器的方法相比，基于GAN的方法避免了推斷每個(gè)圖像的視點(diǎn)需求，而且不依賴于強(qiáng)正則性。通過(guò)實(shí)驗(yàn)更加證明了與最新、最先進(jìn)的方法Unsp3d和GAN2Shape相比，ShadeGAN具有更高的性能。

ShadeGAN方法論

ShadeGAN通過(guò)無(wú)約束和未標(biāo)記的 2D 圖像學(xué)習(xí)考慮3D 感知圖像合成問(wèn)題。在生成隱式模型中建模著色，也就是照明和形狀的交互，實(shí)現(xiàn)對(duì)更精確三維對(duì)象形狀的無(wú)監(jiān)督學(xué)習(xí)。

接下來(lái)會(huì)先提供關(guān)于神經(jīng)輻射場(chǎng)（NeRF）的初步介紹，然后詳細(xì)介紹著色引導(dǎo)生成隱式模型。

3.1 神經(jīng)輻射場(chǎng)的初步研究

作為一種深度隱式模型，NeRF使用MLP網(wǎng)絡(luò)將3D場(chǎng)景表示為輻射場(chǎng)。用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

取三維坐標(biāo) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和觀察方向

作為輸入，并輸出體積密用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和顏色

。為了在給定的相機(jī)姿勢(shì)下渲染圖像，通過(guò)沿其對(duì)應(yīng)的相機(jī)光線用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

的體繪制獲得圖像的每個(gè)像素顏色C，如下所示：

實(shí)踐中，這種體繪制是使用分層和分層采樣的離散形式實(shí)現(xiàn)的。由于該渲染過(guò)程是可微分的，因此通過(guò)靜態(tài)場(chǎng)景的姿勢(shì)圖像直接優(yōu)化NeRF。經(jīng)過(guò)訓(xùn)練后，NeRF允許在新的相機(jī)姿勢(shì)下渲染圖像，實(shí)現(xiàn)高質(zhì)量新穎視圖合成。

3.2著色引導(dǎo)生成隱式模型

開(kāi)發(fā)生成隱式模型是十分有趣的，它可以為3D感知圖像合成顯式著色過(guò)程建模。研究團(tuán)隊(duì)對(duì)NeRF中的MLP網(wǎng)絡(luò)進(jìn)行了兩個(gè)擴(kuò)展。首先，與大多數(shù)深度生成模型類似，它進(jìn)一步取決于從先驗(yàn)分布用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

中采樣的潛在編碼z。其次，它不直接輸出顏色c，而是輸出可重新點(diǎn)亮的前余弦顏色項(xiàng) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

。

它在概念上類似于反照率，在給定的光照條件下，它可以被遮蔽。雖然反照率是獨(dú)立于視點(diǎn)的，但在這項(xiàng)工作中，為了解釋數(shù)據(jù)集偏差，并沒(méi)有嚴(yán)格地對(duì)一個(gè)數(shù)據(jù)集實(shí)現(xiàn)這種獨(dú)立性。

因此，本文的生成器用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

取坐標(biāo)x、觀察方向d和潛在方向編碼z作為輸入，并輸出體積密度σ和前余弦顏色a。注意，這里σ獨(dú)立于d，而a對(duì)d的依賴是可選的。為了獲得相機(jī)光線用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

的顏色C，近界和遠(yuǎn)界用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和

，研究團(tuán)隊(duì)通過(guò)以下方式計(jì)算最終的前余弦顏色A：

研究團(tuán)隊(duì)還使用以下公式計(jì)算法向n：

是體積密度σ相對(duì)于其輸入坐標(biāo)的導(dǎo)數(shù)，它自然捕捉局部法線方向，并可通過(guò)反向傳播計(jì)算。然后通過(guò)Lambertian著色獲得最終顏色C，如下所示：

是照明方向，

和

是環(huán)境系數(shù)和漫反射系數(shù)。

攝像機(jī)和照明采樣

等式（2-4）描述了給定相機(jī)光線r（t）和照明條件用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

渲染像素顏色的過(guò)程。生成完整圖像用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

要求除潛在編碼z外，還需對(duì)攝像姿勢(shì) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和照明條件μ進(jìn)行采樣，即用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

。

在設(shè)置中，攝像姿態(tài) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

可以用俯仰角和偏航角來(lái)描述，并從先前的高斯分布或均勻分布用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

中采樣，正如在以前的工作中所做的一樣。在訓(xùn)練過(guò)程中隨機(jī)采樣相機(jī)姿勢(shì)將激發(fā)學(xué)習(xí)的3D場(chǎng)景從不同角度看起來(lái)逼真。雖然這種多視圖約束有利于學(xué)習(xí)有效的三維表示，但它通常不足以推斷準(zhǔn)確的三維對(duì)象形狀。

因此，在本文中，研究團(tuán)隊(duì)還通過(guò)從先驗(yàn)分布用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

中隨機(jī)采樣照明條件μ來(lái)進(jìn)一步引入多重照明約束。實(shí)際上，可以使用現(xiàn)有方法從數(shù)據(jù)集估算用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

。在實(shí)驗(yàn)中，一個(gè)簡(jiǎn)單且手動(dòng)調(diào)整的先驗(yàn)分布也可以產(chǎn)生合理結(jié)果。由于等式（4）中的漫反射項(xiàng) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

導(dǎo)致著色過(guò)程對(duì)法線方向敏感，該多重照明約束將使模型正則化，學(xué)習(xí)產(chǎn)生自然著色的更精確3D形狀。

訓(xùn)練

生成模型遵循GANs范例，生成器與參數(shù)為φ的鑒別器D一起以對(duì)抗的方式進(jìn)行訓(xùn)練。在訓(xùn)練期間，生成器通過(guò)相應(yīng)的先驗(yàn)分布pz、用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和

中采樣潛在編碼z、相機(jī)姿勢(shì) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和照明條件μ來(lái)生成假圖像用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

讓l表示從數(shù)據(jù)分布pI中采樣的真實(shí)圖像。用用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

正則化的非飽和GAN損耗來(lái)訓(xùn)練ShadeGAN模型：

公式中

λ 控制正則化強(qiáng)度。

探討

在等式（2-4）中，研究團(tuán)隊(duì)通過(guò)體繪制獲得A和n之后執(zhí)行著色。另一種方法是在每個(gè)局部空間點(diǎn)執(zhí)行著色，其中：

是局部正常。

然后可以使用c(r(t), z) 執(zhí)行體積排序，從而獲得最終的像素顏色。在實(shí)踐中，研究團(tuán)隊(duì)觀察到該公式獲得了次優(yōu)結(jié)果。

直觀原因是，在此公式中，法線方向在每個(gè)局部點(diǎn)處歸一化，忽略了用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

在物體表面附近趨于較大。

本文使用的Lambertian著色近似于真實(shí)照明場(chǎng)景。雖然作為改進(jìn)學(xué)習(xí)的三維形狀的良好正則化，但它可能會(huì)在生成圖像的分布和真實(shí)圖像的分布之間引入額外的間隙。

為了補(bǔ)償這種風(fēng)險(xiǎn)，可以選擇將預(yù)測(cè)的a調(diào)節(jié)到光照條件，即a = a(r(t), d, μ, z)。在照明條件偏離實(shí)際數(shù)據(jù)分布的情況下，生成器可以學(xué)習(xí)調(diào)整a值并減小上述間隙。

3.3通過(guò)曲面跟蹤實(shí)現(xiàn)高效體繪制

與NeRF類似，研究團(tuán)隊(duì)使用離散積分實(shí)現(xiàn)體繪制，這通常需要沿?cái)z影機(jī)光線采樣幾十個(gè)點(diǎn)，如圖所示。

在本文中，還需要在等式（3）中對(duì)生成器執(zhí)行反向傳播，以獲得每個(gè)點(diǎn)的法線方向，這會(huì)大大增加計(jì)算成本。為了實(shí)現(xiàn)更高效的體繪制，一個(gè)自然的想法是利用空間稀疏性。通常，體繪制中的權(quán)重T (t, z)σ(r(t), z)在訓(xùn)練過(guò)程中會(huì)集中在物體表面位置上。如果在渲染之前知道粗糙曲面的位置，就可以在曲面附近采樣點(diǎn)以節(jié)省計(jì)算。對(duì)于靜態(tài)場(chǎng)景，將這種空間稀疏性存儲(chǔ)在稀疏體素網(wǎng)格中，但這種技術(shù)不能直接應(yīng)用于我們的生成模型，因?yàn)?D場(chǎng)景相對(duì)于輸入的潛在編碼不斷變化。

為了在生成隱式模型中實(shí)現(xiàn)更高效的體繪制，研究團(tuán)隊(duì)進(jìn)一步提出了一種曲面跟蹤網(wǎng)絡(luò)S，該網(wǎng)絡(luò)學(xué)習(xí)模仿以潛在編碼為條件的曲面位置。特別是，體渲染自然允許通過(guò)以下方式對(duì)對(duì)象曲面進(jìn)行深度估計(jì)：

T (t, z)的定義方式與（2）中的方式相同。因此，給定相機(jī)姿態(tài) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和潛在編碼z，可以渲染全深度貼圖用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

。如上圖（b）所示，使用表面跟蹤網(wǎng)絡(luò) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

模擬

，這是一個(gè)以z，用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

為輸入并輸出深度圖的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。深度模擬損失為：

其中，Prec是促使用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

更好地捕捉表面邊緣的感知損失。

在訓(xùn)練過(guò)程中，用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

與發(fā)生器和鑒別器一起進(jìn)行優(yōu)化。每次在采樣一個(gè)潛在編碼z和一個(gè)相機(jī)姿勢(shì) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

之后，可以得到深度貼圖的初始猜測(cè) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

。

然后，對(duì)于具有預(yù)測(cè)深度s像素，可以在等式（2,3,6）中執(zhí)行體繪制，且近邊界用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

和遠(yuǎn)界

，

是體積渲染的間隔，該間隔隨著訓(xùn)練迭代i的增長(zhǎng)而減小。

具體來(lái)說(shuō)，我們從一個(gè)大的間隔開(kāi)始用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

并減小到

。像

減少時(shí)，用于渲染m的點(diǎn)數(shù)也相應(yīng)減少。與生成器相比，高效的曲面跟蹤網(wǎng)絡(luò)的計(jì)算成本是微乎其微的，因?yàn)榍罢咧恍枰淮吻跋蜻^(guò)程來(lái)渲染圖像，而后者將被查詢H × W × m 次。因此，m的減少將顯著加快ShadeGAN的訓(xùn)練和推理速度。

實(shí)驗(yàn)

實(shí)驗(yàn)表明，ShadeGAN學(xué)習(xí)的3D形狀比以前的方法精確得多，同時(shí)允許對(duì)照明條件進(jìn)行顯式控制。使用的數(shù)據(jù)集包括CelebA、BFM和CAT，它們都只包含無(wú)約束的2D RGB圖像。

在模型結(jié)構(gòu)方面，我們采用了基于SIREN的MLP作為生成器，卷積神經(jīng)網(wǎng)絡(luò)作為鑒別器。對(duì)于光照條件的先驗(yàn)分布，使用Unsup3d估計(jì)真實(shí)數(shù)據(jù)的光照條件，然后擬合用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

的多元高斯分布作為先驗(yàn)。消融研究中還包括手工制作的先驗(yàn)分布。除非另有說(shuō)明，否則在所有實(shí)驗(yàn)中，讓前余弦顏色a取決于照明條件μ以及觀察方向d。

與基線進(jìn)行比較

將ShadeGAN與兩種最先進(jìn)的生成隱式模型（GRAF和pi-GAN）進(jìn)行比較。具體地，圖4包括合成圖像以及它們對(duì)應(yīng)的3D網(wǎng)格，其通過(guò)在體積密度σ上執(zhí)行 marching cubes而獲得。

雖然GRAF和pi-GAN可以合成具有可控姿勢(shì)的圖像，但它們學(xué)習(xí)到的3D形狀不準(zhǔn)確且有噪聲。相比之下，本文的方法不僅合成真實(shí)感的3D一致圖像，而且還學(xué)習(xí)更精確的3D形狀和曲面法線，這表明所提出的多重照明約束作為正則化的有效性。

圖5中包含了更多的合成圖像及其相應(yīng)的形狀。除了更精確的3D形狀外，ShadeGAN還可以從本質(zhì)上了解反照率和漫反射著色組件。如圖所示，盡管并不完美，ShadeGAN已成功以令人滿意的質(zhì)量分離陰影和反照率，因?yàn)檫@種分離是多照明約束的自然解決方案。

在BFM數(shù)據(jù)集上對(duì)學(xué)習(xí)的3D形狀的質(zhì)量進(jìn)行定量評(píng)估。具體來(lái)說(shuō)，使用每個(gè)生成隱式模型生成50k圖像及其相應(yīng)的深度貼圖。來(lái)各個(gè)模型的圖像深度對(duì)被用作訓(xùn)練數(shù)據(jù)，來(lái)訓(xùn)練額外的卷積神經(jīng)網(wǎng)絡(luò)（CNN），這個(gè)網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)輸入圖像的深度圖。

然后，在BFM測(cè)試集上測(cè)試每個(gè)經(jīng)過(guò)訓(xùn)練的CNN，并將其預(yù)測(cè)與真實(shí)深度圖進(jìn)行比較，作為對(duì)所學(xué)3D形狀質(zhì)量的測(cè)量。

本文報(bào)告了尺度不變深度誤差（SIDE）和平均角度偏差（MAD）度量。其中ShadeGAN的表現(xiàn)明顯優(yōu)于GRAF和pi GAN。ShadeGAN還優(yōu)于其他先進(jìn)的無(wú)監(jiān)督3D形狀學(xué)習(xí)方法，包括unsupervised和GAN2Shape，在無(wú)監(jiān)督3D形狀學(xué)習(xí)都有著巨大潛力。

不同模型合成的圖像的FID分?jǐn)?shù)上，其中ShadeGAN的FID分?jǐn)?shù)略差于BFM和CelebA中的pi GAN。直觀地說(shuō)，這是由近似著色（即朗伯著色）和真實(shí)照明之間的差距造成的，可以通過(guò)采用更真實(shí)的著色模型和改進(jìn)之前的照明來(lái)避免。

消融研究

研究團(tuán)隊(duì)進(jìn)一步研究了ShadeGAN中幾種設(shè)計(jì)選擇的影響。首先，執(zhí)行局部點(diǎn)特定的著色。如圖所示，局部著色策略的結(jié)果明顯比原始策略差，這表明考慮用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

是有益的。

為了驗(yàn)證所提出的高效體繪制技術(shù)的有效性，研究團(tuán)隊(duì)將其對(duì)圖像質(zhì)量和訓(xùn)練/推理時(shí)間的影響包含在選項(xiàng)中。據(jù)觀察，高效體繪制對(duì)性能影響不大，但ShadeGAN的訓(xùn)練和推理時(shí)間分別顯著減少了24%和48%。

此外，在下圖中可視化了曲面跟蹤網(wǎng)絡(luò)預(yù)測(cè)的深度圖和通過(guò)體繪制獲得的深度圖。結(jié)果表明，在不同的身份和相機(jī)姿態(tài)下，曲面跟蹤網(wǎng)絡(luò)可以一致地預(yù)測(cè)非常接近真實(shí)曲面位置的深度值，因此可以在不犧牲圖像質(zhì)量的情況下采樣預(yù)測(cè)曲面附近的點(diǎn)進(jìn)行渲染。

光照感知圖像合成

由于ShadeGAN對(duì)著色過(guò)程進(jìn)行建模，因此在設(shè)計(jì)上允許對(duì)照明條件進(jìn)行顯式控制。下圖提供了這樣的照明感知圖像合成結(jié)果，其中ShadeGAN在不同的照明方向下生成有希望的圖像。在預(yù)測(cè)的a以照明條件μ為條件的情況下，a會(huì)略微改變w.r.t.照明條件，如在陰影過(guò)暗的區(qū)域，a會(huì)更亮，最終圖像更自然。我們還可以在等式4（即Blinn Phong著色，其中h是視點(diǎn)和照明方向之間角度的平分線）中選擇性地添加鏡面反射項(xiàng) 用于形狀精確三維感知圖像合成的著色引導(dǎo)生成隱式模型 | NeurIPS2021

，以創(chuàng)建鏡面反射高光效果。

GAN反演

ShadeGAN還可以通過(guò)執(zhí)行GAN反演來(lái)重建給定的目標(biāo)圖像。如下圖所示，這種反演允許我們獲得圖像的幾個(gè)因素，包括3D形狀、表面法線、近似反照率和陰影。此外，我們還可以通過(guò)更改視點(diǎn)和照明條件來(lái)進(jìn)一步執(zhí)行視圖合成和重新照明。

討論

由于使用的朗伯陰影近似于真實(shí)照明，因此ShadeGAN學(xué)習(xí)的反照率并沒(méi)有完全分離。本文的方法不考慮對(duì)象的空間變化的材料特性。在未來(lái)，研究團(tuán)隊(duì)打算結(jié)合更復(fù)雜的著色模型，以更好地了解分離的生成反射場(chǎng)。

結(jié)論

本文提出的ShadeGAN是一種新的生成隱式模型，用于形狀精確的3D感知圖像合成。并證實(shí)在ShadeGAN中通過(guò)顯式光照建模實(shí)現(xiàn)的多重光照約束顯著有助于從2D圖像學(xué)習(xí)精確的3D形狀。

ShadeGAN還可以在圖像合成過(guò)程中控制照明條件，實(shí)現(xiàn)自然的圖像重新照明效果。為了降低計(jì)算成本，研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了一種輕量級(jí)曲面跟蹤網(wǎng)絡(luò)，它為生成隱式模型提供了一種高效的體繪制技術(shù)，顯著加快了訓(xùn)練和推理速度。

推薦閱讀

伯克利團(tuán)隊(duì)新研究：不用神經(jīng)網(wǎng)絡(luò)，也能快速生成優(yōu)質(zhì)動(dòng)圖

2022-01-08