ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

本文作者：我在思考中

2021-09-15 11:01

導(dǎo)語：該論文由哈爾濱工業(yè)大學(xué)與好未來合作，針對圖像生成中無監(jiān)督解耦問題，提出了一種正交雅可比正則化用于學(xué)習(xí)解耦的生成模型。

作者 | 魏于翔

編輯 | 王曄

本文是對發(fā)表于計算機(jī)視覺和模式識別領(lǐng)域的頂級會議 ICCV 2021的論文“Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation（用于無監(jiān)督圖像生成解耦的正交雅可比正則化）”的解讀。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

該論文由哈爾濱工業(yè)大學(xué)與好未來合作，針對圖像生成中無監(jiān)督解耦問題，提出了一種正交雅可比正則化（Orthogonal Jacobian Regularization, OroJaR）用于學(xué)習(xí)解耦的生成模型。OroJaR通過約束輸入各維在輸出引起的變化之間的正交特性來實(shí)現(xiàn)模型的解耦，并使用輸出對輸入的雅可比矩陣表示這種變化。與之前的方法相比，OroJaR可以應(yīng)用于模型的多層，并以整體方式對輸出進(jìn)行約束，使得其可以更好的解耦空間相關(guān)的變化。

論文鏈接：https://arxiv.org/abs/2108.07668

代碼地址：https://github.com/csyxwei/OroJaR

研究背景

近年來，無監(jiān)督解耦學(xué)習(xí)受到了廣泛的關(guān)注，不僅因為其對理解生成模型的重要性，也因為其對其他計算機(jī)視覺任務(wù)也有所幫助，如可控圖像生成、圖像編輯等。對于一個解耦的特征，其各維控制了輸出中不相關(guān)的變化，從給定的數(shù)據(jù)集中無監(jiān)督學(xué)習(xí)到解耦的特征仍是當(dāng)前人工智能領(lǐng)域的一個重要挑戰(zhàn)。

現(xiàn)有的無監(jiān)督解耦方法主要基于兩種主流的生成模型：變分自編碼器（Variational Autoencoder, VAE）和生成式對抗網(wǎng)絡(luò)（Generative Adversarial Networks, GAN）。基于VAE的方法如-VAE^[1]，F(xiàn)actorVAE^[2]等主要通過約束隱變量之間的獨(dú)立性來實(shí)現(xiàn)解耦，但受限于VAE，這些方法生成圖像的質(zhì)量往往有限。隨著GAN在圖像生成領(lǐng)域取得的成功，許多基于GAN的無監(jiān)督解耦方法被提出。SeFa^[3]通過對pretrain的GAN的第一層全連接層參數(shù)分解得到一系列解耦的隱空間方向向量。但SeFa只能作用于第一層且是后處理的方式，限制了其解耦性能。Hessian Penalty^[4]通過約束輸出對輸入的Hessian矩陣是對角的來實(shí)現(xiàn)解耦。但其使用max函數(shù)將約束從標(biāo)量函數(shù)推廣到向量函數(shù)，獨(dú)立的約束輸出的各個值使得其不能很好的解耦一些空間相關(guān)的變化（如，形狀、大小、旋轉(zhuǎn)等）。

受上述方法的啟發(fā)，論文提出了一個用于無監(jiān)督圖像生成解耦的正交雅可比正則化（OroJaR），用于更好的解耦生成模型。

方法介紹

2.1正交雅可比正則化(OroJaR)

令 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化是一個生成模型，其中是輸入向量，表示輸入的第維。是網(wǎng)絡(luò)的輸出，進(jìn)一步用于表示的第層的輸出。論文基于一個非常直觀的想法：當(dāng)改變輸入的其中一維時，其在輸出中引起的變化應(yīng)該與其他維引起的變化獨(dú)立（不相關(guān)），即 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化和在輸出中引起的變化是獨(dú)立的。在論文中，作者使用雅可比向量表示輸入第維在輸出中引起的變化，同時為了實(shí)現(xiàn)解耦，作者約束輸入各維對應(yīng)的雅可比向量相互正交，

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

兩個向量的正交也意味著它們是不相關(guān)的，即輸入各維所引起的變化是獨(dú)立的。考慮所有輸入維度，作者提出了正交雅可比正則化（OroJaR），來幫助模型學(xué)習(xí)到解耦的特征：

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

其中 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化表示對z輸入的雅可比矩陣，表示逐元素乘積。I表示單位陣，表示全1的矩陣。OroJaR以整體方式對輸出進(jìn)行約束，而不是像Hessian Penalty一樣獨(dú)立的約束輸出的每一個元素，這使得OroJaR可以更好的解耦復(fù)雜的、空間相關(guān)的變化。

2.2近似訓(xùn)練加速

實(shí)際訓(xùn)練時，公式 (2)中雅可比矩陣的計算是非常耗時的。為了加速運(yùn)算，作者基于Hutchinson近似^[4,7]，將公式 (2)的計算重寫為，

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

其中V是Rademacher向量（每維為-1或1的概率為0.5）， ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化表示方差計算。是沿著V方向的一階導(dǎo)數(shù)乘上，其可以進(jìn)一步使用一階差分近似^[8]估計得到：

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

2.3在GAN中的應(yīng)用

OroJaR可以通過兩種方式應(yīng)用于GAN中，一種是在訓(xùn)練GAN時用作正則項，一種是用于尋找pretrain的GAN中一些解耦的方向向量。

GAN訓(xùn)練時，判別器 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化和生成器迭代的使用和更新：

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

其中 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化是某一個具體的GAN Loss。將OroJaR引入GAN的訓(xùn)練后，生成器的訓(xùn)練Loss調(diào)整為：

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

其中 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化用于控制不同損失之間的權(quán)重。引入到GAN的訓(xùn)練中可以幫模型學(xué)習(xí)到解耦的特征，從而實(shí)現(xiàn)可控的圖像生成。

OroJaR也可以用于發(fā)現(xiàn)pretrain的GAN的隱空間中可解釋的方向。具體地，作者引入一個可學(xué)習(xí)的正交矩陣 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化，其中是要學(xué)習(xí)的正交方向的個數(shù)，是隱空間維度。的每列存儲了要學(xué)習(xí)的正交方向。的優(yōu)化公式為：

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

其中 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化是一個one-hot的向量，用于索引的某一列，是一個標(biāo)量用于控制應(yīng)該沿著該方向移動多遠(yuǎn)。與公式 (7)不同的是，此時的OroJaR是對求的而不是。求得 ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化之后，就可以通過來對生成圖像進(jìn)行可控的編輯。

實(shí)驗結(jié)果

論文使用了Edges+Shoes^[9]、CLEVR^[4]、Dsprites^[10]等數(shù)據(jù)集對OroJaR進(jìn)行了詳細(xì)的定性和定量實(shí)驗。

3.1定性實(shí)驗

作者首先在Edges+Shoes上進(jìn)行了實(shí)驗，該數(shù)據(jù)集是由5k張真實(shí)鞋子和5k張輪廓鞋子組成的真實(shí)數(shù)據(jù)集。從下圖中可以看到，雖然沒有其真實(shí)的變化因子，但SeFa^[3]、Hessian Penalty^[4]和OroJaR都學(xué)到了相同的變化，即鞋子的樣式和形狀，且論文提出的OroJaR具有更多樣的形狀變化。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

下圖給出了論文提出的OroJaR與對比方法在CLEVR-Complex數(shù)據(jù)集上的定性對比，該數(shù)據(jù)集包含2個物體的5個變化因子（x軸、y軸位置、形狀、顏色、大?。？梢钥吹?，SeFa^[3]和Hessian Penalty^[4]在改變一個物體的形狀或顏色時另一個物體也會隨之改變，而OroJaR可以獨(dú)立的控制左右物體的形狀和顏色，這說明OroJaR可以更好的解耦空間相關(guān)的變化。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

下圖給出了OroJaR與對比方法在Dsprites數(shù)據(jù)集上的定性對比，該數(shù)據(jù)集是常用的解耦數(shù)據(jù)集，包含了1個物體的5個變化因子（x軸、y軸位置、形狀、角度、大?。？梢钥吹脚cSeFa^[3]和GAN-VP^[5]和Hessian Penalty^[4]相比，OroJaR可以更好地解耦5個變化，同時成功抑制多余的維度（第6行）。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

如上文中提到的，OroJaR同樣可以用于尋找pretrain的GAN的隱空間中一些有意義的方向向量，作者在ImageNet上pretrain的BigGAN^[6]的Golden Retrievers和Churches兩個類上進(jìn)行了實(shí)驗。實(shí)驗結(jié)果如下圖所示，可以看到，OroJaR可以成功找到一些有意義的控制，如旋轉(zhuǎn)，縮放，顏色等。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

更多詳細(xì)的實(shí)驗結(jié)果請見論文。

3.2定量實(shí)驗

下表給出了OroJaR在Edges+Shoes和CLEVR數(shù)據(jù)集上的定量對比實(shí)驗，其中FID^[12]用于衡量圖像的生成質(zhì)量，PPL^[11]用于衡量模型隱空間的連續(xù)性，VP^[5]用于衡量模型的解耦性能?？梢钥吹?，與SeFa^[3]、InfoGAN^[13]和Hessian Penalty^[4]相比， OroJaR具有更高的VP指標(biāo)，說明其更有利于模型的解耦。同時OroJaR也具有更低的PPL指標(biāo)，這是因為OroJaR與StyleGAN2中提出的感知路徑正則項具有相似的約束，從而實(shí)現(xiàn)了更低PPL。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

下表給出了OroJaR與對比方法在Dsprites上的VP指標(biāo)對比，可以看到論文提出的OroJaR取得了更高的結(jié)果，說明了其在解耦上的優(yōu)越性。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

結(jié)語

論文提出了一種用于生成模型解耦的正交雅可比正則化 (OroJaR) ，其通過約束不同輸入維度引起的輸出變化（即雅可比向量）之間的正交性成功實(shí)現(xiàn)了模型的解耦。此外，OroJaR 可以應(yīng)用于模型的多層，并以整體方式約束輸出，使其可以有效地解耦空間相關(guān)的變化。

參考文獻(xiàn)

[1] Irina Higgins, Loic Matthey, Arka Pal, Christopher Burgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed, and Alexander Lerchner. beta-vae: Learning basic visual concepts with a constrained variational framework. 2016.

[2] Hyunjik Kim and Andriy Mnih. Disentangling by factorising. In International Conference on Machine Learning, pages 2649–2658. PMLR, 2018.

[3] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021.

[4] William Peebles, John Peebles, Jun-Yan Zhu, Alexei A. Efros, and Antonio Torralba. The hessian penalty: A weak prior for unsupervised disentanglement. In Proceedings of the European Conference on Computer Vision, 2020

[5] Xinqi Zhu, Chang Xu, and Dacheng Tao. Learning disentangled representations with latent variation predictability. In Proceedings of the European Conference on Computer Vision, pages 684–700. Springer, 2020.

[6] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural image synthesis. In International Conference on Learning Representations, 2018.

[7] Michael F Hutchinson. A stochastic estimator of the trace of the influence matrix for laplacian smoothing splines. Communications in Statistics-Simulation and Computation, 18(3):1059–1076, 1989.

[8] Clarence Hudson Richardson. An introduction to the calculus of finite differences. Van Nostrand, 1954.

[9] Aron Yu and Kristen Grauman. Fine-grained visual comparisons with local learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 192–199, 2014.

[10] Loic Matthey, Irina Higgins, Demis Hassabis, and Alexander Lerchner. dsprites: Disentanglement testing sprites dataset. https://github.com/deepmind/dsprites-dataset/, 2017.

[11] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4401–4410, 2019.

[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in Neural Information Processing Systems, pages 6629–6640, 2017.

[13] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan: interpretable representation learning by information maximizing generative adversarial nets. In Advances in Neural Information Processing Systems, 2016.

掃碼添加小助手微信（AIyanxishe3），備注ICCV2021拉你進(jìn)群。

ICCV 2021 | 用于無監(jiān)督圖像生成解耦的正交雅可比正則化

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營

發(fā)私信

當(dāng)月熱門文章