0
本文作者: 我在思考中 | 2021-09-15 11:01 |
作者 | 魏于翔
編輯 | 王曄
本文是對發(fā)表于計算機視覺和模式識別領(lǐng)域的頂級會議 ICCV 2021的論文“Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation(用于無監(jiān)督圖像生成解耦的正交雅可比正則化)”的解讀。
該論文由哈爾濱工業(yè)大學(xué)與好未來合作,針對圖像生成中無監(jiān)督解耦問題,提出了一種正交雅可比正則化(Orthogonal Jacobian Regularization, OroJaR)用于學(xué)習解耦的生成模型。OroJaR通過約束輸入各維在輸出引起的變化之間的正交特性來實現(xiàn)模型的解耦,并使用輸出對輸入的雅可比矩陣表示這種變化。與之前的方法相比,OroJaR可以應(yīng)用于模型的多層,并以整體方式對輸出進行約束,使得其可以更好的解耦空間相關(guān)的變化。
論文鏈接:https://arxiv.org/abs/2108.07668
代碼地址:https://github.com/csyxwei/OroJaR
近年來,無監(jiān)督解耦學(xué)習受到了廣泛的關(guān)注,不僅因為其對理解生成模型的重要性,也因為其對其他計算機視覺任務(wù)也有所幫助,如可控圖像生成、圖像編輯等。對于一個解耦的特征,其各維控制了輸出中不相關(guān)的變化,從給定的數(shù)據(jù)集中無監(jiān)督學(xué)習到解耦的特征仍是當前人工智能領(lǐng)域的一個重要挑戰(zhàn)。
現(xiàn)有的無監(jiān)督解耦方法主要基于兩種主流的生成模型:變分自編碼器(Variational Autoencoder, VAE)和生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。基于VAE的方法如-VAE[1],F(xiàn)actorVAE[2]等主要通過約束隱變量之間的獨立性來實現(xiàn)解耦,但受限于VAE,這些方法生成圖像的質(zhì)量往往有限。隨著GAN在圖像生成領(lǐng)域取得的成功,許多基于GAN的無監(jiān)督解耦方法被提出。SeFa[3]通過對pretrain的GAN的第一層全連接層參數(shù)分解得到一系列解耦的隱空間方向向量。但SeFa只能作用于第一層且是后處理的方式,限制了其解耦性能。Hessian Penalty[4]通過約束輸出對輸入的Hessian矩陣是對角的來實現(xiàn)解耦。但其使用max函數(shù)將約束從標量函數(shù)推廣到向量函數(shù),獨立的約束輸出的各個值使得其不能很好的解耦一些空間相關(guān)的變化(如,形狀、大小、旋轉(zhuǎn)等)。
受上述方法的啟發(fā),論文提出了一個用于無監(jiān)督圖像生成解耦的正交雅可比正則化(OroJaR),用于更好的解耦生成模型。
2.1正交雅可比正則化(OroJaR)
令是一個生成模型,其中
是輸入向量,
表示輸入的第
維。
是網(wǎng)絡(luò)的輸出,
進一步用于表示
的第
層的輸出。論文基于一個非常直觀的想法:當改變輸入的其中一維時,其在輸出中引起的變化應(yīng)該與其他維引起的變化獨立(不相關(guān)),即
和
在輸出中引起的變化是獨立的。在論文中,作者使用雅可比向量
表示輸入第維在輸出中引起的變化,同時為了實現(xiàn)解耦,作者約束輸入各維對應(yīng)的雅可比向量相互正交,
兩個向量的正交也意味著它們是不相關(guān)的,即輸入各維所引起的變化是獨立的。考慮所有輸入維度,作者提出了正交雅可比正則化(OroJaR),來幫助模型學(xué)習到解耦的特征:
其中表示
對z輸入的雅可比矩陣,
表示逐元素乘積。I表示單位陣,
表示全1的矩陣。OroJaR以整體方式對輸出進行約束,而不是像Hessian Penalty一樣獨立的約束輸出的每一個元素,這使得OroJaR可以更好的解耦復(fù)雜的、空間相關(guān)的變化。
2.2近似訓(xùn)練加速
實際訓(xùn)練時,公式 (2)中雅可比矩陣的計算是非常耗時的。為了加速運算,作者基于Hutchinson近似[4,7],將公式 (2)的計算重寫為,
其中V是Rademacher向量(每維為-1或1的概率為0.5),表示方差計算。
是
沿著V方向的一階導(dǎo)數(shù)乘上
,其可以進一步使用一階差分近似[8]估計得到:
2.3在GAN中的應(yīng)用
OroJaR可以通過兩種方式應(yīng)用于GAN中,一種是在訓(xùn)練GAN時用作正則項,一種是用于尋找pretrain的GAN中一些解耦的方向向量。
GAN訓(xùn)練時,判別器和生成器
迭代的使用
和
更新:
其中是某一個具體的GAN Loss。將OroJaR引入GAN的訓(xùn)練后,生成器的訓(xùn)練Loss調(diào)整為:
其中用于控制不同損失之間的權(quán)重。引入
到GAN的訓(xùn)練中可以幫模型學(xué)習到解耦的特征,從而實現(xiàn)可控的圖像生成。
OroJaR也可以用于發(fā)現(xiàn)pretrain的GAN的隱空間中可解釋的方向。具體地,作者引入一個可學(xué)習的正交矩陣,其中
是要學(xué)習的正交方向的個數(shù),
是隱空間維度。
的每列存儲了要學(xué)習的正交方向。
的優(yōu)化公式為:
其中是一個one-hot的向量,用于索引
的某一列,
是一個標量用于控制
應(yīng)該沿著該方向移動多遠。與公式 (7)不同的是,此時的OroJaR是對求的
而不是
。求得
之后,就可以通過
來對生成圖像進行可控的編輯。
論文使用了Edges+Shoes[9]、CLEVR[4]、Dsprites[10]等數(shù)據(jù)集對OroJaR進行了詳細的定性和定量實驗。
3.1定性實驗
作者首先在Edges+Shoes上進行了實驗,該數(shù)據(jù)集是由5k張真實鞋子和5k張輪廓鞋子組成的真實數(shù)據(jù)集。從下圖中可以看到,雖然沒有其真實的變化因子,但SeFa[3]、Hessian Penalty[4]和OroJaR都學(xué)到了相同的變化,即鞋子的樣式和形狀,且論文提出的OroJaR具有更多樣的形狀變化。
下圖給出了論文提出的OroJaR與對比方法在CLEVR-Complex數(shù)據(jù)集上的定性對比,該數(shù)據(jù)集包含2個物體的5個變化因子(x軸、y軸位置、形狀、顏色、大?。?梢钥吹?,SeFa[3]和Hessian Penalty[4]在改變一個物體的形狀或顏色時另一個物體也會隨之改變,而OroJaR可以獨立的控制左右物體的形狀和顏色,這說明OroJaR可以更好的解耦空間相關(guān)的變化。
下圖給出了OroJaR與對比方法在Dsprites數(shù)據(jù)集上的定性對比,該數(shù)據(jù)集是常用的解耦數(shù)據(jù)集,包含了1個物體的5個變化因子(x軸、y軸位置、形狀、角度、大?。???梢钥吹脚cSeFa[3]和GAN-VP[5]和Hessian Penalty[4]相比,OroJaR可以更好地解耦5個變化,同時成功抑制多余的維度(第6行)。
如上文中提到的,OroJaR同樣可以用于尋找pretrain的GAN的隱空間中一些有意義的方向向量,作者在ImageNet上pretrain的BigGAN[6]的Golden Retrievers和Churches兩個類上進行了實驗。實驗結(jié)果如下圖所示,可以看到,OroJaR可以成功找到一些有意義的控制,如旋轉(zhuǎn),縮放,顏色等。
更多詳細的實驗結(jié)果請見論文。
3.2定量實驗
下表給出了OroJaR在Edges+Shoes和CLEVR數(shù)據(jù)集上的定量對比實驗,其中FID[12]用于衡量圖像的生成質(zhì)量,PPL[11]用于衡量模型隱空間的連續(xù)性,VP[5]用于衡量模型的解耦性能。可以看到,與SeFa[3]、InfoGAN[13]和Hessian Penalty[4]相比, OroJaR具有更高的VP指標,說明其更有利于模型的解耦。同時OroJaR也具有更低的PPL指標,這是因為OroJaR與StyleGAN2中提出的感知路徑正則項具有相似的約束,從而實現(xiàn)了更低PPL。
下表給出了OroJaR與對比方法在Dsprites上的VP指標對比,可以看到論文提出的OroJaR取得了更高的結(jié)果,說明了其在解耦上的優(yōu)越性。
論文提出了一種用于生成模型解耦的正交雅可比正則化 (OroJaR) ,其通過約束不同輸入維度引起的輸出變化(即雅可比向量)之間的正交性成功實現(xiàn)了模型的解耦。此外,OroJaR 可以應(yīng)用于模型的多層,并以整體方式約束輸出,使其可以有效地解耦空間相關(guān)的變化。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。