0
本文作者: 奕欣 | 2018-07-31 14:23 |
雷鋒網(wǎng) AI 科技評論按:本文作者 Liqian Ma,他為 AI 科技評論撰寫了他作為第一作者被 CVPR 2018 錄用的 Spotlight 論文解讀稿件。
下面要介紹的論文發(fā)表于 CVPR 2018,題為??「Disentangled Person Image Generation」。
我們的目標是在無監(jiān)督數(shù)據(jù)的情況下生成自然人體圖像。為此,我們提出了一種基于自監(jiān)督的解耦表達人體前景、背景、姿態(tài)特征的生成式模型。其中,重建過程是基于對人體圖像的三個弱相關成分, 即前景人體(foreground),背景(background)和人體姿態(tài)點(pose)的分解,壓縮和解碼重建原圖像提取對應的三類特征。之后分別以這三類特征作為目標,訓練對抗性生成網(wǎng)絡實現(xiàn)從高斯噪聲生成新的對應特征,同時利用前一步訓練得到的圖像解碼器對新特征解碼得到新的人體圖像。該模型可以用于多種應用:人體圖片修改與采樣,樣本插值,行人重識別,姿態(tài)指導的人體圖像生成。
在之前的圖像轉換工作中(圖 1),CVPR17 的 pix2pix [1] 通過使用帶監(jiān)督信息的訓練數(shù)據(jù)來學習一個可以進行外觀轉換的 image-to-image 模型。之后,ICCV17 的 cycleGAN [2] 提出使用 cycle-consistency 的約束使得無監(jiān)督學習 image-to-image 模型成為可能。以上兩個主流的模型主要針對圖像的外觀信息進行遷移,而沒有進行結構信息的遷移。我們 NIPS17 的工作 PG2 [3] 則可以通過將人體姿態(tài)關節(jié)點和圖像一起作為網(wǎng)絡輸入,然后利用有監(jiān)督學習對人體圖像進行結構信息的遷移。為了同時進行外觀和結構信息的遷移,我們將人體圖片分解為前景、背景、姿態(tài)三個弱相關因素,從而可以單獨控制各個因素。此外,我們還提出一種「高斯噪聲-> 特征 ->圖像」的映射方式,使得模型可以分別從高斯空間采樣得到對應的前景、背景、姿態(tài)。該論文采用自監(jiān)督的方式來訓練模型,因此不需要帶監(jiān)督信息的訓練數(shù)據(jù)??偨Y來講,模型有如下優(yōu)點:
1)單獨控制前景、背景、姿態(tài);
2)可以從高斯空間采樣;
3)不需要帶監(jiān)督信息的訓練數(shù)據(jù)。
圖 1. 圖像轉換相關工作對比。
該論文提出了一種分階段學習方法。在第一階段,通過包含編碼器、解碼器的重構網(wǎng)絡來學習三種弱相關人體圖像特征,即前景、背景和姿態(tài)。在第二階段,則將之前訓練好的編碼器、解碼器固定,通過對抗式學習來分別訓練三個映射函數(shù),來將高斯空間分別映射到三個特征空間。在測試階段采樣時,我們可以先通過第二階段學習到的映射函數(shù)來將高斯噪聲映射到特征空間,然后利用第一階段學習到的解碼器將特征解碼成圖像。相比于直接將高斯空間映射到圖像空間,這種兩階段映射降低了映射難度:相比于圖像空間,特征空間的分布更加接近于圖像數(shù)據(jù),因此可以更容易通過對抗學習得到映射函數(shù)。此外,第二階段的映射函數(shù)可以在第一階段訓練完成后進行,并不需要對第一階段的特征空間加任何假設,因此可以應用于任何高斯空間到圖像特征空間的映射。
我們已經(jīng)驗證:當使用類似 VAE[4] 和 AAE[5] 的方式直接在第一階段的 bottleneck 層(即特征空間)加約束,會導致訓練不穩(wěn)定或者學到的特征空間存在模型坍塌的問題。因此,我們提出將第一階段特征空間的高斯約束轉換成學習一個從高斯噪聲到特征空間的映射函數(shù)。
圖 2. 整體框圖,包含階段一和階段二。
階段一是一個重構網(wǎng)絡的結構,包含編碼器和解碼器兩部分。
1)在編碼器部分,我們將圖像分為前景,背景,姿態(tài)三種因素,并用三個分支網(wǎng)絡進行分別編碼。這一過程由自動檢測得到的人體姿態(tài)關節(jié)點來引導:通過對人體姿態(tài)關節(jié)點進行連接及一些圖像形態(tài)學操作(如腐蝕和膨脹)來得到一個粗糙的 mask(紅色虛線框),來顯式地分割前景與背景信息。需要注意的是我們在 feature map 層而不是 image 層進行前景、背景分割,主要因為我們的 mask 并不精確,直接在 image 層分割累計的誤差會影響生成效果。而在 feature map 層分割,則可以通過重建網(wǎng)絡的引導使得輸出 feature map 的卷積層自行學習糾正這些誤差,改善生成效果。進一步,在前景分支上,我們利用人體 7 個 Body ROI [6] 來進行局部編碼后再將 7 個部分的特征向量合并成一個。此過程中的 7 個局部編碼器之間共享權重。
2)在解碼器部分,我們將前景特征和背景特征進行拼接并在空間域上平鋪成和圖像分辨率一致的外觀特征立方體,最后將外觀特征立方體與人體姿態(tài)關節(jié)點拼接再輸入具有 U-net 結構的解碼器(藍色虛線框)。這種外觀和結構信息的融合方式可以幫助解碼器學習如何根據(jù)人體關節(jié)點信息引導來選擇「填充」合理的外觀信息 [3]。
圖 3. 階段一詳細結構。
1)人體圖片修改與采樣
如圖 4 所示,該模型在 128x64 分辨率的行人重識別數(shù)據(jù)庫 Market-1501 和 256x256 分辨率的時尚數(shù)據(jù)庫 DeepFashion 上進行了測試。我們可以看到在 Market-1501 上,該模型可以通過固定兩個因素(如,背景和姿態(tài))對應的高斯噪聲輸入來單獨修改剩余的一種(如,前景),或者同時采樣三種因素的噪聲生成三種因素截然不同的圖像。在 DeepFashion 上,該模型則可用于從高斯空間采樣出新的衣服樣式(前景)。
圖 4. 人體圖片修改與采樣結果。
2)樣本插值
如圖 5 所示,我們可以使用簡單的梯度下降方法找到真實圖片 x1,x2 在高斯空間中對應的編碼,然后進行線性插值,并將插值得到的編碼解碼成圖像。我們可以看到,插值得到的中間結果可以在一定程度上反應兩幀之間的變化。
圖 5. 人體圖片樣本插值(x1 和 x2 是真實圖片)
3)行人重識別
如圖 6 所示,為了驗證我們的生成數(shù)據(jù)對行人重識別的幫助,我們在 Market-1501 數(shù)據(jù)庫上通過固定前景,采樣背景和姿態(tài),來得到一個人工生成的 ID(前景)對應的不同圖片。我們構建了一個包含 500 個 ID,每個 ID 有 24 張圖片的 Virtual Market 數(shù)據(jù)庫。使用該虛擬數(shù)據(jù)庫來訓練行人重識別的模型,之后在實際測試數(shù)據(jù)上我們的虛擬數(shù)據(jù)庫訓練的模型可以達到 state-of-the-art 的非監(jiān)督 re-id 模型的識別率(見表 1 第四排第五排),甚至超過有些在標記數(shù)據(jù)庫上進行預訓練的模型(見表 1 第一排第二排)。
圖 6. 生成的 Virtual Market 數(shù)據(jù)庫。每一列對應一個 ID 的一對不同圖片。
表 1. 行人重識別結果對比。Rank-1 和 mAP 都是越高越好。
4)姿態(tài)指導的人體圖像生成
如圖 7 所示,我們的模型同樣可以根據(jù)輸入的目標姿態(tài)來改變輸入人體圖片的姿態(tài)。相比于使用帶監(jiān)督信息數(shù)據(jù)進行學習的 PG2 [3] 模型,我們提出的自監(jiān)督學習模型同樣達到可媲美的效果,而我們的優(yōu)勢在于我們的模型不需要任何帶監(jiān)督信息的訓練數(shù)據(jù)。從表 2 的量化結果來看,PG2 因為采用 U-net 結構,編碼器和解碼器之間有 skip-connection,可以更好地保留原圖像的細節(jié),生成的圖像和真值圖片的相似度(SSIM score)更高。而我們提出的模型用編碼器將圖像空間映射到特征空間,并沒有使用 skip-connection 將原圖的細節(jié)傳給解碼器,故出現(xiàn)了一些外觀不一致的細節(jié),但生成的圖像更加逼真,有更高的 inception score。因此,如果要用我們的模型來做「姿態(tài)指導的人體圖像生成」,還需要使用類似 skip-connection 的方式來將原圖的細節(jié)更好地傳達給生成結果。
如圖 8 所示,給定目標姿態(tài)的序列,我們也可以將一幅圖像轉換成一個視頻序列(未使用時域信息)。這里我們展示的是交叉姿態(tài)驅動的結果,即使用 B 的姿態(tài)序列來驅動 A 的外觀,反之亦然。
圖 7. 姿態(tài)指導的人體圖像生成可視化結果對比。
表 2. 姿態(tài)指導的人體圖像生成量化結果對比。(Mask-)SSIM 和 IS 都是越高越好。
圖 8. 基于骨架驅動的人體視頻生成。
另外,在我們的最新工作「Exemplar Guided Unsupervised Image-to-Image Translation」中,我們提出了針對兩個內容相關 domain 圖像的基于樣例的無監(jiān)督轉換方法,可以根據(jù)樣例來將原始圖像轉換到目標 domain 的特定風格,并同時保持圖像語義結構的一致性(天還是天,路還是路),實現(xiàn)了多對多的映射。歡迎大家圍觀 https://arxiv.org/abs/1805.11145
參考文獻:
[1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.
[2] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017.
[3] L. Ma, J. Xu, Q. Sun, B. Schiele, T. Tuytelaars, and L. Van Gool. Pose guided person image generation. In NIPS, 2017.
[4] D. P. Kingma and M. Welling. Auto-encoding variational bayes. In ICLR, 2014.
[5] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey. Adversarial autoencoders. In arXiv, 2015.
[6] H. Zhao, M. Tian, S. Sun, J. Shao, J. Yan, S. Yi, X. Wang, and X. Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion. In CVPR, 2017.
[7] H. Fan, L. Zheng, and Y. Yang. Unsupervised person re-identification: Clustering and fine-tuning. In arXiv, 2017.
論文地址:https://homes.esat.kuleuven.be/~liqianma/pdf/CVPR18_Ma_Disentangled_Person_Image_Generation.pdf
項目地址:https://homes.esat.kuleuven.be/~liqianma/CVPR18_DPIG/
知乎:https://zhuanlan.zhihu.com/p/35626735
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。