0
本文作者: 我在思考中 | 2021-08-11 10:08 |
AI 科技評論報道
編輯 | 陳大鑫
從單一的人臉圖像生成其對應(yīng)的視頻是一個有趣的問題,研究者們通常利用人臉圖像的稀疏特征點(landmarks)結(jié)合生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)來進行人臉視頻的生成。然而,由稀疏人臉特征點生成的人臉圖像通常會遭受質(zhì)量損失、圖像失真、身份改變,以及表情不匹配等問題。
AI 科技評論今天介紹一篇能很好解決上述問題的論文,在本文中,作者使用重建出的三維人臉動態(tài)信息來指導(dǎo)人臉視頻的生成,旨在生成逼真的和身份不變的面部視頻。三維人臉動態(tài)可以更好的表示人臉的面部表情和動作,可以作為有力的先驗知識指導(dǎo)高度逼真的人臉視頻生成。
原文標(biāo)題:Image-to-Video Generation via 3D Facial Dynamics
論文地址:https://ieeexplore.ieee.org/abstract/document/9439899
在文中,作者精心設(shè)計了一套三維動態(tài)預(yù)測和人臉視頻生成模型(FaceAnime),來預(yù)測單張人臉圖像的 3D 動態(tài)序列,然后通過稀疏紋理映射算法進一步渲染3D動態(tài)序列的皮膚細節(jié)。
最后,利用條件生成對抗網(wǎng)絡(luò)引導(dǎo)人臉視頻的生成。實驗結(jié)果顯示,F(xiàn)aceAnime能從單張靜止的人臉圖像生成高保真度、身份不變性的人臉視頻,較其它方法效果更好。
背景及簡介
當(dāng)前的人臉視頻生成方法普遍采用人臉的稀疏特征點(landmarks)來引導(dǎo)圖片或視頻的生成,然而作者認為使用稀疏的二維特征點引導(dǎo)人臉圖像/視頻生成的主要缺點有:
1、稀疏人臉特征點不能很好地表示人臉圖像的幾何形狀,容易導(dǎo)致人臉整體形狀和面部結(jié)構(gòu)細節(jié)的缺失,進而導(dǎo)致合成圖像的失真和質(zhì)量損失;
2、稀疏的二維特征點不攜帶源人臉圖像的任何內(nèi)容信息,這可能會導(dǎo)致生成的圖像過擬合于只包含訓(xùn)練集的人臉圖像中;
3、在視頻生成過程中應(yīng)保留人臉身份信息,但稀疏的2D特征點沒有身份信息,容易導(dǎo)致合成結(jié)果的身份變化。
文章的主要貢獻如下:
方法描述
本文提出的 FaceAnime 包含一個 3D 動態(tài)預(yù)測網(wǎng)絡(luò)(3D Dynamic Prediction, 3DDP)和一個先驗引導(dǎo)的人臉生成網(wǎng)絡(luò)(Prior-Guided Face Generation, PGFG)。
首先,本文方法基于三維形變模型(3D Morphable Models, 3DMM)對單張人臉圖像進行三維重建, 3DDP網(wǎng)絡(luò)隨后預(yù)測該圖像未來的3D動態(tài)序列,之后將動態(tài)序列進行稀疏紋理映射渲染,最后使用PGFG網(wǎng)絡(luò)完成相應(yīng)的人臉生成。
模型的整體網(wǎng)絡(luò)架構(gòu)和操作流程如下圖1所示:
圖1. FaceAnime的整體框架圖,包括3DDP網(wǎng)絡(luò)(左)和PGFG網(wǎng)絡(luò)(右)
(1)3D人臉重建和稀疏紋理映射
3D形變模型(3D Morphable Model, 3DMM)用來從2D人臉圖像中預(yù)測相應(yīng)的3D人臉。其中,描述3D人臉的頂點(vertex)可由一系列2D人臉中的正交基線性加權(quán)得出:
其中,是平均臉,
是形狀主成分基,
是相應(yīng)的形狀系數(shù),
是表情主成分基,
是對應(yīng)的表情系數(shù)。反過來,3D人臉頂點也可以通過變換映射到一個2維圖像平面上,對應(yīng)的公式可以表達為:
其中,V表示3D頂點在2維平面上的映射坐標(biāo),是固定的正交映射矩陣,
是對應(yīng)的旋轉(zhuǎn)矩陣,而t為偏移向量。通過最小化映射landmarks和檢測的landmarks之間的
距離,最終可以求得 3DMM 中的系數(shù)。
如圖2所示,給定一張源人臉圖像(Source Face),其3D形狀可以通過改變重建的 3DMM 系數(shù)來進行任意的修改, 則目標(biāo)人臉的稀疏紋理可以由修改后的3DMM 系數(shù)獲得。在人臉重定向任務(wù)中,修改的 3DMM 系數(shù)可由參考人臉視頻幀得到,而在人臉預(yù)測任務(wù)中,則由 LSTM 模塊預(yù)測得到。為了防止在紋理映射中,密集的紋理先驗信息太強而導(dǎo)致目標(biāo)動作中出現(xiàn)不符合期望的結(jié)果,因此在紋理映射過程中本文采用間隔采樣即稀疏紋理映射,以適應(yīng)不同的人臉運動變化。
圖2. 給定不同的3DMM系數(shù)所得到的不同三維人臉重建和稀疏映射的結(jié)果
不同于以往只針對某一種任務(wù)的視頻生成,在本文中作者提出了三個不同的生成任務(wù),即人臉視頻重定向(Face video retargeting),視頻預(yù)測(Video prediction)以及目標(biāo)驅(qū)動的視頻預(yù)測(Target-driven video prediction)。對于retargeting任務(wù),作者使用參考視頻來提供序列的變化信息,而不使用3DDP來預(yù)測。
視頻預(yù)測:給定一個觀測到的動態(tài)序列(3DMM coefficients),LSTM對其進行編碼:
為了預(yù)測出一個合理的動作,LSTM不得不首先學(xué)習(xí)大量的動作輸入以識別在姿態(tài)序列中運動的種類以及隨時間的變化。在訓(xùn)練過程中,未來動態(tài)序列可以由下式生成:
其中表示預(yù)測得到的3DMM系數(shù),其表示在時刻t的3D dynamic。基于以上公式,模型可以從一個初始的dynamic學(xué)到一個合理的未來序列。
目標(biāo)驅(qū)動的視頻預(yù)測: 對于LSTM來講,要實現(xiàn)目標(biāo)引導(dǎo)的運動生成,模型需要兩個輸入,即source dynamic和target dynamic。不同于視頻預(yù)測,作者使用了一個計時器來對target dynamic進行重新賦權(quán)。整體的LSTM預(yù)測可以用公式表示為:
這里表示target dynamic,T為預(yù)測長度,即? = 0表示序列開始時間,? = ?為序列結(jié)束。
損失函數(shù): 給一個source人臉圖像, 作者使用2DAL模型回歸出相應(yīng)的3DMM系數(shù),用來表示初始的3D dynamic 。之后模型通過觀測來生成一個系數(shù)序列。在訓(xùn)練過程中,作者使用3DMM coefficient loss和3D vertex loss兩個損失函數(shù)進行監(jiān)督學(xué)習(xí)。3DMM coefficient loss定義為預(yù)測3DMM 系數(shù)和ground truth 3DMM系數(shù)之間的歐式距離:
而3D vertex loss定義為:
其中分別為預(yù)測得到的系數(shù)和標(biāo)準(zhǔn)系數(shù)對應(yīng)的人臉三維頂點信息。則整體的損失函數(shù)可以表述為:
先驗引導(dǎo)的人臉生成: 基于提出的稀疏紋理映射,source人臉圖像被用于渲染預(yù)測的3D dynamics。在這里,稀疏紋理作為引導(dǎo)人臉生成的先驗信息。文中提到的網(wǎng)絡(luò)PGFG (Prior-Guided Face Generation Network)主要由條件GAN網(wǎng)絡(luò)來組成,其結(jié)構(gòu)如圖1(右)所示。
PGFG 網(wǎng)絡(luò)的結(jié)構(gòu):PGFG生成器G有三個輸入,分別是source人臉,
對應(yīng)的紋理先驗
和目標(biāo)的紋理先驗
。在這里,作者并沒有直接使用目標(biāo)的紋理先驗作為先驗引導(dǎo),而是使用了先驗殘差來引導(dǎo)人臉生成,在特征空間可以獲得運動殘差:
。由此可得最終人臉為:
為了進一步利用不同空間位置的特征信息,編碼器和解碼器均由Dense blocks組成。判別器有兩個輸入,即目標(biāo)人臉圖像的紋理先驗分別和生成人臉、目標(biāo)人臉結(jié)合的輸入,
。
損失函數(shù):網(wǎng)絡(luò)PGFG由三個損失函數(shù)進行監(jiān)督,分別為圖像像素間的損失,對抗損失
和身份信息損失
。
需要注意的是,在身份信息損失中,R為預(yù)訓(xùn)練的人臉識別模型。
網(wǎng)絡(luò)整體的損失函數(shù)為:
實驗結(jié)果
作者分別對人臉視頻重定向、視頻預(yù)測以及目標(biāo)驅(qū)動的視頻預(yù)測三個任務(wù)做了相應(yīng)的大量實驗。
人臉視頻重定向:在這個任務(wù)中,作者分別對人臉表情的重定向以及頭部講話重定向兩個子任務(wù)進行了實驗。實驗表明,所提出的 FaceAnime 模型可以很好的將 source 人臉圖像中的表情和動作重定向到目標(biāo)圖像上,生成相對應(yīng)的姿態(tài)和講話表情,實驗結(jié)果如圖 3 所示。
圖3. FaceAnime的人臉表情重定向(a)和頭部講話重定向(b)實驗結(jié)果
人臉視頻預(yù)測:這個任務(wù)中包含視頻預(yù)測以及目標(biāo)驅(qū)動的視頻預(yù)測兩個子任務(wù)。對每一個預(yù)測任務(wù),實驗過程中作者隨機選取一張從人臉圖像測試集 IJB-C 中抽取的單張人臉圖像。對于視頻測試,作者首先使用 3DDP 網(wǎng)絡(luò)從source 人臉中預(yù)測一個運動序列,然后用該序列引導(dǎo)人臉視頻的生成。而對于目標(biāo)引導(dǎo)的人臉預(yù)測任務(wù),則需要兩個輸入圖像。一個是 source 人臉,另一個為 target 人臉。3DDP 網(wǎng)絡(luò)用于預(yù)測從 source 人臉到 target 人臉之間平滑的運動變化,從而引導(dǎo)人臉視頻的生成。圖4和圖5分別展示了視頻生成和目標(biāo)驅(qū)動視頻生成兩個子任務(wù)的生成結(jié)果。
圖4. FaceAnime的視頻生成結(jié)果
圖5. FaceAnime的目標(biāo)驅(qū)動視頻生成的結(jié)果
為了展示所提出方法的先進性,作者還同其他類似任務(wù)的算法進行了效果對比,部分結(jié)果顯示如圖 6 所示。
圖6. FaceAnime和其它方法的對比結(jié)果
通過比較,F(xiàn)aceAnime 不僅可以生成高質(zhì)量且真實的人臉視頻序列,同時生成的視頻圖像可以精確地還原參考視頻中人臉表情和姿態(tài)變化,還能較好地保持人臉的身份信息。
大量實驗表明,作者提出的方法可以將參考視頻的姿態(tài)和表情變化重定位到source人臉上,并且對于一個隨機的人臉圖像,其可以生成合理的未來視頻序列。對比其他最先進的人臉生成方法,所提出的方法在生成高質(zhì)量和身份信息保持的人臉方面具有更好的效果。
作者介紹
涂曉光,中國民用航空飛行學(xué)院講師,從事人工智能、深度學(xué)習(xí)、計算機視覺等領(lǐng)域的研究工作。2013-2020年在電子科技大學(xué)攻讀碩士和博士學(xué)位,2018年作為國家公派聯(lián)合培養(yǎng)博士生前往新加坡國立大學(xué)學(xué)習(xí)交流一年半, 師從亞太地區(qū)杰出青年科學(xué)家馮佳時教授, 并于2019年至2020年相繼在PENSEES新加坡研究院和字節(jié)跳動人工智能實驗室擔(dān)任算法實習(xí)研究員。目前,以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界權(quán)威期刊上發(fā)表論文11篇, Google scholar引用200多次,第一作者發(fā)表SCI期刊總影響因子超過30,曾擔(dān)任模式識別領(lǐng)域頂級期刊“Pattern Recognition”特邀審稿人。2020年12月份博士畢業(yè),2021年3月以高層次人才引進身份入職中國民用航空飛行學(xué)院。
趙健,2012年獲得北京航空航天大學(xué)學(xué)士學(xué)位,2014年獲得國防科技大學(xué)碩士學(xué)位,博士就讀于新加坡國立大學(xué)電子與計算機工程系,師從馮佳時教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow顏水成教授,2019年獲得博士學(xué)位,現(xiàn)為軍事科學(xué)院助理研究員,入選中國科協(xié)2020-2022年度青年人才托舉工程、北京市科協(xié)2021-2023年度青年人才托舉工程,擔(dān)任視覺與學(xué)習(xí)青年學(xué)者研討會VALSE資深領(lǐng)域主席、中國圖象圖形學(xué)學(xué)會視覺大數(shù)據(jù)專業(yè)委員會CSIG-BVD委員、北京圖象圖形學(xué)學(xué)會BSIG第七屆理事會理事。主要研究領(lǐng)域為人工智能、深度學(xué)習(xí)、模式識別、計算機視覺與多媒體分析。目前,共主持/參與科技委項目3項(序1/3/5),主持國家自然科學(xué)基金青年科學(xué)基金項目1項,參與軍科院長基金項目1項(序3)。近5年已受理國家專利6項(序1),發(fā)表高水平學(xué)術(shù)論文40余篇,單篇影響因子最高16.389,其中,以第一作者發(fā)表CCF A類論文11篇(含2篇T-PAMI、2篇IJCV)。曾作為第一作者獲得2021 USERN (Universal Scientific Education and Research Network) Prize提名,新加坡模式識別與機器智能協(xié)會PREMIA 2019 Lee Hwee Kuan獎(金獎),CCF A類會議、國際多媒體領(lǐng)域頂級會議ACM MM 2018最佳學(xué)生論文獎,CCF A類國際會議ICCV 2017 MS-Celeb-1M人臉識別競賽Hard Set/Random Set/Low-Shot Learning全部任務(wù)全球冠軍,CCF A類國際會議CVPR 2017 L.I.P競賽人物解析與人物姿態(tài)估計全部任務(wù)全球亞軍,美國國家標(biāo)準(zhǔn)與技術(shù)研究院NIST 2017 IJB-A無約束人臉識別競賽人臉驗證與人臉鑒別全部任務(wù)全球冠軍。擔(dān)任國家自然科學(xué)基金委評議專家,擔(dān)任T-PAMI、IJCV、NeurIPS(NeurIPS 2018前30%最佳審稿人)、CVPR等本領(lǐng)域主流國際期刊/會議的受邀審稿人。
馮佳時,現(xiàn)任新加坡國立大學(xué)電子與計算機工程系助理教授,機器學(xué)習(xí)與視覺實驗室負責(zé)人。
中國科學(xué)技術(shù)大學(xué)自動化系學(xué)士,新加坡國立大學(xué)電子與計算機工程系博士。2014-2015年在加州大學(xué)伯克利分校人工智能實驗室從事博士后研究?,F(xiàn)研究方向為圖像識別、深度學(xué)習(xí)及面向大數(shù)據(jù)的魯棒機器學(xué)習(xí)。馮佳時博士曾獲ICCV’2015 TASK-CV最佳論文獎,2012年ACM多媒體會議最佳技術(shù)演示獎。擔(dān)任ICMR 2017技術(shù)委員會主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、會議審稿人。
贈書福利
AI科技評論本次聯(lián)合【圖靈教育】為大家?guī)?strong>10本《算法(第四版)》正版新書。
AI科技評論將一共選出 10名讀者,每人送出《算法(第四版)》一本。
在2021年8月8日二條文章《贈書 | 看不懂《算法導(dǎo)論》?先讀完豆瓣評分 9.4 的算法入門巨著》留言區(qū)留言,歡迎大家暢所欲言,談一談你對本書的看法和期待。在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。
留言內(nèi)容會有篩選,例如“選我上去”、“這書寫的很棒(僅僅幾個字)”等內(nèi)容將不會被篩選,亦不會中獎。
留言送書活動時間為2021年8月8日 - 2021年8月12日(23:00),活動推送時間內(nèi)僅允許贈書福利中獎一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。