0
本文作者: 我在思考中 | 2021-08-11 10:08 |
AI 科技評論報道
編輯 | 陳大鑫
從單一的人臉圖像生成其對應的視頻是一個有趣的問題,研究者們通常利用人臉圖像的稀疏特征點(landmarks)結合生成對抗網(wǎng)絡(Generative Adversarial Networks, GANs)來進行人臉視頻的生成。然而,由稀疏人臉特征點生成的人臉圖像通常會遭受質量損失、圖像失真、身份改變,以及表情不匹配等問題。
AI 科技評論今天介紹一篇能很好解決上述問題的論文,在本文中,作者使用重建出的三維人臉動態(tài)信息來指導人臉視頻的生成,旨在生成逼真的和身份不變的面部視頻。三維人臉動態(tài)可以更好的表示人臉的面部表情和動作,可以作為有力的先驗知識指導高度逼真的人臉視頻生成。
原文標題:Image-to-Video Generation via 3D Facial Dynamics
論文地址:https://ieeexplore.ieee.org/abstract/document/9439899
在文中,作者精心設計了一套三維動態(tài)預測和人臉視頻生成模型(FaceAnime),來預測單張人臉圖像的 3D 動態(tài)序列,然后通過稀疏紋理映射算法進一步渲染3D動態(tài)序列的皮膚細節(jié)。
最后,利用條件生成對抗網(wǎng)絡引導人臉視頻的生成。實驗結果顯示,F(xiàn)aceAnime能從單張靜止的人臉圖像生成高保真度、身份不變性的人臉視頻,較其它方法效果更好。
背景及簡介
當前的人臉視頻生成方法普遍采用人臉的稀疏特征點(landmarks)來引導圖片或視頻的生成,然而作者認為使用稀疏的二維特征點引導人臉圖像/視頻生成的主要缺點有:
1、稀疏人臉特征點不能很好地表示人臉圖像的幾何形狀,容易導致人臉整體形狀和面部結構細節(jié)的缺失,進而導致合成圖像的失真和質量損失;
2、稀疏的二維特征點不攜帶源人臉圖像的任何內容信息,這可能會導致生成的圖像過擬合于只包含訓練集的人臉圖像中;
3、在視頻生成過程中應保留人臉身份信息,但稀疏的2D特征點沒有身份信息,容易導致合成結果的身份變化。
文章的主要貢獻如下:
方法描述
本文提出的 FaceAnime 包含一個 3D 動態(tài)預測網(wǎng)絡(3D Dynamic Prediction, 3DDP)和一個先驗引導的人臉生成網(wǎng)絡(Prior-Guided Face Generation, PGFG)。
首先,本文方法基于三維形變模型(3D Morphable Models, 3DMM)對單張人臉圖像進行三維重建, 3DDP網(wǎng)絡隨后預測該圖像未來的3D動態(tài)序列,之后將動態(tài)序列進行稀疏紋理映射渲染,最后使用PGFG網(wǎng)絡完成相應的人臉生成。
模型的整體網(wǎng)絡架構和操作流程如下圖1所示:
圖1. FaceAnime的整體框架圖,包括3DDP網(wǎng)絡(左)和PGFG網(wǎng)絡(右)
(1)3D人臉重建和稀疏紋理映射
3D形變模型(3D Morphable Model, 3DMM)用來從2D人臉圖像中預測相應的3D人臉。其中,描述3D人臉的頂點(vertex)可由一系列2D人臉中的正交基線性加權得出:
其中,是平均臉,
是形狀主成分基,
是相應的形狀系數(shù),
是表情主成分基,
是對應的表情系數(shù)。反過來,3D人臉頂點也可以通過變換映射到一個2維圖像平面上,對應的公式可以表達為:
其中,V表示3D頂點在2維平面上的映射坐標,是固定的正交映射矩陣,
是對應的旋轉矩陣,而t為偏移向量。通過最小化映射landmarks和檢測的landmarks之間的
距離,最終可以求得 3DMM 中的系數(shù)。
如圖2所示,給定一張源人臉圖像(Source Face),其3D形狀可以通過改變重建的 3DMM 系數(shù)來進行任意的修改, 則目標人臉的稀疏紋理可以由修改后的3DMM 系數(shù)獲得。在人臉重定向任務中,修改的 3DMM 系數(shù)可由參考人臉視頻幀得到,而在人臉預測任務中,則由 LSTM 模塊預測得到。為了防止在紋理映射中,密集的紋理先驗信息太強而導致目標動作中出現(xiàn)不符合期望的結果,因此在紋理映射過程中本文采用間隔采樣即稀疏紋理映射,以適應不同的人臉運動變化。
圖2. 給定不同的3DMM系數(shù)所得到的不同三維人臉重建和稀疏映射的結果
不同于以往只針對某一種任務的視頻生成,在本文中作者提出了三個不同的生成任務,即人臉視頻重定向(Face video retargeting),視頻預測(Video prediction)以及目標驅動的視頻預測(Target-driven video prediction)。對于retargeting任務,作者使用參考視頻來提供序列的變化信息,而不使用3DDP來預測。
視頻預測:給定一個觀測到的動態(tài)序列(3DMM coefficients),LSTM對其進行編碼:
為了預測出一個合理的動作,LSTM不得不首先學習大量的動作輸入以識別在姿態(tài)序列中運動的種類以及隨時間的變化。在訓練過程中,未來動態(tài)序列可以由下式生成:
其中表示預測得到的3DMM系數(shù),其表示在時刻t的3D dynamic。基于以上公式,模型可以從一個初始的dynamic學到一個合理的未來序列。
目標驅動的視頻預測: 對于LSTM來講,要實現(xiàn)目標引導的運動生成,模型需要兩個輸入,即source dynamic和target dynamic。不同于視頻預測,作者使用了一個計時器來對target dynamic進行重新賦權。整體的LSTM預測可以用公式表示為:
這里表示target dynamic,T為預測長度,即? = 0表示序列開始時間,? = ?為序列結束。
損失函數(shù): 給一個source人臉圖像, 作者使用2DAL模型回歸出相應的3DMM系數(shù),用來表示初始的3D dynamic 。之后模型通過觀測來生成一個系數(shù)序列。在訓練過程中,作者使用3DMM coefficient loss和3D vertex loss兩個損失函數(shù)進行監(jiān)督學習。3DMM coefficient loss定義為預測3DMM 系數(shù)和ground truth 3DMM系數(shù)之間的歐式距離:
而3D vertex loss定義為:
其中分別為預測得到的系數(shù)和標準系數(shù)對應的人臉三維頂點信息。則整體的損失函數(shù)可以表述為:
先驗引導的人臉生成: 基于提出的稀疏紋理映射,source人臉圖像被用于渲染預測的3D dynamics。在這里,稀疏紋理作為引導人臉生成的先驗信息。文中提到的網(wǎng)絡PGFG (Prior-Guided Face Generation Network)主要由條件GAN網(wǎng)絡來組成,其結構如圖1(右)所示。
PGFG 網(wǎng)絡的結構:PGFG生成器G有三個輸入,分別是source人臉,
對應的紋理先驗
和目標的紋理先驗
。在這里,作者并沒有直接使用目標的紋理先驗作為先驗引導,而是使用了先驗殘差來引導人臉生成,在特征空間可以獲得運動殘差:
。由此可得最終人臉為:
為了進一步利用不同空間位置的特征信息,編碼器和解碼器均由Dense blocks組成。判別器有兩個輸入,即目標人臉圖像的紋理先驗分別和生成人臉、目標人臉結合的輸入,
。
損失函數(shù):網(wǎng)絡PGFG由三個損失函數(shù)進行監(jiān)督,分別為圖像像素間的損失,對抗損失
和身份信息損失
。
需要注意的是,在身份信息損失中,R為預訓練的人臉識別模型。
網(wǎng)絡整體的損失函數(shù)為:
實驗結果
作者分別對人臉視頻重定向、視頻預測以及目標驅動的視頻預測三個任務做了相應的大量實驗。
人臉視頻重定向:在這個任務中,作者分別對人臉表情的重定向以及頭部講話重定向兩個子任務進行了實驗。實驗表明,所提出的 FaceAnime 模型可以很好的將 source 人臉圖像中的表情和動作重定向到目標圖像上,生成相對應的姿態(tài)和講話表情,實驗結果如圖 3 所示。
圖3. FaceAnime的人臉表情重定向(a)和頭部講話重定向(b)實驗結果
人臉視頻預測:這個任務中包含視頻預測以及目標驅動的視頻預測兩個子任務。對每一個預測任務,實驗過程中作者隨機選取一張從人臉圖像測試集 IJB-C 中抽取的單張人臉圖像。對于視頻測試,作者首先使用 3DDP 網(wǎng)絡從source 人臉中預測一個運動序列,然后用該序列引導人臉視頻的生成。而對于目標引導的人臉預測任務,則需要兩個輸入圖像。一個是 source 人臉,另一個為 target 人臉。3DDP 網(wǎng)絡用于預測從 source 人臉到 target 人臉之間平滑的運動變化,從而引導人臉視頻的生成。圖4和圖5分別展示了視頻生成和目標驅動視頻生成兩個子任務的生成結果。
圖4. FaceAnime的視頻生成結果
圖5. FaceAnime的目標驅動視頻生成的結果
為了展示所提出方法的先進性,作者還同其他類似任務的算法進行了效果對比,部分結果顯示如圖 6 所示。
圖6. FaceAnime和其它方法的對比結果
通過比較,F(xiàn)aceAnime 不僅可以生成高質量且真實的人臉視頻序列,同時生成的視頻圖像可以精確地還原參考視頻中人臉表情和姿態(tài)變化,還能較好地保持人臉的身份信息。
大量實驗表明,作者提出的方法可以將參考視頻的姿態(tài)和表情變化重定位到source人臉上,并且對于一個隨機的人臉圖像,其可以生成合理的未來視頻序列。對比其他最先進的人臉生成方法,所提出的方法在生成高質量和身份信息保持的人臉方面具有更好的效果。
作者介紹
涂曉光,中國民用航空飛行學院講師,從事人工智能、深度學習、計算機視覺等領域的研究工作。2013-2020年在電子科技大學攻讀碩士和博士學位,2018年作為國家公派聯(lián)合培養(yǎng)博士生前往新加坡國立大學學習交流一年半, 師從亞太地區(qū)杰出青年科學家馮佳時教授, 并于2019年至2020年相繼在PENSEES新加坡研究院和字節(jié)跳動人工智能實驗室擔任算法實習研究員。目前,以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界權威期刊上發(fā)表論文11篇, Google scholar引用200多次,第一作者發(fā)表SCI期刊總影響因子超過30,曾擔任模式識別領域頂級期刊“Pattern Recognition”特邀審稿人。2020年12月份博士畢業(yè),2021年3月以高層次人才引進身份入職中國民用航空飛行學院。
趙健,2012年獲得北京航空航天大學學士學位,2014年獲得國防科技大學碩士學位,博士就讀于新加坡國立大學電子與計算機工程系,師從馮佳時教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow顏水成教授,2019年獲得博士學位,現(xiàn)為軍事科學院助理研究員,入選中國科協(xié)2020-2022年度青年人才托舉工程、北京市科協(xié)2021-2023年度青年人才托舉工程,擔任視覺與學習青年學者研討會VALSE資深領域主席、中國圖象圖形學學會視覺大數(shù)據(jù)專業(yè)委員會CSIG-BVD委員、北京圖象圖形學學會BSIG第七屆理事會理事。主要研究領域為人工智能、深度學習、模式識別、計算機視覺與多媒體分析。目前,共主持/參與科技委項目3項(序1/3/5),主持國家自然科學基金青年科學基金項目1項,參與軍科院長基金項目1項(序3)。近5年已受理國家專利6項(序1),發(fā)表高水平學術論文40余篇,單篇影響因子最高16.389,其中,以第一作者發(fā)表CCF A類論文11篇(含2篇T-PAMI、2篇IJCV)。曾作為第一作者獲得2021 USERN (Universal Scientific Education and Research Network) Prize提名,新加坡模式識別與機器智能協(xié)會PREMIA 2019 Lee Hwee Kuan獎(金獎),CCF A類會議、國際多媒體領域頂級會議ACM MM 2018最佳學生論文獎,CCF A類國際會議ICCV 2017 MS-Celeb-1M人臉識別競賽Hard Set/Random Set/Low-Shot Learning全部任務全球冠軍,CCF A類國際會議CVPR 2017 L.I.P競賽人物解析與人物姿態(tài)估計全部任務全球亞軍,美國國家標準與技術研究院NIST 2017 IJB-A無約束人臉識別競賽人臉驗證與人臉鑒別全部任務全球冠軍。擔任國家自然科學基金委評議專家,擔任T-PAMI、IJCV、NeurIPS(NeurIPS 2018前30%最佳審稿人)、CVPR等本領域主流國際期刊/會議的受邀審稿人。
馮佳時,現(xiàn)任新加坡國立大學電子與計算機工程系助理教授,機器學習與視覺實驗室負責人。
中國科學技術大學自動化系學士,新加坡國立大學電子與計算機工程系博士。2014-2015年在加州大學伯克利分校人工智能實驗室從事博士后研究。現(xiàn)研究方向為圖像識別、深度學習及面向大數(shù)據(jù)的魯棒機器學習。馮佳時博士曾獲ICCV’2015 TASK-CV最佳論文獎,2012年ACM多媒體會議最佳技術演示獎。擔任ICMR 2017技術委員會主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、會議審稿人。
贈書福利
AI科技評論本次聯(lián)合【圖靈教育】為大家?guī)?strong>10本《算法(第四版)》正版新書。
AI科技評論將一共選出 10名讀者,每人送出《算法(第四版)》一本。
在2021年8月8日二條文章《贈書 | 看不懂《算法導論》?先讀完豆瓣評分 9.4 的算法入門巨著》留言區(qū)留言,歡迎大家暢所欲言,談一談你對本書的看法和期待。在綜合留言質量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。
留言內容會有篩選,例如“選我上去”、“這書寫的很棒(僅僅幾個字)”等內容將不會被篩選,亦不會中獎。
留言送書活動時間為2021年8月8日 - 2021年8月12日(23:00),活動推送時間內僅允許贈書福利中獎一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經授權禁止轉載。詳情見轉載須知。