ICCV 2021 | FACIAL：具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成

本文作者：我在思考中

2021-09-02 10:32

導(dǎo)語：本文是對發(fā)表于計算機視覺領(lǐng)域的頂級會議 ICCV 2021的論文“FACIAL: 具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成”的解讀。

作者 | 張晨旭

編輯 | 王曄

本文是對發(fā)表于計算機視覺領(lǐng)域的頂級會議 ICCV 2021的論文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning（具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成）”的解讀。

ICCV 2021 | FACIAL：具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成

論文鏈接：https://arxiv.org/pdf/2108.07938.pdf

視頻簡介：https://m.youtube.com/watch?v=hl9ek3bUV1E

作者：張晨旭（德克薩斯大學(xué)達拉斯分校）；趙一凡（北京航空航天大學(xué)）；黃毅飛（華東師范大學(xué)）；曾鳴（廈門大學(xué)）；倪賽鳳（三星美國研究院）；Madhukar Budagavi（三星美國研究院）；郭小虎（德克薩斯大學(xué)達拉斯分校）。

研究背景

音頻驅(qū)動的動態(tài)人臉談話視頻生成已成為計算機視覺、計算機圖形學(xué)和虛擬現(xiàn)實中的一項重要技術(shù)。然而這一過程中，生成逼真的人臉視頻仍然非常具有挑戰(zhàn)性，這不僅要求生成的視頻包含與音頻同步的唇部運動，同時個性化、自然的頭部運動和眨眼等屬性也是十分重要的。動態(tài)談話人臉合成所蘊含的信息大致可以分為兩個不同的層次：

1）需要與輸入音頻同步的屬性，例如，與聽覺語音信號有強相關(guān)性的唇部運動；

2）與語音信號具有較弱相關(guān)性的屬性，即與語音上下文相關(guān)、與個性化談話風(fēng)格相關(guān)的其他屬性（頭部運動和眨眼）。

歸納總結(jié)上述兩種不同類型的屬性，我們稱第一類屬性為顯式屬性，第二類為隱式屬性。

ICCV 2021 | FACIAL：具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成

圖 1 三種典型的音頻引導(dǎo)的談話人臉合成方法。

a）圖像輸入作為指導(dǎo)，不生成隱式屬性，

b）視頻輸入作為指導(dǎo)，隱式屬性是從原視頻中復(fù)制得到，

c）本方法內(nèi)容：以視頻輸入為指導(dǎo)，同時生成隱式和顯式特征。

如圖1所示，大多數(shù)現(xiàn)有生成方法只關(guān)注于人臉的顯式屬性生成，即通過輸入語音，合成同步的唇部運動屬性。這些方法合成的人臉結(jié)果要么不具有隱式屬性[1,2]（圖1中a所示），要么復(fù)制原始視頻的隱式屬性[3,4]（圖1中b所示）。只有少部分工作[5,6]探索過頭部姿勢與輸入音頻之間的相關(guān)性。

盡管這些工作針對生成屬性進行了不同側(cè)面的探究，但是對這些屬性的具體研究，仍存在以下問題：（1）顯式和隱式屬性如何潛在地相互影響？(2) 如何對隱式屬性進行建模？例如頭部姿勢和眨眼等屬性不僅取決于語音信號，還取決于語音信號的上下文特征以及與個體相關(guān)的風(fēng)格特征。

方法介紹

圖 2 音頻驅(qū)動的隱式-顯式屬性聯(lián)合學(xué)習(xí)的談話人臉視頻合成框架。

如圖2所示，我們提出了一個人臉隱式屬性學(xué)習(xí)（FACIAL）框架來合成動態(tài)的談話人臉視頻。

(1)我們的 FACIAL 框架使用對抗學(xué)習(xí)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)這一過程中的隱式和顯式屬性。我們提出以協(xié)作的方式嵌入所有屬性，包括眨眼信息、頭部姿勢、表情、個體身份信息、紋理和光照信息，以便可以在同一框架下對它們用于生成說話人臉的潛在交互進行建模。

(2) 我們在這個框架中設(shè)計了一個特殊的 FACIAL-GAN網(wǎng)絡(luò)來共同學(xué)習(xí)語音、上下文和個性化信息。這一網(wǎng)絡(luò)將一系列連續(xù)幀作為分組輸入并生成上下文隱空間向量，該向量與每個幀的語音信息一起由單獨的基于幀的生成器進一步編碼。因此，我們的 FACIAL-GAN 可以很好地捕獲隱式屬性（例如頭部姿勢等）、上下文和個性化信息。

(3) 我們的 FACIAL-GAN 還可以預(yù)測眨眼信息，這些信息被進一步嵌入到最終渲染模塊的眼部相關(guān)的注意力圖中，用于在輸出視頻合成逼真的眼部運動信息。實驗結(jié)果和用戶研究表明，我們的方法可以生成逼真的談話人臉視頻，該生成視頻不僅具有同步的唇部運動，而且具有自然的頭部運動和眨眼信息。并且其視頻質(zhì)量明顯優(yōu)于現(xiàn)有先進方法。

圖 3 本方法提出的FACIAL-GAN網(wǎng)絡(luò)結(jié)構(gòu)框架

如圖3所示，F(xiàn)ACIAL-GAN 由三個基本部分組成：時間相關(guān)生成器用于構(gòu)建上下文關(guān)系和局部語音生成器用于提取每一幀特征。此外，使用判別器網(wǎng)絡(luò)來判斷生成的屬性的真假。（具體的網(wǎng)絡(luò)細節(jié)請參考原文內(nèi)容）

實驗結(jié)果分析

定性比較實驗

圖 4 與現(xiàn)有音頻驅(qū)動的人臉視頻生成方法的定性比較結(jié)果

如圖4，圖5，圖6所示，我們與現(xiàn)有音頻驅(qū)動的人臉視頻生成方法進行比較。相比之下，通過顯式和隱式屬性的協(xié)同學(xué)習(xí)，我們的方法生成具有個性化的頭部運動，考慮到不同個體的運動特性，同時可以生成更加逼真眨眼信息的人臉視頻。（詳細的比較結(jié)果請參考上述的視頻鏈接）

圖 5 與 Vougioukas，Chen等方法的定性對比

圖 6 與 Suwajanakorn，Thies等方法的定性對比

定量比較實驗

我們同時通過定量化分析實驗，如關(guān)鍵點運動偏移，視聽同步置信度進行衡量，具體信息如表1所示。本文所提出的聯(lián)合隱式和顯式屬性生成框架，超越了大多數(shù)現(xiàn)有方法，在各項屬性生成任務(wù)中，均具有較優(yōu)的解析質(zhì)量。

ICCV 2021 | FACIAL：具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成

如表2所示，我們通過進行主觀的用戶研究（User Study），即從人類觀察的角度比較生成的結(jié)果，其中更大的數(shù)值代表更優(yōu)的生成質(zhì)量和用戶認可度。

ICCV 2021 | FACIAL：具有隱式屬性學(xué)習(xí)的動態(tài)談話人臉視頻生成

結(jié)語

在這項工作中，除傳統(tǒng)的唇部運動等顯式屬性之外，我們以自然頭部姿勢和眨眼信息等隱式屬性作為學(xué)習(xí)目標(biāo)，優(yōu)化談話人臉視頻的生成質(zhì)量和真實度。但需要注意的是，人臉談話視頻仍然具有其他更細節(jié)的隱式屬性，例如，眼球運動、身體和手勢、微表情等等。這些屬性可能受其他更深層次維度信息的引導(dǎo)，可能需要其他網(wǎng)絡(luò)組件的特定設(shè)計，仍有待于未來進一步探究。我們希望本文提出的FACIAL 框架可以為未來探索隱式屬性學(xué)習(xí)提供一種新穎的研究思路和啟發(fā)。

參考文獻

[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.

[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.

[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.

[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nie?ner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.

[5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.

[6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運營

發(fā)私信

當(dāng)月熱門文章