丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

本文作者: 我在思考中 2021-09-02 10:32
導(dǎo)語:本文是對(duì)發(fā)表于計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議 ICCV 2021的論文“FACIAL: 具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成”的解讀。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

作者 | 張晨旭

編輯 | 王曄

本文是對(duì)發(fā)表于計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議 ICCV 2021的論文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning(具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成)”的解讀。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

論文鏈接:https://arxiv.org/pdf/2108.07938.pdf

視頻簡(jiǎn)介:https://m.youtube.com/watch?v=hl9ek3bUV1E

作者:張晨旭(德克薩斯大學(xué)達(dá)拉斯分校);趙一凡(北京航空航天大學(xué));黃毅飛(華東師范大學(xué));曾鳴(廈門大學(xué));倪賽鳳(三星美國(guó)研究院);Madhukar Budagavi(三星美國(guó)研究院);郭小虎(德克薩斯大學(xué)達(dá)拉斯分校)。


1

研究背景

音頻驅(qū)動(dòng)的動(dòng)態(tài)人臉談話視頻生成已成為計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和虛擬現(xiàn)實(shí)中的一項(xiàng)重要技術(shù)。然而這一過程中,生成逼真的人臉視頻仍然非常具有挑戰(zhàn)性,這不僅要求生成的視頻包含與音頻同步的唇部運(yùn)動(dòng),同時(shí)個(gè)性化、自然的頭部運(yùn)動(dòng)和眨眼等屬性也是十分重要的。動(dòng)態(tài)談話人臉合成所蘊(yùn)含的信息大致可以分為兩個(gè)不同的層次:

1)需要與輸入音頻同步的屬性,例如,與聽覺語音信號(hào)有強(qiáng)相關(guān)性的唇部運(yùn)動(dòng);

2)與語音信號(hào)具有較弱相關(guān)性的屬性,即與語音上下文相關(guān)、與個(gè)性化談話風(fēng)格相關(guān)的其他屬性(頭部運(yùn)動(dòng)和眨眼)。

歸納總結(jié)上述兩種不同類型的屬性,我們稱第一類屬性為顯式屬性,第二類為隱式屬性。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成
圖 1 三種典型的音頻引導(dǎo)的談話人臉合成方法。
a)圖像輸入作為指導(dǎo),不生成隱式屬性,
b)視頻輸入作為指導(dǎo),隱式屬性是從原視頻中復(fù)制得到,
c)本方法內(nèi)容:以視頻輸入為指導(dǎo),同時(shí)生成隱式和顯式特征。

如圖1所示,大多數(shù)現(xiàn)有生成方法只關(guān)注于人臉的顯式屬性生成,即通過輸入語音,合成同步的唇部運(yùn)動(dòng)屬性。這些方法合成的人臉結(jié)果要么不具有隱式屬性[1,2](圖1中a所示),要么復(fù)制原始視頻的隱式屬性[3,4](圖1中b所示)。只有少部分工作[5,6]探索過頭部姿勢(shì)與輸入音頻之間的相關(guān)性。

盡管這些工作針對(duì)生成屬性進(jìn)行了不同側(cè)面的探究,但是對(duì)這些屬性的具體研究,仍存在以下問題:(1)顯式和隱式屬性如何潛在地相互影響?(2) 如何對(duì)隱式屬性進(jìn)行建模?例如頭部姿勢(shì)和眨眼等屬性不僅取決于語音信號(hào),還取決于語音信號(hào)的上下文特征以及與個(gè)體相關(guān)的風(fēng)格特征。


2

方法介紹
ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

圖 2 音頻驅(qū)動(dòng)的隱式-顯式屬性聯(lián)合學(xué)習(xí)的談話人臉視頻合成框架。

如圖2所示,我們提出了一個(gè)人臉隱式屬性學(xué)習(xí)(FACIAL)框架來合成動(dòng)態(tài)的談話人臉視頻

(1)我們的 FACIAL 框架使用對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)這一過程中的隱式和顯式屬性。我們提出以協(xié)作的方式嵌入所有屬性,包括眨眼信息、頭部姿勢(shì)、表情、個(gè)體身份信息、紋理和光照信息,以便可以在同一框架下對(duì)它們用于生成說話人臉的潛在交互進(jìn)行建模。

(2) 我們?cè)谶@個(gè)框架中設(shè)計(jì)了一個(gè)特殊的 FACIAL-GAN網(wǎng)絡(luò)來共同學(xué)習(xí)語音、上下文和個(gè)性化信息。這一網(wǎng)絡(luò)將一系列連續(xù)幀作為分組輸入并生成上下文隱空間向量,該向量與每個(gè)幀的語音信息一起由單獨(dú)的基于幀的生成器進(jìn)一步編碼。因此,我們的 FACIAL-GAN 可以很好地捕獲隱式屬性(例如頭部姿勢(shì)等)、上下文和個(gè)性化信息。

(3) 我們的 FACIAL-GAN 還可以預(yù)測(cè)眨眼信息,這些信息被進(jìn)一步嵌入到最終渲染模塊的眼部相關(guān)的注意力圖中,用于在輸出視頻合成逼真的眼部運(yùn)動(dòng)信息。實(shí)驗(yàn)結(jié)果和用戶研究表明,我們的方法可以生成逼真的談話人臉視頻,該生成視頻不僅具有同步的唇部運(yùn)動(dòng),而且具有自然的頭部運(yùn)動(dòng)和眨眼信息。并且其視頻質(zhì)量明顯優(yōu)于現(xiàn)有先進(jìn)方法。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

圖 3 本方法提出的FACIAL-GAN網(wǎng)絡(luò)結(jié)構(gòu)框架

如圖3所示,F(xiàn)ACIAL-GAN 由三個(gè)基本部分組成:時(shí)間相關(guān)生成器用于構(gòu)建上下文關(guān)系和局部語音生成器用于提取每一幀特征。此外,使用判別器網(wǎng)絡(luò)來判斷生成的屬性的真假。(具體的網(wǎng)絡(luò)細(xì)節(jié)請(qǐng)參考原文內(nèi)容)


3

實(shí)驗(yàn)結(jié)果分析
  • 定性比較實(shí)驗(yàn)

圖 4 與現(xiàn)有音頻驅(qū)動(dòng)的人臉視頻生成方法的定性比較結(jié)果

如圖4,圖5,圖6所示,我們與現(xiàn)有音頻驅(qū)動(dòng)的人臉視頻生成方法進(jìn)行比較。相比之下,通過顯式和隱式屬性的協(xié)同學(xué)習(xí),我們的方法生成具有個(gè)性化的頭部運(yùn)動(dòng),考慮到不同個(gè)體的運(yùn)動(dòng)特性,同時(shí)可以生成更加逼真眨眼信息的人臉視頻。(詳細(xì)的比較結(jié)果請(qǐng)參考上述的視頻鏈接)

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

圖 5 與 Vougioukas,Chen等方法的定性對(duì)比

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

圖 6 與 Suwajanakorn,Thies等方法的定性對(duì)比

  • 定量比較實(shí)驗(yàn)

我們同時(shí)通過定量化分析實(shí)驗(yàn),如關(guān)鍵點(diǎn)運(yùn)動(dòng)偏移,視聽同步置信度進(jìn)行衡量,具體信息如表1所示。本文所提出的聯(lián)合隱式和顯式屬性生成框架,超越了大多數(shù)現(xiàn)有方法,在各項(xiàng)屬性生成任務(wù)中,均具有較優(yōu)的解析質(zhì)量。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

如表2所示,我們通過進(jìn)行主觀的用戶研究(User Study),即從人類觀察的角度比較生成的結(jié)果,其中更大的數(shù)值代表更優(yōu)的生成質(zhì)量和用戶認(rèn)可度。

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成


4

結(jié)語

在這項(xiàng)工作中,除傳統(tǒng)的唇部運(yùn)動(dòng)等顯式屬性之外,我們以自然頭部姿勢(shì)和眨眼信息等隱式屬性作為學(xué)習(xí)目標(biāo),優(yōu)化談話人臉視頻的生成質(zhì)量和真實(shí)度。但需要注意的是,人臉談話視頻仍然具有其他更細(xì)節(jié)的隱式屬性,例如,眼球運(yùn)動(dòng)、身體和手勢(shì)、微表情等等。這些屬性可能受其他更深層次維度信息的引導(dǎo),可能需要其他網(wǎng)絡(luò)組件的特定設(shè)計(jì),仍有待于未來進(jìn)一步探究。我們希望本文提出的FACIAL 框架可以為未來探索隱式屬性學(xué)習(xí)提供一種新穎的研究思路和啟發(fā)。

參考文獻(xiàn)
[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.
[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.
[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.
[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nie?ner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.
[5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.
[6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

ICCV 2021 | FACIAL:具有隱式屬性學(xué)習(xí)的動(dòng)態(tài)談話人臉視頻生成

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說