DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

本文作者：蔣寶尚

2020-04-26 18:17

導(dǎo)語：萬物皆可動

作者 | 蔣寶尚

編輯 | 叢末

DeepFake一方面被罵作“AI毒瘤”，另一方面在B站上大行其道。最近，這項(xiàng)技術(shù)又用在了在線視頻會議身上。

一鍵換臉，身臨其境與馬斯克開會，商討火箭上天大計(jì)的項(xiàng)目，也登上Github熱榜。

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

據(jù)稱，這是一位來自俄羅斯的程序員開發(fā)的開源“視頻會議阿凡達(dá)”軟件Avatarify，背后所用的技術(shù)基于名為First Order Motion的核心模型，這個(gè)模型可以對視頻中的對象進(jìn)行動畫處理，并生成視頻序列。First Order Motion模型來自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》，最初的目的是讓“靜態(tài)圖片”動起來。如下圖所示：“你動，它也動”。

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

根據(jù)作者介紹，這個(gè)模型可以輕易地讓“權(quán)游”中的人物模仿特朗普進(jìn)行講話，還可以讓靜態(tài)的馬跑起來，另外還可以完成模特的“一鍵換裝”。

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

論文解讀：一階動畫模型的來源與主要想法

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

論文多數(shù)作者是來自意大利的特倫托大學(xué)，還有一位是 snap 公司的員工，論文已經(jīng)發(fā)表在NeurIPS 2019 上。

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”

First Order Motion模型運(yùn)作流程

整個(gè)模型分為運(yùn)動估計(jì)模塊和圖像生成模塊兩個(gè)主要組成部分。在運(yùn)動估計(jì)模塊中，該模型通過自監(jiān)督學(xué)習(xí)將目標(biāo)物體的外觀和運(yùn)動信息進(jìn)行分離，并進(jìn)行特征表示。而在圖像生成模塊中，模型會對目標(biāo)運(yùn)動期間出現(xiàn)的遮擋進(jìn)行建模，然后從給定的名人圖片中提取外觀信息，結(jié)合先前獲得的特征表示，進(jìn)行視頻合成。該模型對硬件要求比較高，想實(shí)現(xiàn)33幀/秒的視頻效果，需要一張1080ti顯卡，也即需要英偉達(dá)10系顯卡中的卡皇加持。

模型細(xì)節(jié)與方法

一階動畫模型的思想是用一組自學(xué)習(xí)的關(guān)鍵點(diǎn)和局部仿射變換來建立復(fù)雜運(yùn)動模型，目的是為了解決大目標(biāo)姿勢動態(tài)變化的情況下，傳統(tǒng)模型生成質(zhì)量較差的問題。

另外，作者引入了「遮擋感知生成器」，可以指示源圖像中不可見的物體部分，從而利用上下文推斷這部分內(nèi)容。再者為了改進(jìn)局部仿射變換的估計(jì)，作者擴(kuò)展了常用于關(guān)鍵點(diǎn)檢測器訓(xùn)練的等差損耗。最后作者還發(fā)布了一個(gè)新的高分辨率數(shù)據(jù)集Thai-Chi-HD，用于評估圖像動畫和視頻生成框架的參考基準(zhǔn)。作者根據(jù)汽車駕駛視頻中類似物體的運(yùn)動情況，對源圖像中描繪的物體進(jìn)行“動畫化”。

沒有直接監(jiān)督，而是采用了一種自監(jiān)督策略，該策略的靈感來源于Monkey-Net。

注：Monkey-Net是通過深度運(yùn)動遷移使任意物體動畫化。

對于訓(xùn)練，作者使用包含相同對象類別的大量視頻序列集合。模型被訓(xùn)練來通過組合單幀和學(xué)習(xí)的視頻中運(yùn)動的潛在表示來重建訓(xùn)練視頻。觀察從同一視頻中提取的幀對，模型學(xué)習(xí)將運(yùn)動編碼為特定的關(guān)鍵點(diǎn)位移和局部仿射變換的組合。

在測試時(shí)，將模型應(yīng)用于源圖像和驅(qū)動視頻的每一幀的幀對，并對源對象進(jìn)行圖像“動畫”。運(yùn)動估計(jì)模塊的作用是估計(jì)一個(gè)密集的運(yùn)動場（dense motion field），該密集運(yùn)動場隨后被用來調(diào)整計(jì)算特征圖與物體姿勢。

另外，作者采用的是后向光流，因?yàn)樗梢杂行У貙?shí)現(xiàn)雙線采樣。運(yùn)動估計(jì)模塊沒有直接進(jìn)行預(yù)測，而是分兩步進(jìn)行，在第一步中，從稀疏軌跡集近似兩個(gè)變換，其中兩個(gè)變換是通過使用自監(jiān)督方式學(xué)習(xí)關(guān)鍵點(diǎn)獲得的。視頻和圖像中的關(guān)鍵點(diǎn)由編碼器-解碼器網(wǎng)絡(luò)分別預(yù)測。

另外，稀疏運(yùn)動表示非常適合于動畫，因?yàn)樵跍y試時(shí)，可以使用驅(qū)動視頻中的關(guān)鍵點(diǎn)軌跡來移動源圖像的關(guān)鍵點(diǎn)。使用局部仿射變換的好處是能夠?qū)γ總€(gè)關(guān)鍵點(diǎn)附近的運(yùn)動進(jìn)行建模，與僅使用關(guān)鍵點(diǎn)置換相比，局部仿射變換能夠?qū)Ω蟮淖儞Q族（ larger family of transformations）進(jìn)行建模。

在第二步中，密集運(yùn)動網(wǎng)絡(luò)結(jié)合局部近似以獲得密集運(yùn)動場，除了密集的運(yùn)動場之外，該網(wǎng)絡(luò)還輸出遮擋遮罩，該遮擋遮罩指示視頻中的哪些圖像部分可以通過源圖像的扭曲來重建，以及哪些部分應(yīng)該內(nèi)嵌(即從上下文推斷)。

實(shí)驗(yàn)

作者在四個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測試，結(jié)果顯示與所有實(shí)驗(yàn)相比，一階動畫模型能夠渲染分辨率非常高的視頻。 VoxCeleb 數(shù)據(jù)集、UvA-Nemo 數(shù)據(jù)集、The BAIR robot pushing dataset、作者自己收集的數(shù)據(jù)集。

其中，VoxCeleb 是從YouTube的視頻中提取到的包含1251人共超過10萬條語音的數(shù)據(jù)集。數(shù)據(jù)集是性別平衡的，其中男性為55%.。說話人涵蓋不同的種族，口音，職業(yè)和年齡。UvA-Nemo 是一個(gè)由1240個(gè)視頻組成的人臉分析數(shù)據(jù)集。作者使用1116個(gè)視頻進(jìn)行訓(xùn)練，124個(gè)視頻進(jìn)行評估。

伯克利的這個(gè)，包含了由Sawyer機(jī)器人手臂在桌子上推著不同物體的視頻收集的視頻。它包括42880個(gè)訓(xùn)練視頻和128個(gè)測試視頻。每個(gè)視頻都有30幀長，分辨率為256×256。作者自己收集的數(shù)據(jù)是YouTube上的285個(gè)關(guān)于太極功夫的視頻，其中252個(gè)用于訓(xùn)練，28個(gè)用于測試。在訓(xùn)練之前對視頻進(jìn)行了預(yù)處理，分割之后訓(xùn)練集為3049個(gè)訓(xùn)練視頻，285個(gè)測試視頻。

DeepFake 新高度：一階運(yùn)動模型讓“萬物皆可動”