丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

本文作者: 蔣寶尚 2020-04-26 18:17
導(dǎo)語(yǔ):萬(wàn)物皆可動(dòng)

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

作者 | 蔣寶尚

編輯 | 叢 末

DeepFake一方面被罵作“AI毒瘤”,另一方面在B站上大行其道。最近,這項(xiàng)技術(shù)又用在了在線視頻會(huì)議身上。

一鍵換臉,身臨其境與馬斯克開(kāi)會(huì),商討火箭上天大計(jì)的項(xiàng)目,也登上Github熱榜。

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

據(jù)稱,這是一位來(lái)自俄羅斯的程序員開(kāi)發(fā)的開(kāi)源“視頻會(huì)議阿凡達(dá)”軟件Avatarify,背后所用的技術(shù)基于名為First Order Motion的核心模型,這個(gè)模型可以對(duì)視頻中的對(duì)象進(jìn)行動(dòng)畫(huà)處理,并生成視頻序列。First Order Motion模型來(lái)自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》,最初的目的是讓“靜態(tài)圖片”動(dòng)起來(lái)。如下圖所示:“你動(dòng),它也動(dòng)”。     

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

根據(jù)作者介紹,這個(gè)模型可以輕易地讓“權(quán)游”中的人物模仿特朗普進(jìn)行講話,還可以讓靜態(tài)的馬跑起來(lái),另外還可以完成模特的“一鍵換裝”。

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

論文解讀:一階動(dòng)畫(huà)模型的來(lái)源與主要想法

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

論文多數(shù)作者是來(lái)自意大利的特倫托大學(xué),還有一位是 snap 公司的員工,論文已經(jīng)發(fā)表在NeurIPS  2019 上。


DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

First Order Motion模型運(yùn)作流程

整個(gè)模型分為運(yùn)動(dòng)估計(jì)模塊和圖像生成模塊兩個(gè)主要組成部分。在運(yùn)動(dòng)估計(jì)模塊中,該模型通過(guò)自監(jiān)督學(xué)習(xí)將目標(biāo)物體的外觀和運(yùn)動(dòng)信息進(jìn)行分離,并進(jìn)行特征表示。而在圖像生成模塊中,模型會(huì)對(duì)目標(biāo)運(yùn)動(dòng)期間出現(xiàn)的遮擋進(jìn)行建模,然后從給定的名人圖片中提取外觀信息,結(jié)合先前獲得的特征表示,進(jìn)行視頻合成。該模型對(duì)硬件要求比較高,想實(shí)現(xiàn)33幀/秒的視頻效果,需要一張1080ti顯卡,也即需要英偉達(dá)10系顯卡中的卡皇加持。

模型細(xì)節(jié)與方法

一階動(dòng)畫(huà)模型的思想是用一組自學(xué)習(xí)的關(guān)鍵點(diǎn)和局部仿射變換來(lái)建立復(fù)雜運(yùn)動(dòng)模型,目的是為了解決大目標(biāo)姿勢(shì)動(dòng)態(tài)變化的情況下,傳統(tǒng)模型生成質(zhì)量較差的問(wèn)題。

另外,作者引入了「遮擋感知生成器」,可以指示源圖像中不可見(jiàn)的物體部分,從而利用上下文推斷這部分內(nèi)容。再者為了改進(jìn)局部仿射變換的估計(jì),作者擴(kuò)展了常用于關(guān)鍵點(diǎn)檢測(cè)器訓(xùn)練的等差損耗。最后作者還發(fā)布了一個(gè)新的高分辨率數(shù)據(jù)集Thai-Chi-HD,用于評(píng)估圖像動(dòng)畫(huà)和視頻生成框架的參考基準(zhǔn)。作者根據(jù)汽車駕駛視頻中類似物體的運(yùn)動(dòng)情況,對(duì)源圖像中描繪的物體進(jìn)行“動(dòng)畫(huà)化”。

沒(méi)有直接監(jiān)督,而是采用了一種自監(jiān)督策略,該策略的靈感來(lái)源于Monkey-Net。

注:Monkey-Net是通過(guò)深度運(yùn)動(dòng)遷移使任意物體動(dòng)畫(huà)化。

對(duì)于訓(xùn)練,作者使用包含相同對(duì)象類別的大量視頻序列集合。模型被訓(xùn)練來(lái)通過(guò)組合單幀和學(xué)習(xí)的視頻中運(yùn)動(dòng)的潛在表示來(lái)重建訓(xùn)練視頻。觀察從同一視頻中提取的幀對(duì),模型學(xué)習(xí)將運(yùn)動(dòng)編碼為特定的關(guān)鍵點(diǎn)位移和局部仿射變換的組合。

在測(cè)試時(shí),將模型應(yīng)用于源圖像和驅(qū)動(dòng)視頻的每一幀的幀對(duì),并對(duì)源對(duì)象進(jìn)行圖像“動(dòng)畫(huà)”。運(yùn)動(dòng)估計(jì)模塊的作用是估計(jì)一個(gè)密集的運(yùn)動(dòng)場(chǎng)(dense motion field),該密集運(yùn)動(dòng)場(chǎng)隨后被用來(lái)調(diào)整計(jì)算特征圖與物體姿勢(shì)。

另外,作者采用的是后向光流,因?yàn)樗梢杂行У貙?shí)現(xiàn)雙線采樣。運(yùn)動(dòng)估計(jì)模塊沒(méi)有直接進(jìn)行預(yù)測(cè),而是分兩步進(jìn)行,在第一步中,從稀疏軌跡集近似兩個(gè)變換,其中兩個(gè)變換是通過(guò)使用自監(jiān)督方式學(xué)習(xí)關(guān)鍵點(diǎn)獲得的。視頻和圖像中的關(guān)鍵點(diǎn)由編碼器-解碼器網(wǎng)絡(luò)分別預(yù)測(cè)。

另外,稀疏運(yùn)動(dòng)表示非常適合于動(dòng)畫(huà),因?yàn)樵跍y(cè)試時(shí),可以使用驅(qū)動(dòng)視頻中的關(guān)鍵點(diǎn)軌跡來(lái)移動(dòng)源圖像的關(guān)鍵點(diǎn)。使用局部仿射變換的好處是能夠?qū)γ總€(gè)關(guān)鍵點(diǎn)附近的運(yùn)動(dòng)進(jìn)行建模,與僅使用關(guān)鍵點(diǎn)置換相比,局部仿射變換能夠?qū)Ω蟮淖儞Q族( larger family of transformations)進(jìn)行建模。

在第二步中,密集運(yùn)動(dòng)網(wǎng)絡(luò)結(jié)合局部近似以獲得密集運(yùn)動(dòng)場(chǎng),除了密集的運(yùn)動(dòng)場(chǎng)之外,該網(wǎng)絡(luò)還輸出遮擋遮罩,該遮擋遮罩指示視頻中的哪些圖像部分可以通過(guò)源圖像的扭曲來(lái)重建,以及哪些部分應(yīng)該內(nèi)嵌(即從上下文推斷)。

實(shí)驗(yàn)

作者在四個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試,結(jié)果顯示與所有實(shí)驗(yàn)相比,一階動(dòng)畫(huà)模型能夠渲染分辨率非常高的視頻。 VoxCeleb 數(shù)據(jù)集、UvA-Nemo 數(shù)據(jù)集、The BAIR robot pushing dataset、作者自己收集的數(shù)據(jù)集。

其中,VoxCeleb 是從YouTube的視頻中提取到的包含1251人共超過(guò)10萬(wàn)條語(yǔ)音的數(shù)據(jù)集。數(shù)據(jù)集是性別平衡的,其中男性為55%.。說(shuō)話人涵蓋不同的種族,口音,職業(yè)和年齡。UvA-Nemo 是一個(gè)由1240個(gè)視頻組成的人臉?lè)治鰯?shù)據(jù)集。作者使用1116個(gè)視頻進(jìn)行訓(xùn)練,124個(gè)視頻進(jìn)行評(píng)估。

伯克利的這個(gè),包含了由Sawyer機(jī)器人手臂在桌子上推著不同物體的視頻收集的視頻。它包括42880個(gè)訓(xùn)練視頻和128個(gè)測(cè)試視頻。每個(gè)視頻都有30幀長(zhǎng),分辨率為256×256。作者自己收集的數(shù)據(jù)是YouTube上的285個(gè)關(guān)于太極功夫的視頻,其中252個(gè)用于訓(xùn)練,28個(gè)用于測(cè)試。在訓(xùn)練之前對(duì)視頻進(jìn)行了預(yù)處理,分割之后訓(xùn)練集為3049個(gè)訓(xùn)練視頻,285個(gè)測(cè)試視頻。

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

太極功夫視頻上的重建比較

 DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

世界結(jié)果如上圖消融研究所示:對(duì)來(lái)自太極高清數(shù)據(jù)集的兩個(gè)序列和兩個(gè)源圖像上的圖像動(dòng)畫(huà)任務(wù)與當(dāng)前SOTA比較。

與X2Face和Monkey-Ne相比較,作者的一階動(dòng)畫(huà)模型改進(jìn)了四個(gè)不同數(shù)據(jù)集中的每一個(gè)指標(biāo),即使在VoxCeleb和Nemo這兩個(gè)人臉數(shù)據(jù)集上,作者的方法也明顯優(yōu)于X2Face。

在作者的博客上,還做了換臉的實(shí)驗(yàn),如下所示:

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

(雷鋒網(wǎng))(雷鋒網(wǎng))(雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

DeepFake 新高度:一階運(yùn)動(dòng)模型讓“萬(wàn)物皆可動(dòng)”

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)