0
“好家伙!”
“現(xiàn)在的Paper也是越來(lái)越皮了”。正在開(kāi)心摸魚(yú)的同事,邊說(shuō)邊給我發(fā)過(guò)來(lái)一段Demo。
原來(lái)『寶藏男孩』特朗普又被玩壞了。
『被逼著』跟蔡徐坤跳起了“雞你太美”(諧音梗)。
(川寶:AI不講武德?。?/em>
跟二次元蘿莉跳起了萌系宅舞。
(川寶:給我頂小紅帽,跳的比她好[傲嬌臉])
跟印度小哥跳起了Jackson的經(jīng)典舞步。
(川寶:快看我的舞姿是不是很性感?)
看完Demo,正為找不到選題瘋狂薅頭發(fā)的小編我,一時(shí)也是驚住了:好家伙!今天的選題有了??!
火速讓同事把資料推給了我。
原來(lái)逼著川寶大秀舞姿的是上??萍即髮W(xué)研究團(tuán)隊(duì)的最新AI,這篇AI論文名為——《Liquid Warping GAN with Attention:A Unified Frame work for Human Images Synthesis》
簡(jiǎn)單理解就是,基于特定框架的AI,能夠完成運(yùn)動(dòng)仿真、外觀轉(zhuǎn)換以及新視圖合成等人體圖像處理任務(wù)。上面特朗普的舞蹈Demo是AI合成的最終演示效果。(獲取完整視頻見(jiàn)文末)
接下來(lái),我們來(lái)扒一扒它背后的合成原理。
人體圖像合成,在影視制作、游戲制作、角色動(dòng)畫(huà)/轉(zhuǎn)換、虛擬服裝試穿等方面有著巨大的潛在應(yīng)用。
一般來(lái)講,在給定一個(gè)源人體圖像和參考圖像下,它需要完成三項(xiàng)任務(wù):
1、運(yùn)動(dòng)仿真:生成一個(gè)具有源人類(lèi)紋理和參考人類(lèi)姿勢(shì)的圖像。
2、新視圖合成:從不同視角捕捉人體新圖像并合成。
3、外觀轉(zhuǎn)換:在參照人體圖像穿著衣服時(shí),生成保持源面部身份的人類(lèi)圖像。(不同人可能穿同樣的衣服)
在處理以上任務(wù)時(shí),現(xiàn)有方法主要采用2D關(guān)鍵點(diǎn)來(lái)估計(jì)人體結(jié)構(gòu)。
然而,它們僅表達(dá)位置信息,無(wú)法表征人的個(gè)性化形狀并模擬肢體旋轉(zhuǎn)。對(duì)此,研究人員提出了一套全新的模型處理框架:
它包括身體網(wǎng)格恢復(fù)模塊(Body Mesh Recovery),流合成模塊(Flow Composition),以及帶有液體翹曲塊(Liquid Warping Block ,LWB) 的GAN模塊三個(gè)部分。
Isi為給定源圖像,lr為參考圖像
其中,使用3D身體網(wǎng)格恢復(fù)模塊用來(lái)解開(kāi)人體姿勢(shì)和形狀,不僅可以模擬關(guān)節(jié)的位置和旋轉(zhuǎn),還可以表征個(gè)性化的身體形狀;使用帶有液體翹曲塊(AttLWB)的GAN,保留紋理,樣式,顏色和臉部身份等源信息;將圖像和特征空間中的源信息傳播到合成參考,通過(guò)去噪卷積自動(dòng)編碼器提取源特征,以很好地表征源身份。
具體方法如下:
Body Mesh Recovery:其作用是預(yù)測(cè)運(yùn)動(dòng)姿態(tài)(肢體旋轉(zhuǎn))和形狀參數(shù),以及每個(gè)圖像的三維網(wǎng)格。主要使用HMR進(jìn)行三維姿態(tài)和形狀估計(jì)。
Flow Composition:在已有估計(jì)基礎(chǔ)上,利用攝像機(jī)視圖,為每個(gè)源網(wǎng)格和參考網(wǎng)格繪制一個(gè)對(duì)應(yīng)圖和一個(gè)權(quán)重索引圖。主要使用完全可微的渲染器—神經(jīng)網(wǎng)格渲染器(NMR)來(lái)完成。
Attentional Liquid Warping GAN:該階段負(fù)責(zé)合成高保真的人體圖像。它需要完成:
1)合成背景圖像。
采用Three-stream的方法:包括GBG流,對(duì)被遮罩的背景圖像和在顏色信道中獲得的掩模進(jìn)行級(jí)聯(lián);源標(biāo)識(shí)流GSID,引導(dǎo)編碼器提取能夠保留源信息的特征;源標(biāo)識(shí)流GT-SF,由雙線性取樣器接收扭曲前景,對(duì)應(yīng)映射作為輸入,以合成最終結(jié)果。
2)基于可見(jiàn)部分預(yù)測(cè)不可見(jiàn)部分的顏色。
采用鑒別器進(jìn)行識(shí)別,它是一個(gè)全局-局部?jī)?nèi)容導(dǎo)向(Global-Local Contentorientation)架構(gòu),包括全局鑒別器DGlobal,身體鑒別器DBody和面部鑒別器三個(gè)部分。
3)從SMPL重建中生成衣服、頭發(fā)等像素。
這里主要采用了注意力液化塊(如下圖),它在舊有方法上解決了在人體運(yùn)動(dòng)仿真中,源圖像多視點(diǎn)輸入,以及在外觀傳遞中,服裝的不同部位來(lái)自不同的人等問(wèn)題。
除此之外,為了提高泛化能力,研究人員引入了一種一次/幾次學(xué)習(xí)策略。
除了模型外,要想得到高保真輸出效果,還需要有高質(zhì)量的數(shù)據(jù)集。
研究人員建立了三個(gè)測(cè)試/訓(xùn)練數(shù)據(jù)集和一個(gè)評(píng)估數(shù)據(jù)集。分別為Impersonator、MotionSynthetic、FashionVideo和Youtube-Dancer-18.
Impersonator(iPER),是一個(gè)具有多種樣式、不同人物穿不同衣服的數(shù)據(jù)集。
它有206個(gè)視頻、241564幀畫(huà)面。涉及30名受試者,每個(gè)受試者穿著不同的衣服(共103件衣服。),表演一個(gè)A形視頻和一個(gè)隨機(jī)動(dòng)作的視頻。
另外,iPER還包括了他們的動(dòng)作、服裝、身高和體重分布等統(tǒng)計(jì)信息。
MotionSynthetic運(yùn)動(dòng)合成數(shù)據(jù)集,創(chuàng)建該數(shù)據(jù)集的目的是便于對(duì)人體穿著的真實(shí)感進(jìn)行綜合評(píng)價(jià),特別是通過(guò)合成的圖像數(shù)據(jù)集,可以對(duì)不同的服裝外觀進(jìn)行綜合評(píng)價(jià)。
該數(shù)據(jù)集總共有120個(gè)網(wǎng)格,所有這些具有UV紋理圖像的網(wǎng)格都已在SMPL中注冊(cè)。對(duì)于每個(gè)網(wǎng)格,從Mixamo中選擇一個(gè)姿勢(shì)序列,從互聯(lián)網(wǎng)上選擇一個(gè)背景圖像?;诰W(wǎng)格、UV圖像、姿勢(shì)序列和背景圖像等信息,采用核磁共振(NMR)對(duì)合成圖像進(jìn)行渲染,總共得到39529幀。
再根據(jù)不同的網(wǎng)格劃分為8:2的訓(xùn)練/測(cè)試集,如下圖中的合成圖像。
FashionVideo:它包含500個(gè)訓(xùn)練和100個(gè)測(cè)試視頻,其中每個(gè)女模穿著Fashion的衣服,服裝和質(zhì)地千差萬(wàn)別,手勢(shì)卻很少。每個(gè)視頻大約有350幀。另外,這個(gè)數(shù)據(jù)集缺乏背景的多樣性,所有的背景都是黑色的。如圖:
Youtube-Dancer-18:是作為評(píng)估數(shù)據(jù)集,對(duì)該方法的有效性和通用性進(jìn)行檢驗(yàn)。它全部是從YouTube平臺(tái)下來(lái)來(lái)的,總共18個(gè),每個(gè)視頻持續(xù)4到12分鐘。(如上圖Dancer)
需要說(shuō)明的是,研究人員沒(méi)有在這個(gè)數(shù)據(jù)集中訓(xùn)練模型,只是對(duì)SN幀進(jìn)行了個(gè)性化采樣,并直接對(duì)該數(shù)據(jù)集進(jìn)行測(cè)試,以評(píng)估現(xiàn)有所有方法的泛化能力。
經(jīng)過(guò)實(shí)驗(yàn)分析,與現(xiàn)有其他方法,該方法在運(yùn)動(dòng)仿真、外觀轉(zhuǎn)換以及新視圖合成三項(xiàng)綜合任務(wù)上均達(dá)到了最佳性能。我們?cè)賮?lái)看一組演示Demo:
如之前所述,這項(xiàng)AI研究團(tuán)隊(duì)來(lái)自上??萍即髮W(xué)。
高盛華,是上??萍即髮W(xué)副教授,博士生導(dǎo)師。也是該項(xiàng)研究的通訊作者。他2008年獲得中國(guó)科技大學(xué)理學(xué)學(xué)士學(xué)位(優(yōu)秀畢業(yè)生),2012年獲得南洋理工大學(xué)博士學(xué)位,2012至2014年,在新加坡高級(jí)數(shù)字科學(xué)中心擔(dān)任博士后。
他的研究興趣包括計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)。
該項(xiàng)研究的一作是上??萍即髮W(xué)在讀博士—Wen Liu。
他的研究方向主要集中在人體三維重建、圖像合成、運(yùn)動(dòng)傳遞、新視角合成、神經(jīng)繪制和視頻異常檢測(cè)等方面。
其他作者還有:深圳騰訊AI實(shí)驗(yàn)室的首席研究員Lin Ma,主研計(jì)算機(jī)視覺(jué)、多模式深度學(xué)習(xí)領(lǐng)域;上??萍即髮W(xué)碩士Zhixin Piao,主要研究課題是人體三維重建和運(yùn)動(dòng)傳遞;上??萍即髮W(xué)本科畢業(yè)生Zhi Tu,研究課題是人體運(yùn)動(dòng)傳遞和醫(yī)學(xué)圖像分析;英國(guó)倫敦帝國(guó)理工學(xué)院博士羅文漢,其研究方向包括計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的幾個(gè)主題,如運(yùn)動(dòng)分析、圖像/視頻質(zhì)量恢復(fù)、目標(biāo)檢測(cè)與識(shí)別、強(qiáng)化學(xué)習(xí)等。
論文地址:https://arxiv.org/pdf/2011.09055v2.pdf
YouTube地址:https://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be
引用鏈接:
https://paperswithcode.com/paper/liquid-warping-gan-with-attention-a-unified#code
http://weibointl.api.weibo.com/share/189441008.html?weibo_id=4579529253719353
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。