0
本文作者: AI研習(xí)社-譯站 | 2018-05-04 17:31 |
雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的論文解讀短視頻,原標(biāo)題Learning Category-Specific Mesh Reconstruction from Image Collections,作者為Angjoo Kanazawa。
翻譯 | 龍珂宇 字幕 | 凡江 整理 | 李逸帆 吳璇
論文標(biāo)題:Learning Category-Specific Mesh Reconstruction from Image Collections
本篇介紹的《從圖像集合中學(xué)習(xí)特定類別的網(wǎng)格重建》是Angjoo Kanazawa最新論文的預(yù)印本。
Angjoo Kanazawa,加州大學(xué)伯克利分校BAIR(Berkeley AI Research)的博士后。她的論文《獅子、老虎、熊:從圖像中捕捉非剛性的3D立體形狀》、《SfSNet :“在自然情況下”學(xué)習(xí)臉部形狀、反射比、照明度》都被收錄在CVPR 2018。
一直以來,Angjoo的研究重點(diǎn)都是包括人類在內(nèi)的動(dòng)物單視圖三維重建。比如,我們?nèi)绾文軌蛲ㄟ^觀察2D圖像或視頻,來推出三維模型?
如圖所示,雖然這是一個(gè)二維的平面圖片,但我們可以大致推斷出它的3D輪廓,甚至可以想像出從另一個(gè)角度看它是什么樣的。
在這次的工作中,我們的目標(biāo)就是建造一個(gè)類似的計(jì)算模型。從單張平面圖片推斷出3D模型的說法并不太準(zhǔn)確,它僅在我們具備一只鳥長(zhǎng)什么樣的基礎(chǔ)知識(shí)的情況下才可能實(shí)現(xiàn)。原來的辦法主要通過3D基準(zhǔn)形狀來獲得這種基礎(chǔ)知識(shí),要么是繪制的合成圖要么是物體的掃描圖。但不幸的是,這種掃描方法在實(shí)際上,很難用到活體對(duì)象上面,因?yàn)槲覀兒茈y讓他們配合我們的掃描,所以我們?cè)噲D采用一種更自然的監(jiān)督方法——就是大量的標(biāo)注圖片集合。
假設(shè)我們對(duì)于一個(gè)物體類別有大量的圖片集,但對(duì)于每一個(gè)個(gè)體都只包括一個(gè)角度,每一張圖片都被添加了一組語義描述和正確的分割蒙版。從這個(gè)圖片合集和蒙版上的標(biāo)注,我們學(xué)習(xí)到一個(gè)預(yù)測(cè)器F,在給定一張新的未標(biāo)注圖片時(shí),F(xiàn)可以推斷它的3D形狀并用網(wǎng)格表示,可以推斷其觀測(cè)視角,以及其網(wǎng)格結(jié)構(gòu)。通過這些推斷和預(yù)測(cè),我們就得到了關(guān)于這個(gè)物體3D形狀的一個(gè)表示。從任何一個(gè)視角渲染這個(gè)模型,都可以把它直觀地可視化。
F是一個(gè)CNN神經(jīng)網(wǎng)絡(luò),包括一個(gè)圖像解碼器和三個(gè)預(yù)測(cè)模塊。首先我們預(yù)測(cè)相機(jī)的觀測(cè)視角,其參數(shù)由弱透視投影變化決定。第二個(gè)輸出是物體的3D形狀,它是一個(gè)和類別有關(guān)的形變模型。我們將學(xué)習(xí)到的該類級(jí)別模型和當(dāng)前輸入的預(yù)測(cè)形變相結(jié)合,然后獲得輸出的3D形狀。這樣一個(gè)類級(jí)別模型的好處在于——我們可以學(xué)習(xí)到如何關(guān)聯(lián)語義標(biāo)注和網(wǎng)格的格點(diǎn),同時(shí)也能從預(yù)測(cè)形狀中,獲得3D關(guān)鍵點(diǎn)的位置。最后,我們還可以通過一張正則形態(tài)空間中的RGB圖像表達(dá),預(yù)測(cè)出它的紋理結(jié)構(gòu)。
那么該如何,從這張二維圖片中看出,我們對(duì)紋理結(jié)構(gòu)的預(yù)測(cè)呢?我們注意到,一個(gè)類別中的不同形狀其實(shí)只是平均形狀的一個(gè)形變,而其平均形狀可以被視為一個(gè)球體,其紋理可以用一張UV紋理圖片來表示,就像把一個(gè)球體展開到二維平面上。UV圖也可以被映射到球體上,然后被變化到平均形狀或者任何預(yù)測(cè)出的形狀上。所以,為了預(yù)測(cè)形狀的紋理,我們只需要預(yù)測(cè)UV圖中的顏色,所以我們通過一個(gè)CNN結(jié)構(gòu)來實(shí)現(xiàn)它。我們將輸入圖片編碼后傳入CNN,這里,我們并不是直接預(yù)測(cè),紋理圖片的像素信息,而是預(yù)測(cè)他的紋理流。
在獲得預(yù)測(cè)信息之后,我們用同樣的辦法表示出我們的目標(biāo)物體,然后使得預(yù)測(cè)值更接近真實(shí)值。我們最小化預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的渲染蒙版,渲染圖片和投影關(guān)鍵點(diǎn)之間距離。我們使用神經(jīng)網(wǎng)格渲染器,所以。所有損失函數(shù)都是可微的。同時(shí)我們也在模型中包含了一些先驗(yàn)信息,如對(duì)稱性,表面的光滑性等等。
現(xiàn)在我們?cè)跍y(cè)試集上向大家展示一些訓(xùn)練結(jié)果,給定一張輸入圖片,我們可以推斷其在結(jié)構(gòu)中的形狀,這里展示了不同視角下的結(jié)果。我們的模型也可以捕捉到不同的形狀,比如說翅膀,和不同的尾部。我們也可以使用我們的結(jié)果,將一只鳥的紋理變化到另外一只鳥。比如說,給定這兩只鳥的圖片,我們首先重建它們的結(jié)構(gòu)和紋理。因?yàn)榧y理圖是在正則形態(tài)空間中表示的,我們可以簡(jiǎn)單地交換它們的紋理圖。然后把第二只鳥的紋理變化到第一只鳥身上,反之同理,即使在鳥的形狀不同的時(shí)候,我們也可以進(jìn)行紋理變化的操作。比如說這里我們向大家展示一些不同測(cè)試數(shù)據(jù)上的重建結(jié)果,大家可以看到它們的360°圖片。
雷鋒網(wǎng)雷鋒網(wǎng)
視頻原址 https://www.youtube.com/watch?v=cYHQKtBLI3Q
論文原址 https://arxiv.org/pdf/1803.07549.pdf
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。