論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

本文作者： AI研習(xí)社-譯站

2018-05-04 17:31

導(dǎo)語(yǔ)：從圖像集合中學(xué)習(xí)特定類別的網(wǎng)格重建

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的論文解讀短視頻，原標(biāo)題Learning Category-Specific Mesh Reconstruction from Image Collections，作者為Angjoo Kanazawa。

翻譯 | 龍珂宇字幕 | 凡江整理 | 李逸帆吳璇

論文標(biāo)題：Learning Category-Specific Mesh Reconstruction from Image Collections

本篇介紹的《從圖像集合中學(xué)習(xí)特定類別的網(wǎng)格重建》是Angjoo Kanazawa最新論文的預(yù)印本。

Angjoo Kanazawa，加州大學(xué)伯克利分校BAIR（Berkeley AI Research）的博士后。她的論文《獅子、老虎、熊：從圖像中捕捉非剛性的3D立體形狀》、《SfSNet ：“在自然情況下”學(xué)習(xí)臉部形狀、反射比、照明度》都被收錄在CVPR 2018。

一直以來，Angjoo的研究重點(diǎn)都是包括人類在內(nèi)的動(dòng)物單視圖三維重建。比如，我們?nèi)绾文軌蛲ㄟ^觀察2D圖像或視頻，來推出三維模型？

如圖所示，雖然這是一個(gè)二維的平面圖片，但我們可以大致推斷出它的3D輪廓，甚至可以想像出從另一個(gè)角度看它是什么樣的。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

在這次的工作中，我們的目標(biāo)就是建造一個(gè)類似的計(jì)算模型。從單張平面圖片推斷出3D模型的說法并不太準(zhǔn)確，它僅在我們具備一只鳥長(zhǎng)什么樣的基礎(chǔ)知識(shí)的情況下才可能實(shí)現(xiàn)。原來的辦法主要通過3D基準(zhǔn)形狀來獲得這種基礎(chǔ)知識(shí)，要么是繪制的合成圖要么是物體的掃描圖。但不幸的是，這種掃描方法在實(shí)際上，很難用到活體對(duì)象上面，因?yàn)槲覀兒茈y讓他們配合我們的掃描，所以我們?cè)噲D采用一種更自然的監(jiān)督方法——就是大量的標(biāo)注圖片集合。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

假設(shè)我們對(duì)于一個(gè)物體類別有大量的圖片集，但對(duì)于每一個(gè)個(gè)體都只包括一個(gè)角度，每一張圖片都被添加了一組語(yǔ)義描述和正確的分割蒙版。從這個(gè)圖片合集和蒙版上的標(biāo)注，我們學(xué)習(xí)到一個(gè)預(yù)測(cè)器F，在給定一張新的未標(biāo)注圖片時(shí)，F(xiàn)可以推斷它的3D形狀并用網(wǎng)格表示，可以推斷其觀測(cè)視角，以及其網(wǎng)格結(jié)構(gòu)。通過這些推斷和預(yù)測(cè)，我們就得到了關(guān)于這個(gè)物體3D形狀的一個(gè)表示。從任何一個(gè)視角渲染這個(gè)模型，都可以把它直觀地可視化。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

F是一個(gè)CNN神經(jīng)網(wǎng)絡(luò)，包括一個(gè)圖像解碼器和三個(gè)預(yù)測(cè)模塊。首先我們預(yù)測(cè)相機(jī)的觀測(cè)視角，其參數(shù)由弱透視投影變化決定。第二個(gè)輸出是物體的3D形狀，它是一個(gè)和類別有關(guān)的形變模型。我們將學(xué)習(xí)到的該類級(jí)別模型和當(dāng)前輸入的預(yù)測(cè)形變相結(jié)合，然后獲得輸出的3D形狀。這樣一個(gè)類級(jí)別模型的好處在于——我們可以學(xué)習(xí)到如何關(guān)聯(lián)語(yǔ)義標(biāo)注和網(wǎng)格的格點(diǎn)，同時(shí)也能從預(yù)測(cè)形狀中，獲得3D關(guān)鍵點(diǎn)的位置。最后，我們還可以通過一張正則形態(tài)空間中的RGB圖像表達(dá)，預(yù)測(cè)出它的紋理結(jié)構(gòu)。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

那么該如何，從這張二維圖片中看出，我們對(duì)紋理結(jié)構(gòu)的預(yù)測(cè)呢？我們注意到，一個(gè)類別中的不同形狀其實(shí)只是平均形狀的一個(gè)形變，而其平均形狀可以被視為一個(gè)球體，其紋理可以用一張UV紋理圖片來表示，就像把一個(gè)球體展開到二維平面上。UV圖也可以被映射到球體上，然后被變化到平均形狀或者任何預(yù)測(cè)出的形狀上。所以，為了預(yù)測(cè)形狀的紋理，我們只需要預(yù)測(cè)UV圖中的顏色，所以我們通過一個(gè)CNN結(jié)構(gòu)來實(shí)現(xiàn)它。我們將輸入圖片編碼后傳入CNN，這里，我們并不是直接預(yù)測(cè)，紋理圖片的像素信息，而是預(yù)測(cè)他的紋理流。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

在獲得預(yù)測(cè)信息之后，我們用同樣的辦法表示出我們的目標(biāo)物體，然后使得預(yù)測(cè)值更接近真實(shí)值。我們最小化預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的渲染蒙版，渲染圖片和投影關(guān)鍵點(diǎn)之間距離。我們使用神經(jīng)網(wǎng)格渲染器，所以。所有損失函數(shù)都是可微的。同時(shí)我們也在模型中包含了一些先驗(yàn)信息，如對(duì)稱性，表面的光滑性等等。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？

現(xiàn)在我們?cè)跍y(cè)試集上向大家展示一些訓(xùn)練結(jié)果，給定一張輸入圖片，我們可以推斷其在結(jié)構(gòu)中的形狀，這里展示了不同視角下的結(jié)果。我們的模型也可以捕捉到不同的形狀，比如說翅膀，和不同的尾部。我們也可以使用我們的結(jié)果，將一只鳥的紋理變化到另外一只鳥。比如說，給定這兩只鳥的圖片，我們首先重建它們的結(jié)構(gòu)和紋理。因?yàn)榧y理圖是在正則形態(tài)空間中表示的，我們可以簡(jiǎn)單地交換它們的紋理圖。然后把第二只鳥的紋理變化到第一只鳥身上，反之同理，即使在鳥的形狀不同的時(shí)候，我們也可以進(jìn)行紋理變化的操作。比如說這里我們向大家展示一些不同測(cè)試數(shù)據(jù)上的重建結(jié)果，大家可以看到它們的360°圖片。

論文推薦 | 如何通過2D圖像或視頻，推出三維模型？