康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

本文作者：奕欣

2018-06-16 10:10

導(dǎo)語(yǔ)：通過(guò)網(wǎng)站上大量無(wú)標(biāo)注的延時(shí)攝影視頻學(xué)習(xí)本征圖像，并用這個(gè)訓(xùn)練好的模型運(yùn)用在單個(gè)圖像上。

雷鋒網(wǎng) AI 科技評(píng)論按：本文為康奈爾大學(xué)李正奇為AI科技評(píng)論所撰寫的 CVPR 2018 錄用論文解讀稿件，未經(jīng)許可不得轉(zhuǎn)載。

網(wǎng)站地址：http://www.cs.cornell.edu/projects/bigtime/

1. 前言和介紹

簡(jiǎn)單來(lái)說(shuō)，本征圖像分解（intrinsic image decomposition）就是將圖像分解為反射圖（reflectance）和照射圖 (shading) 的乘積。我們發(fā)現(xiàn)過(guò)去的工作主要通過(guò)渲染，crowdsourcing 或物體染色等方式來(lái)收集標(biāo)注數(shù)據(jù)集。但是這些方法都有其自身極強(qiáng)的局限性：物體染色的方法收集非常困難，且只能運(yùn)用在物體不能運(yùn)用在場(chǎng)景。渲染的方法無(wú)法使訓(xùn)練的網(wǎng)絡(luò)泛化到真實(shí)場(chǎng)景圖片當(dāng)中。而 crowdsourcing 的方法只能得到非常稀疏的標(biāo)注，且標(biāo)注質(zhì)量無(wú)法得到保證。

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

圖 1：通過(guò)無(wú)標(biāo)注視頻訓(xùn)練網(wǎng)絡(luò)從而可以產(chǎn)生單視圖本征圖像

因此，我們考慮了一種更加容易收集的用來(lái)學(xué)習(xí)本征圖像的數(shù)據(jù)：網(wǎng)絡(luò)上大量無(wú)標(biāo)注的延時(shí)攝影視頻。簡(jiǎn)單地說(shuō)，延時(shí)攝影就是讓取景照相機(jī)固定不變，但是拍攝的時(shí)間是非常長(zhǎng)的，因此我們能夠得到不同時(shí)間但是同一視角的圖片序列。盡管我們的視頻數(shù)據(jù)集是未標(biāo)注的，但是這些視頻卻允許我們?cè)谟?xùn)練 CNN 期間加入許多重要的先驗(yàn)。如圖 1 所示, 我們通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注視頻學(xué)習(xí)本征圖像，從而我們可以用這個(gè)訓(xùn)練好的模型運(yùn)用在單個(gè)圖像上。

2. 框架概述

如圖 2 所示，在訓(xùn)練 CNN 階段，我們的輸入是整個(gè)圖像序列，而輸出是相對(duì)應(yīng)每一幀的反射和照射圖。我們的網(wǎng)絡(luò)架構(gòu)基于 U-net，其細(xì)節(jié)請(qǐng)參考論文。另外，對(duì)每張圖片 CNN 還同時(shí)在其內(nèi)部產(chǎn)生一個(gè) 3D 向量來(lái)解釋環(huán)境光的顏色。

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

圖 2：系統(tǒng)圖示和網(wǎng)絡(luò)架構(gòu)

3. 數(shù)據(jù)集

我們的數(shù)據(jù)集名叫「BIGTIME (BT)」。我們從互聯(lián)網(wǎng)各類視頻網(wǎng)站收集了大量室外和室內(nèi)的高質(zhì)量延時(shí)攝影視頻，數(shù)量超過(guò) 200 個(gè)。在我們的 BT 數(shù)據(jù)集中，我們發(fā)現(xiàn)室內(nèi)視頻非常有挑戰(zhàn)性，因?yàn)樵S多室內(nèi)視頻只記錄了非常短的時(shí)間段，并且許多視頻中包含了強(qiáng)烈的陰影或曝光。然而，在實(shí)驗(yàn)環(huán)節(jié)中我們展示了基于我們框架和數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)能夠有很好的泛化能力。

4. 學(xué)習(xí)框架

4.1 能量/損失函數(shù)：

在訓(xùn)練階段，我們的目標(biāo)是最大化后驗(yàn)概率 p(R,S|I)。很容易得知這個(gè)等效于最小化能量函數(shù) E(R,S,I)。因此我們定義 E(R,S,I) 為

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

4.2 圖像重建損失函數(shù)：

給定輸入圖像序列，我們能夠?qū)懗鰧?duì)于整個(gè)序列所有圖像對(duì)的重建損失函數(shù)：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

直接實(shí)現(xiàn)這個(gè)損失函數(shù)需要 O(m²n) 的時(shí)間復(fù)雜度，在 4.7 中我們介紹一個(gè)方法能夠使得該函數(shù)的時(shí)間復(fù)雜度減少為 O(mn)。

4.3 反射率一致性損失函數(shù)：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

我們同樣引入了反射率一致函數(shù)來(lái)表示輸出的反射圖應(yīng)該在整個(gè)圖片序列中保持相同。

同樣，這個(gè)損失函數(shù)需要 O(m2n)，但是在 4.7 中我們將會(huì)展示如何減少至 O(mn)。

4.4 稠密空間-時(shí)間反射圖平滑損失函數(shù)：

我們的反射圖平滑損是基于圖像序列中每個(gè)像素之間的相關(guān)性。我們定義為：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

其中 p 和 q 代表圖像序列的像素。康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解代表雙隨機(jī)權(quán)重矩陣。注意的是我們考慮的是整個(gè)序列中所有像素之間的相關(guān)性，因此直接計(jì)算這個(gè)項(xiàng)是不可能的，因此我們需要更有效的方法。首先，注意到如果是雙隨機(jī)矩陣，那么我們能夠簡(jiǎn)化上面的式子為：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

其中 r 是整個(gè)圖像序列的 log 反射率圖的向量表示。如果我們假設(shè) W 是高斯型，在雙邊空間中，我們能夠通過(guò)構(gòu)造一系列的稀疏矩陣來(lái)近似最小化公式 (7)。這個(gè) bilateral embedding 使得我們可以將 loss 轉(zhuǎn)化為二次型：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

因此我們最后的將式子將時(shí)間復(fù)雜度從 O(m²n²) 減少至 O((d+1)mn)。

4.5 多尺寸照射圖平滑損失函數(shù)：

我們還加入了照射圖平滑函數(shù)。這個(gè)函數(shù)定義在圖像的多尺度金字塔下。對(duì)于每個(gè)尺度，我們可以定義：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

其中 N(p) 代表了在像素 p 的 8-聯(lián)通近鄰，v 代表每一條邊的的權(quán)重。我們的核心思想是利用圖像序列的統(tǒng)計(jì)信息來(lái)計(jì)算每張圖的權(quán)重。其中，我們的假設(shè)是基于用圖像序列的梯度的中位數(shù)來(lái)近似表示圖像的反射率圖梯度。詳細(xì)的描述請(qǐng)參考我們論文。

4.6 All-pairs weighted least squares (APWLS)

在這一節(jié)中，我們提出了一個(gè)線性閉合解版本的 APWLS 來(lái)有效實(shí)現(xiàn)公式 4 和 5。假設(shè)每個(gè)圖像 Iⁱ都關(guān)聯(lián)于矩陣Pⁱ和Qⁱ，和預(yù)測(cè)Xⁱ和Yⁱ, 我們可以將 APWLS 轉(zhuǎn)化成：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

直接計(jì)算公式（14）需要 O(m²n), 但是如果將其變?yōu)楣?(15)，其時(shí)間復(fù)雜度只有 O(mn).

5. 實(shí)驗(yàn)

5.1 IIW 實(shí)驗(yàn)：

我們用 BT 數(shù)據(jù)集訓(xùn)練的 CNN（不使用 IIW 訓(xùn)練集）直接測(cè)試到 IIW 的測(cè)試集中。數(shù)值比較在表 2 中。我們可以看到我們的模型可以與最好的優(yōu)化算法和機(jī)器學(xué)習(xí)算法擁有接近甚至更加的表現(xiàn)。

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

表 2： IIW 測(cè)試集比較

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

表 3：SAW 測(cè)試集比較

5.2 SAW 實(shí)驗(yàn)：

我們也測(cè)試了我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)在 SAW 測(cè)試集中的性能表現(xiàn)。在表 3 中我們比較了和過(guò)去其他工作在 SAW 測(cè)試集中的 Average Precision (AP)。注意所有的方法都沒(méi)有使用 SAW 訓(xùn)練集中的數(shù)據(jù)進(jìn)行訓(xùn)練。從表 3 中我們可以看出，我們的方法優(yōu)異于過(guò)去所有的方法。

5.3 IIW 和 SAW 測(cè)試集中分解圖比較：

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

圖 3：分解圖比較

在圖 3 中我們比較了我們網(wǎng)絡(luò)輸出的本征圖像和最好的優(yōu)化和機(jī)器學(xué)習(xí)算法輸出的分解圖像。從圖 3 中我們可以看到即使我們不使用 IIW 數(shù)據(jù)集進(jìn)行訓(xùn)練，我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)產(chǎn)生的本征圖像分解結(jié)果可以與其他兩個(gè)算法相媲美。

5.4 MIT 本征圖像數(shù)據(jù)集實(shí)驗(yàn)：

最后，我們?cè)?MIT 本征圖像數(shù)據(jù)集中驗(yàn)證我們框架的有效性。在訓(xùn)練我們的網(wǎng)絡(luò)過(guò)程中，我們沒(méi)有直接回歸 ground truth，相反，我們?cè)?MIT 提供的圖像序列上訓(xùn)練我們的網(wǎng)絡(luò)。

康奈爾大學(xué)CVPR論文：通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注延時(shí)攝影學(xué)習(xí)本征圖像分解

表 4： MIT 測(cè)試集性能比較

我們比較了我們的方法和其他監(jiān)督學(xué)習(xí)方法。這些過(guò)去的工作都用到了訓(xùn)練集的 ground truth 來(lái)訓(xùn)練模型。相反，我們只利用了數(shù)據(jù)集提供的圖像序列來(lái)訓(xùn)練網(wǎng)絡(luò)。比較結(jié)果顯示在表 4 中。我們可以看出我們的非監(jiān)督學(xué)習(xí)方法能夠媲美甚至優(yōu)于過(guò)去以 CNN 為基礎(chǔ)的監(jiān)督學(xué)習(xí)算法。

6. 總結(jié)

在我們這次的工作中，我們提出了一個(gè)新的非監(jiān)督學(xué)習(xí)方法通過(guò)網(wǎng)絡(luò)上的延時(shí)攝影視頻來(lái)學(xué)習(xí)本征圖像分解。我們訓(xùn)練的網(wǎng)絡(luò)可以在多個(gè)數(shù)據(jù)集中表現(xiàn)出很強(qiáng)的泛化能力，展示出了通過(guò)大量無(wú)標(biāo)簽網(wǎng)絡(luò)視頻來(lái)學(xué)習(xí)本征圖像的巨大潛力。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章