0
本文作者: 奕欣 | 2018-06-16 10:10 |
雷鋒網(wǎng) AI 科技評論按:本文為康奈爾大學(xué)李正奇為AI科技評論所撰寫的 CVPR 2018 錄用論文解讀稿件,未經(jīng)許可不得轉(zhuǎn)載。
網(wǎng)站地址:http://www.cs.cornell.edu/projects/bigtime/
論文地址:https://arxiv.org/abs/1804.00582
簡單來說,本征圖像分解(intrinsic image decomposition)就是將圖像分解為反射圖(reflectance)和照射圖 (shading) 的乘積。我們發(fā)現(xiàn)過去的工作主要通過渲染,crowdsourcing 或物體染色等方式來收集標(biāo)注數(shù)據(jù)集。但是這些方法都有其自身極強的局限性:物體染色的方法收集非常困難,且只能運用在物體不能運用在場景。渲染的方法無法使訓(xùn)練的網(wǎng)絡(luò)泛化到真實場景圖片當(dāng)中。而 crowdsourcing 的方法只能得到非常稀疏的標(biāo)注,且標(biāo)注質(zhì)量無法得到保證。
圖 1:通過無標(biāo)注視頻訓(xùn)練網(wǎng)絡(luò)從而可以產(chǎn)生單視圖本征圖像
因此,我們考慮了一種更加容易收集的用來學(xué)習(xí)本征圖像的數(shù)據(jù):網(wǎng)絡(luò)上大量無標(biāo)注的延時攝影視頻。簡單地說,延時攝影就是讓取景照相機固定不變,但是拍攝的時間是非常長的,因此我們能夠得到不同時間但是同一視角的圖片序列。盡管我們的視頻數(shù)據(jù)集是未標(biāo)注的,但是這些視頻卻允許我們在訓(xùn)練 CNN 期間加入許多重要的先驗。如圖 1 所示, 我們通過網(wǎng)絡(luò)無標(biāo)注視頻學(xué)習(xí)本征圖像,從而我們可以用這個訓(xùn)練好的模型運用在單個圖像上。
如圖 2 所示,在訓(xùn)練 CNN 階段,我們的輸入是整個圖像序列,而輸出是相對應(yīng)每一幀的反射和照射圖。我們的網(wǎng)絡(luò)架構(gòu)基于 U-net,其細節(jié)請參考論文。另外,對每張圖片 CNN 還同時在其內(nèi)部產(chǎn)生一個 3D 向量來解釋環(huán)境光的顏色。
圖 2:系統(tǒng)圖示和網(wǎng)絡(luò)架構(gòu)
我們的數(shù)據(jù)集名叫「BIGTIME (BT)」。我們從互聯(lián)網(wǎng)各類視頻網(wǎng)站收集了大量室外和室內(nèi)的高質(zhì)量延時攝影視頻,數(shù)量超過 200 個。在我們的 BT 數(shù)據(jù)集中,我們發(fā)現(xiàn)室內(nèi)視頻非常有挑戰(zhàn)性,因為許多室內(nèi)視頻只記錄了非常短的時間段,并且許多視頻中包含了強烈的陰影或曝光。然而,在實驗環(huán)節(jié)中我們展示了基于我們框架和數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)能夠有很好的泛化能力。
4.1 能量/損失函數(shù):
在訓(xùn)練階段,我們的目標(biāo)是最大化后驗概率 p(R,S|I)。很容易得知這個等效于最小化能量函數(shù) E(R,S,I)。因此我們定義 E(R,S,I) 為
4.2 圖像重建損失函數(shù):
給定輸入圖像序列,我們能夠?qū)懗鰧τ谡麄€序列所有圖像對的重建損失函數(shù):
直接實現(xiàn)這個損失函數(shù)需要 O(m2n) 的時間復(fù)雜度,在 4.7 中我們介紹一個方法能夠使得該函數(shù)的時間復(fù)雜度減少為 O(mn)。
4.3 反射率一致性損失函數(shù):
我們同樣引入了反射率一致函數(shù)來表示輸出的反射圖應(yīng)該在整個圖片序列中保持相同。
同樣,這個損失函數(shù)需要 O(m2n),但是在 4.7 中我們將會展示如何減少至 O(mn)。
4.4 稠密空間-時間反射圖平滑損失函數(shù):
我們的反射圖平滑損是基于圖像序列中每個像素之間的相關(guān)性。我們定義為:
其中 p 和 q 代表圖像序列的像素。代表雙隨機權(quán)重矩陣。注意的是我們考慮的是整個序列中所有像素之間的相關(guān)性,因此直接計算這個項是不可能的,因此我們需要更有效的方法。首先,注意到如果是雙隨機矩陣,那么我們能夠簡化上面的式子為:
其中 r 是整個圖像序列的 log 反射率圖的向量表示。如果我們假設(shè) W 是高斯型,在雙邊空間中,我們能夠通過構(gòu)造一系列的稀疏矩陣來近似最小化公式 (7)。這個 bilateral embedding 使得我們可以將 loss 轉(zhuǎn)化為二次型:
因此我們最后的將式子將時間復(fù)雜度從 O(m2n2) 減少至 O((d+1)mn)。
4.5 多尺寸照射圖平滑損失函數(shù):
我們還加入了照射圖平滑函數(shù)。這個函數(shù)定義在圖像的多尺度金字塔下。對于每個尺度,我們可以定義:
其中 N(p) 代表了在像素 p 的 8-聯(lián)通近鄰,v 代表每一條邊的的權(quán)重。我們的核心思想是利用圖像序列的統(tǒng)計信息來計算每張圖的權(quán)重。其中,我們的假設(shè)是基于用圖像序列的梯度的中位數(shù)來近似表示圖像的反射率圖梯度。詳細的描述請參考我們論文。
4.6 All-pairs weighted least squares (APWLS)
在這一節(jié)中,我們提出了一個線性閉合解版本的 APWLS 來有效實現(xiàn)公式 4 和 5。假設(shè)每個圖像 Ii 都關(guān)聯(lián)于矩陣Pi和Qi,和預(yù)測Xi和Yi, 我們可以將 APWLS 轉(zhuǎn)化成:
直接計算公式(14)需要 O(m2n), 但是如果將其變?yōu)楣?(15),其時間復(fù)雜度只有 O(mn).
5.1 IIW 實驗:
我們用 BT 數(shù)據(jù)集訓(xùn)練的 CNN(不使用 IIW 訓(xùn)練集)直接測試到 IIW 的測試集中。數(shù)值比較在表 2 中。我們可以看到我們的模型可以與最好的優(yōu)化算法和機器學(xué)習(xí)算法擁有接近甚至更加的表現(xiàn)。
表 2: IIW 測試集比較
表 3:SAW 測試集比較
5.2 SAW 實驗:
我們也測試了我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)在 SAW 測試集中的性能表現(xiàn)。在表 3 中我們比較了和過去其他工作在 SAW 測試集中的 Average Precision (AP)。注意所有的方法都沒有使用 SAW 訓(xùn)練集中的數(shù)據(jù)進行訓(xùn)練。從表 3 中我們可以看出,我們的方法優(yōu)異于過去所有的方法。
5.3 IIW 和 SAW 測試集中分解圖比較:
圖 3: 分解圖比較
在圖 3 中我們比較了我們網(wǎng)絡(luò)輸出的本征圖像和最好的優(yōu)化和機器學(xué)習(xí)算法輸出的分解圖像。從圖 3 中我們可以看到即使我們不使用 IIW 數(shù)據(jù)集進行訓(xùn)練,我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)產(chǎn)生的本征圖像分解結(jié)果可以與其他兩個算法相媲美。
5.4 MIT 本征圖像數(shù)據(jù)集實驗:
最后,我們在 MIT 本征圖像數(shù)據(jù)集中驗證我們框架的有效性。在訓(xùn)練我們的網(wǎng)絡(luò)過程中,我們沒有直接回歸 ground truth,相反,我們在 MIT 提供的圖像序列上訓(xùn)練我們的網(wǎng)絡(luò)。
表 4: MIT 測試集性能比較
我們比較了我們的方法和其他監(jiān)督學(xué)習(xí)方法。這些過去的工作都用到了訓(xùn)練集的 ground truth 來訓(xùn)練模型。相反,我們只利用了數(shù)據(jù)集提供的圖像序列來訓(xùn)練網(wǎng)絡(luò)。比較結(jié)果顯示在表 4 中。我們可以看出我們的非監(jiān)督學(xué)習(xí)方法能夠媲美甚至優(yōu)于過去以 CNN 為基礎(chǔ)的監(jiān)督學(xué)習(xí)算法。
在我們這次的工作中,我們提出了一個新的非監(jiān)督學(xué)習(xí)方法通過網(wǎng)絡(luò)上的延時攝影視頻來學(xué)習(xí)本征圖像分解。我們訓(xùn)練的網(wǎng)絡(luò)可以在多個數(shù)據(jù)集中表現(xiàn)出很強的泛化能力,展示出了通過大量無標(biāo)簽網(wǎng)絡(luò)視頻來學(xué)習(xí)本征圖像的巨大潛力。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。