0
本文作者: 奕欣 | 2018-06-16 10:10 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文為康奈爾大學(xué)李正奇為AI科技評(píng)論所撰寫的 CVPR 2018 錄用論文解讀稿件,未經(jīng)許可不得轉(zhuǎn)載。
網(wǎng)站地址:http://www.cs.cornell.edu/projects/bigtime/
論文地址:https://arxiv.org/abs/1804.00582
簡(jiǎn)單來(lái)說(shuō),本征圖像分解(intrinsic image decomposition)就是將圖像分解為反射圖(reflectance)和照射圖 (shading) 的乘積。我們發(fā)現(xiàn)過(guò)去的工作主要通過(guò)渲染,crowdsourcing 或物體染色等方式來(lái)收集標(biāo)注數(shù)據(jù)集。但是這些方法都有其自身極強(qiáng)的局限性:物體染色的方法收集非常困難,且只能運(yùn)用在物體不能運(yùn)用在場(chǎng)景。渲染的方法無(wú)法使訓(xùn)練的網(wǎng)絡(luò)泛化到真實(shí)場(chǎng)景圖片當(dāng)中。而 crowdsourcing 的方法只能得到非常稀疏的標(biāo)注,且標(biāo)注質(zhì)量無(wú)法得到保證。
圖 1:通過(guò)無(wú)標(biāo)注視頻訓(xùn)練網(wǎng)絡(luò)從而可以產(chǎn)生單視圖本征圖像
因此,我們考慮了一種更加容易收集的用來(lái)學(xué)習(xí)本征圖像的數(shù)據(jù):網(wǎng)絡(luò)上大量無(wú)標(biāo)注的延時(shí)攝影視頻。簡(jiǎn)單地說(shuō),延時(shí)攝影就是讓取景照相機(jī)固定不變,但是拍攝的時(shí)間是非常長(zhǎng)的,因此我們能夠得到不同時(shí)間但是同一視角的圖片序列。盡管我們的視頻數(shù)據(jù)集是未標(biāo)注的,但是這些視頻卻允許我們?cè)谟?xùn)練 CNN 期間加入許多重要的先驗(yàn)。如圖 1 所示, 我們通過(guò)網(wǎng)絡(luò)無(wú)標(biāo)注視頻學(xué)習(xí)本征圖像,從而我們可以用這個(gè)訓(xùn)練好的模型運(yùn)用在單個(gè)圖像上。
如圖 2 所示,在訓(xùn)練 CNN 階段,我們的輸入是整個(gè)圖像序列,而輸出是相對(duì)應(yīng)每一幀的反射和照射圖。我們的網(wǎng)絡(luò)架構(gòu)基于 U-net,其細(xì)節(jié)請(qǐng)參考論文。另外,對(duì)每張圖片 CNN 還同時(shí)在其內(nèi)部產(chǎn)生一個(gè) 3D 向量來(lái)解釋環(huán)境光的顏色。
圖 2:系統(tǒng)圖示和網(wǎng)絡(luò)架構(gòu)
我們的數(shù)據(jù)集名叫「BIGTIME (BT)」。我們從互聯(lián)網(wǎng)各類視頻網(wǎng)站收集了大量室外和室內(nèi)的高質(zhì)量延時(shí)攝影視頻,數(shù)量超過(guò) 200 個(gè)。在我們的 BT 數(shù)據(jù)集中,我們發(fā)現(xiàn)室內(nèi)視頻非常有挑戰(zhàn)性,因?yàn)樵S多室內(nèi)視頻只記錄了非常短的時(shí)間段,并且許多視頻中包含了強(qiáng)烈的陰影或曝光。然而,在實(shí)驗(yàn)環(huán)節(jié)中我們展示了基于我們框架和數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)能夠有很好的泛化能力。
4.1 能量/損失函數(shù):
在訓(xùn)練階段,我們的目標(biāo)是最大化后驗(yàn)概率 p(R,S|I)。很容易得知這個(gè)等效于最小化能量函數(shù) E(R,S,I)。因此我們定義 E(R,S,I) 為
4.2 圖像重建損失函數(shù):
給定輸入圖像序列,我們能夠?qū)懗鰧?duì)于整個(gè)序列所有圖像對(duì)的重建損失函數(shù):
直接實(shí)現(xiàn)這個(gè)損失函數(shù)需要 O(m2n) 的時(shí)間復(fù)雜度,在 4.7 中我們介紹一個(gè)方法能夠使得該函數(shù)的時(shí)間復(fù)雜度減少為 O(mn)。
4.3 反射率一致性損失函數(shù):
我們同樣引入了反射率一致函數(shù)來(lái)表示輸出的反射圖應(yīng)該在整個(gè)圖片序列中保持相同。
同樣,這個(gè)損失函數(shù)需要 O(m2n),但是在 4.7 中我們將會(huì)展示如何減少至 O(mn)。
4.4 稠密空間-時(shí)間反射圖平滑損失函數(shù):
我們的反射圖平滑損是基于圖像序列中每個(gè)像素之間的相關(guān)性。我們定義為:
其中 p 和 q 代表圖像序列的像素。代表雙隨機(jī)權(quán)重矩陣。注意的是我們考慮的是整個(gè)序列中所有像素之間的相關(guān)性,因此直接計(jì)算這個(gè)項(xiàng)是不可能的,因此我們需要更有效的方法。首先,注意到如果是雙隨機(jī)矩陣,那么我們能夠簡(jiǎn)化上面的式子為:
其中 r 是整個(gè)圖像序列的 log 反射率圖的向量表示。如果我們假設(shè) W 是高斯型,在雙邊空間中,我們能夠通過(guò)構(gòu)造一系列的稀疏矩陣來(lái)近似最小化公式 (7)。這個(gè) bilateral embedding 使得我們可以將 loss 轉(zhuǎn)化為二次型:
因此我們最后的將式子將時(shí)間復(fù)雜度從 O(m2n2) 減少至 O((d+1)mn)。
4.5 多尺寸照射圖平滑損失函數(shù):
我們還加入了照射圖平滑函數(shù)。這個(gè)函數(shù)定義在圖像的多尺度金字塔下。對(duì)于每個(gè)尺度,我們可以定義:
其中 N(p) 代表了在像素 p 的 8-聯(lián)通近鄰,v 代表每一條邊的的權(quán)重。我們的核心思想是利用圖像序列的統(tǒng)計(jì)信息來(lái)計(jì)算每張圖的權(quán)重。其中,我們的假設(shè)是基于用圖像序列的梯度的中位數(shù)來(lái)近似表示圖像的反射率圖梯度。詳細(xì)的描述請(qǐng)參考我們論文。
4.6 All-pairs weighted least squares (APWLS)
在這一節(jié)中,我們提出了一個(gè)線性閉合解版本的 APWLS 來(lái)有效實(shí)現(xiàn)公式 4 和 5。假設(shè)每個(gè)圖像 Ii 都關(guān)聯(lián)于矩陣Pi和Qi,和預(yù)測(cè)Xi和Yi, 我們可以將 APWLS 轉(zhuǎn)化成:
直接計(jì)算公式(14)需要 O(m2n), 但是如果將其變?yōu)楣?(15),其時(shí)間復(fù)雜度只有 O(mn).
5.1 IIW 實(shí)驗(yàn):
我們用 BT 數(shù)據(jù)集訓(xùn)練的 CNN(不使用 IIW 訓(xùn)練集)直接測(cè)試到 IIW 的測(cè)試集中。數(shù)值比較在表 2 中。我們可以看到我們的模型可以與最好的優(yōu)化算法和機(jī)器學(xué)習(xí)算法擁有接近甚至更加的表現(xiàn)。
表 2: IIW 測(cè)試集比較
表 3:SAW 測(cè)試集比較
5.2 SAW 實(shí)驗(yàn):
我們也測(cè)試了我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)在 SAW 測(cè)試集中的性能表現(xiàn)。在表 3 中我們比較了和過(guò)去其他工作在 SAW 測(cè)試集中的 Average Precision (AP)。注意所有的方法都沒(méi)有使用 SAW 訓(xùn)練集中的數(shù)據(jù)進(jìn)行訓(xùn)練。從表 3 中我們可以看出,我們的方法優(yōu)異于過(guò)去所有的方法。
5.3 IIW 和 SAW 測(cè)試集中分解圖比較:
圖 3: 分解圖比較
在圖 3 中我們比較了我們網(wǎng)絡(luò)輸出的本征圖像和最好的優(yōu)化和機(jī)器學(xué)習(xí)算法輸出的分解圖像。從圖 3 中我們可以看到即使我們不使用 IIW 數(shù)據(jù)集進(jìn)行訓(xùn)練,我們 BT 數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)產(chǎn)生的本征圖像分解結(jié)果可以與其他兩個(gè)算法相媲美。
5.4 MIT 本征圖像數(shù)據(jù)集實(shí)驗(yàn):
最后,我們?cè)?MIT 本征圖像數(shù)據(jù)集中驗(yàn)證我們框架的有效性。在訓(xùn)練我們的網(wǎng)絡(luò)過(guò)程中,我們沒(méi)有直接回歸 ground truth,相反,我們?cè)?MIT 提供的圖像序列上訓(xùn)練我們的網(wǎng)絡(luò)。
表 4: MIT 測(cè)試集性能比較
我們比較了我們的方法和其他監(jiān)督學(xué)習(xí)方法。這些過(guò)去的工作都用到了訓(xùn)練集的 ground truth 來(lái)訓(xùn)練模型。相反,我們只利用了數(shù)據(jù)集提供的圖像序列來(lái)訓(xùn)練網(wǎng)絡(luò)。比較結(jié)果顯示在表 4 中。我們可以看出我們的非監(jiān)督學(xué)習(xí)方法能夠媲美甚至優(yōu)于過(guò)去以 CNN 為基礎(chǔ)的監(jiān)督學(xué)習(xí)算法。
在我們這次的工作中,我們提出了一個(gè)新的非監(jiān)督學(xué)習(xí)方法通過(guò)網(wǎng)絡(luò)上的延時(shí)攝影視頻來(lái)學(xué)習(xí)本征圖像分解。我們訓(xùn)練的網(wǎng)絡(luò)可以在多個(gè)數(shù)據(jù)集中表現(xiàn)出很強(qiáng)的泛化能力,展示出了通過(guò)大量無(wú)標(biāo)簽網(wǎng)絡(luò)視頻來(lái)學(xué)習(xí)本征圖像的巨大潛力。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。