0
雷鋒網(wǎng) AI 科技評(píng)論按:每月《Computer Vision News》都會(huì)選擇一篇關(guān)于計(jì)算機(jī)視覺(jué)領(lǐng)域研究成果的論文進(jìn)行回顧。今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學(xué)者(下文中所提到的作者,均指以上三位學(xué)者)共同完成的關(guān)于 Double-DIP 模型的論文,其中詳細(xì)介紹了基于耦合的深度圖像先驗(yàn)網(wǎng)絡(luò)對(duì)單個(gè)圖像進(jìn)行無(wú)監(jiān)督層分割這一技術(shù)。
概況
許多看似無(wú)關(guān)的計(jì)算機(jī)視覺(jué)任務(wù)可以被視為圖像分割為不同的層的特殊情況。舉兩個(gè)突出的例子:圖像分割——分割成背景層和前景層的區(qū)域;圖像去霧——分割為清晰圖層和有霧圖層。在該論文中,作者提出了一種基于耦合的「深度圖像先驗(yàn)」(DIP)網(wǎng)絡(luò)對(duì)單個(gè)圖像進(jìn)行無(wú)監(jiān)督層分割的統(tǒng)一框架。
被 CVPR 2018 會(huì)議接收的深度圖像先驗(yàn)(DIP)網(wǎng)絡(luò),是一種可以用來(lái)對(duì)單個(gè)圖像的低級(jí)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行生成的結(jié)構(gòu),而且只需要在單張圖像上進(jìn)行訓(xùn)練。而在論文中,作者向我們展示了如何通過(guò)耦合多個(gè) DIP 網(wǎng)絡(luò)得到一個(gè)強(qiáng)大的工具,來(lái)將圖像分割為其基本組成,從而使其適用于各類任務(wù)。正因?yàn)樗脭?shù)據(jù)來(lái)自于混合層的內(nèi)部,相比其各個(gè)組成部分的數(shù)據(jù)更復(fù)雜且更具代表性,這使其多功能適用性具有實(shí)現(xiàn)的可能。作者們認(rèn)為,模型能勝任多種任務(wù)的原因是,相比于在不同的層上各自進(jìn)行,多種不同的層的內(nèi)部統(tǒng)計(jì)特性更為魯棒,也有更好的表征能力。
作者向我們展示了該方法在各類計(jì)算機(jī)視覺(jué)任務(wù)上的運(yùn)用,比如:水印去除,前景/背景分割,圖像去霧以及視頻中的透明度分離等。在沒(méi)有提供任何額外數(shù)據(jù)的情況下,只需要在單張圖像上進(jìn)行訓(xùn)練,就可以完成以上所有的任務(wù)。
關(guān)于「圖像分割的統(tǒng)一框架」
由三個(gè)不同任務(wù)重新定義的原圖分割,可以視為簡(jiǎn)單基本層的混合,如下圖所示,圖像分割、圖像去霧、透明度分離這三種任務(wù)都可以看作是,先把原始圖像拆分成一些基本層,然后再把這些層重新混合。
這種方法將圖像分割成若干基本層,并提供一個(gè)統(tǒng)一的框架來(lái)對(duì)大量明顯不同且無(wú)關(guān)的計(jì)算機(jī)視覺(jué)任務(wù)進(jìn)行處理。所有這些圖像分割的共同點(diǎn)是每個(gè)單獨(dú)層內(nèi)小塊的分布比「混合」圖像(即原始圖像)更「簡(jiǎn)單」(均勻),從而導(dǎo)致每個(gè)單獨(dú)層的內(nèi)部相似性很強(qiáng)。已有研究證明小圖像塊(例如 5×5,7×7)的統(tǒng)計(jì)特征(分布)在自然圖像中極具重復(fù)性,所以這種強(qiáng)內(nèi)部重復(fù)性,可以很好的用于處理各種計(jì)算機(jī)視覺(jué)任務(wù)。
圖1 圖像分割的統(tǒng)一框架
作者的方法結(jié)合內(nèi)部補(bǔ)丁重現(xiàn),即小塊圖像的重復(fù)出現(xiàn)的特性(無(wú)需監(jiān)督即可解決任務(wù)的能力)和深度學(xué)習(xí)的強(qiáng)大力量,提出了一種基于 DIP 網(wǎng)絡(luò)的無(wú)監(jiān)督框架。當(dāng) DIP 網(wǎng)絡(luò)的輸入是隨機(jī)噪聲時(shí),它也能學(xué)會(huì)重建單個(gè)圖像(該圖像作為訓(xùn)練的唯一輸入)時(shí),單個(gè) DIP 網(wǎng)絡(luò)被證明可以很好的捕獲單個(gè)自然圖像的低級(jí)統(tǒng)計(jì)數(shù)據(jù)。這個(gè)網(wǎng)絡(luò)還被證實(shí)在無(wú)監(jiān)督情況下,完全能夠解決如:去噪,超分辨率和修復(fù)等問(wèn)題。
圖像分割基本原理
圖2 圖像分割基本原理
圖 2 向我們說(shuō)明了該方法的基本原理。它展示了如何利用 X 和 Y 兩個(gè)圖案,來(lái)混合產(chǎn)生新的更復(fù)雜的圖像 Z。每個(gè)「純」圖案(X 和 Y)的小圖像塊的分布相比混合圖像 Z 小圖像塊的分布更簡(jiǎn)單。眾所周知,如果 X 和 y 是兩個(gè)獨(dú)立的隨機(jī)變量,那么它們的和 Z = X + Y 的熵大于它們各自的熵。
圖 2 的損失函數(shù)圖還向我們?cè)敿?xì)展示了單個(gè) DIP 網(wǎng)絡(luò)作為時(shí)間函數(shù)(訓(xùn)練迭代)時(shí)的 MSE 重建損失。對(duì)于圖中的 3 條線:(i)橙色是訓(xùn)練重建紋理圖像 X 的 MSE 損失;(ii)藍(lán)色是訓(xùn)練重建紋理 Y 的 MSE 損失;(iii)綠色是訓(xùn)練重建紋理圖像 X+Y 的 MSE 損失??梢园l(fā)現(xiàn),MSE 損失值越大時(shí),收斂時(shí)間越長(zhǎng)。而且,混合圖像的 MSE 損失值不僅大于兩個(gè)單獨(dú)圖像的 MSE 損失值,實(shí)際上,還大于兩個(gè)單獨(dú)圖像 MSE 損失值的總和。
為了證明這個(gè)現(xiàn)象不是偶然,作者從 BSD100 數(shù)據(jù)集(為了防止自然圖像與規(guī)則圖案間有差異)中隨機(jī)選擇了 100 對(duì)自然圖像來(lái)重復(fù)該實(shí)驗(yàn)。而結(jié)果證明,混合圖像與合成圖像組之間 MSE 損失值的差值甚至更高。
圖像分割工作模型
圖3 圖像分割工作模型
圖 3 詳細(xì)說(shuō)明了 Double-DIP 對(duì)圖像進(jìn)行分割時(shí)的工作模型。兩個(gè)深度圖像先驗(yàn)(DIP)網(wǎng)絡(luò)(DIP1 DIP2)將輸入圖像分割成對(duì)應(yīng)的圖像層(y1&y2),然后根據(jù)二進(jìn)制掩模 m(x)進(jìn)行重組,以形成盡可能接近于輸入圖像本身的重建圖像 I。
什么樣的分割是好的圖像分割?有很多方法可以將其分割為基本圖層,但作者提出有意義的分割應(yīng)該滿足這樣幾個(gè)標(biāo)準(zhǔn):
重新組合時(shí),恢復(fù)的圖層能夠重建輸入圖像
每層應(yīng)該盡可能「簡(jiǎn)單」,即它應(yīng)該具有很強(qiáng)的圖像元素內(nèi)部自相似性
恢復(fù)的圖層之間彼此獨(dú)立
這三個(gè)標(biāo)準(zhǔn)也是 Double-DIP 網(wǎng)絡(luò)需要具體實(shí)現(xiàn)的參考。第一個(gè)標(biāo)準(zhǔn)通過(guò)最小化重建損失(衡量構(gòu)造圖像和輸入圖像之間的誤差的參數(shù))來(lái)實(shí)現(xiàn);第二個(gè)標(biāo)準(zhǔn)通過(guò)采用多個(gè) DIP(每層一個(gè))實(shí)現(xiàn);第三個(gè)標(biāo)準(zhǔn)由不同 DIP 的輸出間的「不相容損失」強(qiáng)制執(zhí)行(最小化它們的相關(guān)性)。
每個(gè) DIP 網(wǎng)絡(luò)重建輸入圖像 I 的不同圖層 yi;每個(gè) DIPi 的輸入是隨機(jī)采樣的均勻噪聲 zi; 使用權(quán)重掩模 m(x) 混合 DIP 輸出 yi = DIPi(zi),從而生成重建圖像:
其應(yīng)盡可能接近輸入圖像 I。
對(duì)于某些任務(wù)中,權(quán)重掩模 m 非常簡(jiǎn)單,而在其他情況下則需要進(jìn)行學(xué)習(xí)(使用附加 DIP 網(wǎng)絡(luò))。學(xué)習(xí)的掩模 m 可以是均勻的或空間變化的,連續(xù)的或二進(jìn)制的。對(duì) m 的約束條件與任務(wù)相關(guān)聯(lián),并且使用指定任務(wù)的「正則化損失」來(lái)強(qiáng)制執(zhí)行。因此優(yōu)化損失是:
關(guān)于 Double-DIP 網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化類似于基本 DIP。而在輸入噪聲中,增加額外的非恒定噪聲擾動(dòng)可以增加重建的穩(wěn)定性。通過(guò)使用 8 個(gè)變換(4 個(gè)旋轉(zhuǎn) 90°和 2 個(gè)鏡像反射 - 垂直和水平)轉(zhuǎn)換輸入圖像 I 和所有 DIP 的相應(yīng)隨機(jī)噪聲輸入,可以進(jìn)一步豐富訓(xùn)練集。
優(yōu)化過(guò)程使用到了 ADAM 優(yōu)化器,而每張圖片在 Tesla V100 GPU 上僅需要幾分鐘來(lái)完成。
研究成果
論文內(nèi)提到的多個(gè)成果中,我們?cè)谙挛闹兄赜懻摚?/p>
1)前景/背景分割
2)水印去除
前景/背景分割
我們可以設(shè)想將圖像分割成前景和背景區(qū)域,前景層為 y1,背景層為 y2,對(duì)于每個(gè)像素根據(jù)二進(jìn)制掩模 m(x)進(jìn)行組合,得到:
這個(gè)公式非常適合文中所提到的框架,它將「好的圖像片段」定義為易于通過(guò)自身合成,但很難使用圖像其他部分進(jìn)行合成這個(gè)概念。為了使分割掩碼 m(x)變?yōu)槎M(jìn)制,我們使用以下正則化損失:
Double-DIP 能夠基于無(wú)監(jiān)督的層分割獲得高質(zhì)量的分割,如圖 4 所示,更多圖像分割結(jié)果可以在該項(xiàng)目的網(wǎng)站上進(jìn)行觀看。盡管有許多其他分割方法(其中包括語(yǔ)義分割)的表現(xiàn)甚至比 DIP 要好,然而它們都有一個(gè)的缺點(diǎn)——需要用大量的數(shù)據(jù)訓(xùn)練。
圖 4 圖像分割實(shí)例
水印去除
水印廣泛用于保護(hù)受版權(quán)保護(hù)的圖像和視頻。Double-DIP 能夠?qū)⑺∽鳛閳D像反射的特殊情況來(lái)進(jìn)行去除,其中圖層 y1 和圖層 y2 是分別是清理后的圖像和水印。
和圖像分割不同,在這種情況下,掩模沒(méi)有被明確設(shè)置,而是使用兩種實(shí)際解決方案之一來(lái)處理固有的透明層模糊性。如果僅涉及單個(gè)水印,則用戶通過(guò)帶有邊界框來(lái)標(biāo)記水印區(qū)域;而當(dāng)有少量圖像具有相同的水印時(shí)(通常 2-3 張圖像),在訓(xùn)練過(guò)程中將由模糊性原則自行處理。圖 5 為一些水印去除的實(shí)例:
圖 5 水印去除實(shí)例
結(jié)論
「Double-DIP」為無(wú)監(jiān)督層分割的提供了統(tǒng)一的框架,這個(gè)框架可以適用于各種各樣的任務(wù)。除了輸入圖像/視頻之外,它不需要任何其它訓(xùn)練數(shù)據(jù)。盡管這是一種通用的方法,但在某些任務(wù)中(如去霧),它所得到的結(jié)果可以與該領(lǐng)域的最先進(jìn)的專業(yè)技術(shù)效果相當(dāng)或甚至更好。該論文的作者認(rèn)為,用語(yǔ)義/感知線索增強(qiáng) Double-DIP 可能會(huì)使得語(yǔ)義分割和其他高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)方面的進(jìn)步,在接下來(lái)的工作中,他們也打算對(duì)這個(gè)方面做進(jìn)一步的研究。
雷鋒網(wǎng) AI 科技評(píng)論將相關(guān)鏈接整理如下:
原論文地址
https://arxiv.org/abs/1812.00467
雜志原文地址
雷鋒網(wǎng)AI 科技評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。