0
本文作者: camel | 2020-03-16 16:45 |
論文標(biāo)題:Progressive Feature Polishing Network for Salient Object Detection
論文地址:https://arxiv.org/abs/1911.05942
本文為 AAAI2020 接收論文
解讀作者:BBuf
摘要:圖像的特征對(duì)于顯著性目標(biāo)檢測(cè)非常重要。現(xiàn)有的方法主要集中在設(shè)計(jì)復(fù)雜的結(jié)構(gòu)以合并多級(jí)特征并濾除混亂的特征。這篇論文提出了一個(gè)新的漸進(jìn)式特征打磨網(wǎng)絡(luò)(PFPN),通過重復(fù)使用多個(gè)特征打磨模塊(FPM)可以檢測(cè)出具有精細(xì)細(xì)節(jié)的顯著目標(biāo),且無需任何后處理。FPM通過直接合并所有高級(jí)別的上下文信息來并行更新每個(gè)級(jí)別的特征并且可以保留特征圖的尺寸和層次結(jié)構(gòu),這使得它可以應(yīng)用在任何CNN結(jié)構(gòu)中。PFPN在5個(gè)benchmark數(shù)據(jù)集上獲得了SOTA。
顯著性目標(biāo)檢測(cè)旨在提取出圖像中最吸引人的區(qū)域,已經(jīng)在計(jì)算機(jī)視覺中被廣泛應(yīng)用,如視頻壓縮,視覺跟蹤以及圖像檢索。顯著性檢測(cè)主要依賴于圖像語義特征,包括低級(jí)特征和高級(jí)特征。
因此,為了利用詳細(xì)的語義特征,各種特征融合方法層出不窮。但由于某些特征層上的特征不準(zhǔn)確,特征之間的長(zhǎng)期依賴問題,對(duì)高層特征利用不充分會(huì)影響檢測(cè)能力等原因?qū)е逻@一問題仍然充滿挑戰(zhàn)。為了充分利用語義和細(xì)節(jié)信息,本文提出了一個(gè)簡(jiǎn)潔高效的漸進(jìn)式特征打磨網(wǎng)絡(luò)。這篇文章的貢獻(xiàn)如下:
本文提出了一種用于顯著目標(biāo)檢測(cè)的漸進(jìn)式特征打磨網(wǎng)絡(luò)以遞歸方式逐步完善特征。
對(duì)于每一個(gè)打磨步驟,論文提出FPM來精煉特征,從而保留特征圖的尺寸和層次結(jié)構(gòu)。它將高級(jí)語義信息直接集成到所有低級(jí)特征中以避免長(zhǎng)期依賴問題。
在5個(gè)benchmark數(shù)據(jù)集上均獲得了SOTA精度。
2.1 整體結(jié)構(gòu)
用于顯著性目標(biāo)檢測(cè)的漸進(jìn)式特征打磨網(wǎng)絡(luò)的整體結(jié)構(gòu)如Figure2所示。
首先,輸入圖像被喂到骨干網(wǎng)絡(luò)中提取出多個(gè)尺度的特征。論文中選擇了ResNet-101做骨干網(wǎng)絡(luò)。同時(shí)以VGG16做骨干網(wǎng)絡(luò)的結(jié)果論文在實(shí)驗(yàn)部分也展示了。
具體來說ResNet-101網(wǎng)絡(luò)可以用stride=2的下采樣操作來分成5個(gè)塊。這5個(gè)塊的輸出特征圖可以表示為:Conv-1,Res-2,Res-3,Res-4,Res-5。為了減小特征圖的尺寸使得實(shí)現(xiàn)更加簡(jiǎn)介,這些特征圖首先經(jīng)過第一個(gè)轉(zhuǎn)換模塊(Figure2中的TM1),其中每個(gè)級(jí)別的特征經(jīng)過 1x1 卷積轉(zhuǎn)換為相同的維度,例如在我們的實(shí)現(xiàn)中為 256 個(gè)。
在獲得相同維度的多個(gè)特征之后,一系列的FPM模塊被接在每個(gè)特征圖后面以進(jìn)行特征精煉。Figure2展示了一個(gè) T=2 的例子。在每個(gè)FPM中,高級(jí)特征直接被引入到所有的低級(jí)特征以對(duì)其進(jìn)行改進(jìn),這比間接方式更加有效并顯著減少了信息損失。FPM的輸入和輸出有相同的維度并且所有的FPMs共享同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
我們對(duì)每個(gè)FPM使用不同的參數(shù),以期它們可以逐漸學(xué)習(xí)專注于越來越多的細(xì)節(jié)信息。實(shí)驗(yàn)證明當(dāng) T=2 的時(shí)候,模型表現(xiàn)出了SOTA精度并且有20FPS的速度。
然后,模型利用第2個(gè)轉(zhuǎn)換模塊(Figure2中的TM2),這是由一個(gè)雙線性上采樣接一個(gè) 1x1 卷積組成的,直接將目標(biāo)上采樣為原始圖像的分辨率并且將通道數(shù)壓縮為32。
最后,一個(gè)融合模塊(FM)被用來融合多個(gè)特征圖獲得最終的顯著圖。由于使用FPM之后的特征表示更加準(zhǔn)確,因此FM使用簡(jiǎn)單的串聯(lián)策略來實(shí)現(xiàn),并且網(wǎng)絡(luò)使用端到端的方式進(jìn)行訓(xùn)練。
2.2 特征打磨模塊
特征打磨模塊(FPM)在論文提出的PFPN網(wǎng)絡(luò)中是核心組件,F(xiàn)PM是一個(gè)簡(jiǎn)單而有效的模塊,可以和任何卷積網(wǎng)絡(luò)幾何使用以完善特征表示。
它保留了CNN生成的多級(jí)特征,例如主干或者或者前一級(jí)的FPM輸出,并學(xué)習(xí)使用殘差連接更新它們。對(duì)于N個(gè)特征圖F={fi,i=1,...,N},F(xiàn)PM會(huì)產(chǎn)生N個(gè)打磨后尺寸相同的特征圖F^{p}={fi^p,i=1,...,N},如Figure2所示,F(xiàn)PM包含N個(gè)平行的FPM模塊,每一個(gè)都對(duì)應(yīng)于一個(gè)單獨(dú)的特征圖并表示為FPM-k。
具體來說,從較深的一側(cè)到較淺的一側(cè)采用了殘差連接。結(jié)果,將具有全局信息的高級(jí)特征直接注入到較低級(jí)的特征中,以幫助更好的發(fā)現(xiàn)顯著區(qū)域。以Figure2中的FPM1-3來說,Res-3,Res-4,Res-5的特征都通過shortcut連接被更新到Res-3上了。FPM還吸收了殘差網(wǎng)絡(luò)的優(yōu)勢(shì)(He et al. 2016),因此它可以更新特征圖并逐漸濾除混亂的信息。
這由Figure2中的各種連接來說明。$FPM-k$模塊的實(shí)現(xiàn)可以被如下公式化:
它接受N-k+1個(gè)特征圖如{fj,j=k,..,N}。對(duì)于特征圖fj,我們首先使用一個(gè)3x3的卷積+BN+ReLU的組件去捕獲語義信息,然后將其插值到fk大小。這些插值上采樣后的特征使用concat進(jìn)行融合后,再經(jīng)過一個(gè) 1x1 卷積降維獲得pk。然后pk被當(dāng)作殘差函數(shù)去更新原始的特征圖fk來計(jì)算最終的特征圖f_k^p。當(dāng)k=3時(shí)的一個(gè)例子如Figure3所示。
2.3 融合模塊
論文使用融合模塊(FM)來融合多個(gè)特征圖的特征并檢測(cè)顯著對(duì)象。如Figure2所示,首先將TM2的多級(jí)特征進(jìn)行Concat,然后送入兩個(gè) 3x3 卷積層中。然后,在最后一個(gè) 1x1 卷積層中獲得最終的顯著圖。
2.4 實(shí)現(xiàn)細(xì)節(jié)
論文使用交叉熵?fù)p失來優(yōu)化最終的顯著圖和標(biāo)注顯著圖。然后作者使用了一個(gè)輔助損失,具體就是優(yōu)化在FM模塊之前的一系列中間結(jié)果,最終網(wǎng)絡(luò)的總損失如下:
下面的Table1展示了本文的方法在5個(gè)數(shù)據(jù)集上均獲得了SOTA精度,證明了此方法的有效性。
為了充分利用語義和細(xì)節(jié)信息,本文提出了一個(gè)簡(jiǎn)潔高效的漸進(jìn)式特征打磨網(wǎng)絡(luò)(PFPN)。PFPN致力于通過遞歸的方式逐步精煉特征來改進(jìn)多層次的特征圖表示,對(duì)于每個(gè)特征打磨步驟,均用特征打磨模塊(FPM)將高級(jí)語義信息直接集成到所有較低級(jí)別的特征圖中,從而減少了信息丟失。最終,PFPN在5個(gè)benchmark上的性能明顯優(yōu)于16種最新方法。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。