0
本文作者: 奕欣 | 2017-09-05 10:05 |
雷鋒網(wǎng)AI科技評(píng)論按:新加坡國(guó)立大學(xué)博士后魏云超博士、新加坡國(guó)立大學(xué)助理教授馮佳時(shí)博士、卡內(nèi)基梅隆大學(xué)梁小丹博士、南開(kāi)大學(xué)程明明教授、北京交通大學(xué)趙耀教授及360人工智能研究院院長(zhǎng)顏水成博士所作論文《Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach》被CVPR 2017錄用為口頭報(bào)告(oral,錄用率2.65%)。在雷鋒網(wǎng)AI科技評(píng)論的邀請(qǐng)下,論文一作魏云超博士撰寫(xiě)了關(guān)于這篇論文的獨(dú)家解讀文章,以饗讀者。
圖像語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心研究問(wèn)題之一。一般來(lái)講,訓(xùn)練高性能的語(yǔ)義分割模型需要依賴于大量的像素級(jí)的人工標(biāo)注(即標(biāo)注每個(gè)像素點(diǎn)的語(yǔ)義信息)。然而,標(biāo)注這類(lèi)的訓(xùn)練樣本非常困難,往往需要大量的金錢(qián)和時(shí)間。為了降低獲取訓(xùn)練樣本的難度,研究人員提出采用一些相對(duì)容易獲取的標(biāo)注作為監(jiān)督信息(我們稱(chēng)之為弱監(jiān)督),并用于訓(xùn)練圖像語(yǔ)義分割模型。目前這些弱監(jiān)督信息主要包括了bounding boxes,scribbles,points和labels,如圖1。
圖1
在這些弱監(jiān)督信息中,圖像的labels標(biāo)注最容易獲取,我們著重研究如何利用圖像的labels作為監(jiān)督信息,訓(xùn)練出用于語(yǔ)義分割的模型。而這一問(wèn)題的成功的關(guān)鍵在于如何構(gòu)建圖像標(biāo)簽同像素點(diǎn)之間的關(guān)聯(lián),從而自動(dòng)生成圖像像素級(jí)的標(biāo)注,進(jìn)而利用FCN訓(xùn)練語(yǔ)義分割模型。
圖2
目前我們注意到研究人員們提出了一些自上而下的attention方法(CAM[1], EP[2]等)。這類(lèi)方法可以利用訓(xùn)練好的分類(lèi)CNN模型自動(dòng)獲得同圖像標(biāo)簽最相關(guān)的區(qū)域。如圖2所示,我們給出了通過(guò)CAM方法獲取的attention map??梢钥闯鰧?duì)于一個(gè)圖像分類(lèi)模型,往往物體的某個(gè)區(qū)域或某個(gè)instance對(duì)分類(lèi)結(jié)果的貢獻(xiàn)較大。因此這類(lèi)attention方法只能找到同標(biāo)簽對(duì)應(yīng)的某個(gè)物體最具判別力的區(qū)域而不是物體的整個(gè)局域。如何利用分類(lèi)網(wǎng)絡(luò)定位物體的整個(gè)區(qū)域,對(duì)語(yǔ)義分割任務(wù)具有重要意義。
圖3
圖3給出了我們的motivation。我們將第一張圖片以及它對(duì)應(yīng)的標(biāo)簽“person”輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。繼而,網(wǎng)絡(luò)會(huì)嘗試從圖中發(fā)現(xiàn)一些證據(jù)來(lái)證明圖中包含了“person”。一般來(lái)講,人的head是最具判別力的部位,可以使此圖被正確地判別為“person”。若將head從圖片中移除(如第二張圖中的橙色區(qū)域),網(wǎng)絡(luò)會(huì)繼續(xù)尋找其它證據(jù)來(lái)使得圖像可以被正確分類(lèi),進(jìn)而找到人的body區(qū)域。重復(fù)此操作,人的foot區(qū)域也可以被發(fā)現(xiàn)。由于訓(xùn)練本身是為了從圖片中發(fā)現(xiàn)對(duì)應(yīng)標(biāo)簽的證據(jù)而擦除操作則是為了掩蓋證據(jù),因此我們稱(chēng)這種訓(xùn)練-擦除-再訓(xùn)練-再擦除的方式為對(duì)抗擦除(adversarial erasing)。
基于上述的motivation,我們采用了對(duì)抗擦除的機(jī)制挖掘物體的相關(guān)區(qū)域。如圖4所示,我們首先利用原始圖像訓(xùn)練一個(gè)分類(lèi)網(wǎng)絡(luò),并利用自上而下的attention方法(CAM)來(lái)定位圖像中最具判別力的物體區(qū)域。進(jìn)而,我們將挖掘出的區(qū)域從原始圖片中擦除,并將擦除后的圖像訓(xùn)練另一個(gè)分類(lèi)網(wǎng)絡(luò)來(lái)定位其它的物體區(qū)域。我們重復(fù)此過(guò)程,直到網(wǎng)絡(luò)在被擦除的訓(xùn)練圖像上不能很好地收斂。最后將被擦除的區(qū)域合并起來(lái)作為挖掘出的物體區(qū)域。
圖4
圖5為對(duì)抗擦除方法的細(xì)節(jié)。我們基于VGG16訓(xùn)練圖像的分類(lèi)網(wǎng)絡(luò),將最后兩個(gè)全連接層替換為卷積層,CAM被用來(lái)定位標(biāo)簽相關(guān)區(qū)域。在生成的location map(H)中,屬于前20%最大值的像素點(diǎn)被擦除。我們具體的擦除方式是將對(duì)應(yīng)的像素點(diǎn)的值設(shè)置為所有訓(xùn)練集圖片的像素的平均值。
圖5
我們發(fā)現(xiàn)在實(shí)施第四次擦除后,網(wǎng)絡(luò)訓(xùn)練收斂后的loss值會(huì)有較大提升(圖6右)。主要原因在于大部分圖片中的物體的區(qū)域已經(jīng)被擦除,這種情況下大量的背景區(qū)域也有可能被引入。因此我們只合并了前三次擦除的區(qū)域作為圖片中的物體區(qū)域。圖6左給出部分訓(xùn)練圖像在不同訓(xùn)練階段挖掘出的物體區(qū)域,以及最后將擦除區(qū)域合并后的輸出。
圖6
我們利用顯著性檢測(cè)技術(shù)生成的顯著圖生獲取圖像的背景信息,并同通過(guò)對(duì)抗擦除獲得物體區(qū)域結(jié)合生成用于訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)的segmentation mask(其中藍(lán)色區(qū)域表示未指派語(yǔ)義標(biāo)簽的像素,這些像素點(diǎn)不參與訓(xùn)練)。由于在生成的segmentation mask中包含了一些噪聲區(qū)域和未被標(biāo)注的區(qū)域,為了更加有效地訓(xùn)練,我們提出了一種PSL(Prohibitive Segmentation Learning)方法訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò),如圖7。該方法引入了一個(gè)多標(biāo)簽分類(lèi)的分支用于在線預(yù)測(cè)圖像包含各個(gè)類(lèi)別的概率值,這些概率被用來(lái)調(diào)整語(yǔ)義分割分支中每個(gè)像素屬于各個(gè)類(lèi)別的概率,并在線生成額外的segmentation mask作為監(jiān)督信息。由于圖像級(jí)的多標(biāo)簽分類(lèi)往往具有較高的準(zhǔn)確性,PSL方法可以利用分類(lèi)信息來(lái)抑制分割圖中的true negative區(qū)域。隨著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)的語(yǔ)義分割能力也會(huì)越來(lái)越強(qiáng),繼而在線生成的segmentation mask的質(zhì)量也會(huì)提升,從而提供更加準(zhǔn)確的監(jiān)督信息。
圖7
本文提出的對(duì)抗擦除和PSL方法,在Pascal VOC 2012數(shù)據(jù)集上獲得了目前最好的分割結(jié)果。部分測(cè)試圖片上也達(dá)到了令人滿意的分割結(jié)果。
文章鏈接:https://arxiv.org/pdf/1703.08448.pdf
Reference
[1] B. Zhou, etc. Learning Deep Features for Discriminative localization. CVPR, 2016.
[2] J. Zhang, etc. Top-down Neural Attention by Excitation Backprop. ECCV, 2016.
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。