0
本文作者: AI研習(xí)社-譯站 | 2019-04-03 10:37 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Review: DilatedNet?—?Dilated Convolution (Semantic Segmentation)
作者 | Sik-Ho Tsang
翻譯 | 斯蒂芬·二狗子
校對(duì) | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/review-dilated-convolution-semantic-segmentation-9d5a5bd768f5
注:本文的相關(guān)鏈接請(qǐng)?jiān)L問文末【閱讀原文】
這次,對(duì)來自普林斯頓大學(xué)和英特爾實(shí)驗(yàn)室的Dilated Convolution一文進(jìn)行了簡要回顧。擴(kuò)張卷積的思想來自小波分解。它也被稱為“atrous convolution”,“algorithmeàtrous”和“hole algorithm”。因此,如果我們能夠?qū)⑺鼈冝D(zhuǎn)變?yōu)樯疃葘W(xué)習(xí)框架,那么可以認(rèn)為過去的任何想法仍然是有用的。
當(dāng)我寫這篇故事時(shí),這個(gè)擴(kuò)張卷積已經(jīng)在2016年ICLR上發(fā)表,引用超過1000次。(SH Tsang @ Medium)
涉及的內(nèi)容
擴(kuò)張卷積
多尺度上下文聚合(上下文模塊)
結(jié)果
標(biāo)準(zhǔn)卷積(左),擴(kuò)張卷積(右)
左邊是標(biāo)準(zhǔn)卷積。正確的是擴(kuò)張卷積。我們可以看到,在求和時(shí),s+lt=p 我們將在卷積期間跳過一些點(diǎn)。
當(dāng) l = 1時(shí),它是標(biāo)準(zhǔn)卷積。
當(dāng) l > 1時(shí),它是擴(kuò)張的卷積。
標(biāo)準(zhǔn)卷積(l = 1)
擴(kuò)張卷積(l = 2)
上面給出了當(dāng)l = 2 時(shí)擴(kuò)張卷積的一個(gè)例子 。我們可以看到,與標(biāo)準(zhǔn)卷積相比,感受野更大。
l = 1(左),l = 2(中),l = 4(右)
上圖顯示了有關(guān)感受野的三個(gè)示例。
基于擴(kuò)張卷積來構(gòu)建的上下文模塊Context Module,如下所示:
基礎(chǔ)的上下文模塊,和大的上下文模塊
如圖,context module有7層,這些層采用不同擴(kuò)張率的3×3 kernel size 的擴(kuò)張卷積,擴(kuò)張的率分別為1,1,2,4,8,16,1。
最后一層用了一個(gè)1×1的卷積,將通道數(shù)映射為與輸入通道數(shù)相同大小。因此,輸入和輸出具有相同數(shù)量的通道。它可以插入到不同類型的卷積神經(jīng)網(wǎng)絡(luò)中。
基本上下文模塊basic context module在整個(gè)模塊中僅有1個(gè)通道(1C,1 channel),而大上下文模塊large context module從1C 作為輸入到第7層的32C的通道數(shù)。
VGG-16 作為一個(gè)前端模塊(預(yù)訓(xùn)練)。刪除了最后的兩個(gè)池化層和striding 層,并將context上下文模塊插入其中。中間的特征圖的padding也被移除了。作者只是對(duì)輸入的特征圖加了一個(gè)寬度為33的padding。Zero Padding (填充0)和 reflection padding(使用輸入邊界的反射填充,一種padding方式)在我們的實(shí)驗(yàn)中得出了類似的結(jié)果。此外,使用輸入和輸出的通道channels的數(shù)量的權(quán)重來初始化的方式代替標(biāo)準(zhǔn)隨機(jī)初始化模型參數(shù)。
PASCAL VOC 2012 測(cè)試集
與原作者訓(xùn)練的公共模型相比,擴(kuò)張卷積方法在測(cè)試集上的性能優(yōu)于FCN-8s 模型 和 DeepLabv1 模型 約5個(gè)百分點(diǎn)。
獲得了67.6%的mean IoU(平均交并比)
PASCAL VOC 2012 驗(yàn)證集
通過對(duì)來自 微軟-COCO數(shù)據(jù)集 的圖像進(jìn)行訓(xùn)練,如上所示,對(duì)擴(kuò)張卷積本身進(jìn)行消融實(shí)驗(yàn)研究。
Front end:前端模塊
Basic:基本上下文模塊
Large:大型上下文模塊
CRF:使用DeepLabv1和 DeepLabv2中 提到的條件隨機(jī)場(chǎng)的對(duì)模型輸做處理步驟
RNN:通過遞歸神經(jīng)網(wǎng)絡(luò)使用條件隨機(jī)場(chǎng)的后處理步驟
我們可以看到采用擴(kuò)張卷積(basic 或 large)總能改善結(jié)果,并且還可以繼續(xù)使用其他后續(xù)處理步驟,如CRF。
獲得了73.9%的mean IoU(平均交并比)
PASCAL VOC 2012 測(cè)試集
上表中的前端模塊也是通過對(duì)來自Microsoft COCO數(shù)據(jù)集進(jìn)行訓(xùn)練而獲得的。使用CRF-RNN(即上表中的RNN),獲得75.3%的平均IoU。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
PASCAL VOC 2012
所有模型都使用 VGG-16 進(jìn)行特征提取,使用擴(kuò)張卷積在分割結(jié)果上具有更好的效果
PASCAL VOC 2012
使用CRF-RNN作為后面的處理步驟,以獲得了更好的結(jié)果。但CRF-RNN使得該過程不是端到端的學(xué)習(xí)。
失敗案例
如上所示的一些模型分割出錯(cuò)的情況,當(dāng)對(duì)象被遮擋時(shí),分割出錯(cuò)。
在附錄中給出不同的數(shù)據(jù)集的測(cè)試結(jié)果,即CamVid,KITTI和Cityscapes,請(qǐng)隨時(shí)閱讀本文。他們還發(fā)布了應(yīng)用擴(kuò)張卷積的殘差網(wǎng)絡(luò)Dilated Residual Networks。希望我能在將來寫到它。:)
[2016 ICLR] [Dilated Convolutions]
Multi-Scale Context Aggregation by Dilated Convolutions
[ VGGNet ] [ FCN ] [ DeconvNet ] [ DeepLabv1和DeepLabv2 ]
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【DilatedNet - 擴(kuò)張卷積(語義分割)】即可訪問:
https://ai.yanxishe.com/page/TextTranslation/1538
機(jī)器學(xué)習(xí)大禮包
限時(shí)免費(fèi)\18本經(jīng)典書籍/Stanford經(jīng)典教材+論文
點(diǎn)擊鏈接即可獲?。?/span>
https://ai.yanxishe.com/page/resourceDetail/574
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。