0
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Review: SegNet (Semantic Segmentation)
作者 | SH Tsang
翻譯 | 斯蒂芬?二狗子
校對 | 醬番梨 審核 | 約翰遜 · 李加薪 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/review-segnet-semantic-segmentation-e66f2e30fb96
這個(gè)圖是SegNet演示效果,來源是作者上傳到Y(jié)ouTube的一個(gè)視頻 (https://www.youtube.com/watch?v=CxanE_W46ts)
在本文中,我將簡要回顧劍橋大學(xué)的SegNet。最初它被提交到2015年CVPR,但最后它沒有在CVPR上發(fā)布(但它的2015年arXiv技術(shù)報(bào)告版本仍然有超過100次引用)。相反,它發(fā)布于2017年TPAMI,引用次數(shù)超過1800次。現(xiàn)在,第一作者成為Magic Leap Inc.的深度學(xué)習(xí)和人工智能總監(jiān)(SH Tsang @ Medium)
以下是作者的演示鏈接:
(https://www.youtube.com/watch?v=CxanE_W46ts)
還有一個(gè)有趣的演示,我們可以選擇隨機(jī)圖像,甚至上傳我們自己的圖像來試用SegNet。我試過如下例子:
http://mi.eng.cam.ac.uk/projects/segnet/demo.php
我從這個(gè)鏈接得到的道路場景圖像的分割結(jié)果
文章大綱
編碼-解碼器架構(gòu)
DeconvNet 和 U-Net與的不同之處
結(jié)論
SegNet: 編碼-解碼結(jié)構(gòu)
SegNet具有編碼器網(wǎng)絡(luò)和相應(yīng)的解碼器網(wǎng)絡(luò),接著是按最終像素的分類層。
1.1. Encoder編碼器
在編碼器處,執(zhí)行卷積和最大池化。
VGG-16有13個(gè)卷積層。 (不用全連接的層)
在進(jìn)行2×2最大池化時(shí),存儲(chǔ)相應(yīng)的最大池化索引(位置)。
1.2. Decoder解碼器
使用最大池化的索引進(jìn)行上采樣
在解碼器處,執(zhí)行上采樣和卷積。最后,每個(gè)像素送到softmax分類器。
在上采樣期間,如上所示,調(diào)用相應(yīng)編碼器層處的最大池化索引以進(jìn)行上采樣。
最后,使用K類softmax分類器來預(yù)測每個(gè)像素的類別。
DeconvNet和U-Net具有與SegNet類似的結(jié)構(gòu)。
2.1. DeconvNet 與 SegNet不同之處
Similar upsampling approach called unpooling is used.使用了類似的上采樣方法,稱為unpooling 反池化。
不同,有完全連接的層,這使模型規(guī)模更大。
2.2. U-Net 與 SegNet不同之處
用于生物醫(yī)學(xué)圖像分割。
整個(gè)特征映射不是使用池化索引,而是從編碼器傳輸?shù)浇獯a器,然后使用concatenation串聯(lián)來執(zhí)行卷積。
這使模型更大,需要更多內(nèi)存
嘗試了兩個(gè)數(shù)據(jù)集。一個(gè)是用于道路場景分割的CamVid數(shù)據(jù)集。一個(gè)是用于室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集。
3.1. 用于道路場景分割的CamVid數(shù)據(jù)集
道路場景分割的CamVid數(shù)據(jù)集上,與傳統(tǒng)方法相互比較
如上所示,SegNet在多類分割問題上獲得了非常好的結(jié)果。它也獲得了最高級別的類平均值和全局平均值。
道路場景分割的CamVid數(shù)據(jù)集上,與深度學(xué)習(xí)方法相比較
獲得最高的全局平均準(zhǔn)確度(G),類別平均準(zhǔn)確度(C),mIOU和邊界F1測量(BF)。它的結(jié)果優(yōu)于FCN,DeepLabv1和DeconvNet。
定性結(jié)果
3.2. 用于室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集
僅使用RGB,不使用深度(D)信息。
在室內(nèi)場景分割的SUN RGB-D數(shù)據(jù)集,與深度學(xué)習(xí)方法比較
同樣,SegNet優(yōu)于FCN,DeconvNet和DeepLabv1。
對于mIOU指標(biāo),SegNet只比DeepLabv1略差一些。
不同類的類平均準(zhǔn)確度
大尺寸目標(biāo)的準(zhǔn)確度更高。
小尺寸目標(biāo)的準(zhǔn)確度較低。
定性分析結(jié)果
3.3. 內(nèi)存和推斷時(shí)間
內(nèi)存和推斷時(shí)間
SegNet比FCN和DeepLabv1慢,因?yàn)镾egNet包含解碼器架構(gòu)。它比DeconvNet更快,因?yàn)樗鼪]有全連接層。
SegNet在訓(xùn)練和測試期間的內(nèi)存要求都很低。并且模型尺寸比FCN和DeconvNet小得多。
參考文獻(xiàn)
[2015 arXiv] [SegNet]
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling
[2017 TPAMI] [SegNet]
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【一文帶你讀懂SegNet(語義分割)】或長按下方地址:
https://ai.yanxishe.com/page/TextTranslation/1532
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
李飛飛主講王牌課程,計(jì)算機(jī)視覺的深化課程,神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,涵蓋圖像分類、定位、檢測等視覺識別任務(wù),以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無人駕駛飛機(jī)和自動(dòng)駕駛汽車領(lǐng)域的前沿應(yīng)用。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/19
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。