0
本文作者: AI研習(xí)社-譯站 | 2019-02-26 10:11 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
ENet?—?A Deep Neural Architecture for Real-Time Semantic Segmentation
作者 | Arunava
翻譯 | callofduty890
校對(duì) | 醬番梨 審核 | Pita 整理 | 立魚王
原文鏈接:
https://towardsdatascience.com/enet-a-deep-neural-architecture-for-real-time-semantic-segmentation-2baa59cf97e9
Fig 1. A conversation between a semantic segmented guy and a toon
這是該論文的論文摘要:
ENet:用于實(shí)時(shí)語(yǔ)義分割的深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)
作者:Adam Paszke
論文:https://arxiv.org/abs/1606.02147
ENet(高效神經(jīng)網(wǎng)絡(luò))提供了實(shí)時(shí)按像素進(jìn)行語(yǔ)義分割的能力。 ENet的速度提高了18倍,F(xiàn)LOP要求減少了75倍,參數(shù)減少了79倍,并且為現(xiàn)有模型提供了類似或更好的精度。 在CamVid,CityScapes和SUN數(shù)據(jù)集上測(cè)試。
圖3. ENet架構(gòu)
以上是完整的網(wǎng)絡(luò)架構(gòu)。
它分為幾個(gè)階段,由表格中的水平線和每個(gè)塊名稱后的第一個(gè)數(shù)字突出顯示。
報(bào)告輸出尺寸為輸入圖像分辨率512 * 512
圖4. ENet的每個(gè)模塊都有詳細(xì)說明
視覺表現(xiàn):
- 初始模塊是(a)中所示的模塊
- 并且瓶頸模塊顯示在(b)
每個(gè)瓶頸模塊包括:
- 1x1投影,降低了維度
- 主卷積層(conv)( - 常規(guī),擴(kuò)張或完整)(3x3)
- 1x1擴(kuò)展
- 并且它們?cè)谒芯矸e層之間放置批量標(biāo)準(zhǔn)化和PReLU
如果瓶頸模塊是下采樣,則將最大池化層添加到主分支。 此外,第一個(gè)1x1投影被替換為2x2卷積,stride = 2。
它們將激活無填充以匹配要素圖的數(shù)量。
conv有時(shí)是不對(duì)稱卷積,即5 * 1和1 * 5卷積的序列。
對(duì)于正則化器,他們使用Spatial Dropout:
- 在瓶頸2.0之前p = 0.01
- 完成之后p = 0.1
所以,
階段1,2,3-編碼器 - 由5個(gè)瓶頸模塊組成(除了階段3沒有下采樣)。
階段4,5-解碼器 - 階段4包含3個(gè)瓶頸,階段5包含2個(gè)瓶頸模塊
接下來是一個(gè)fullconv,它以尺寸輸出最終輸出 - C * 512 * 512,其中C是濾波器的數(shù)量。
還有一些事實(shí):
- 他們沒有在任何預(yù)測(cè)中使用偏見項(xiàng)
- 在每個(gè)卷積層和激活之間,它們使用批量標(biāo)準(zhǔn)化
- 在解碼器中,MaxPooling被MaxUnpooling取代
- 在解碼器中,Padding被替換為Spatial Convolution而沒有偏差
- 在最后一個(gè)(5.0)上采樣模塊中不使用池化索引
- 網(wǎng)絡(luò)的最后一個(gè)模塊是一個(gè)裸完全卷積,它占據(jù)了處理時(shí)間的大部分解碼器。
- 每個(gè)側(cè)支有一個(gè)空間丟失,第1階段p = 0.01,之后階段p = 0.1。
對(duì)ENet的表現(xiàn)進(jìn)行了基準(zhǔn)測(cè)試
- CamVid(道路場(chǎng)景)
- CityScapes(道路場(chǎng)景)
- SUN RGB-D(室內(nèi)場(chǎng)景)
使用SegNet [2]作為基線,因?yàn)樗亲羁斓姆指钅P椭弧?nbsp;使用cuDNN后端使用Torch7庫(kù)。
使用NVIDIA Titan X GPU以及NVIDIA TX1嵌入式系統(tǒng)模塊記錄推理速度。 輸入圖像大小為640x360,速度超過10fps。
圖5.使用SegNet作為基線的兩個(gè)不同GPU的推理時(shí)間比較
圖6. SegNet和ENet的硬件要求
分兩個(gè)階段進(jìn)行:
- 首先,他們訓(xùn)練編碼器對(duì)輸入圖像的下采樣區(qū)域進(jìn)行分類。
- 然后附加解碼器并訓(xùn)練網(wǎng)絡(luò)以執(zhí)行上采樣和像素分類。
學(xué)習(xí)率 - 5e-4
L2重量衰減為2e-4
批量大小為10
自定義類權(quán)重方案定義為
圖7所示。自定義類權(quán)重方案的公式
其中c = 1.02
并且類權(quán)重被限制在[1,50]的區(qū)間內(nèi)
圖8. CityScapes數(shù)據(jù)集的性能
圖9. CamVid數(shù)據(jù)集的性能
A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint arXiv:1606.02147, 2016.
V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” arXiv preprint arXiv:1511.00561, 2015.
我最近還轉(zhuǎn)載了這篇論文,可以在這里找到:
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【ENet——一種針對(duì)實(shí)時(shí)語(yǔ)義分割的深度神經(jīng)架構(gòu)】或長(zhǎng)按下方地址訪問:
https://ai.yanxishe.com/page/TextTranslation/1468
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
卡耐基梅隆大學(xué) 2019 春季《神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理》是CMU語(yǔ)言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院聯(lián)合開課,主要內(nèi)容是教學(xué)生如何用神經(jīng)網(wǎng)絡(luò)做自然語(yǔ)言處理。神經(jīng)網(wǎng)絡(luò)對(duì)于語(yǔ)言建模任務(wù)而言,可以稱得上是提供了一種強(qiáng)大的新工具,與此同時(shí),神經(jīng)網(wǎng)絡(luò)能夠改進(jìn)諸多任務(wù)中的最新技術(shù),將過去不容易解決的問題變得輕松簡(jiǎn)單。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/33
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。