ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)

本文作者： AI研習(xí)社-譯站

2019-02-26 10:11

導(dǎo)語：ENet（高效神經(jīng)網(wǎng)絡(luò)）提供了實(shí)時(shí)按像素進(jìn)行語義分割的能力。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
ENet?—?A Deep Neural Architecture for Real-Time Semantic Segmentation
作者 | Arunava
翻譯 | callofduty890
校對(duì) | 醬番梨審核 | Pita 整理 | 立魚王
原文鏈接：
https://towardsdatascience.com/enet-a-deep-neural-architecture-for-real-time-semantic-segmentation-2baa59cf97e9

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)

Fig 1. A conversation between a semantic segmented guy and a toon

這是該論文的論文摘要：

ENet：用于實(shí)時(shí)語義分割的深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)

作者：Adam Paszke

論文：https://arxiv.org/abs/1606.02147

概論

ENet（高效神經(jīng)網(wǎng)絡(luò)）提供了實(shí)時(shí)按像素進(jìn)行語義分割的能力。 ENet的速度提高了18倍，F(xiàn)LOP要求減少了75倍，參數(shù)減少了79倍，并且為現(xiàn)有模型提供了類似或更好的精度。在CamVid，CityScapes和SUN數(shù)據(jù)集上測(cè)試。

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)

方法：

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)

圖3. ENet架構(gòu)

以上是完整的網(wǎng)絡(luò)架構(gòu)。

它分為幾個(gè)階段，由表格中的水平線和每個(gè)塊名稱后的第一個(gè)數(shù)字突出顯示。
報(bào)告輸出尺寸為輸入圖像分辨率512 * 512

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)

圖4. ENet的每個(gè)模塊都有詳細(xì)說明

視覺表現(xiàn)：

- 初始模塊是（a）中所示的模塊
- 并且瓶頸模塊顯示在（b）

每個(gè)瓶頸模塊包括：

- 1x1投影，降低了維度
- 主卷積層（conv）（ - 常規(guī)，擴(kuò)張或完整）（3x3）
- 1x1擴(kuò)展
- 并且它們?cè)谒芯矸e層之間放置批量標(biāo)準(zhǔn)化和PReLU

如果瓶頸模塊是下采樣，則將最大池化層添加到主分支。此外，第一個(gè)1x1投影被替換為2x2卷積，stride = 2。

它們將激活無填充以匹配要素圖的數(shù)量。
conv有時(shí)是不對(duì)稱卷積，即5 * 1和1 * 5卷積的序列。

對(duì)于正則化器，他們使用Spatial Dropout：
- 在瓶頸2.0之前p = 0.01
- 完成之后p = 0.1

所以，

階段1,2,3-編碼器 - 由5個(gè)瓶頸模塊組成（除了階段3沒有下采樣）。
階段4,5-解碼器 - 階段4包含3個(gè)瓶頸，階段5包含2個(gè)瓶頸模塊
接下來是一個(gè)fullconv，它以尺寸輸出最終輸出 - C * 512 * 512，其中C是濾波器的數(shù)量。

還有一些事實(shí)：

- 他們沒有在任何預(yù)測(cè)中使用偏見項(xiàng)
- 在每個(gè)卷積層和激活之間，它們使用批量標(biāo)準(zhǔn)化
- 在解碼器中，MaxPooling被MaxUnpooling取代
- 在解碼器中，Padding被替換為Spatial Convolution而沒有偏差
- 在最后一個(gè)（5.0）上采樣模塊中不使用池化索引
- 網(wǎng)絡(luò)的最后一個(gè)模塊是一個(gè)裸完全卷積，它占據(jù)了處理時(shí)間的大部分解碼器。
- 每個(gè)側(cè)支有一個(gè)空間丟失，第1階段p = 0.01，之后階段p = 0.1。

結(jié)果

對(duì)ENet的表現(xiàn)進(jìn)行了基準(zhǔn)測(cè)試

- CamVid（道路場(chǎng)景）
- CityScapes（道路場(chǎng)景）
- SUN RGB-D（室內(nèi)場(chǎng)景）

使用SegNet [2]作為基線，因?yàn)樗亲羁斓姆指钅Ｐ椭弧?nbsp;使用cuDNN后端使用Torch7庫。

使用NVIDIA Titan X GPU以及NVIDIA TX1嵌入式系統(tǒng)模塊記錄推理速度。輸入圖像大小為640x360，速度超過10fps。

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu) 圖5.使用SegNet作為基線的兩個(gè)不同GPU的推理時(shí)間比較

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu) 圖6. SegNet和ENet的硬件要求

基準(zhǔn)

使用 Adam.ENet非?？焖俚厝诤希诿總€(gè)數(shù)據(jù)集上，使用4個(gè)Titan X GPU，訓(xùn)練只需要3-6個(gè)小時(shí)。

分兩個(gè)階段進(jìn)行：
- 首先，他們訓(xùn)練編碼器對(duì)輸入圖像的下采樣區(qū)域進(jìn)行分類。
- 然后附加解碼器并訓(xùn)練網(wǎng)絡(luò)以執(zhí)行上采樣和像素分類。
學(xué)習(xí)率 - 5e-4
L2重量衰減為2e-4
批量大小為10

自定義類權(quán)重方案定義為

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu) 圖7所示。自定義類權(quán)重方案的公式

其中c = 1.02
并且類權(quán)重被限制在[1,50]的區(qū)間內(nèi)

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu) 圖8. CityScapes數(shù)據(jù)集的性能

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu) 圖9. CamVid數(shù)據(jù)集的性能

參考:

A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint arXiv:1606.02147, 2016.

V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” arXiv preprint arXiv:1511.00561, 2015.

我最近還轉(zhuǎn)載了這篇論文，可以在這里找到:

https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)？

點(diǎn)擊【ENet——一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)】或長(zhǎng)按下方地址訪問：

https://ai.yanxishe.com/page/TextTranslation/1468

AI研習(xí)社今日推薦：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

卡耐基梅隆大學(xué) 2019 春季《神經(jīng)網(wǎng)絡(luò)自然語言處理》是CMU語言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院聯(lián)合開課，主要內(nèi)容是教學(xué)生如何用神經(jīng)網(wǎng)絡(luò)做自然語言處理。神經(jīng)網(wǎng)絡(luò)對(duì)于語言建模任務(wù)而言，可以稱得上是提供了一種強(qiáng)大的新工具，與此同時(shí)，神經(jīng)網(wǎng)絡(luò)能夠改進(jìn)諸多任務(wù)中的最新技術(shù)，將過去不容易解決的問題變得輕松簡(jiǎn)單。

加入小組免費(fèi)觀看視頻：https://ai.yanxishe.com/page/groupDetail/33

ENet?—一種針對(duì)實(shí)時(shí)語義分割的深度神經(jīng)架構(gòu)