ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

本文作者： AI研習(xí)社-譯站

2019-03-18 10:44

導(dǎo)語：在本文，我們ResNet進行了回顧。通過學(xué)習(xí)殘差表征函數(shù)而不是直接學(xué)習(xí)目標(biāo)表征，ResNet可以擁有多達152層的非常深的網(wǎng)絡(luò)。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Review: ResNet?—?Winner of ILSVRC 2015 (Image Classification, Localization, Detection)
作者 | SH Tsang
翻譯 | 斯蒂芬二狗子
校對 | 醬番梨審核 | 約翰遜·李加薪整理 | 立魚王
原文鏈接：
https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8

在本文，我們ResNet進行了回顧。通過學(xué)習(xí)殘差表征函數(shù)而不是直接學(xué)習(xí)目標(biāo)表征，ResNet可以擁有多達152層的非常深的網(wǎng)絡(luò)。

ResNet引入了跳過連接（或快捷方式連接）以適應(yīng)從前一層到下一層的輸入，而無需修改輸入。跳過連接可以實現(xiàn)更深入的網(wǎng)絡(luò)，最終ResNet成為ILSVRC 2015在圖像分類，檢測和定位方面的贏家，和MS COCO 2015檢測和分割的獲勝者。

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

ILSVRC 2015圖像分類排名

ImageNet是一個包含超過1500萬個標(biāo)記的高分辨率圖像的數(shù)據(jù)集，包含大約22,000個類別。 ILSVRC在1000個類別中的每一個中使用大約1000個圖像的ImageNet子集?？偣灿写蠹s120萬個訓(xùn)練圖像，50,000個驗證圖像和100,000個測試圖像。

本文涉及

普通網(wǎng)絡(luò)的存在的問題（梯度消失/梯度爆炸）
殘差網(wǎng)絡(luò)中的跳躍/短連接（ResNet）
ResNet架構(gòu)
瓶頸Bottleneck的設(shè)計
消融研究（實驗對比）
與最新方法的比較（圖像分類）
與最新方法的比較（目標(biāo)檢測）

1、普通網(wǎng)絡(luò)的存在的問題

對于傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)，它們通常具有卷積層，完全連接（FC）層，用于分類任務(wù)，如AlexNet，ZFNet和VGGNet，沒有任何跳躍/短連接，我們稱之為普通網(wǎng)絡(luò)。當(dāng)普通網(wǎng)絡(luò)更深（層數(shù)增加）時，會出現(xiàn)梯度消失/梯度爆炸的問題。

Vanishing / Exploding Gradients 梯度消失/爆炸

在反向傳播期間，當(dāng)誤差函數(shù)相對于每次訓(xùn)練迭代中的當(dāng)前權(quán)重的求偏導(dǎo)數(shù)時，通過n層網(wǎng)絡(luò)會導(dǎo)致將這些小/大梯度數(shù)值被乘上n倍的梯度效果。

當(dāng)網(wǎng)絡(luò)很深時，這些小數(shù)字乘n變成零（消失）。

當(dāng)網(wǎng)絡(luò)很深時，這些大數(shù)的乘n變得特別大（爆炸）。
我們一般會期望更深的網(wǎng)絡(luò)有更準(zhǔn)確的預(yù)測。但是，下面一個反例說明，20層普通網(wǎng)絡(luò)比56層普通網(wǎng)絡(luò)具有更低的訓(xùn)練誤差和測試誤差，這是梯度消失而出現(xiàn)性能退化問題。

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

CIFAR-10數(shù)據(jù)集的普通網(wǎng)絡(luò)

2、殘差網(wǎng)絡(luò)中的跳躍/短連接（ResNet）

為了解決消失/爆炸梯度的問題，添加了跳躍/短連接 skip / shortcut 在幾個權(quán)重層之后將輸入x加到輸出上，如下所示：

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

殘余網(wǎng)絡(luò)的構(gòu)建模塊

因此，輸出H(x)= F(x) + x。

權(quán)重層實際上是學(xué)習(xí)一種殘差映射：F(x)=H(x)-x

（反向傳播時）即使權(quán)重層有梯度消失現(xiàn)象，我們?nèi)匀豢偸菍轉(zhuǎn)移回較早的層。

3、ResNet架構(gòu)

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

具有跳躍/短連接的34層ResNet（頂部），34層普通網(wǎng)絡(luò)（中部），19層VGG-19（底部）

上圖顯示了ResNet架構(gòu)。

VGG-19 [2]（底部）是ILSVRC 2014中最先進的方法。
34層普通網(wǎng)絡(luò)（中間）被視為比VGG-19的更深的網(wǎng)絡(luò)，即更多卷積層。
34層剩余網(wǎng)絡(luò)（ResNet）（頂部）是普通網(wǎng)絡(luò)添加了跳躍/短連接

對于ResNet構(gòu)建模塊，當(dāng)輸入尺寸小于輸出尺寸時，有3種類型的跳躍/短連接。

（A）短連接Shortcut執(zhí)行映射恒等映射(identity mapping)，使用額外的零填充zero padding來增加維度。因此沒有額外增加參數(shù)。

（B）一個投影短連接projection shortcut僅用于增加尺寸，其他短連接shortcut還是恒等的連接。網(wǎng)絡(luò)需要額外的參數(shù)。

（C）所有短連接都是投影連接。額外需要的參數(shù)多于（B）。

4、瓶頸Bottleneck的設(shè)計

由于現(xiàn)在網(wǎng)絡(luò)很深，時間復(fù)雜度很高。瓶頸Bottleneck設(shè)計用于降低復(fù)雜性，如下所示：

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

基本塊（左）和論文所提出的瓶頸塊設(shè)計（右）

如圖（右）所示，1×1轉(zhuǎn)換層被添加到網(wǎng)絡(luò)的開始和結(jié)束。這是Network In Network和GoogLeNet（Inception-v1）中建議的技術(shù)。事實證明，1×1轉(zhuǎn)換可以減少連接數(shù)（參數(shù)），同時不會降低網(wǎng)絡(luò)性能。（如果感興趣，請訪問我的評論。）

用瓶頸模塊，34層ResNet成為50層ResNet。而且文章還給出更深層的網(wǎng)絡(luò)與瓶頸設(shè)計：ResNet-101和ResNet-152。所有網(wǎng)絡(luò)的整體架構(gòu)如下：

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

所有網(wǎng)絡(luò)的整體架構(gòu)

值得注意的是，VGG-16/19有15.3 / 196億FLOPS。 ResNet-152的復(fù)雜程度仍低于VGG-16/19 !!!!

5、消融實驗

5.1 傳統(tǒng)網(wǎng)絡(luò) VS 殘差網(wǎng)絡(luò)

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

驗證錯誤率：18層和34層普通網(wǎng)絡(luò)（左），18層和34層ResNet（右）

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

使用10種作物測試的Top-1錯誤率

當(dāng)使用普通網(wǎng)絡(luò)時，由于梯度消失問題，18層優(yōu)于34層。

當(dāng)使用ResNet時，34層優(yōu)于18層，消失梯度問題已通過跳過連接解決。

如果我們比較18層普通網(wǎng)絡(luò)和18層ResNet，沒有太大區(qū)別。這是因為淺層網(wǎng)絡(luò)不會出現(xiàn)消失梯度問題。

6、與最先進方法的比較（圖像分類）

6.1 ILSVRC 數(shù)據(jù)

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

10種作物測試結(jié)果

通過比較ResNet-34 A，B和C，得出B略好于A，C略好于B，這是因為B引入了額外的參數(shù)。ResNet-A,B,C都獲得了大約7％的錯誤率。

通過將網(wǎng)絡(luò)深度增加到152層，獲得5.71％的Top5錯誤率，這比VGG-16，GoogLeNet（Inception-v1）和PReLU-Net好得多。

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

多尺度信息全卷積網(wǎng)絡(luò)在10種作物數(shù)據(jù)的測試結(jié)果

此時，ResNet-152可以獲得4.49％的錯誤率。

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

10種作物測試+全卷積網(wǎng)絡(luò)，具有多尺度信息+ 6模型集成的結(jié)果

增加了6種模型的集成后，錯誤率為3.57％。

6.2 CIFAR-10 數(shù)據(jù)集

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

CIFAR-10 結(jié)果

通過跳過連接，我們可以建立更深的模型。然而，當(dāng)層數(shù)從110到1202時，發(fā)現(xiàn)錯誤率從6.43％增加到7.93％，這扔為本文中的一個未決問題。然而，ResNet-1202沒有優(yōu)化難度，即它仍然可以收斂。

7、與最先進方法（物體檢測）的比較

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

PASCAL VOC 2007/2012 數(shù)據(jù) mAP (%)

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）

MS COCO mAP (%)

通過將ResNet-101用于faster R-CNN [3-4]，ResNet獲得了比VGG-16更好的性能。
ResNet最終贏得了ImageNet檢測，定位，COCO檢測和COCO分割的第一名！

相關(guān)文獻

[2016 CVPR] [ResNet]
Deep Residual Learning for Image Recognition

[2015 ICLR] [VGGNet]
Very Deep Convolutional Networks for Large-Scale Image Recognition

[2015 NIPS] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[2017 TPAMI] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

我的評論文

Review: Faster R-CNN (Object Detection)

Review: Batch Normalization (Inception-v2 / BN-Inception) -The 2nd to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)

Review: PReLU-Net, The First to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)

Review: GoogLeNet (Inception v1)?—?Winner of ILSVRC 2014 (Image Classification)

Review: VGGNet?—?1st Runner-Up (Image Classification), Winner (Localization) in ILSVRC 2014

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻？

點擊【ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）】或長按下方地址：

https://ai.yanxishe.com/page/TextTranslation/1525

AI研習(xí)社今日推薦：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

李飛飛主講王牌課程，計算機視覺的深化課程，神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的應(yīng)用，涵蓋圖像分類、定位、檢測等視覺識別任務(wù)，以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無人駕駛飛機和自動駕駛汽車領(lǐng)域的前沿應(yīng)用。

加入小組免費觀看視頻：https://ai.yanxishe.com/page/groupDetail/19

ResNet - 2015年 ILSVRC 的贏家（圖像分類，定位及檢測）