0
本文作者: AI研習(xí)社-譯站 | 2019-03-18 10:44 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Review: ResNet?—?Winner of ILSVRC 2015 (Image Classification, Localization, Detection)
作者 | SH Tsang
翻譯 | 斯蒂芬二狗子
校對(duì) | 醬番梨 審核 | 約翰遜·李加薪 整理 | 立魚(yú)王
原文鏈接:
https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8
在本文,我們ResNet進(jìn)行了回顧。通過(guò)學(xué)習(xí)殘差表征函數(shù)而不是直接學(xué)習(xí)目標(biāo)表征,ResNet可以擁有多達(dá)152層的非常深的網(wǎng)絡(luò)。
ResNet引入了跳過(guò)連接(或快捷方式連接)以適應(yīng)從前一層到下一層的輸入,而無(wú)需修改輸入。跳過(guò)連接可以實(shí)現(xiàn)更深入的網(wǎng)絡(luò),最終ResNet成為ILSVRC 2015在圖像分類,檢測(cè)和定位方面的贏家,和MS COCO 2015檢測(cè)和分割的獲勝者。
ILSVRC 2015圖像分類排名
ImageNet是一個(gè)包含超過(guò)1500萬(wàn)個(gè)標(biāo)記的高分辨率圖像的數(shù)據(jù)集,包含大約22,000個(gè)類別。 ILSVRC在1000個(gè)類別中的每一個(gè)中使用大約1000個(gè)圖像的ImageNet子集??偣灿写蠹s120萬(wàn)個(gè)訓(xùn)練圖像,50,000個(gè)驗(yàn)證圖像和100,000個(gè)測(cè)試圖像。
普通網(wǎng)絡(luò)的存在的問(wèn)題(梯度消失/梯度爆炸)
殘差網(wǎng)絡(luò)中的跳躍/短連接(ResNet)
ResNet架構(gòu)
瓶頸Bottleneck的設(shè)計(jì)
消融研究(實(shí)驗(yàn)對(duì)比)
與最新方法的比較(圖像分類)
與最新方法的比較(目標(biāo)檢測(cè))
對(duì)于傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò),它們通常具有卷積層,完全連接(FC)層,用于分類任務(wù),如AlexNet,ZFNet和VGGNet,沒(méi)有任何跳躍/短連接,我們稱之為普通網(wǎng)絡(luò)。當(dāng)普通網(wǎng)絡(luò)更深(層數(shù)增加)時(shí),會(huì)出現(xiàn)梯度消失/梯度爆炸的問(wèn)題。
Vanishing / Exploding Gradients 梯度消失/爆炸
在反向傳播期間,當(dāng)誤差函數(shù)相對(duì)于每次訓(xùn)練迭代中的當(dāng)前權(quán)重的求偏導(dǎo)數(shù)時(shí),通過(guò)n層網(wǎng)絡(luò)會(huì)導(dǎo)致將這些小/大梯度數(shù)值被乘上n倍的梯度效果。
當(dāng)網(wǎng)絡(luò)很深時(shí),這些小數(shù)字乘n變成零(消失)。
當(dāng)網(wǎng)絡(luò)很深時(shí),這些大數(shù)的乘n變得特別大(爆炸)。
我們一般會(huì)期望更深的網(wǎng)絡(luò)有更準(zhǔn)確的預(yù)測(cè)。但是,下面一個(gè)反例說(shuō)明,20層普通網(wǎng)絡(luò)比56層普通網(wǎng)絡(luò)具有更低的訓(xùn)練誤差和測(cè)試誤差,這是梯度消失而出現(xiàn)性能退化問(wèn)題。
CIFAR-10數(shù)據(jù)集的普通網(wǎng)絡(luò)
為了解決消失/爆炸梯度的問(wèn)題,添加了 跳躍/短連接 skip / shortcut 在幾個(gè)權(quán)重層之后將輸入x加到輸出上,如下所示:
殘余網(wǎng)絡(luò)的構(gòu)建模塊
因此,輸出H(x)= F(x) + x。
權(quán)重層實(shí)際上是學(xué)習(xí)一種殘差映射:F(x)=H(x)-x
( 反向傳播時(shí))即使權(quán)重層有梯度消失現(xiàn)象,我們?nèi)匀豢偸菍轉(zhuǎn)移回較早的層。
具有跳躍/短連接的34層ResNet(頂部),34層普通網(wǎng)絡(luò)(中部),19層VGG-19(底部)
上圖顯示了ResNet架構(gòu)。
VGG-19 [2](底部)是ILSVRC 2014中最先進(jìn)的方法。
34層普通網(wǎng)絡(luò)(中間)被視為比VGG-19的更深的網(wǎng)絡(luò),即更多卷積層。
34層剩余網(wǎng)絡(luò)(ResNet)(頂部)是普通網(wǎng)絡(luò)添加了跳躍/短連接
對(duì)于ResNet構(gòu)建模塊,當(dāng)輸入尺寸小于輸出尺寸時(shí),有3種類型的 跳躍/短連接。
(A)短連接Shortcut執(zhí)行映射恒等映射(identity mapping),使用額外的零填充zero padding來(lái)增加維度。因此沒(méi)有額外增加參數(shù)。
(B)一個(gè)投影短連接projection shortcut僅用于增加尺寸,其他短連接shortcut還是恒等的連接。網(wǎng)絡(luò)需要額外的參數(shù)。
(C)所有短連接都是投影連接。額外需要的參數(shù)多于(B)。
由于現(xiàn)在網(wǎng)絡(luò)很深,時(shí)間復(fù)雜度很高。瓶頸Bottleneck設(shè)計(jì)用于降低復(fù)雜性,如下所示:
基本塊(左)和論文所提出的瓶頸塊設(shè)計(jì)(右)
如圖(右)所示,1×1轉(zhuǎn)換層被添加到網(wǎng)絡(luò)的開(kāi)始和結(jié)束。這是Network In Network和GoogLeNet(Inception-v1)中建議的技術(shù)。事實(shí)證明,1×1轉(zhuǎn)換可以減少連接數(shù)(參數(shù)),同時(shí)不會(huì)降低網(wǎng)絡(luò)性能。 (如果感興趣,請(qǐng)?jiān)L問(wèn)我的評(píng)論。)
用瓶頸模塊,34層ResNet成為50層ResNet。而且文章還給出更深層的網(wǎng)絡(luò)與瓶頸設(shè)計(jì):ResNet-101和ResNet-152。所有網(wǎng)絡(luò)的整體架構(gòu)如下:
所有網(wǎng)絡(luò)的整體架構(gòu)
值得注意的是,VGG-16/19有15.3 / 196億FLOPS。 ResNet-152的復(fù)雜程度仍低于VGG-16/19 !!!!
5.1 傳統(tǒng)網(wǎng)絡(luò) VS 殘差網(wǎng)絡(luò)
驗(yàn)證錯(cuò)誤率:18層和34層普通網(wǎng)絡(luò)(左),18層和34層ResNet(右)
使用10種作物測(cè)試的Top-1錯(cuò)誤率
當(dāng)使用普通網(wǎng)絡(luò)時(shí),由于梯度消失問(wèn)題,18層優(yōu)于34層。
當(dāng)使用ResNet時(shí),34層優(yōu)于18層,消失梯度問(wèn)題已通過(guò)跳過(guò)連接解決。
如果我們比較18層普通網(wǎng)絡(luò)和18層ResNet,沒(méi)有太大區(qū)別。這是因?yàn)闇\層網(wǎng)絡(luò)不會(huì)出現(xiàn)消失梯度問(wèn)題。
6.1 ILSVRC 數(shù)據(jù)
10種作物測(cè)試結(jié)果
通過(guò)比較ResNet-34 A,B和C,得出B略好于A,C略好于B,這是因?yàn)锽引入了額外的參數(shù)。ResNet-A,B,C都獲得了大約7%的錯(cuò)誤率。
通過(guò)將網(wǎng)絡(luò)深度增加到152層,獲得5.71%的Top5錯(cuò)誤率,這比VGG-16,GoogLeNet(Inception-v1)和PReLU-Net好得多。
多尺度信息全卷積網(wǎng)絡(luò)在10種作物數(shù)據(jù)的測(cè)試結(jié)果
此時(shí),ResNet-152可以獲得4.49%的錯(cuò)誤率。
10種作物測(cè)試+全卷積網(wǎng)絡(luò),具有多尺度信息+ 6模型集成的結(jié)果
增加了6種模型的集成后,錯(cuò)誤率為3.57%。
6.2 CIFAR-10 數(shù)據(jù)集
CIFAR-10 結(jié)果
通過(guò)跳過(guò)連接,我們可以建立更深的模型。然而,當(dāng)層數(shù)從110到1202時(shí),發(fā)現(xiàn)錯(cuò)誤率從6.43%增加到7.93%,這扔為本文中的一個(gè)未決問(wèn)題。然而,ResNet-1202沒(méi)有優(yōu)化難度,即它仍然可以收斂。
PASCAL VOC 2007/2012 數(shù)據(jù) mAP (%)
MS COCO mAP (%)
通過(guò)將ResNet-101用于faster R-CNN [3-4],ResNet獲得了比VGG-16更好的性能。
ResNet最終贏得了ImageNet檢測(cè),定位,COCO檢測(cè)和COCO分割的第一名!
[2016 CVPR] [ResNet]
Deep Residual Learning for Image Recognition
[2015 ICLR] [VGGNet]
Very Deep Convolutional Networks for Large-Scale Image Recognition
[2015 NIPS] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
[2017 TPAMI] [Faster R-CNN]
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
我的評(píng)論文
Review: Faster R-CNN (Object Detection)
Review: Batch Normalization (Inception-v2 / BN-Inception) -The 2nd to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)
Review: PReLU-Net, The First to Surpass Human-Level Performance in ILSVRC 2015 (Image Classification)
Review: GoogLeNet (Inception v1)?—?Winner of ILSVRC 2014 (Image Classification)
Review: VGGNet?—?1st Runner-Up (Image Classification), Winner (Localization) in ILSVRC 2014
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【ResNet - 2015年 ILSVRC 的贏家(圖像分類,定位及檢測(cè))】或長(zhǎng)按下方地址:
https://ai.yanxishe.com/page/TextTranslation/1525
AI研習(xí)社今日推薦:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
李飛飛主講王牌課程,計(jì)算機(jī)視覺(jué)的深化課程,神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,涵蓋圖像分類、定位、檢測(cè)等視覺(jué)識(shí)別任務(wù),以及其在搜索、圖像理解、應(yīng)用、地圖繪制、醫(yī)學(xué)、無(wú)人駕駛飛機(jī)和自動(dòng)駕駛汽車領(lǐng)域的前沿應(yīng)用。
加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/19
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。