0
本文作者: 叢末 | 2020-04-25 16:22 |
本文解讀的是CVPR2020 接收論文《EfficientDet: Scalable and Efficient Object Detection》,論文作者來(lái)自谷歌團(tuán)隊(duì)。
論文地址:https://arxiv.org/pdf/1911.09070.pdf
開源地址:https://github.com/google/automl/tree/master/efficientdet
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)的核心應(yīng)用之一,在機(jī)器人技術(shù)、無(wú)人駕駛汽車等精度要求高、計(jì)算資源有限的場(chǎng)景中變得越來(lái)越重要。
不幸的是,現(xiàn)有的許多高精度檢測(cè)器還無(wú)法應(yīng)對(duì)這些限制。更重要的是,現(xiàn)實(shí)世界中的目標(biāo)檢測(cè)應(yīng)用程序運(yùn)行在各種平臺(tái)上,往往需要不同的資源。由此自然而然要提出的一個(gè)問(wèn)題是,如何設(shè)計(jì)精確、高效,并且還能夠適用于各類存在資源限制問(wèn)題的場(chǎng)景的目標(biāo)檢測(cè)器?
在CVPR 2020 論文《EfficientDet:可擴(kuò)展、高效的目標(biāo)檢測(cè)》中,谷歌研究者們引入了一系列新的可擴(kuò)展的高效的目標(biāo)檢測(cè)器。EfficientDet 基于此前關(guān)于可擴(kuò)展神經(jīng)網(wǎng)絡(luò)的一項(xiàng)工作EfficientNet,并結(jié)合一種新的雙向特征網(wǎng)絡(luò)BiFPN以及新的擴(kuò)展規(guī)則,在比當(dāng)前最先進(jìn)的檢測(cè)器縮小了9倍以及使用了更少得多的計(jì)算量的同時(shí),實(shí)現(xiàn)了當(dāng)前最高的精度。
下圖為該模型的完整架構(gòu):
EfficientDet 架構(gòu)。EfficientDet 使用EfficientNet作為骨干網(wǎng)絡(luò),并結(jié)合使用了最新提出的BiFPN特征網(wǎng)絡(luò)。
EfficientDet背后的靈感源自谷歌研究者們通過(guò)對(duì)現(xiàn)有最先進(jìn)的檢測(cè)模型進(jìn)行系統(tǒng)研究以找到提高計(jì)算效率的解決方案的嘗試。
一般而言,目標(biāo)檢測(cè)器主要由三個(gè)部分組成:從給定圖像中提取特征的骨干網(wǎng)絡(luò);從骨干網(wǎng)絡(luò)中提取多級(jí)特征作為輸入并輸出一系列表示圖像顯著特征的融合特征的特征網(wǎng)絡(luò);以及使用融合特征預(yù)測(cè)每個(gè)目標(biāo)的類和位置的最終的類/方框網(wǎng)絡(luò)。經(jīng)過(guò)驗(yàn)證這些部分的各種設(shè)計(jì)方式,他們最終確定了提高性能和效率的關(guān)鍵優(yōu)化。
此前的檢測(cè)器主要依靠ResNets、ResNeXt或AmoebaNet作為骨干網(wǎng)絡(luò),然而這些網(wǎng)絡(luò)要么功能較弱,要么效率較低。因此一個(gè)優(yōu)化是,通過(guò)采用EfficientNet作為骨干網(wǎng)絡(luò),以極大地提高效率。例如,從采用ResNet-50作為骨干網(wǎng)絡(luò)的RetinaNet 基準(zhǔn)開始,他們的消融研究表明,近用EfficientNet-B3替代ResNet-50 ,便能夠提高3%的精度,與此同時(shí)還能減少20%的計(jì)算量。
另一個(gè)優(yōu)化是提高特征網(wǎng)絡(luò)的效率。雖然以往的檢測(cè)器大多采用自上而下的特征金字塔網(wǎng)絡(luò)(FPN),但他們發(fā)現(xiàn)自上而下的FPN本質(zhì)上受到單向信息流的限制??商娲鶩PN的網(wǎng)絡(luò) ,比如PANet,添加了一個(gè)額外的自下而上的流,往往要以增加計(jì)算量為代價(jià)。
采用神經(jīng)架構(gòu)搜索(NAS)的嘗試,則找到了更復(fù)雜的NAS-FPN架構(gòu)。然而,這種網(wǎng)絡(luò)架構(gòu)雖然有效,但對(duì)于特定的任務(wù)來(lái)說(shuō),也是不規(guī)則的、高度優(yōu)化的,這使得它很難適應(yīng)其他任務(wù)。
為了解決這些問(wèn)題,他們提出了一種新的雙向特征網(wǎng)絡(luò) BiFPN,該網(wǎng)絡(luò)結(jié)合了FPN、PANet、NAS-FPN的多級(jí)特征融合思想,即使得信息既能夠自上而下,也能夠自下而上地流動(dòng),同時(shí)使用規(guī)則和高效的連接。
BiFPN 和此前的特征網(wǎng)絡(luò)的對(duì)比。BiFPN 允許特征(從低分辨率的P3層到高分辨率的P7層)既能夠自下而上也能夠自上而下地反復(fù)流動(dòng)。
為了進(jìn)一步提高效率,谷歌研究者還提出了一種新的快速歸一化融合技術(shù)。 傳統(tǒng)的方法通常對(duì)輸入到FPN的所有特征一視同仁,即使對(duì)于那些分辨率差別很大的特征亦如是。然而,他們發(fā)現(xiàn)不同分辨率下的輸入特征對(duì)輸出特征的貢獻(xiàn)往往并不相等。
因此,他們?yōu)槊總€(gè)輸入特征添加一個(gè)額外的權(quán)重,并讓網(wǎng)絡(luò)了解每個(gè)特征的重要性。同時(shí),他們也用更便宜些的深度可分離卷積來(lái)代替所有的正則卷積。通過(guò)這些優(yōu)化,BiFPN進(jìn)一步提高了4%的精度,同時(shí)降低了50%的計(jì)算成本。
第三個(gè)優(yōu)化涉及在不同的資源約束下實(shí)現(xiàn)更好的精度和效率權(quán)衡。谷歌研究者此前的相關(guān)工作已經(jīng)表明,聯(lián)合縮放網(wǎng)絡(luò)的深度、寬度和分辨率,可以顯著提高圖像識(shí)別的效率。
受此啟發(fā),他們針對(duì)目標(biāo)檢測(cè)器提出了一種新的復(fù)合縮放方法,它可以聯(lián)合縮放分辨率、深度和寬度。每個(gè)網(wǎng)絡(luò)部分,即骨干網(wǎng)絡(luò)、特征網(wǎng)絡(luò)和邊框/類預(yù)測(cè)網(wǎng)絡(luò),都將擁有一個(gè)單一的復(fù)合縮放因子,該因子使用基于啟發(fā)式的規(guī)則控制所有的縮放維度。這種方法可以通過(guò)計(jì)算給定目標(biāo)資源約束的縮放因子,便能夠輕易地確定如何縮放模型。
結(jié)合新的骨干網(wǎng)絡(luò)和BiFPN,他們首先創(chuàng)建了一個(gè)小尺寸的EfficientDet-D0 基線,然后應(yīng)用復(fù)合縮放法得到了 EfficientDet-D1至D7。每一個(gè)連續(xù)的模型都要花費(fèi)較高的計(jì)算成本,涉及到每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)從30億次到3000億次的各類系統(tǒng)資源限制,并且能提供更高的精度。
他們?cè)谝粋€(gè)廣泛用于目標(biāo)檢測(cè)的基準(zhǔn)數(shù)據(jù)集——COCO數(shù)據(jù)集上對(duì)EfficientDet 進(jìn)行了評(píng)估。其中,EfficientDet-D7的平均精度(mAP)為52.2,比現(xiàn)有最先進(jìn)的模型高出1.5個(gè)點(diǎn),同時(shí)使用的參數(shù)還減少了4倍、計(jì)算量減少了9.4倍。
相同設(shè)置下,EfficientDet 在COCO 測(cè)試集上達(dá)到的最佳精度是52.2mAP,比現(xiàn)有最先進(jìn)的模型高出1.5個(gè)點(diǎn)(3045B FLOPs后的精度未展示)。而在同樣的精度下,EfficientDet 模型比此前的檢測(cè)器,大小上減少了4到9倍,計(jì)算量上減少了13至42倍。
與此同時(shí),他們還比較了EfficientDet和先前模型在參數(shù)大小和CPU/GPU延遲方面的表現(xiàn)。在差不多的精度下,EfficientDet模型在GPU上比其他探測(cè)器快2-4倍,在CPU上比其他探測(cè)器快5-11倍。雖然EfficientDet 模型主要是為目標(biāo)檢測(cè)而設(shè)計(jì)的,但谷歌研究者也檢驗(yàn)了它們?cè)谄渌蝿?wù)(如語(yǔ)義分割)上的性能。
為了執(zhí)行分割任務(wù),他們稍微修改了EfficientDet-D4,將檢測(cè)頭和檢測(cè)的損失函數(shù)替換為分割頭和分割的損失函數(shù),同時(shí)保留了相同大小的骨干網(wǎng)絡(luò)和BiFPN。
此模型與在Pascal VOC 2012(一個(gè)廣泛用于分割基準(zhǔn)的數(shù)據(jù)集)上性能最好的分割模型—— DeepLabV3+ 的比較結(jié)果如下:
在沒(méi)有在COCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的相同設(shè)置下, EfficientDet 在Pascal VOC 2012數(shù)據(jù)集上實(shí)現(xiàn)的性能要高于DeepLabV3+ ,其中計(jì)算量減少了9.8倍。
基于 EfficientDet的表現(xiàn),谷歌研究者表示,希望它能夠作為未來(lái)目標(biāo)檢測(cè)相關(guān)研究工作的新基石,并且有助于研究者開發(fā)出高精度的目標(biāo)檢測(cè)模型,更好地服務(wù)于更多現(xiàn)實(shí)世界的應(yīng)用。
via https://ai.googleblog.com/2020/04/efficientdet-towards-scalable-and.html 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。