0
本文解讀的是CVPR2020 接收論文《EfficientDet: Scalable and Efficient Object Detection》,論文作者來自谷歌團隊。
論文地址:https://arxiv.org/pdf/1911.09070.pdf
開源地址:https://github.com/google/automl/tree/master/efficientdet
目標檢測作為計算機視覺的核心應(yīng)用之一,在機器人技術(shù)、無人駕駛汽車等精度要求高、計算資源有限的場景中變得越來越重要。
不幸的是,現(xiàn)有的許多高精度檢測器還無法應(yīng)對這些限制。更重要的是,現(xiàn)實世界中的目標檢測應(yīng)用程序運行在各種平臺上,往往需要不同的資源。由此自然而然要提出的一個問題是,如何設(shè)計精確、高效,并且還能夠適用于各類存在資源限制問題的場景的目標檢測器?
在CVPR 2020 論文《EfficientDet:可擴展、高效的目標檢測》中,谷歌研究者們引入了一系列新的可擴展的高效的目標檢測器。EfficientDet 基于此前關(guān)于可擴展神經(jīng)網(wǎng)絡(luò)的一項工作EfficientNet,并結(jié)合一種新的雙向特征網(wǎng)絡(luò)BiFPN以及新的擴展規(guī)則,在比當前最先進的檢測器縮小了9倍以及使用了更少得多的計算量的同時,實現(xiàn)了當前最高的精度。
下圖為該模型的完整架構(gòu):
EfficientDet 架構(gòu)。EfficientDet 使用EfficientNet作為骨干網(wǎng)絡(luò),并結(jié)合使用了最新提出的BiFPN特征網(wǎng)絡(luò)。
EfficientDet背后的靈感源自谷歌研究者們通過對現(xiàn)有最先進的檢測模型進行系統(tǒng)研究以找到提高計算效率的解決方案的嘗試。
一般而言,目標檢測器主要由三個部分組成:從給定圖像中提取特征的骨干網(wǎng)絡(luò);從骨干網(wǎng)絡(luò)中提取多級特征作為輸入并輸出一系列表示圖像顯著特征的融合特征的特征網(wǎng)絡(luò);以及使用融合特征預測每個目標的類和位置的最終的類/方框網(wǎng)絡(luò)。經(jīng)過驗證這些部分的各種設(shè)計方式,他們最終確定了提高性能和效率的關(guān)鍵優(yōu)化。
此前的檢測器主要依靠ResNets、ResNeXt或AmoebaNet作為骨干網(wǎng)絡(luò),然而這些網(wǎng)絡(luò)要么功能較弱,要么效率較低。因此一個優(yōu)化是,通過采用EfficientNet作為骨干網(wǎng)絡(luò),以極大地提高效率。例如,從采用ResNet-50作為骨干網(wǎng)絡(luò)的RetinaNet 基準開始,他們的消融研究表明,近用EfficientNet-B3替代ResNet-50 ,便能夠提高3%的精度,與此同時還能減少20%的計算量。
另一個優(yōu)化是提高特征網(wǎng)絡(luò)的效率。雖然以往的檢測器大多采用自上而下的特征金字塔網(wǎng)絡(luò)(FPN),但他們發(fā)現(xiàn)自上而下的FPN本質(zhì)上受到單向信息流的限制??商娲鶩PN的網(wǎng)絡(luò) ,比如PANet,添加了一個額外的自下而上的流,往往要以增加計算量為代價。
采用神經(jīng)架構(gòu)搜索(NAS)的嘗試,則找到了更復雜的NAS-FPN架構(gòu)。然而,這種網(wǎng)絡(luò)架構(gòu)雖然有效,但對于特定的任務(wù)來說,也是不規(guī)則的、高度優(yōu)化的,這使得它很難適應(yīng)其他任務(wù)。
為了解決這些問題,他們提出了一種新的雙向特征網(wǎng)絡(luò) BiFPN,該網(wǎng)絡(luò)結(jié)合了FPN、PANet、NAS-FPN的多級特征融合思想,即使得信息既能夠自上而下,也能夠自下而上地流動,同時使用規(guī)則和高效的連接。
BiFPN 和此前的特征網(wǎng)絡(luò)的對比。BiFPN 允許特征(從低分辨率的P3層到高分辨率的P7層)既能夠自下而上也能夠自上而下地反復流動。
為了進一步提高效率,谷歌研究者還提出了一種新的快速歸一化融合技術(shù)。 傳統(tǒng)的方法通常對輸入到FPN的所有特征一視同仁,即使對于那些分辨率差別很大的特征亦如是。然而,他們發(fā)現(xiàn)不同分辨率下的輸入特征對輸出特征的貢獻往往并不相等。
因此,他們?yōu)槊總€輸入特征添加一個額外的權(quán)重,并讓網(wǎng)絡(luò)了解每個特征的重要性。同時,他們也用更便宜些的深度可分離卷積來代替所有的正則卷積。通過這些優(yōu)化,BiFPN進一步提高了4%的精度,同時降低了50%的計算成本。
第三個優(yōu)化涉及在不同的資源約束下實現(xiàn)更好的精度和效率權(quán)衡。谷歌研究者此前的相關(guān)工作已經(jīng)表明,聯(lián)合縮放網(wǎng)絡(luò)的深度、寬度和分辨率,可以顯著提高圖像識別的效率。
受此啟發(fā),他們針對目標檢測器提出了一種新的復合縮放方法,它可以聯(lián)合縮放分辨率、深度和寬度。每個網(wǎng)絡(luò)部分,即骨干網(wǎng)絡(luò)、特征網(wǎng)絡(luò)和邊框/類預測網(wǎng)絡(luò),都將擁有一個單一的復合縮放因子,該因子使用基于啟發(fā)式的規(guī)則控制所有的縮放維度。這種方法可以通過計算給定目標資源約束的縮放因子,便能夠輕易地確定如何縮放模型。
結(jié)合新的骨干網(wǎng)絡(luò)和BiFPN,他們首先創(chuàng)建了一個小尺寸的EfficientDet-D0 基線,然后應(yīng)用復合縮放法得到了 EfficientDet-D1至D7。每一個連續(xù)的模型都要花費較高的計算成本,涉及到每秒浮點運算次數(shù)(FLOPS)從30億次到3000億次的各類系統(tǒng)資源限制,并且能提供更高的精度。
他們在一個廣泛用于目標檢測的基準數(shù)據(jù)集——COCO數(shù)據(jù)集上對EfficientDet 進行了評估。其中,EfficientDet-D7的平均精度(mAP)為52.2,比現(xiàn)有最先進的模型高出1.5個點,同時使用的參數(shù)還減少了4倍、計算量減少了9.4倍。
相同設(shè)置下,EfficientDet 在COCO 測試集上達到的最佳精度是52.2mAP,比現(xiàn)有最先進的模型高出1.5個點(3045B FLOPs后的精度未展示)。而在同樣的精度下,EfficientDet 模型比此前的檢測器,大小上減少了4到9倍,計算量上減少了13至42倍。
與此同時,他們還比較了EfficientDet和先前模型在參數(shù)大小和CPU/GPU延遲方面的表現(xiàn)。在差不多的精度下,EfficientDet模型在GPU上比其他探測器快2-4倍,在CPU上比其他探測器快5-11倍。雖然EfficientDet 模型主要是為目標檢測而設(shè)計的,但谷歌研究者也檢驗了它們在其他任務(wù)(如語義分割)上的性能。
為了執(zhí)行分割任務(wù),他們稍微修改了EfficientDet-D4,將檢測頭和檢測的損失函數(shù)替換為分割頭和分割的損失函數(shù),同時保留了相同大小的骨干網(wǎng)絡(luò)和BiFPN。
此模型與在Pascal VOC 2012(一個廣泛用于分割基準的數(shù)據(jù)集)上性能最好的分割模型—— DeepLabV3+ 的比較結(jié)果如下:
在沒有在COCO數(shù)據(jù)集上進行預訓練的相同設(shè)置下, EfficientDet 在Pascal VOC 2012數(shù)據(jù)集上實現(xiàn)的性能要高于DeepLabV3+ ,其中計算量減少了9.8倍。
基于 EfficientDet的表現(xiàn),谷歌研究者表示,希望它能夠作為未來目標檢測相關(guān)研究工作的新基石,并且有助于研究者開發(fā)出高精度的目標檢測模型,更好地服務(wù)于更多現(xiàn)實世界的應(yīng)用。
via https://ai.googleblog.com/2020/04/efficientdet-towards-scalable-and.html 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。