CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

本文作者：叢末

2020-04-25 16:22

導(dǎo)語：參數(shù)減少4倍、計(jì)算量減少9倍，性能反升~

本文解讀的是CVPR2020 接收論文《EfficientDet: Scalable and Efficient Object Detection》，論文作者來自谷歌團(tuán)隊(duì)。

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

論文地址：https://arxiv.org/pdf/1911.09070.pdf

開源地址：https://github.com/google/automl/tree/master/efficientdet

一、研究動(dòng)機(jī)

目標(biāo)檢測作為計(jì)算機(jī)視覺的核心應(yīng)用之一，在機(jī)器人技術(shù)、無人駕駛汽車等精度要求高、計(jì)算資源有限的場景中變得越來越重要。

不幸的是，現(xiàn)有的許多高精度檢測器還無法應(yīng)對(duì)這些限制。更重要的是，現(xiàn)實(shí)世界中的目標(biāo)檢測應(yīng)用程序運(yùn)行在各種平臺(tái)上，往往需要不同的資源。由此自然而然要提出的一個(gè)問題是，如何設(shè)計(jì)精確、高效，并且還能夠適用于各類存在資源限制問題的場景的目標(biāo)檢測器？

在CVPR 2020 論文《EfficientDet：可擴(kuò)展、高效的目標(biāo)檢測》中，谷歌研究者們引入了一系列新的可擴(kuò)展的高效的目標(biāo)檢測器。EfficientDet 基于此前關(guān)于可擴(kuò)展神經(jīng)網(wǎng)絡(luò)的一項(xiàng)工作EfficientNet，并結(jié)合一種新的雙向特征網(wǎng)絡(luò)BiFPN以及新的擴(kuò)展規(guī)則，在比當(dāng)前最先進(jìn)的檢測器縮小了9倍以及使用了更少得多的計(jì)算量的同時(shí)，實(shí)現(xiàn)了當(dāng)前最高的精度。

下圖為該模型的完整架構(gòu)：

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

EfficientDet 架構(gòu)。EfficientDet 使用EfficientNet作為骨干網(wǎng)絡(luò)，并結(jié)合使用了最新提出的BiFPN特征網(wǎng)絡(luò)。

二、模型架構(gòu)優(yōu)化

EfficientDet背后的靈感源自谷歌研究者們通過對(duì)現(xiàn)有最先進(jìn)的檢測模型進(jìn)行系統(tǒng)研究以找到提高計(jì)算效率的解決方案的嘗試。

一般而言，目標(biāo)檢測器主要由三個(gè)部分組成：從給定圖像中提取特征的骨干網(wǎng)絡(luò)；從骨干網(wǎng)絡(luò)中提取多級(jí)特征作為輸入并輸出一系列表示圖像顯著特征的融合特征的特征網(wǎng)絡(luò)；以及使用融合特征預(yù)測每個(gè)目標(biāo)的類和位置的最終的類/方框網(wǎng)絡(luò)。經(jīng)過驗(yàn)證這些部分的各種設(shè)計(jì)方式，他們最終確定了提高性能和效率的關(guān)鍵優(yōu)化。

此前的檢測器主要依靠ResNets、ResNeXt或AmoebaNet作為骨干網(wǎng)絡(luò)，然而這些網(wǎng)絡(luò)要么功能較弱，要么效率較低。因此一個(gè)優(yōu)化是，通過采用EfficientNet作為骨干網(wǎng)絡(luò)，以極大地提高效率。例如，從采用ResNet-50作為骨干網(wǎng)絡(luò)的RetinaNet 基準(zhǔn)開始，他們的消融研究表明，近用EfficientNet-B3替代ResNet-50 ，便能夠提高3%的精度，與此同時(shí)還能減少20%的計(jì)算量。

另一個(gè)優(yōu)化是提高特征網(wǎng)絡(luò)的效率。雖然以往的檢測器大多采用自上而下的特征金字塔網(wǎng)絡(luò)（FPN），但他們發(fā)現(xiàn)自上而下的FPN本質(zhì)上受到單向信息流的限制?？商娲鶩PN的網(wǎng)絡(luò) ，比如PANet，添加了一個(gè)額外的自下而上的流，往往要以增加計(jì)算量為代價(jià)。

采用神經(jīng)架構(gòu)搜索（NAS）的嘗試，則找到了更復(fù)雜的NAS-FPN架構(gòu)。然而，這種網(wǎng)絡(luò)架構(gòu)雖然有效，但對(duì)于特定的任務(wù)來說，也是不規(guī)則的、高度優(yōu)化的，這使得它很難適應(yīng)其他任務(wù)。

為了解決這些問題，他們提出了一種新的雙向特征網(wǎng)絡(luò) BiFPN，該網(wǎng)絡(luò)結(jié)合了FPN、PANet、NAS-FPN的多級(jí)特征融合思想，即使得信息既能夠自上而下，也能夠自下而上地流動(dòng)，同時(shí)使用規(guī)則和高效的連接。

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

BiFPN 和此前的特征網(wǎng)絡(luò)的對(duì)比。BiFPN 允許特征（從低分辨率的P3層到高分辨率的P7層）既能夠自下而上也能夠自上而下地反復(fù)流動(dòng)。

為了進(jìn)一步提高效率，谷歌研究者還提出了一種新的快速歸一化融合技術(shù)。傳統(tǒng)的方法通常對(duì)輸入到FPN的所有特征一視同仁，即使對(duì)于那些分辨率差別很大的特征亦如是。然而，他們發(fā)現(xiàn)不同分辨率下的輸入特征對(duì)輸出特征的貢獻(xiàn)往往并不相等。

因此，他們?yōu)槊總€(gè)輸入特征添加一個(gè)額外的權(quán)重，并讓網(wǎng)絡(luò)了解每個(gè)特征的重要性。同時(shí)，他們也用更便宜些的深度可分離卷積來代替所有的正則卷積。通過這些優(yōu)化，BiFPN進(jìn)一步提高了4%的精度，同時(shí)降低了50%的計(jì)算成本。

第三個(gè)優(yōu)化涉及在不同的資源約束下實(shí)現(xiàn)更好的精度和效率權(quán)衡。谷歌研究者此前的相關(guān)工作已經(jīng)表明，聯(lián)合縮放網(wǎng)絡(luò)的深度、寬度和分辨率，可以顯著提高圖像識(shí)別的效率。

受此啟發(fā)，他們針對(duì)目標(biāo)檢測器提出了一種新的復(fù)合縮放方法，它可以聯(lián)合縮放分辨率、深度和寬度。每個(gè)網(wǎng)絡(luò)部分，即骨干網(wǎng)絡(luò)、特征網(wǎng)絡(luò)和邊框/類預(yù)測網(wǎng)絡(luò)，都將擁有一個(gè)單一的復(fù)合縮放因子，該因子使用基于啟發(fā)式的規(guī)則控制所有的縮放維度。這種方法可以通過計(jì)算給定目標(biāo)資源約束的縮放因子，便能夠輕易地確定如何縮放模型。

結(jié)合新的骨干網(wǎng)絡(luò)和BiFPN，他們首先創(chuàng)建了一個(gè)小尺寸的EfficientDet-D0 基線，然后應(yīng)用復(fù)合縮放法得到了 EfficientDet-D1至D7。每一個(gè)連續(xù)的模型都要花費(fèi)較高的計(jì)算成本，涉及到每秒浮點(diǎn)運(yùn)算次數(shù)（FLOPS）從30億次到3000億次的各類系統(tǒng)資源限制，并且能提供更高的精度。

三、模型性能

他們在一個(gè)廣泛用于目標(biāo)檢測的基準(zhǔn)數(shù)據(jù)集——COCO數(shù)據(jù)集上對(duì)EfficientDet 進(jìn)行了評(píng)估。其中，EfficientDet-D7的平均精度（mAP）為52.2，比現(xiàn)有最先進(jìn)的模型高出1.5個(gè)點(diǎn)，同時(shí)使用的參數(shù)還減少了4倍、計(jì)算量減少了9.4倍。

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

相同設(shè)置下，EfficientDet 在COCO 測試集上達(dá)到的最佳精度是52.2mAP，比現(xiàn)有最先進(jìn)的模型高出1.5個(gè)點(diǎn)（3045B FLOPs后的精度未展示）。而在同樣的精度下，EfficientDet 模型比此前的檢測器，大小上減少了4到9倍，計(jì)算量上減少了13至42倍。

與此同時(shí)，他們還比較了EfficientDet和先前模型在參數(shù)大小和CPU/GPU延遲方面的表現(xiàn)。在差不多的精度下，EfficientDet模型在GPU上比其他探測器快2-4倍，在CPU上比其他探測器快5-11倍。雖然EfficientDet 模型主要是為目標(biāo)檢測而設(shè)計(jì)的，但谷歌研究者也檢驗(yàn)了它們在其他任務(wù)（如語義分割）上的性能。

為了執(zhí)行分割任務(wù)，他們稍微修改了EfficientDet-D4，將檢測頭和檢測的損失函數(shù)替換為分割頭和分割的損失函數(shù)，同時(shí)保留了相同大小的骨干網(wǎng)絡(luò)和BiFPN。

此模型與在Pascal VOC 2012（一個(gè)廣泛用于分割基準(zhǔn)的數(shù)據(jù)集）上性能最好的分割模型—— DeepLabV3+ 的比較結(jié)果如下：

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

在沒有在COCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的相同設(shè)置下， EfficientDet 在Pascal VOC 2012數(shù)據(jù)集上實(shí)現(xiàn)的性能要高于DeepLabV3+ ，其中計(jì)算量減少了9.8倍。

基于 EfficientDet的表現(xiàn)，谷歌研究者表示，希望它能夠作為未來目標(biāo)檢測相關(guān)研究工作的新基石，并且有助于研究者開發(fā)出高精度的目標(biāo)檢測模型，更好地服務(wù)于更多現(xiàn)實(shí)世界的應(yīng)用。

via https://ai.googleblog.com/2020/04/efficientdet-towards-scalable-and.html 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

叢末

編輯

發(fā)私信

當(dāng)月熱門文章

CVPR 2020 | 可擴(kuò)展且高效，谷歌提出目標(biāo)檢測“新標(biāo)桿”

一、研究動(dòng)機(jī)

二、模型架構(gòu)優(yōu)化

三、模型性能

一、研究動(dòng)機(jī)

二、模型架構(gòu)優(yōu)化

三、模型性能