百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

本文作者：汪思穎

2018-09-13 17:16

導(dǎo)語(yǔ)：從整體方案框架來(lái)看，可分為 Fast R-CNN 和 Faster R-CNN 兩種不同的訓(xùn)練模式。

百度視覺(jué)團(tuán)隊(duì)

+10

AI影響因子

比賽

比賽名稱(chēng)：Google AI Open Images-Object Detection

年份：2018

企業(yè)：百度

操作：競(jìng)賽

名次：1

雷鋒網(wǎng) AI 科技評(píng)論消息，近日，百度視覺(jué)團(tuán)隊(duì)在 Google AI Open Images-Object Detection Track 目標(biāo)檢測(cè)任務(wù)中斬獲第一，并受邀在計(jì)算機(jī)視覺(jué)頂級(jí)學(xué)術(shù)會(huì)議 ECCV 2018 上進(jìn)行分享。

Google AI Open Images-Object Detection Track 由 Google AI Research 舉辦，今年共吸引全球 450 多支隊(duì)伍參賽。

大賽采用 Google 今年 5 月份發(fā)布的 Open Images V4 數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集，包含超過(guò) 170 萬(wàn)的圖片數(shù)據(jù)，500 個(gè)類(lèi)別以及超過(guò) 1200 萬(wàn)物體框，數(shù)據(jù)沒(méi)有完全精細(xì)標(biāo)注，屬于弱監(jiān)督任務(wù)，框選類(lèi)別數(shù)目不均衡且有非常廣泛的類(lèi)別分布，這更符合實(shí)際情況，也意味著參加競(jìng)賽的團(tuán)隊(duì)需要考慮到類(lèi)別的分布，而不能統(tǒng)一對(duì)所有類(lèi)別做處理，因此更具挑戰(zhàn)性。

這項(xiàng)賽事有助于復(fù)雜模型的研究，同時(shí)對(duì)評(píng)估不同檢測(cè)模型的性能有積極的促進(jìn)作用。下圖為 Open Image V4 與 MS COCO 和 ImageNet 檢測(cè)任務(wù)數(shù)據(jù)對(duì)比情況，可以看到 Open Image V4 數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)大于 MS COCO 和 ImageNet。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

Open Image V4 與 MS COCO及ImageNet 檢測(cè)數(shù)據(jù)對(duì)比情況

以下為百度視覺(jué)團(tuán)隊(duì)技術(shù)方案解讀：

與傳統(tǒng)的檢測(cè)數(shù)據(jù)集合相比，該賽事除了數(shù)據(jù)規(guī)模大、更真實(shí)之外，還存在一系列的挑戰(zhàn)。具體來(lái)說(shuō)，主要集中在以下三個(gè)方面：

數(shù)據(jù)分布不均衡：最少的類(lèi)別框選只有 14 個(gè)，而最多的類(lèi)別框選超過(guò)了 140w，數(shù)據(jù)分布嚴(yán)重不均衡。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

類(lèi)別框數(shù)量分布

漏標(biāo)框：很多圖片存在只標(biāo)注主體類(lèi)別，其他小物體或者非目標(biāo)物體沒(méi)有標(biāo)注出來(lái)。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

漏標(biāo)注圖片舉例

尺度變化大：大部分物體框只占整個(gè)圖片的 0.1 以下，而有些框選卻占了整個(gè)圖片區(qū)域。如圖所示，Open Image V4 集合存在更多的小物體，參賽者也會(huì)在檢測(cè)數(shù)據(jù)中遇到更大的挑戰(zhàn)。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

框尺度大小分布對(duì)比

解決方案

在比賽過(guò)程中，百度視覺(jué)團(tuán)隊(duì)采用了不同復(fù)雜度、不同框架網(wǎng)絡(luò)進(jìn)行模型的訓(xùn)練，并對(duì)這些模型進(jìn)行融合。從整體方案框架來(lái)看，可分為 Fast R-CNN 和 Faster R-CNN 兩種不同的訓(xùn)練模式。Fast R-CNN 版本是百度視覺(jué)團(tuán)隊(duì)研發(fā)的一套 PaddlePaddle 版本，在此基礎(chǔ)上 Faster R-CNN 加入了 FPN、Deformable、Cascade 等最新的檢測(cè)算法，模型性能實(shí)現(xiàn)了大幅度的提升。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

整體方案框架流程圖

網(wǎng)絡(luò)為 ResNet-101 的 Fast R-CNN，模型收斂后可以達(dá)到 0.481，在測(cè)試階段加入 Soft NMS 以及 Multi-Scale Testing 策略，可以達(dá)到 0.508。百度也嘗試了其他網(wǎng)絡(luò)（dpn98,Inception-v4,Se-ResNext101），并把不同網(wǎng)絡(luò)的檢測(cè)算法融合到一起，最終 mAP 可以達(dá)到 0.546。在 Proposal 采樣階段，百度在不同位置進(jìn)行不同尺度的候選框生成，然后對(duì)這些框選進(jìn)行分類(lèi)以及調(diào)整他們的位置。
Faster R-CNN: 采用這種框架可以達(dá)到略高于 Fast R-CNN 的效果，mAP 為 0.495。在測(cè)試階段使用 Soft NMS 以及 Multi-Scale Testing 策略后，性能達(dá)到 0.525。
Deformable Convolutional Networks：使用 Soft NMS 以及 Multi-Scale Testing 策略前后，性能分別達(dá)到 0.528 及 0.559。
Deformable Cascade R-CNN : 使用 Soft NMS 以及 Multi-Scale Testing 策略前后，性能分別可以達(dá)到 0.581 和 0.590.

在 Fast R-CNN 框架下，百度視覺(jué)團(tuán)隊(duì)采用了不同的網(wǎng)絡(luò)進(jìn)行訓(xùn)練，而在 Faster R-CNN 框架下只使用了 ResNet101 這種網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中，百度視覺(jué)團(tuán)隊(duì)還通過(guò)不同的策略有效解決了各種技術(shù)問(wèn)題。詳情如下：

動(dòng)態(tài)采樣

Google Open Images V4 數(shù)據(jù)集大概有 170w 圖片，1220w 框選，500 個(gè)類(lèi)別信息。最大的類(lèi)別框選超過(guò)了 140w，最小的類(lèi)別只有 14 個(gè)框選，如果簡(jiǎn)單使用所有的圖片及框選，需要幾十天才能進(jìn)行模型訓(xùn)練，而且很難訓(xùn)練出來(lái)一個(gè)無(wú)偏的模型。因此，需要在訓(xùn)練過(guò)程中進(jìn)行動(dòng)態(tài)采樣，如果樣本數(shù)量多則減少采樣概率，而樣本數(shù)量少則增加采樣概率。百度視覺(jué)團(tuán)隊(duì)分別進(jìn)行全集數(shù)據(jù)訓(xùn)練、固定框選子集訓(xùn)練、動(dòng)態(tài)采樣模型訓(xùn)練三種策略進(jìn)行。

全集數(shù)據(jù)訓(xùn)練：按照主辦方提供數(shù)據(jù)進(jìn)行訓(xùn)練，mAP 達(dá)到 0.50。
固定框選子集訓(xùn)練：線(xiàn)下固定對(duì)每個(gè)類(lèi)別最多選擇 1000 個(gè)框，mAP 達(dá)到 0.53。
動(dòng)態(tài)采樣模型訓(xùn)練：對(duì)每個(gè) GPU、每個(gè) Epoch 采用線(xiàn)上動(dòng)態(tài)采樣，每次采集的數(shù)據(jù)都不同，輪數(shù)達(dá)到一定數(shù)目后，整個(gè)全集的數(shù)據(jù)都能參與整體訓(xùn)練。最后 mAp 達(dá)到 0.56。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

動(dòng)態(tài)采樣策略

FPN

基于訓(xùn)練數(shù)據(jù)集的分析，百度視覺(jué)團(tuán)隊(duì)發(fā)現(xiàn)其中 500 個(gè)類(lèi)別的尺度有很大的差異。因此他們將 FPN 引入到檢測(cè)模型中，即利用多尺度多層次金字塔結(jié)構(gòu)構(gòu)建特征金字塔網(wǎng)絡(luò)。在實(shí)驗(yàn)中，百度視覺(jué)團(tuán)隊(duì)以 ResNet101 作為骨干網(wǎng)絡(luò)，在不同階段的最后一層添加了自頂向下的側(cè)連接。自頂向下的過(guò)程是向上采樣進(jìn)行的，水平連接是將上采樣的結(jié)果與自底向上生成的相同大小的 feature map 合并。融合后，對(duì)每個(gè)融合結(jié)果進(jìn)行 3*3 卷積以消除上采樣的混疊效應(yīng)。值得注意的是，F(xiàn)PN 應(yīng)該嵌入到 RPN 網(wǎng)絡(luò)中，以生成不同的尺度特征并整合為 RPN 網(wǎng)絡(luò)的輸入。最終，引入 FPN 后的 mAP 可達(dá)到 0.528。

Deformable Convolution Networks

百度視覺(jué)團(tuán)隊(duì)采用可變形卷積神經(jīng)網(wǎng)絡(luò)增強(qiáng)了 CNNs 的建模能力?？勺冃尉矸e網(wǎng)絡(luò)的思想是在不需要額外監(jiān)督的情況下，通過(guò)對(duì)目標(biāo)任務(wù)的學(xué)習(xí)，在空間采樣點(diǎn)上增加額外的偏移量模塊。同時(shí)將可變形卷積網(wǎng)絡(luò)應(yīng)用于以 ResNet101 作為骨架網(wǎng)絡(luò)的 Faster R-CNN 架構(gòu)，并在 ResNet101 的 res5a、5b、5c 層之后應(yīng)用可變形卷積層，并將 ROI Pooling 層改進(jìn)為可變形位置敏感 ROI Pooling 層?？勺冃尉矸e網(wǎng)絡(luò)的 mAP 性能為 0.552。

Cascade R-CNN

比賽中，百度視覺(jué)團(tuán)隊(duì)使用級(jí)聯(lián)的 R-CNN 來(lái)訓(xùn)練檢測(cè)模型。除訓(xùn)練基本模型外，還使用包含五個(gè)尺度特征金字塔網(wǎng)絡(luò)（FPN）和 3 個(gè)尺度 anchors 的 RPN 網(wǎng)絡(luò)。此外，他們還訓(xùn)練了一個(gè)針對(duì)全類(lèi)模型中表現(xiàn)最差的150類(lèi)的小類(lèi)模型，并對(duì)這 150 類(lèi)的模型分別進(jìn)行評(píng)估。得出的結(jié)論是，500 類(lèi)模型的 mAP 為 0.477，而用 150 類(lèi)單模型訓(xùn)練結(jié)果替換 500 類(lèi)的后 150 類(lèi)的結(jié)果，模型的 mAP 提升為 0.498。使用以上方法進(jìn)行訓(xùn)練的單尺度模型的性能為 0.573。

Testing Tricks

在后處理階段，百度視覺(jué)團(tuán)隊(duì)使用了 Soft NMS 和多尺度測(cè)試的方法。用 Soft NMS 的方法代替 NMS 后，在不同模型上有 0.5-1.3 點(diǎn)的改進(jìn)，而 Multi-Scale Testing 在不同模型上則有 0.6-2 個(gè)點(diǎn)的提升。

模型融合

對(duì)于每個(gè)模型，百度視覺(jué)團(tuán)隊(duì)在 NMS 后預(yù)測(cè)邊界框。來(lái)自不同模型的預(yù)測(cè)框則使用一個(gè)改進(jìn)版的 NMS 進(jìn)行合并，具體如下：

給每個(gè)模型一個(gè) 0～1 之間的標(biāo)量權(quán)重。所有的權(quán)重總和為 1；
從每個(gè)模型得到邊界框的置信分?jǐn)?shù)乘以它對(duì)應(yīng)的權(quán)重；
合并從所有模型得到的預(yù)測(cè)框并使用 NMS，除此之外百度采用不同模型的分?jǐn)?shù)疊加的方式代替只保留最高分模型，在這個(gè)步驟中 IOU 閾值為 0.5。

百度視覺(jué)團(tuán)隊(duì)斬獲 ECCV Google AI 目標(biāo)檢測(cè)競(jìng)賽冠軍，獲獎(jiǎng)方案全解讀 | ECCV 2018

（完）

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門(mén)文章