丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 | ECCV 2018

本文作者: 汪思穎 2018-09-13 17:16
導(dǎo)語:從整體方案框架來看,可分為 Fast R-CNN 和 Faster R-CNN 兩種不同的訓(xùn)練模式。
比賽
比賽名稱:Google AI Open Images-Object Detection
年份:2018
企業(yè):百度
操作:競賽
名次:1

雷鋒網(wǎng) AI 科技評論消息,近日,百度視覺團(tuán)隊在 Google AI Open Images-Object Detection Track 目標(biāo)檢測任務(wù)中斬獲第一,并受邀在計算機視覺頂級學(xué)術(shù)會議 ECCV 2018 上進(jìn)行分享。

Google AI Open Images-Object Detection Track 由 Google AI Research 舉辦,今年共吸引全球 450 多支隊伍參賽。

大賽采用 Google 今年 5 月份發(fā)布的 Open Images V4 數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,包含超過 170 萬的圖片數(shù)據(jù),500 個類別以及超過 1200 萬物體框,數(shù)據(jù)沒有完全精細(xì)標(biāo)注,屬于弱監(jiān)督任務(wù),框選類別數(shù)目不均衡且有非常廣泛的類別分布,這更符合實際情況,也意味著參加競賽的團(tuán)隊需要考慮到類別的分布,而不能統(tǒng)一對所有類別做處理,因此更具挑戰(zhàn)性。

這項賽事有助于復(fù)雜模型的研究,同時對評估不同檢測模型的性能有積極的促進(jìn)作用。下圖為 Open Image V4 與 MS COCO 和 ImageNet 檢測任務(wù)數(shù)據(jù)對比情況,可以看到 Open Image V4 數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)大于 MS COCO 和 ImageNet。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

Open Image V4 與 MS COCO及ImageNet 檢測數(shù)據(jù)對比情況

以下為百度視覺團(tuán)隊技術(shù)方案解讀:

與傳統(tǒng)的檢測數(shù)據(jù)集合相比,該賽事除了數(shù)據(jù)規(guī)模大、更真實之外,還存在一系列的挑戰(zhàn)。具體來說,主要集中在以下三個方面:

  • 數(shù)據(jù)分布不均衡:最少的類別框選只有 14 個,而最多的類別框選超過了 140w,數(shù)據(jù)分布嚴(yán)重不均衡。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

類別框數(shù)量分布

  • 漏標(biāo)框:很多圖片存在只標(biāo)注主體類別,其他小物體或者非目標(biāo)物體沒有標(biāo)注出來。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

漏標(biāo)注圖片舉例

  • 尺度變化大:大部分物體框只占整個圖片的 0.1 以下,而有些框選卻占了整個圖片區(qū)域。如圖所示,Open Image V4 集合存在更多的小物體,參賽者也會在檢測數(shù)據(jù)中遇到更大的挑戰(zhàn)。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

框尺度大小分布對比

解決方案

在比賽過程中,百度視覺團(tuán)隊采用了不同復(fù)雜度、不同框架網(wǎng)絡(luò)進(jìn)行模型的訓(xùn)練,并對這些模型進(jìn)行融合。從整體方案框架來看,可分為 Fast R-CNN 和 Faster R-CNN 兩種不同的訓(xùn)練模式。Fast R-CNN 版本是百度視覺團(tuán)隊研發(fā)的一套 PaddlePaddle 版本,在此基礎(chǔ)上 Faster R-CNN 加入了 FPN、Deformable、Cascade 等最新的檢測算法,模型性能實現(xiàn)了大幅度的提升。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

整體方案框架流程圖

  • 網(wǎng)絡(luò)為 ResNet-101 的 Fast R-CNN,模型收斂后可以達(dá)到 0.481,在測試階段加入 Soft NMS 以及 Multi-Scale Testing 策略,可以達(dá)到 0.508。百度也嘗試了其他網(wǎng)絡(luò)(dpn98,Inception-v4,Se-ResNext101),并把不同網(wǎng)絡(luò)的檢測算法融合到一起,最終 mAP 可以達(dá)到 0.546。在 Proposal 采樣階段,百度在不同位置進(jìn)行不同尺度的候選框生成,然后對這些框選進(jìn)行分類以及調(diào)整他們的位置。

  • Faster R-CNN: 采用這種框架可以達(dá)到略高于 Fast R-CNN 的效果,mAP 為 0.495。在測試階段使用 Soft NMS 以及 Multi-Scale Testing 策略后,性能達(dá)到 0.525。

  • Deformable Convolutional Networks:使用 Soft NMS 以及 Multi-Scale Testing 策略前后,性能分別達(dá)到 0.528 及 0.559。

  • Deformable Cascade R-CNN : 使用 Soft NMS 以及 Multi-Scale Testing 策略前后,性能分別可以達(dá)到 0.581 和 0.590.

在 Fast R-CNN 框架下,百度視覺團(tuán)隊采用了不同的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而在 Faster R-CNN 框架下只使用了 ResNet101 這種網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在訓(xùn)練過程中,百度視覺團(tuán)隊還通過不同的策略有效解決了各種技術(shù)問題。詳情如下:

動態(tài)采樣

Google Open Images V4 數(shù)據(jù)集大概有 170w 圖片,1220w 框選,500 個類別信息。最大的類別框選超過了 140w,最小的類別只有 14 個框選,如果簡單使用所有的圖片及框選,需要幾十天才能進(jìn)行模型訓(xùn)練,而且很難訓(xùn)練出來一個無偏的模型。因此,需要在訓(xùn)練過程中進(jìn)行動態(tài)采樣,如果樣本數(shù)量多則減少采樣概率,而樣本數(shù)量少則增加采樣概率。百度視覺團(tuán)隊分別進(jìn)行全集數(shù)據(jù)訓(xùn)練、固定框選子集訓(xùn)練、動態(tài)采樣模型訓(xùn)練三種策略進(jìn)行。

  • 全集數(shù)據(jù)訓(xùn)練:按照主辦方提供數(shù)據(jù)進(jìn)行訓(xùn)練,mAP 達(dá)到 0.50。

  • 固定框選子集訓(xùn)練:線下固定對每個類別最多選擇 1000 個框,mAP 達(dá)到 0.53。

  • 動態(tài)采樣模型訓(xùn)練:對每個 GPU、每個 Epoch 采用線上動態(tài)采樣,每次采集的數(shù)據(jù)都不同,輪數(shù)達(dá)到一定數(shù)目后,整個全集的數(shù)據(jù)都能參與整體訓(xùn)練。最后 mAp 達(dá)到 0.56。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

動態(tài)采樣策略

FPN

基于訓(xùn)練數(shù)據(jù)集的分析,百度視覺團(tuán)隊發(fā)現(xiàn)其中 500 個類別的尺度有很大的差異。因此他們將 FPN 引入到檢測模型中,即利用多尺度多層次金字塔結(jié)構(gòu)構(gòu)建特征金字塔網(wǎng)絡(luò)。在實驗中,百度視覺團(tuán)隊以 ResNet101 作為骨干網(wǎng)絡(luò),在不同階段的最后一層添加了自頂向下的側(cè)連接。自頂向下的過程是向上采樣進(jìn)行的,水平連接是將上采樣的結(jié)果與自底向上生成的相同大小的 feature map 合并。融合后,對每個融合結(jié)果進(jìn)行 3*3 卷積以消除上采樣的混疊效應(yīng)。值得注意的是,F(xiàn)PN 應(yīng)該嵌入到 RPN 網(wǎng)絡(luò)中,以生成不同的尺度特征并整合為 RPN 網(wǎng)絡(luò)的輸入。最終,引入 FPN 后的 mAP 可達(dá)到 0.528。

Deformable Convolution Networks

百度視覺團(tuán)隊采用可變形卷積神經(jīng)網(wǎng)絡(luò)增強了 CNNs 的建模能力??勺冃尉矸e網(wǎng)絡(luò)的思想是在不需要額外監(jiān)督的情況下,通過對目標(biāo)任務(wù)的學(xué)習(xí),在空間采樣點上增加額外的偏移量模塊。同時將可變形卷積網(wǎng)絡(luò)應(yīng)用于以 ResNet101 作為骨架網(wǎng)絡(luò)的 Faster R-CNN 架構(gòu),并在 ResNet101 的 res5a、5b、5c 層之后應(yīng)用可變形卷積層,并將 ROI Pooling 層改進(jìn)為可變形位置敏感 ROI Pooling 層。可變形卷積網(wǎng)絡(luò)的 mAP 性能為 0.552。

Cascade R-CNN

比賽中,百度視覺團(tuán)隊使用級聯(lián)的 R-CNN 來訓(xùn)練檢測模型。除訓(xùn)練基本模型外,還使用包含五個尺度特征金字塔網(wǎng)絡(luò)(FPN)和 3 個尺度 anchors 的 RPN 網(wǎng)絡(luò)。此外,他們還訓(xùn)練了一個針對全類模型中表現(xiàn)最差的150類的小類模型,并對這 150 類的模型分別進(jìn)行評估。得出的結(jié)論是,500 類模型的 mAP 為 0.477,而用 150 類單模型訓(xùn)練結(jié)果替換 500 類的后 150 類的結(jié)果,模型的 mAP 提升為 0.498。使用以上方法進(jìn)行訓(xùn)練的單尺度模型的性能為 0.573。

Testing Tricks

在后處理階段,百度視覺團(tuán)隊使用了 Soft NMS 和多尺度測試的方法。用 Soft NMS 的方法代替 NMS 后,在不同模型上有 0.5-1.3 點的改進(jìn),而 Multi-Scale Testing 在不同模型上則有 0.6-2 個點的提升。

模型融合

對于每個模型,百度視覺團(tuán)隊在 NMS 后預(yù)測邊界框。來自不同模型的預(yù)測框則使用一個改進(jìn)版的 NMS 進(jìn)行合并,具體如下:

  • 給每個模型一個 0~1 之間的標(biāo)量權(quán)重。所有的權(quán)重總和為 1;

  • 從每個模型得到邊界框的置信分?jǐn)?shù)乘以它對應(yīng)的權(quán)重;

  • 合并從所有模型得到的預(yù)測框并使用 NMS,除此之外百度采用不同模型的分?jǐn)?shù)疊加的方式代替只保留最高分模型,在這個步驟中 IOU 閾值為 0.5。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

(完)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

百度視覺團(tuán)隊斬獲 ECCV Google AI 目標(biāo)檢測競賽冠軍,獲獎方案全解讀 |  ECCV 2018

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說