無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

本文作者：我在思考中

2022-01-19 14:20

導(dǎo)語(yǔ)：他們提出的目標(biāo)檢測(cè)方法，可以檢測(cè)未見(jiàn)過(guò)的新物體，相對(duì)于Mask R-CNN有了巨大改進(jìn)。

他們提出的目標(biāo)檢測(cè)方法，可以檢測(cè)未見(jiàn)過(guò)的新物體，相對(duì)于Mask R-CNN有了巨大改進(jìn)。

編譯丨王曄

編輯丨青暮

人類(lèi)經(jīng)常會(huì)遇到種類(lèi)新穎的工具、食物或動(dòng)物，盡管以前從未見(jiàn)過(guò)，但人類(lèi)仍然可以確定這些是新物體。

與人類(lèi)不同，目前最先進(jìn)的檢測(cè)和分割方法很難識(shí)別新型的物體，因?yàn)樗鼈兪且苑忾]世界的設(shè)定來(lái)設(shè)計(jì)的。它們所受的訓(xùn)練是定位已知種類(lèi)（有標(biāo)記）的物體，而把未知種類(lèi)（無(wú)標(biāo)記）的物體視為背景。這就導(dǎo)致模型不能夠順利定位新物體和學(xué)習(xí)一般物體的性質(zhì)。

最近，來(lái)自波士頓大學(xué)、加州大學(xué)伯克利分校、MIT-IBM Watson AI Lab研究團(tuán)隊(duì)的一項(xiàng)研究，提出了一種檢測(cè)和分割新型物體的簡(jiǎn)單方法。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

原文鏈接：https://arxiv.org/pdf/2112.01698v1.pdf

為了應(yīng)對(duì)這一挑戰(zhàn)，研究團(tuán)隊(duì)創(chuàng)建一個(gè)數(shù)據(jù)集，對(duì)每張圖片中的每一個(gè)物體進(jìn)行詳盡的標(biāo)記。然而，要?jiǎng)?chuàng)建這樣的數(shù)據(jù)集是非常昂貴的。如下圖所示，事實(shí)上，許多用于物體檢測(cè)和實(shí)例分割的公共數(shù)據(jù)集并沒(méi)有完全標(biāo)注圖像中的所有物體。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖1. 標(biāo)準(zhǔn)的物體檢測(cè)器訓(xùn)練中存在的問(wèn)題。該例來(lái)自COCO，有色框是注釋框，而白色虛線框是潛在的背景區(qū)域。許多白色虛線區(qū)域?qū)嶋H上定位了物體，但在傳統(tǒng)的物體檢測(cè)器訓(xùn)練中被認(rèn)為是背景，從而壓制了新物體的目標(biāo)屬性。

問(wèn)題背景

未能學(xué)習(xí)到一般的目標(biāo)屬性會(huì)在許多應(yīng)用場(chǎng)景中暴露出各種問(wèn)題。例如具身人工智能，在機(jī)器人、自動(dòng)駕駛場(chǎng)景中，需要在訓(xùn)練中定位未見(jiàn)過(guò)的物體；自動(dòng)駕駛系統(tǒng)需要檢測(cè)出車(chē)輛前方的新型物體以避免交通事故。

此外，零樣本和小樣本檢測(cè)必須對(duì)訓(xùn)練期間未標(biāo)記的物體進(jìn)行定位。開(kāi)放世界實(shí)例分割旨在定位和分割新的物體，但最先進(jìn)的模型表現(xiàn)并不理想。

研究團(tuán)隊(duì)發(fā)現(xiàn)，導(dǎo)致目前最先進(jìn)的模型表現(xiàn)不理想的原因在于訓(xùn)練pipeline，所有與標(biāo)記的前景物體重疊不多的區(qū)域?qū)⒈灰暈楸尘啊?/span>如圖1所示，雖然背景中有可見(jiàn)但卻未被標(biāo)記的物體，但模型的訓(xùn)練pipeline使其不能檢測(cè)到這些物體，這也導(dǎo)致模型無(wú)法學(xué)習(xí)一般的目標(biāo)屬性。

為了解決該問(wèn)題，Kim等人提出學(xué)習(xí)候選區(qū)域（region proposals ）的定位質(zhì)量，而不是將它們分為前景與背景。他們的方法是對(duì)接近真實(shí)標(biāo)記的object proposals 進(jìn)行采樣，并學(xué)習(xí)估計(jì)相應(yīng)的定位質(zhì)量。雖然緩解了部分問(wèn)題，但這種方法除了需要仔細(xì)設(shè)置正/負(fù)采樣的重疊閾值外，還有可能將潛在的物體壓制目標(biāo)屬性。

方法

為了改進(jìn)開(kāi)放集的實(shí)例分割，研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)單并且強(qiáng)大的學(xué)習(xí)框架，還有一種新的數(shù)據(jù)增強(qiáng)方法，稱為 "Learning to Detect Every Thing"（LDET）。為了消除壓制潛在物體目標(biāo)屬性這一問(wèn)題，研究團(tuán)隊(duì)使用掩碼標(biāo)記復(fù)制前景物體并將其粘貼到背景圖像上。而前景圖像是由裁剪過(guò)的補(bǔ)丁調(diào)整合成而來(lái)的。通過(guò)保持較小的裁剪補(bǔ)丁，使得合成的圖像不太可能包含任何隱藏物體。

然而，由于背景是合成圖像創(chuàng)建而來(lái)的，這就使其看起來(lái)與真實(shí)圖像有很大的不同，例如，背景可能僅由低頻內(nèi)容組成。因此，在這種圖像上訓(xùn)練出來(lái)的檢測(cè)器幾乎表現(xiàn)都不是很好。

為了克服這一限制，研究團(tuán)隊(duì)將訓(xùn)練分成兩部分：

1）用合成圖像訓(xùn)練背景和前景區(qū)域分類(lèi)和定位頭（classification and localization heads）；2）用真實(shí)圖像學(xué)習(xí)掩碼頭（mask head）。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖2. 本文的增補(bǔ)策略是通過(guò)提高小區(qū)域的比例作為背景來(lái)創(chuàng)建沒(méi)有潛在物體的圖像。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖3. 原始輸入（左）和合成圖像（右）。用顏色標(biāo)示了掩碼區(qū)域，使用小區(qū)域作為背景，避免了背景中會(huì)隱藏物體。在某些情況下，背景補(bǔ)丁恰好可以定位前景物體（左欄第二行）。要注意的是，這種情況很少見(jiàn)，可以看出補(bǔ)丁被明顯放大了。

在訓(xùn)練分類(lèi)頭（classification head）時(shí)，由于潛在物體在合成圖像時(shí)就已經(jīng)被移除了，因此將潛在物體視為背景的幾率變得很小。此外，掩碼頭是為在真實(shí)圖像中分割實(shí)例而訓(xùn)練的，因此主干系統(tǒng)學(xué)習(xí)了一般表征，能夠分離真實(shí)圖像中的前景和背景區(qū)域。

也許這看起來(lái)只是一個(gè)小變化，但LDET在開(kāi)放世界的實(shí)例分割和檢測(cè)方面的表現(xiàn)非常顯著。

在COCO上，在VOC類(lèi)別上訓(xùn)練的LDET評(píng)估非VOC類(lèi)別時(shí)，平均召回率提高了14.1點(diǎn)。令人驚訝的是，LDET在檢測(cè)新物體方面有明顯提高，而且不需要額外的標(biāo)記，例如，在COCO中只對(duì)VOC類(lèi)別（20類(lèi)）進(jìn)行訓(xùn)練的LDET在評(píng)估UVO上的平均召回率時(shí)，超過(guò)了對(duì)所有COCO類(lèi)別（80類(lèi)）訓(xùn)練的Mask R-CNN。如圖2所示，LDET可以生成精確的object proposals，也可以覆蓋場(chǎng)景中的許多物體。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖4. 在開(kāi)放世界中進(jìn)行實(shí)例分割，Mask R-CNN（上圖）比本文所研究的方法（下圖）所檢測(cè)到的物體要少。在此任務(wù)中，在不考慮訓(xùn)練種類(lèi)的情況下，模型必須對(duì)圖像中的所有物體進(jìn)行定位并對(duì)其分割。圖中的兩個(gè)檢測(cè)器都是在COCO上訓(xùn)練，并在UVO上測(cè)試的。在新的數(shù)據(jù)增補(bǔ)方法和訓(xùn)練方案的幫助下，本文的檢測(cè)器準(zhǔn)確地定位出許多在COCO中沒(méi)有被標(biāo)記的物體。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖5. 訓(xùn)練流程。給定一個(gè)原始輸入圖像和合成圖像，根據(jù)在原始圖像上計(jì)算的掩碼損失和分類(lèi)，以及在合成圖像上的回歸損失來(lái)訓(xùn)練檢測(cè)器。

本文的貢獻(xiàn)總結(jié)如下：

提出了一個(gè)簡(jiǎn)單的框架——LDET，該框架由用于開(kāi)放世界實(shí)例分割的新數(shù)據(jù)增補(bǔ)和解耦訓(xùn)練組成。
證明了本文的數(shù)據(jù)增補(bǔ)和解耦訓(xùn)練對(duì)在開(kāi)放世界實(shí)例分割中實(shí)現(xiàn)良好的性能至關(guān)重要。
LDET在所有設(shè)置中都優(yōu)于最先進(jìn)的方法，包括COCO的跨類(lèi)別設(shè)置和COCO-to-UVO和Cityscape-to-Mapillary的跨數(shù)據(jù)集設(shè)置。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在開(kāi)放世界實(shí)例分割的跨類(lèi)別和跨數(shù)據(jù)集上評(píng)估了LDET。跨類(lèi)別設(shè)置是基于COCO數(shù)據(jù)集，將標(biāo)記分為已知和未知兩類(lèi)，在已知類(lèi)別上訓(xùn)練模型，并在未知類(lèi)別上評(píng)估檢測(cè)/分割性能。

由于模型可能會(huì)處在一個(gè)新的環(huán)境中并且遇到新的實(shí)例，所以跨數(shù)據(jù)集設(shè)置還評(píng)估了模型對(duì)新數(shù)據(jù)集的歸納延伸能力。為此，采用COCO或Cityscapes作為訓(xùn)練源，UVO和Mappilary Vista分別作為測(cè)試數(shù)據(jù)集。在此工作中，平均精度（AP）和平均召回率（AR）作為性能評(píng)估標(biāo)準(zhǔn)。評(píng)估是以不分等級(jí)的方式進(jìn)行的，除非另有說(shuō)明。AR和AP是按照COCO評(píng)估協(xié)議計(jì)算的，AP或AR最多有100個(gè)檢測(cè)值。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表1. COCO中VOC → Non-VOC泛化的結(jié)果。表中最后一行的藍(lán)色部分是對(duì)Mask R-CNN的改進(jìn)。LDET超過(guò)了所有的基線，并相較于Mask R-CNN有巨大改進(jìn)。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖6. 在COCO數(shù)據(jù)集中，VOC to Non-VOC的可視化。上圖：Mask R-CNN，下圖：LDET。注意訓(xùn)練類(lèi)別不包括長(zhǎng)頸鹿、垃圾箱、筆、風(fēng)箏和漂浮物。LDET比Mask R-CNN能更好地檢測(cè)許多新的物體。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表2. VOC → Non-VOC的數(shù)據(jù)和訓(xùn)練方法的消融研究。最后一行是本文提出的框架。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表3. class agnostic訓(xùn)練的消融研究。class agnostic訓(xùn)練對(duì)LDET和Mask R-CNN的性能有些許提高。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖7. 基線Mask R-CNN存在著對(duì)標(biāo)記實(shí)例的過(guò)度擬合。因此，隨著訓(xùn)練的進(jìn)行，它檢測(cè)新物體的性能會(huì)下降。相比之下，本文的方法基本上隨著訓(xùn)練，性能都會(huì)提升。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表4. 與COCO上測(cè)試的無(wú)監(jiān)督方法和DeepMask的比較。需注意的是，DeepMask使用VGG作為主干。LDET和DeepMask是在VOC-COCO上訓(xùn)練的。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表5. 改變背景區(qū)域的大小。2-m表示用輸入圖像的2-m的寬度和高度裁剪背景區(qū)域。從較小的區(qū)域取樣背景，往往會(huì)提高AR，降低AP。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表6. ResNet50與ResNet101的對(duì)比。ResNet101傾向于比ResNet50表現(xiàn)得更好，這在LDET中更明顯。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表7. region proposal network和region of interest head的比較。bounding boxes的AP和AR。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖8. COCO實(shí)驗(yàn)中的目標(biāo)屬性圖（RPN score）的可視化。LDET捕獲了各種類(lèi)別的物體性，而Mask R-CNN則傾向于抑制許多物體。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表8. COCO→UVO泛化的結(jié)果。上：在VOC-COCO上訓(xùn)練的模型，下：在COCO上訓(xùn)練的模型。與基線相比，LDET在所有情況下都表現(xiàn)出較高的AP和AR。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

圖9. 在COCO上訓(xùn)練的模型結(jié)果的可視化。上圖：Mask R-CNN，下圖：LDET。最左邊的兩張圖片來(lái)自UVO，其他的來(lái)自COCO的驗(yàn)證圖片。

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

表9. Cityscapes → Mappilary Vista的歸納結(jié)果。LDET對(duì)自動(dòng)駕駛數(shù)據(jù)集是有效的。AR0.5表示AR，IoU閾值=0.5。

推薦閱讀

GAIR 2021大會(huì)首日：18位Fellow的40年AI歲月，一場(chǎng)技術(shù)前沿的傳承與激辯

2021-12-10

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

致敬傳奇：中國(guó)并行處理四十年，他們從無(wú)人區(qū)探索走到計(jì)算的黃金時(shí)代 | GAIR 2021

2021-12-09

時(shí)間的力量——1991 人工智能大辯論 30 周年紀(jì)念：主義不再，共融互生｜GAIR 2021

2021-12-12

論智三易，串聯(lián)通訊，貫通邊緣，演進(jìn)認(rèn)知，匯于機(jī)器：聽(tīng)五位IEEE Fellow暢談AI未來(lái) | GAIR 2021

2021-12-25

新一代AI人才從哪里來(lái)，該往哪里去？| GAIR 2021院長(zhǎng)論壇

2021-12-29

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門(mén)文章

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

無(wú)人汽車(chē)無(wú)法避開(kāi)沒(méi)見(jiàn)過(guò)的物體？問(wèn)題出在訓(xùn)練pipeline上