ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)（VID）

本文作者：深度學(xué)習(xí)大講堂

2017-01-13 11:25

導(dǎo)語：相對(duì)于圖像目標(biāo)檢測(cè)，當(dāng)前的視頻目標(biāo)檢測(cè)算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。

雷鋒網(wǎng)按：本文作者王斌，中科院計(jì)算所前瞻研究實(shí)驗(yàn)室跨媒體計(jì)算組博士生，導(dǎo)師張勇東研究員。2016年在唐勝副研究員的帶領(lǐng)下，作為計(jì)算所MCG-ICT-CAS團(tuán)隊(duì)核心主力隊(duì)員（王斌、肖俊斌），參加了ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)的視頻目標(biāo)檢測(cè)（VID）任務(wù)并獲得第三名。目標(biāo)檢測(cè)相關(guān)工作受邀在ECCV 2016 ImageNet和COCO競(jìng)賽聯(lián)合工作組會(huì)議（ImageNet and COCO Visual Recognition Challenges Joint Workshop）上做大會(huì)報(bào)告。

本文的姐妹篇：《ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧：圖像目標(biāo)檢測(cè)（DET）》

圖像目標(biāo)檢測(cè)任務(wù)在過去三年的時(shí)間取得了巨大的進(jìn)展，檢測(cè)性能得到明顯提升。但在視頻監(jiān)控、車輛輔助駕駛等領(lǐng)域，基于視頻的目標(biāo)檢測(cè)有著更為廣泛的需求。由于視頻中存在運(yùn)動(dòng)模糊，遮擋，形態(tài)變化多樣性，光照變化多樣性等問題，僅利用圖像目標(biāo)檢測(cè)技術(shù)檢測(cè)視頻中的目標(biāo)并不能得到很好的檢測(cè)結(jié)果。如何利用視頻中目標(biāo)時(shí)序信息和上下文等信息成為提升視頻目標(biāo)檢測(cè)性能的關(guān)鍵。

ILSVRC2015新增加了視頻目標(biāo)檢測(cè)任務(wù)（Object detection from video, VID），這為研究者提供了良好的數(shù)據(jù)支持。ILSVRC2015的VID評(píng)價(jià)指標(biāo)與圖像目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)相同——計(jì)算檢測(cè)窗口的mAP。然而對(duì)于視頻目標(biāo)檢測(cè)來說，一個(gè)好的檢測(cè)器不僅要保證在每幀圖像上檢測(cè)準(zhǔn)確，還要保證檢測(cè)結(jié)果具有一致性/連續(xù)性（即對(duì)于一個(gè)特定目標(biāo)，優(yōu)秀的檢測(cè)器應(yīng)持續(xù)檢測(cè)此目標(biāo)并且不會(huì)將其與其他目標(biāo)混淆）。ILSVRC2016針對(duì)這個(gè)問題在VID任務(wù)上新增加了一個(gè)子任務(wù)（詳見第四部分——視頻目標(biāo)檢測(cè)時(shí)序一致性介紹）。

在ILSVRC2016上，在不使用外部數(shù)據(jù)的VID兩個(gè)子任務(wù)上，前三名由國內(nèi)隊(duì)伍包攬（見表1、表2）。本文主要結(jié)合NUIST，CUVideo，MCG-ICT-CAS以及ITLab-Inha四個(gè)隊(duì)伍公布的相關(guān)資料對(duì)ILSVRC2016中的視頻目標(biāo)檢測(cè)方法進(jìn)行了總結(jié)。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)（VID）

表1. ILSVRC2016 VID results(無外部數(shù)據(jù))

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)（VID）

表2. ILSVRC2016 VID tracking result(無外部數(shù)據(jù))

通過對(duì)參賽隊(duì)伍的相關(guān)報(bào)告[2-5]進(jìn)行學(xué)習(xí)了解，視頻目標(biāo)檢測(cè)算法目前主要使用了如下的框架:

將視頻幀視為獨(dú)立的圖像，利用圖像目標(biāo)檢測(cè)算法獲取檢測(cè)結(jié)果；
利用視頻的時(shí)序信息和上下文信息對(duì)檢測(cè)結(jié)果進(jìn)行修正；
基于高質(zhì)量檢測(cè)窗口的跟蹤軌跡對(duì)檢測(cè)結(jié)果進(jìn)一步進(jìn)行修正。

本文分為四部分，前三個(gè)部分介紹如何提升視頻目標(biāo)檢測(cè)的精度，最后介紹如何保證視頻目標(biāo)檢測(cè)的一致性。

一、單幀圖像目標(biāo)檢測(cè)

此階段通常將視頻拆分成相互獨(dú)立的視頻幀來處理，通過選取優(yōu)秀的圖像目標(biāo)檢測(cè)框架以及各種提高圖像檢測(cè)精度的技巧來獲取較為魯棒的單幀檢測(cè)結(jié)果。《ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧（上）--圖像目標(biāo)檢測(cè)》已對(duì)此進(jìn)行詳細(xì)總結(jié)，這里不再重復(fù)。

結(jié)合自己實(shí)驗(yàn)及各參賽隊(duì)伍的相關(guān)文檔，我們認(rèn)為訓(xùn)練數(shù)據(jù)的選取以及網(wǎng)絡(luò)結(jié)構(gòu)的選擇對(duì)提升目標(biāo)檢測(cè)性能有至關(guān)重要的作用。

訓(xùn)練數(shù)據(jù)選取

首先對(duì)ILSVRC2016 VID訓(xùn)練數(shù)據(jù)進(jìn)行分析: VID數(shù)據(jù)庫包含30個(gè)類別，訓(xùn)練集共有3862個(gè)視頻片段，總幀數(shù)超過112萬。單從數(shù)字上看，這么大的數(shù)據(jù)量訓(xùn)練30個(gè)類別的檢測(cè)器似乎已經(jīng)足夠。然而，同一個(gè)視頻片段背景單一，相鄰多幀的圖像差異較小。所以要訓(xùn)練現(xiàn)有目標(biāo)檢測(cè)模型，VID訓(xùn)練集存在大量數(shù)據(jù)冗余，并且數(shù)據(jù)多樣性較差，有必要對(duì)其進(jìn)行擴(kuò)充。在比賽任務(wù)中，可以從ILSVRC DET和ILSVRC LOC數(shù)據(jù)中抽取包含VID類別的圖片進(jìn)行擴(kuò)充。CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作為訓(xùn)練集，ITLab-Inha使了ILSVRC VID+DET、COCO DET等作為訓(xùn)練集。需要注意的是在構(gòu)建新的訓(xùn)練集的時(shí)候要注意平衡樣本并去除冗余（CUVideo和MCG-ICT-CAS抽取部分VID訓(xùn)練集訓(xùn)練模型，ITLab-Inha在每個(gè)類別選擇一定數(shù)量圖像參與訓(xùn)練，NUIST使用在DET上訓(xùn)練的模型對(duì)VID數(shù)據(jù)進(jìn)行篩選）。對(duì)于同樣的網(wǎng)絡(luò)，使用擴(kuò)充后的數(shù)據(jù)集可以提高10%左右的檢測(cè)精度。

網(wǎng)絡(luò)結(jié)構(gòu)選取

不同的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于檢測(cè)性能也有很大影響。我們?cè)赩ID驗(yàn)證集上進(jìn)行實(shí)驗(yàn)：同樣的訓(xùn)練數(shù)據(jù)，基于ResNet101^[6]的Faster R-CNN^[7]模型的檢測(cè)精度比基于VGG16^[8]的Faster R-CNN模型的檢測(cè)精度高12%左右。這也是MSRA在2015年ILSVRC和COCO比賽上的制勝關(guān)鍵。今年比賽前幾名的隊(duì)伍基本上也是使用ResNet/Inception的基礎(chǔ)網(wǎng)絡(luò)，CUVideo使用269層的GBD-Net^[9]。

二、改進(jìn)分類損失

目標(biāo)在某些視頻幀上會(huì)存在運(yùn)動(dòng)模糊，分辨率較低，遮擋等問題，即便是目前最好的圖像目標(biāo)檢算法也不能很好地檢測(cè)目標(biāo)。幸運(yùn)的是，視頻中的時(shí)序信息和上下文信息能夠幫助我們處理這類問題。比較有代表性的方法有T-CNN^[10]中的運(yùn)動(dòng)指導(dǎo)傳播（Motion-guided Propagation, MGP）和多上下文抑制（Multi-context suppression, MCS）。

MGP

單幀檢測(cè)結(jié)果存在很多漏檢目標(biāo)，而相鄰幀圖像檢測(cè)結(jié)果中可能包含這些漏檢目標(biāo)。所以我們可以借助光流信息將當(dāng)前幀的檢測(cè)結(jié)果前向后向傳播，經(jīng)過MGP處理可以提高目標(biāo)的召回率。如圖1所示將T時(shí)刻的檢測(cè)窗口分別向前向后傳播，可以很好地填補(bǔ)T-1和T+1時(shí)刻的漏檢目標(biāo)。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)（VID）

圖1. MGP示意圖[10]

MCS

使用圖像檢測(cè)算法將視頻幀當(dāng)做獨(dú)立的圖像來處理并沒有充分利用整個(gè)視頻的上下文信息。雖然說視頻中可能出現(xiàn)任意類別的目標(biāo)，但對(duì)于單個(gè)視頻片段，只會(huì)出現(xiàn)比較少的幾個(gè)類別，而且這幾個(gè)類別之間有共現(xiàn)關(guān)系（出現(xiàn)船只的視頻段中可能會(huì)有鯨魚，但基本不可能出現(xiàn)斑馬）。所以，可以借助整個(gè)視頻段上的檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析：對(duì)所有檢測(cè)窗口按得分排序，選出得分較高的類別，剩余那些得分較低的類別很可能是誤檢，需對(duì)其得分進(jìn)行壓制（如圖2）。經(jīng)過MCS處理后的檢測(cè)結(jié)果中正確的類別靠前，錯(cuò)誤的類別靠后，從而提升目標(biāo)檢測(cè)的精度。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)（VID）

圖2. 多上下文抑制示意圖[10]

三、利用跟蹤信息修正

上文提到的MGP可以填補(bǔ)某些視頻幀上漏檢的目標(biāo)，但對(duì)于多幀連續(xù)漏檢的目標(biāo)不是很有效，而目標(biāo)跟蹤可以很好地解決這個(gè)問題。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支參賽隊(duì)伍都使用了跟蹤算法進(jìn)一步提高視頻目標(biāo)檢測(cè)的召回率。使用跟蹤算法獲取目標(biāo)序列基本流程如下：

使用圖像目標(biāo)檢測(cè)算法獲取較好的檢測(cè)結(jié)果；
從中選取檢測(cè)得分最高的目標(biāo)作為跟蹤的起始錨點(diǎn)；
基于選取的錨點(diǎn)向前向后在整個(gè)視頻片段上進(jìn)行跟蹤，生成跟蹤軌跡；
從剩余目標(biāo)中選擇得分最高的進(jìn)行跟蹤，需要注意的是如果此窗口在之前的跟蹤軌跡中出現(xiàn)過，那么直接跳過，選擇下一個(gè)目標(biāo)進(jìn)行跟蹤；
算法迭代執(zhí)行，可以使用得分閾值作為終止條件。

得到的跟蹤軌跡既可以用來提高目標(biāo)召回率，也可以作為長(zhǎng)序列上下文信息對(duì)結(jié)果進(jìn)行修正。

四、網(wǎng)絡(luò)選擇與訓(xùn)練技巧

對(duì)于視頻目標(biāo)檢測(cè)，除了要保證每幀圖像的檢測(cè)精度，還應(yīng)該保證長(zhǎng)時(shí)間穩(wěn)定地跟蹤每個(gè)目標(biāo)。為此，ILSVRC2016新增一個(gè)VID子任務(wù)，此任務(wù)計(jì)算每個(gè)目標(biāo)跟蹤軌跡(tracklet)/管道(tubelet)的mAP來評(píng)測(cè)檢測(cè)算法的時(shí)序一致性或者說跟蹤連續(xù)性的性能。

評(píng)價(jià)指標(biāo)：圖像目標(biāo)檢測(cè)mAP評(píng)測(cè)對(duì)象是每個(gè)檢測(cè)窗口是否精準(zhǔn)，而視頻時(shí)序一致性評(píng)測(cè)對(duì)象是目標(biāo)跟蹤軌跡是否精準(zhǔn)；圖像目標(biāo)檢測(cè)中如果檢測(cè)窗口跟Ground Truth類別相同，窗口IoU大于0.5就認(rèn)定為正例。而評(píng)價(jià)時(shí)序一致性時(shí)，如果檢測(cè)得到的跟蹤軌跡和Ground Truth（目標(biāo)真實(shí)跟蹤軌跡）是同一個(gè)目標(biāo)（trackId相同），并且其中檢測(cè)出的窗口與Ground Truth窗口的IoU大于0.5的數(shù)量超過一個(gè)比例，那么認(rèn)為得到的跟蹤軌跡是正例；跟蹤軌跡的得分是序列上所有窗口得分的平均值。分析可知，如果一個(gè)目標(biāo)的軌跡被分成多段或者一個(gè)目標(biāo)的跟蹤軌跡中混入其他的目標(biāo)都會(huì)降低一致性。

那么如何保證視頻檢測(cè)中目標(biāo)的時(shí)序一致性呢？本文認(rèn)為可以從以下三個(gè)方面入手：

保證圖像檢測(cè)階段每幀圖像檢測(cè)的結(jié)果盡量精準(zhǔn)；
對(duì)高質(zhì)量檢測(cè)窗口進(jìn)行跟蹤并保證跟蹤的質(zhì)量（盡量降低跟蹤中出現(xiàn)的漂移現(xiàn)象）；
前面兩步獲取到的跟蹤結(jié)果會(huì)存在重疊或者臨接的情況，需針對(duì)性地進(jìn)行后處理。

ITLab-Inha團(tuán)隊(duì)提出了基于變換點(diǎn)檢測(cè)的多目標(biāo)跟蹤算法^[11]，該算法首先檢測(cè)出目標(biāo)，然后對(duì)其進(jìn)行跟蹤，并在跟蹤過程中對(duì)跟蹤軌跡點(diǎn)進(jìn)行分析處理，可以較好地緩解跟蹤時(shí)的漂移現(xiàn)象，并能在軌跡異常時(shí)及時(shí)終止跟蹤。

針對(duì)視頻目標(biāo)檢測(cè)的一致性問題，作者所在的MCG-ICT-CAS提出了基于檢測(cè)和跟蹤的目標(biāo)管道生成方法。

a.基于跟蹤的目標(biāo)管道/跟蹤軌跡

b.基于檢測(cè)的目標(biāo)管道

c.基于檢測(cè)和跟蹤的融合管道

圖3. 基于檢測(cè)/跟蹤/檢測(cè)+跟蹤管道示意圖

圖3-a表示使用跟蹤算法獲取到的目標(biāo)管道（紅色包圍框），綠色包圍框代表目標(biāo)的Ground Truth?？梢钥吹诫S著時(shí)間推移，跟蹤窗口逐漸偏移目標(biāo)，最后甚至可能丟失目標(biāo)。MCG-ICT-CAS提出了基于檢測(cè)的目標(biāo)管道生成方法，如圖3-b所示，基于檢測(cè)的管道窗口（紅色包圍框）定位較為準(zhǔn)確，但由于目標(biāo)的運(yùn)動(dòng)模糊使檢測(cè)器出現(xiàn)漏檢。從上面分析可知：跟蹤算法生成的目標(biāo)管道召回率較高，但定位不準(zhǔn)；而基于檢測(cè)窗口生成的目標(biāo)管道目標(biāo)定位較為精準(zhǔn)，但召回率相對(duì)前者較低。由于兩者存在互補(bǔ)性，所以MCG-ICT-CAS進(jìn)一步提出了管道融合算法，對(duì)檢測(cè)管道和跟蹤管道進(jìn)行融合，融合重復(fù)出現(xiàn)的窗口并且拼接間斷的管道。

如圖4所示，相對(duì)于單獨(dú)的檢測(cè)或者跟蹤生成的目標(biāo)管道，融合后目標(biāo)管道對(duì)應(yīng)的檢測(cè)窗口的召回率隨著IoU閾值的增加一直保持較高的值，說明了融合后的窗口既能保持較高的窗口召回率，也有較為精準(zhǔn)的定位。融合后的目標(biāo)管道m(xù)AP在VID測(cè)試集上提升了12.1%。

圖4.不同方法生成目標(biāo)管道的召回率

總結(jié)

本文主要結(jié)合ILSVRC2016 VID競(jìng)賽任務(wù)對(duì)視頻目標(biāo)檢測(cè)算法進(jìn)行介紹。相對(duì)于圖像目標(biāo)檢測(cè)，當(dāng)前的視頻目標(biāo)檢測(cè)算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。如何精簡(jiǎn)視頻目標(biāo)檢測(cè)流程使其具有實(shí)時(shí)性，如何進(jìn)一步挖掘視頻包含的豐富信息使其具有更高的檢測(cè)精度，以及如何保證視頻目標(biāo)檢測(cè)的一致性或許是視頻目標(biāo)檢測(cè)接下來要著重解決的問題。

參考文獻(xiàn)

[1]ILSVRC2016相關(guān)報(bào)告

[2]CUVideo slide

[3]NUIST slide

[4]MCG-ICT-CAS slide

[5]ITLab-Inha slide

[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv:1512.03385, 2015.

[7]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[9]Zeng X, Ouyang W, Yang B, et al. Gated bi-directional cnn for object detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 354-369.

[10]Kang K, Li H, Yan J, et al. T-cnn: Tubelets with convolutional neural networks for object detection from videos[J]. arXiv preprint arXiv:1604.02532, 2016.

[11]Lee B, Erdenee E, Jin S, et al. Multi-class Multi-object Tracking Using Changing Point Detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 68-83.

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

深度學(xué)習(xí)大講堂

專欄作者

高質(zhì)量原創(chuàng)內(nèi)容平臺(tái)，學(xué)術(shù)界、工業(yè)界一線專家撰稿，致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動(dòng)。

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章