丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給深度學(xué)習(xí)大講堂
發(fā)送

0

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

本文作者: 深度學(xué)習(xí)大講堂 2017-01-13 11:25
導(dǎo)語:相對(duì)于圖像目標(biāo)檢測(cè),當(dāng)前的視頻目標(biāo)檢測(cè)算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。

雷鋒網(wǎng)按:本文作者王斌,中科院計(jì)算所前瞻研究實(shí)驗(yàn)室跨媒體計(jì)算組博士生,導(dǎo)師張勇東研究員。2016年在唐勝副研究員的帶領(lǐng)下,作為計(jì)算所MCG-ICT-CAS團(tuán)隊(duì)核心主力隊(duì)員(王斌、肖俊斌),參加了ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)的視頻目標(biāo)檢測(cè)(VID)任務(wù)并獲得第三名。目標(biāo)檢測(cè)相關(guān)工作受邀在ECCV 2016 ImageNet和COCO競(jìng)賽聯(lián)合工作組會(huì)議(ImageNet and COCO Visual Recognition Challenges Joint Workshop)上做大會(huì)報(bào)告。

本文的姐妹篇:《ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧:圖像目標(biāo)檢測(cè)(DET)》

圖像目標(biāo)檢測(cè)任務(wù)在過去三年的時(shí)間取得了巨大的進(jìn)展,檢測(cè)性能得到明顯提升。但在視頻監(jiān)控、車輛輔助駕駛等領(lǐng)域,基于視頻的目標(biāo)檢測(cè)有著更為廣泛的需求。由于視頻中存在運(yùn)動(dòng)模糊,遮擋,形態(tài)變化多樣性,光照變化多樣性等問題,僅利用圖像目標(biāo)檢測(cè)技術(shù)檢測(cè)視頻中的目標(biāo)并不能得到很好的檢測(cè)結(jié)果。如何利用視頻中目標(biāo)時(shí)序信息和上下文等信息成為提升視頻目標(biāo)檢測(cè)性能的關(guān)鍵。

ILSVRC2015新增加了視頻目標(biāo)檢測(cè)任務(wù)(Object detection from video, VID),這為研究者提供了良好的數(shù)據(jù)支持。ILSVRC2015的VID評(píng)價(jià)指標(biāo)與圖像目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)相同——計(jì)算檢測(cè)窗口的mAP。然而對(duì)于視頻目標(biāo)檢測(cè)來說,一個(gè)好的檢測(cè)器不僅要保證在每幀圖像上檢測(cè)準(zhǔn)確,還要保證檢測(cè)結(jié)果具有一致性/連續(xù)性(即對(duì)于一個(gè)特定目標(biāo),優(yōu)秀的檢測(cè)器應(yīng)持續(xù)檢測(cè)此目標(biāo)并且不會(huì)將其與其他目標(biāo)混淆)。ILSVRC2016針對(duì)這個(gè)問題在VID任務(wù)上新增加了一個(gè)子任務(wù)(詳見第四部分——視頻目標(biāo)檢測(cè)時(shí)序一致性介紹)。

在ILSVRC2016上,在不使用外部數(shù)據(jù)的VID兩個(gè)子任務(wù)上,前三名由國(guó)內(nèi)隊(duì)伍包攬(見表1、表2)。本文主要結(jié)合NUIST,CUVideo,MCG-ICT-CAS以及ITLab-Inha四個(gè)隊(duì)伍公布的相關(guān)資料對(duì)ILSVRC2016中的視頻目標(biāo)檢測(cè)方法進(jìn)行了總結(jié)。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

表1.  ILSVRC2016 VID results(無外部數(shù)據(jù))

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

表2.  ILSVRC2016 VID tracking result(無外部數(shù)據(jù))

通過對(duì)參賽隊(duì)伍的相關(guān)報(bào)告[2-5]進(jìn)行學(xué)習(xí)了解,視頻目標(biāo)檢測(cè)算法目前主要使用了如下的框架:

  • 將視頻幀視為獨(dú)立的圖像,利用圖像目標(biāo)檢測(cè)算法獲取檢測(cè)結(jié)果;

  • 利用視頻的時(shí)序信息和上下文信息對(duì)檢測(cè)結(jié)果進(jìn)行修正;

  • 基于高質(zhì)量檢測(cè)窗口的跟蹤軌跡對(duì)檢測(cè)結(jié)果進(jìn)一步進(jìn)行修正。

本文分為四部分,前三個(gè)部分介紹如何提升視頻目標(biāo)檢測(cè)的精度,最后介紹如何保證視頻目標(biāo)檢測(cè)的一致性。

一、單幀圖像目標(biāo)檢測(cè)

此階段通常將視頻拆分成相互獨(dú)立的視頻幀來處理,通過選取優(yōu)秀的圖像目標(biāo)檢測(cè)框架以及各種提高圖像檢測(cè)精度的技巧來獲取較為魯棒的單幀檢測(cè)結(jié)果。《ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧(上)--圖像目標(biāo)檢測(cè)》已對(duì)此進(jìn)行詳細(xì)總結(jié),這里不再重復(fù)。

結(jié)合自己實(shí)驗(yàn)及各參賽隊(duì)伍的相關(guān)文檔,我們認(rèn)為訓(xùn)練數(shù)據(jù)的選取以及網(wǎng)絡(luò)結(jié)構(gòu)的選擇對(duì)提升目標(biāo)檢測(cè)性能有至關(guān)重要的作用。

  • 訓(xùn)練數(shù)據(jù)選取

首先對(duì)ILSVRC2016 VID訓(xùn)練數(shù)據(jù)進(jìn)行分析: VID數(shù)據(jù)庫(kù)包含30個(gè)類別,訓(xùn)練集共有3862個(gè)視頻片段,總幀數(shù)超過112萬。單從數(shù)字上看,這么大的數(shù)據(jù)量訓(xùn)練30個(gè)類別的檢測(cè)器似乎已經(jīng)足夠。然而,同一個(gè)視頻片段背景單一,相鄰多幀的圖像差異較小。所以要訓(xùn)練現(xiàn)有目標(biāo)檢測(cè)模型,VID訓(xùn)練集存在大量數(shù)據(jù)冗余,并且數(shù)據(jù)多樣性較差,有必要對(duì)其進(jìn)行擴(kuò)充。在比賽任務(wù)中,可以從ILSVRC DET和ILSVRC LOC數(shù)據(jù)中抽取包含VID類別的圖片進(jìn)行擴(kuò)充。CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作為訓(xùn)練集,ITLab-Inha使了ILSVRC VID+DET、COCO DET等作為訓(xùn)練集。需要注意的是在構(gòu)建新的訓(xùn)練集的時(shí)候要注意平衡樣本并去除冗余(CUVideo和MCG-ICT-CAS抽取部分VID訓(xùn)練集訓(xùn)練模型,ITLab-Inha在每個(gè)類別選擇一定數(shù)量圖像參與訓(xùn)練,NUIST使用在DET上訓(xùn)練的模型對(duì)VID數(shù)據(jù)進(jìn)行篩選)。對(duì)于同樣的網(wǎng)絡(luò),使用擴(kuò)充后的數(shù)據(jù)集可以提高10%左右的檢測(cè)精度。

  • 網(wǎng)絡(luò)結(jié)構(gòu)選取

不同的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于檢測(cè)性能也有很大影響。我們?cè)赩ID驗(yàn)證集上進(jìn)行實(shí)驗(yàn):同樣的訓(xùn)練數(shù)據(jù),基于ResNet101[6]的Faster R-CNN[7]模型的檢測(cè)精度比基于VGG16[8]的Faster R-CNN模型的檢測(cè)精度高12%左右。這也是MSRA在2015年ILSVRC和COCO比賽上的制勝關(guān)鍵。今年比賽前幾名的隊(duì)伍基本上也是使用ResNet/Inception的基礎(chǔ)網(wǎng)絡(luò),CUVideo使用269層的GBD-Net[9]。

二、改進(jìn)分類損失

目標(biāo)在某些視頻幀上會(huì)存在運(yùn)動(dòng)模糊,分辨率較低,遮擋等問題,即便是目前最好的圖像目標(biāo)檢算法也不能很好地檢測(cè)目標(biāo)。幸運(yùn)的是,視頻中的時(shí)序信息和上下文信息能夠幫助我們處理這類問題。比較有代表性的方法有T-CNN[10]中的運(yùn)動(dòng)指導(dǎo)傳播(Motion-guided Propagation, MGP)和多上下文抑制(Multi-context suppression, MCS)。

  • MGP

單幀檢測(cè)結(jié)果存在很多漏檢目標(biāo),而相鄰幀圖像檢測(cè)結(jié)果中可能包含這些漏檢目標(biāo)。所以我們可以借助光流信息將當(dāng)前幀的檢測(cè)結(jié)果前向后向傳播,經(jīng)過MGP處理可以提高目標(biāo)的召回率。如圖1所示將T時(shí)刻的檢測(cè)窗口分別向前向后傳播,可以很好地填補(bǔ)T-1和T+1時(shí)刻的漏檢目標(biāo)。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

圖1.  MGP示意圖[10]

  • MCS

使用圖像檢測(cè)算法將視頻幀當(dāng)做獨(dú)立的圖像來處理并沒有充分利用整個(gè)視頻的上下文信息。雖然說視頻中可能出現(xiàn)任意類別的目標(biāo),但對(duì)于單個(gè)視頻片段,只會(huì)出現(xiàn)比較少的幾個(gè)類別,而且這幾個(gè)類別之間有共現(xiàn)關(guān)系(出現(xiàn)船只的視頻段中可能會(huì)有鯨魚,但基本不可能出現(xiàn)斑馬)。所以,可以借助整個(gè)視頻段上的檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析:對(duì)所有檢測(cè)窗口按得分排序,選出得分較高的類別,剩余那些得分較低的類別很可能是誤檢,需對(duì)其得分進(jìn)行壓制(如圖2)。經(jīng)過MCS處理后的檢測(cè)結(jié)果中正確的類別靠前,錯(cuò)誤的類別靠后,從而提升目標(biāo)檢測(cè)的精度。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

圖2. 多上下文抑制示意圖[10]

三、利用跟蹤信息修正

上文提到的MGP可以填補(bǔ)某些視頻幀上漏檢的目標(biāo),但對(duì)于多幀連續(xù)漏檢的目標(biāo)不是很有效,而目標(biāo)跟蹤可以很好地解決這個(gè)問題。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支參賽隊(duì)伍都使用了跟蹤算法進(jìn)一步提高視頻目標(biāo)檢測(cè)的召回率。使用跟蹤算法獲取目標(biāo)序列基本流程如下:

  • 使用圖像目標(biāo)檢測(cè)算法獲取較好的檢測(cè)結(jié)果;

  • 從中選取檢測(cè)得分最高的目標(biāo)作為跟蹤的起始錨點(diǎn);

  • 基于選取的錨點(diǎn)向前向后在整個(gè)視頻片段上進(jìn)行跟蹤,生成跟蹤軌跡;

  • 從剩余目標(biāo)中選擇得分最高的進(jìn)行跟蹤,需要注意的是如果此窗口在之前的跟蹤軌跡中出現(xiàn)過,那么直接跳過,選擇下一個(gè)目標(biāo)進(jìn)行跟蹤;

  • 算法迭代執(zhí)行,可以使用得分閾值作為終止條件。

得到的跟蹤軌跡既可以用來提高目標(biāo)召回率,也可以作為長(zhǎng)序列上下文信息對(duì)結(jié)果進(jìn)行修正。

四、網(wǎng)絡(luò)選擇與訓(xùn)練技巧

對(duì)于視頻目標(biāo)檢測(cè),除了要保證每幀圖像的檢測(cè)精度,還應(yīng)該保證長(zhǎng)時(shí)間穩(wěn)定地跟蹤每個(gè)目標(biāo)。為此,ILSVRC2016新增一個(gè)VID子任務(wù),此任務(wù)計(jì)算每個(gè)目標(biāo)跟蹤軌跡(tracklet)/管道(tubelet)的mAP來評(píng)測(cè)檢測(cè)算法的時(shí)序一致性或者說跟蹤連續(xù)性的性能。

評(píng)價(jià)指標(biāo):圖像目標(biāo)檢測(cè)mAP評(píng)測(cè)對(duì)象是每個(gè)檢測(cè)窗口是否精準(zhǔn),而視頻時(shí)序一致性評(píng)測(cè)對(duì)象是目標(biāo)跟蹤軌跡是否精準(zhǔn);圖像目標(biāo)檢測(cè)中如果檢測(cè)窗口跟Ground Truth類別相同,窗口IoU大于0.5就認(rèn)定為正例。而評(píng)價(jià)時(shí)序一致性時(shí),如果檢測(cè)得到的跟蹤軌跡和Ground Truth(目標(biāo)真實(shí)跟蹤軌跡)是同一個(gè)目標(biāo)(trackId相同),并且其中檢測(cè)出的窗口與Ground Truth窗口的IoU大于0.5的數(shù)量超過一個(gè)比例,那么認(rèn)為得到的跟蹤軌跡是正例;跟蹤軌跡的得分是序列上所有窗口得分的平均值。分析可知,如果一個(gè)目標(biāo)的軌跡被分成多段或者一個(gè)目標(biāo)的跟蹤軌跡中混入其他的目標(biāo)都會(huì)降低一致性。

那么如何保證視頻檢測(cè)中目標(biāo)的時(shí)序一致性呢?本文認(rèn)為可以從以下三個(gè)方面入手:

  • 保證圖像檢測(cè)階段每幀圖像檢測(cè)的結(jié)果盡量精準(zhǔn);

  • 對(duì)高質(zhì)量檢測(cè)窗口進(jìn)行跟蹤并保證跟蹤的質(zhì)量(盡量降低跟蹤中出現(xiàn)的漂移現(xiàn)象);

  • 前面兩步獲取到的跟蹤結(jié)果會(huì)存在重疊或者臨接的情況,需針對(duì)性地進(jìn)行后處理。

ITLab-Inha團(tuán)隊(duì)提出了基于變換點(diǎn)檢測(cè)的多目標(biāo)跟蹤算法[11],該算法首先檢測(cè)出目標(biāo),然后對(duì)其進(jìn)行跟蹤,并在跟蹤過程中對(duì)跟蹤軌跡點(diǎn)進(jìn)行分析處理,可以較好地緩解跟蹤時(shí)的漂移現(xiàn)象,并能在軌跡異常時(shí)及時(shí)終止跟蹤。

針對(duì)視頻目標(biāo)檢測(cè)的一致性問題,作者所在的MCG-ICT-CAS提出了基于檢測(cè)和跟蹤的目標(biāo)管道生成方法。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

a.基于跟蹤的目標(biāo)管道/跟蹤軌跡

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

b.基于檢測(cè)的目標(biāo)管道

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

c.基于檢測(cè)和跟蹤的融合管道

圖3. 基于檢測(cè)/跟蹤/檢測(cè)+跟蹤管道示意圖

圖3-a表示使用跟蹤算法獲取到的目標(biāo)管道(紅色包圍框),綠色包圍框代表目標(biāo)的Ground Truth??梢钥吹诫S著時(shí)間推移,跟蹤窗口逐漸偏移目標(biāo),最后甚至可能丟失目標(biāo)。MCG-ICT-CAS提出了基于檢測(cè)的目標(biāo)管道生成方法,如圖3-b所示,基于檢測(cè)的管道窗口(紅色包圍框)定位較為準(zhǔn)確,但由于目標(biāo)的運(yùn)動(dòng)模糊使檢測(cè)器出現(xiàn)漏檢。從上面分析可知:跟蹤算法生成的目標(biāo)管道召回率較高,但定位不準(zhǔn);而基于檢測(cè)窗口生成的目標(biāo)管道目標(biāo)定位較為精準(zhǔn),但召回率相對(duì)前者較低。由于兩者存在互補(bǔ)性,所以MCG-ICT-CAS進(jìn)一步提出了管道融合算法,對(duì)檢測(cè)管道和跟蹤管道進(jìn)行融合,融合重復(fù)出現(xiàn)的窗口并且拼接間斷的管道。

如圖4所示,相對(duì)于單獨(dú)的檢測(cè)或者跟蹤生成的目標(biāo)管道,融合后目標(biāo)管道對(duì)應(yīng)的檢測(cè)窗口的召回率隨著IoU閾值的增加一直保持較高的值,說明了融合后的窗口既能保持較高的窗口召回率,也有較為精準(zhǔn)的定位。融合后的目標(biāo)管道m(xù)AP在VID測(cè)試集上提升了12.1%。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

圖4.不同方法生成目標(biāo)管道的召回率

總結(jié)

本文主要結(jié)合ILSVRC2016 VID競(jìng)賽任務(wù)對(duì)視頻目標(biāo)檢測(cè)算法進(jìn)行介紹。相對(duì)于圖像目標(biāo)檢測(cè),當(dāng)前的視頻目標(biāo)檢測(cè)算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。如何精簡(jiǎn)視頻目標(biāo)檢測(cè)流程使其具有實(shí)時(shí)性,如何進(jìn)一步挖掘視頻包含的豐富信息使其具有更高的檢測(cè)精度,以及如何保證視頻目標(biāo)檢測(cè)的一致性或許是視頻目標(biāo)檢測(cè)接下來要著重解決的問題。

參考文獻(xiàn)

[1]ILSVRC2016相關(guān)報(bào)告

[2]CUVideo slide

[3]NUIST slide

[4]MCG-ICT-CAS slide

[5]ITLab-Inha slide

[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv:1512.03385, 2015.

[7]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[9]Zeng X, Ouyang W, Yang B, et al. Gated bi-directional cnn for object detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 354-369.

[10]Kang K, Li H, Yan J, et al. T-cnn: Tubelets with convolutional neural networks for object detection from videos[J]. arXiv preprint arXiv:1604.02532, 2016.

[11]Lee B, Erdenee E, Jin S, et al. Multi-class Multi-object Tracking Using Changing Point Detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 68-83.

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ILSVRC2016目標(biāo)檢測(cè)任務(wù)回顧——視頻目標(biāo)檢測(cè)(VID)

分享:
相關(guān)文章

專欄作者

高質(zhì)量原創(chuàng)內(nèi)容平臺(tái),學(xué)術(shù)界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動(dòng)。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說