丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給深度學(xué)習(xí)大講堂
發(fā)送

0

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

本文作者: 深度學(xué)習(xí)大講堂 2017-01-13 11:25
導(dǎo)語:相對于圖像目標(biāo)檢測,當(dāng)前的視頻目標(biāo)檢測算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。

雷鋒網(wǎng)按:本文作者王斌,中科院計算所前瞻研究實(shí)驗(yàn)室跨媒體計算組博士生,導(dǎo)師張勇東研究員。2016年在唐勝副研究員的帶領(lǐng)下,作為計算所MCG-ICT-CAS團(tuán)隊核心主力隊員(王斌、肖俊斌),參加了ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)的視頻目標(biāo)檢測(VID)任務(wù)并獲得第三名。目標(biāo)檢測相關(guān)工作受邀在ECCV 2016 ImageNet和COCO競賽聯(lián)合工作組會議(ImageNet and COCO Visual Recognition Challenges Joint Workshop)上做大會報告。

本文的姐妹篇:《ILSVRC2016目標(biāo)檢測任務(wù)回顧:圖像目標(biāo)檢測(DET)》

圖像目標(biāo)檢測任務(wù)在過去三年的時間取得了巨大的進(jìn)展,檢測性能得到明顯提升。但在視頻監(jiān)控、車輛輔助駕駛等領(lǐng)域,基于視頻的目標(biāo)檢測有著更為廣泛的需求。由于視頻中存在運(yùn)動模糊,遮擋,形態(tài)變化多樣性,光照變化多樣性等問題,僅利用圖像目標(biāo)檢測技術(shù)檢測視頻中的目標(biāo)并不能得到很好的檢測結(jié)果。如何利用視頻中目標(biāo)時序信息和上下文等信息成為提升視頻目標(biāo)檢測性能的關(guān)鍵。

ILSVRC2015新增加了視頻目標(biāo)檢測任務(wù)(Object detection from video, VID),這為研究者提供了良好的數(shù)據(jù)支持。ILSVRC2015的VID評價指標(biāo)與圖像目標(biāo)檢測評價指標(biāo)相同——計算檢測窗口的mAP。然而對于視頻目標(biāo)檢測來說,一個好的檢測器不僅要保證在每幀圖像上檢測準(zhǔn)確,還要保證檢測結(jié)果具有一致性/連續(xù)性(即對于一個特定目標(biāo),優(yōu)秀的檢測器應(yīng)持續(xù)檢測此目標(biāo)并且不會將其與其他目標(biāo)混淆)。ILSVRC2016針對這個問題在VID任務(wù)上新增加了一個子任務(wù)(詳見第四部分——視頻目標(biāo)檢測時序一致性介紹)。

在ILSVRC2016上,在不使用外部數(shù)據(jù)的VID兩個子任務(wù)上,前三名由國內(nèi)隊伍包攬(見表1、表2)。本文主要結(jié)合NUIST,CUVideo,MCG-ICT-CAS以及ITLab-Inha四個隊伍公布的相關(guān)資料對ILSVRC2016中的視頻目標(biāo)檢測方法進(jìn)行了總結(jié)。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

表1.  ILSVRC2016 VID results(無外部數(shù)據(jù))

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

表2.  ILSVRC2016 VID tracking result(無外部數(shù)據(jù))

通過對參賽隊伍的相關(guān)報告[2-5]進(jìn)行學(xué)習(xí)了解,視頻目標(biāo)檢測算法目前主要使用了如下的框架:

  • 將視頻幀視為獨(dú)立的圖像,利用圖像目標(biāo)檢測算法獲取檢測結(jié)果;

  • 利用視頻的時序信息和上下文信息對檢測結(jié)果進(jìn)行修正;

  • 基于高質(zhì)量檢測窗口的跟蹤軌跡對檢測結(jié)果進(jìn)一步進(jìn)行修正。

本文分為四部分,前三個部分介紹如何提升視頻目標(biāo)檢測的精度,最后介紹如何保證視頻目標(biāo)檢測的一致性。

一、單幀圖像目標(biāo)檢測

此階段通常將視頻拆分成相互獨(dú)立的視頻幀來處理,通過選取優(yōu)秀的圖像目標(biāo)檢測框架以及各種提高圖像檢測精度的技巧來獲取較為魯棒的單幀檢測結(jié)果。《ILSVRC2016目標(biāo)檢測任務(wù)回顧(上)--圖像目標(biāo)檢測》已對此進(jìn)行詳細(xì)總結(jié),這里不再重復(fù)。

結(jié)合自己實(shí)驗(yàn)及各參賽隊伍的相關(guān)文檔,我們認(rèn)為訓(xùn)練數(shù)據(jù)的選取以及網(wǎng)絡(luò)結(jié)構(gòu)的選擇對提升目標(biāo)檢測性能有至關(guān)重要的作用。

  • 訓(xùn)練數(shù)據(jù)選取

首先對ILSVRC2016 VID訓(xùn)練數(shù)據(jù)進(jìn)行分析: VID數(shù)據(jù)庫包含30個類別,訓(xùn)練集共有3862個視頻片段,總幀數(shù)超過112萬。單從數(shù)字上看,這么大的數(shù)據(jù)量訓(xùn)練30個類別的檢測器似乎已經(jīng)足夠。然而,同一個視頻片段背景單一,相鄰多幀的圖像差異較小。所以要訓(xùn)練現(xiàn)有目標(biāo)檢測模型,VID訓(xùn)練集存在大量數(shù)據(jù)冗余,并且數(shù)據(jù)多樣性較差,有必要對其進(jìn)行擴(kuò)充。在比賽任務(wù)中,可以從ILSVRC DET和ILSVRC LOC數(shù)據(jù)中抽取包含VID類別的圖片進(jìn)行擴(kuò)充。CUVideo、NUIST和MCG-ICT-CAS使用ILSVRC VID+DET作為訓(xùn)練集,ITLab-Inha使了ILSVRC VID+DET、COCO DET等作為訓(xùn)練集。需要注意的是在構(gòu)建新的訓(xùn)練集的時候要注意平衡樣本并去除冗余(CUVideo和MCG-ICT-CAS抽取部分VID訓(xùn)練集訓(xùn)練模型,ITLab-Inha在每個類別選擇一定數(shù)量圖像參與訓(xùn)練,NUIST使用在DET上訓(xùn)練的模型對VID數(shù)據(jù)進(jìn)行篩選)。對于同樣的網(wǎng)絡(luò),使用擴(kuò)充后的數(shù)據(jù)集可以提高10%左右的檢測精度。

  • 網(wǎng)絡(luò)結(jié)構(gòu)選取

不同的網(wǎng)絡(luò)結(jié)構(gòu)對于檢測性能也有很大影響。我們在VID驗(yàn)證集上進(jìn)行實(shí)驗(yàn):同樣的訓(xùn)練數(shù)據(jù),基于ResNet101[6]的Faster R-CNN[7]模型的檢測精度比基于VGG16[8]的Faster R-CNN模型的檢測精度高12%左右。這也是MSRA在2015年ILSVRC和COCO比賽上的制勝關(guān)鍵。今年比賽前幾名的隊伍基本上也是使用ResNet/Inception的基礎(chǔ)網(wǎng)絡(luò),CUVideo使用269層的GBD-Net[9]。

二、改進(jìn)分類損失

目標(biāo)在某些視頻幀上會存在運(yùn)動模糊,分辨率較低,遮擋等問題,即便是目前最好的圖像目標(biāo)檢算法也不能很好地檢測目標(biāo)。幸運(yùn)的是,視頻中的時序信息和上下文信息能夠幫助我們處理這類問題。比較有代表性的方法有T-CNN[10]中的運(yùn)動指導(dǎo)傳播(Motion-guided Propagation, MGP)和多上下文抑制(Multi-context suppression, MCS)。

  • MGP

單幀檢測結(jié)果存在很多漏檢目標(biāo),而相鄰幀圖像檢測結(jié)果中可能包含這些漏檢目標(biāo)。所以我們可以借助光流信息將當(dāng)前幀的檢測結(jié)果前向后向傳播,經(jīng)過MGP處理可以提高目標(biāo)的召回率。如圖1所示將T時刻的檢測窗口分別向前向后傳播,可以很好地填補(bǔ)T-1和T+1時刻的漏檢目標(biāo)。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

圖1.  MGP示意圖[10]

  • MCS

使用圖像檢測算法將視頻幀當(dāng)做獨(dú)立的圖像來處理并沒有充分利用整個視頻的上下文信息。雖然說視頻中可能出現(xiàn)任意類別的目標(biāo),但對于單個視頻片段,只會出現(xiàn)比較少的幾個類別,而且這幾個類別之間有共現(xiàn)關(guān)系(出現(xiàn)船只的視頻段中可能會有鯨魚,但基本不可能出現(xiàn)斑馬)。所以,可以借助整個視頻段上的檢測結(jié)果進(jìn)行統(tǒng)計分析:對所有檢測窗口按得分排序,選出得分較高的類別,剩余那些得分較低的類別很可能是誤檢,需對其得分進(jìn)行壓制(如圖2)。經(jīng)過MCS處理后的檢測結(jié)果中正確的類別靠前,錯誤的類別靠后,從而提升目標(biāo)檢測的精度。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

圖2. 多上下文抑制示意圖[10]

三、利用跟蹤信息修正

上文提到的MGP可以填補(bǔ)某些視頻幀上漏檢的目標(biāo),但對于多幀連續(xù)漏檢的目標(biāo)不是很有效,而目標(biāo)跟蹤可以很好地解決這個問題。CUVideo, NUIST, MCG-ICT-CAS以及ITLab-Inha四支參賽隊伍都使用了跟蹤算法進(jìn)一步提高視頻目標(biāo)檢測的召回率。使用跟蹤算法獲取目標(biāo)序列基本流程如下:

  • 使用圖像目標(biāo)檢測算法獲取較好的檢測結(jié)果;

  • 從中選取檢測得分最高的目標(biāo)作為跟蹤的起始錨點(diǎn);

  • 基于選取的錨點(diǎn)向前向后在整個視頻片段上進(jìn)行跟蹤,生成跟蹤軌跡;

  • 從剩余目標(biāo)中選擇得分最高的進(jìn)行跟蹤,需要注意的是如果此窗口在之前的跟蹤軌跡中出現(xiàn)過,那么直接跳過,選擇下一個目標(biāo)進(jìn)行跟蹤;

  • 算法迭代執(zhí)行,可以使用得分閾值作為終止條件。

得到的跟蹤軌跡既可以用來提高目標(biāo)召回率,也可以作為長序列上下文信息對結(jié)果進(jìn)行修正。

四、網(wǎng)絡(luò)選擇與訓(xùn)練技巧

對于視頻目標(biāo)檢測,除了要保證每幀圖像的檢測精度,還應(yīng)該保證長時間穩(wěn)定地跟蹤每個目標(biāo)。為此,ILSVRC2016新增一個VID子任務(wù),此任務(wù)計算每個目標(biāo)跟蹤軌跡(tracklet)/管道(tubelet)的mAP來評測檢測算法的時序一致性或者說跟蹤連續(xù)性的性能。

評價指標(biāo):圖像目標(biāo)檢測mAP評測對象是每個檢測窗口是否精準(zhǔn),而視頻時序一致性評測對象是目標(biāo)跟蹤軌跡是否精準(zhǔn);圖像目標(biāo)檢測中如果檢測窗口跟Ground Truth類別相同,窗口IoU大于0.5就認(rèn)定為正例。而評價時序一致性時,如果檢測得到的跟蹤軌跡和Ground Truth(目標(biāo)真實(shí)跟蹤軌跡)是同一個目標(biāo)(trackId相同),并且其中檢測出的窗口與Ground Truth窗口的IoU大于0.5的數(shù)量超過一個比例,那么認(rèn)為得到的跟蹤軌跡是正例;跟蹤軌跡的得分是序列上所有窗口得分的平均值。分析可知,如果一個目標(biāo)的軌跡被分成多段或者一個目標(biāo)的跟蹤軌跡中混入其他的目標(biāo)都會降低一致性。

那么如何保證視頻檢測中目標(biāo)的時序一致性呢?本文認(rèn)為可以從以下三個方面入手:

  • 保證圖像檢測階段每幀圖像檢測的結(jié)果盡量精準(zhǔn);

  • 對高質(zhì)量檢測窗口進(jìn)行跟蹤并保證跟蹤的質(zhì)量(盡量降低跟蹤中出現(xiàn)的漂移現(xiàn)象);

  • 前面兩步獲取到的跟蹤結(jié)果會存在重疊或者臨接的情況,需針對性地進(jìn)行后處理。

ITLab-Inha團(tuán)隊提出了基于變換點(diǎn)檢測的多目標(biāo)跟蹤算法[11],該算法首先檢測出目標(biāo),然后對其進(jìn)行跟蹤,并在跟蹤過程中對跟蹤軌跡點(diǎn)進(jìn)行分析處理,可以較好地緩解跟蹤時的漂移現(xiàn)象,并能在軌跡異常時及時終止跟蹤。

針對視頻目標(biāo)檢測的一致性問題,作者所在的MCG-ICT-CAS提出了基于檢測和跟蹤的目標(biāo)管道生成方法。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

a.基于跟蹤的目標(biāo)管道/跟蹤軌跡

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

b.基于檢測的目標(biāo)管道

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

c.基于檢測和跟蹤的融合管道

圖3. 基于檢測/跟蹤/檢測+跟蹤管道示意圖

圖3-a表示使用跟蹤算法獲取到的目標(biāo)管道(紅色包圍框),綠色包圍框代表目標(biāo)的Ground Truth??梢钥吹诫S著時間推移,跟蹤窗口逐漸偏移目標(biāo),最后甚至可能丟失目標(biāo)。MCG-ICT-CAS提出了基于檢測的目標(biāo)管道生成方法,如圖3-b所示,基于檢測的管道窗口(紅色包圍框)定位較為準(zhǔn)確,但由于目標(biāo)的運(yùn)動模糊使檢測器出現(xiàn)漏檢。從上面分析可知:跟蹤算法生成的目標(biāo)管道召回率較高,但定位不準(zhǔn);而基于檢測窗口生成的目標(biāo)管道目標(biāo)定位較為精準(zhǔn),但召回率相對前者較低。由于兩者存在互補(bǔ)性,所以MCG-ICT-CAS進(jìn)一步提出了管道融合算法,對檢測管道和跟蹤管道進(jìn)行融合,融合重復(fù)出現(xiàn)的窗口并且拼接間斷的管道。

如圖4所示,相對于單獨(dú)的檢測或者跟蹤生成的目標(biāo)管道,融合后目標(biāo)管道對應(yīng)的檢測窗口的召回率隨著IoU閾值的增加一直保持較高的值,說明了融合后的窗口既能保持較高的窗口召回率,也有較為精準(zhǔn)的定位。融合后的目標(biāo)管道m(xù)AP在VID測試集上提升了12.1%。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

圖4.不同方法生成目標(biāo)管道的召回率

總結(jié)

本文主要結(jié)合ILSVRC2016 VID競賽任務(wù)對視頻目標(biāo)檢測算法進(jìn)行介紹。相對于圖像目標(biāo)檢測,當(dāng)前的視頻目標(biāo)檢測算法流程比較繁瑣且視頻自身包含的信息沒有被充分挖掘。如何精簡視頻目標(biāo)檢測流程使其具有實(shí)時性,如何進(jìn)一步挖掘視頻包含的豐富信息使其具有更高的檢測精度,以及如何保證視頻目標(biāo)檢測的一致性或許是視頻目標(biāo)檢測接下來要著重解決的問題。

參考文獻(xiàn)

[1]ILSVRC2016相關(guān)報告

[2]CUVideo slide

[3]NUIST slide

[4]MCG-ICT-CAS slide

[5]ITLab-Inha slide

[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv:1512.03385, 2015.

[7]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[9]Zeng X, Ouyang W, Yang B, et al. Gated bi-directional cnn for object detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 354-369.

[10]Kang K, Li H, Yan J, et al. T-cnn: Tubelets with convolutional neural networks for object detection from videos[J]. arXiv preprint arXiv:1604.02532, 2016.

[11]Lee B, Erdenee E, Jin S, et al. Multi-class Multi-object Tracking Using Changing Point Detection[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 68-83.

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ILSVRC2016目標(biāo)檢測任務(wù)回顧——視頻目標(biāo)檢測(VID)

分享:
相關(guān)文章

專欄作者

高質(zhì)量原創(chuàng)內(nèi)容平臺,學(xué)術(shù)界、工業(yè)界一線專家撰稿,致力于推送人工智能與深度學(xué)習(xí)最新技術(shù)、產(chǎn)品和活動。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說