0
本文作者: camel | 2018-06-03 17:28 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國(guó)論文宣講研討會(huì)中第三個(gè) Session——「Person Re-Identification and Tracking」環(huán)節(jié)的四場(chǎng)論文報(bào)告。
圖森未來(lái)王乃巖博士做了第一個(gè)報(bào)告。在行人重識(shí)別中,不同的圖片對(duì)行人的識(shí)別率不同,那么到底需要幾幀圖片才能夠準(zhǔn)確地判別一個(gè)人的身份呢?王乃巖博士針對(duì)這個(gè)問(wèn)題,提出了一種自適應(yīng)強(qiáng)化學(xué)習(xí)模型,也即自動(dòng)學(xué)出做出準(zhǔn)確判斷所需要的幀,其結(jié)果顯示只需要視頻流的 3%-6% 即可獲得最好的結(jié)果。而事實(shí)上這可以作為一種通用的方法用在別的研究任務(wù)中。
第二個(gè)報(bào)告由來(lái)自北京大學(xué)特聘研究員張史梁介紹他們?cè)谛腥酥刈R(shí)別研究中對(duì)「數(shù)據(jù)對(duì)性能的影響」的思考。他們發(fā)現(xiàn),盡管在特定數(shù)據(jù)集中許多方法能夠達(dá)到超越人類(lèi)的水平,但是在實(shí)際應(yīng)用中卻表現(xiàn)極差。原因是,目前公開(kāi)的數(shù)據(jù)集在數(shù)量、場(chǎng)景、時(shí)間段、光照等維度都過(guò)于單一;且由于不同數(shù)據(jù)集收集時(shí)的標(biāo)準(zhǔn)不同,很難實(shí)現(xiàn)跨數(shù)據(jù)集的研究和應(yīng)用?;谶@樣的思考,他們花費(fèi)很大精力構(gòu)建了目前看來(lái)最大的多場(chǎng)景、多時(shí)間段、多光照強(qiáng)度的數(shù)據(jù)集 MSMT17;此外,他們還涉及了 PTGAN 網(wǎng)絡(luò),用于將不同數(shù)據(jù)集的風(fēng)格進(jìn)行融合,以達(dá)到相互利用的目的。
隨后是由港中文-商湯聯(lián)合實(shí)驗(yàn)室的李鴻升教授介紹了他們?cè)谛腥酥刈R(shí)別研究中的新視角。李鴻升教授在今年的 CVPR 中共有 7 篇入選論文,這里他只介紹了其中兩篇。第一篇為 oral 論文,他們考慮到圖片之間具有組相似性,而現(xiàn)有的方法大多忽視了這種相似性;基于這種思考,他們提出了用組相似性的約束的全局 loss 函數(shù),取代了之前只是基于局部的 loss 函數(shù)。第二篇論文中他們發(fā)現(xiàn)圖片背景對(duì)模型重識(shí)別行人有很大的影響。
最后由來(lái)自商湯科技的武偉博士介紹了他們?cè)谀繕?biāo)追蹤方面的工作?;趯?shí)際安防監(jiān)控工作的需要,他們?cè)O(shè)計(jì)了一個(gè)利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network)構(gòu)建的高速且高性能的單目標(biāo)跟蹤算法。該算法在 VOT 2016 和 VOT 2017 數(shù)據(jù)集上都取得了 state-of-art 的結(jié)果。
雷鋒網(wǎng)注:
[1] CVPR 2018 中國(guó)論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專(zhuān)委會(huì)合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session(共 22 個(gè)報(bào)告),1 個(gè)論壇,以及 20 多個(gè) posters,雷鋒網(wǎng) AI 科技評(píng)論將為您詳細(xì)報(bào)道。
[2] CVPR 2018 將于 6 月 18 - 22 日在美國(guó)鹽湖城召開(kāi)。據(jù) CVPR 官網(wǎng)顯示,今年大會(huì)有超過(guò) 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長(zhǎng)了近 25%。
更多報(bào)道請(qǐng)參看:
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
論文:Multi-shot pedestrian re-identification via sequential decision making
報(bào)告人:王乃巖,圖森未來(lái),首席科學(xué)家
所謂行人重識(shí)別任務(wù),即將來(lái)自多個(gè)攝像頭的不同軌跡中的行人(例如多張圖片或者視頻圖片)進(jìn)行身份識(shí)別。這在安全領(lǐng)域中的視頻分析、視頻監(jiān)控具有廣泛的應(yīng)用基礎(chǔ)。在實(shí)際中多張圖片能夠提供豐富的信息,但是同時(shí)也帶來(lái)了大量的冗余,甚至潛在的噪聲。解決這一問(wèn)題的關(guān)鍵在于如何將多張圖片中的特性進(jìn)行聚合。
目前實(shí)現(xiàn)特性聚合的方法主要有兩類(lèi)。一類(lèi)是 feature pooling,也即將每一幀圖片的特性提取出來(lái)后,在對(duì)所有幀的特性進(jìn)行 pooling,從而提取出 frame level 的特性。另一類(lèi)方法是時(shí)序模型,也即假設(shè)圖片之間存在時(shí)序,然后使用光流/LSTM 的方法對(duì) frame level 特性進(jìn)行融合。
王乃巖在這篇被 CVPR 2018 接收的文章中考慮到,行人重識(shí)別應(yīng)當(dāng)對(duì)不好的檢測(cè)(例如重影)或遮擋具有更高的魯棒性,同時(shí)對(duì)不同圖片中行人的識(shí)別有一定的彈性。
如上圖所示,左側(cè)兩張圖片可以很容易檢測(cè)出是否是同一個(gè)人,因此期望設(shè)計(jì)出的模型只是用一對(duì)圖片做判別即可;而另一方面,右側(cè)的圖片,由于遮擋、模糊的原因,一對(duì)圖片很難判斷是否是同一個(gè)人,因此希望模型能夠自動(dòng)地選擇適量的圖片對(duì)進(jìn)行行人身份判斷。
基于上面的考慮,王乃巖團(tuán)隊(duì)提出了一種稱(chēng)為「自適應(yīng)強(qiáng)化學(xué)習(xí)」(Adaptive Reinforcement Learning)的模型,如下圖所示:
這里有幾個(gè)關(guān)鍵點(diǎn)需要特別指出:
(1)Actions。圖片對(duì)生成的 feature 送入 agent 后,agent 將作出三種判斷:same,different 和 unsure。當(dāng)判斷結(jié)果為 unsure 時(shí),就會(huì)返回到開(kāi)頭重新進(jìn)行判斷。
(2)Reward。如果目標(biāo)圖片與 ground truth 圖片匹配,那么獎(jiǎng)勵(lì)為+1;如果不匹配,或者盡管還不確定但所有的圖片都已經(jīng)對(duì)比完了,那么獎(jiǎng)勵(lì)為-1;否則,當(dāng)圖片對(duì)還沒(méi)有對(duì)比完且也沒(méi)有確定是否匹配,那么獎(jiǎng)勵(lì)為 r_p。顯然這里 r_p 大小的設(shè)定影響著獎(jiǎng)勵(lì)的結(jié)果,如果設(shè)置為負(fù)值,那么它會(huì)因?yàn)檎?qǐng)求更多圖像對(duì)而受到懲罰;而當(dāng)設(shè)置為正值,它就會(huì)被鼓勵(lì)收集更多的圖像對(duì),直至對(duì)比完所有的圖像,此時(shí) r_p 會(huì)被強(qiáng)行設(shè)置為-1。
(3)輸入 agent 的 feature,除了學(xué)習(xí)到的當(dāng)前圖片的 image features 外,還利用了歷史 feature(也即前面的判斷結(jié)果,進(jìn)行加權(quán)平均)和手工設(shè)計(jì)的距離 3D feature。
(4)學(xué)習(xí)算法為比較經(jīng)典的 DQN,學(xué)習(xí)得到 Q-Value 以判斷兩張圖片中的人是否是同一個(gè)人。
這張對(duì)比結(jié)果是,當(dāng)設(shè)置每個(gè) episode 中圖片對(duì)的最大數(shù)量(例如 4 對(duì))時(shí),ARL 方法相比 baseline 的結(jié)果。可以看出即使使用少量的圖片對(duì)也能在 CMC Rank 中取得極好的分?jǐn)?shù)。
這張圖片可以從定量的角度來(lái)看該模型的優(yōu)點(diǎn)。當(dāng)設(shè)置視頻流包含 200 張圖片時(shí),ARL 方法只用 3 - 6 張圖片即可達(dá)到近似于使用全部圖片的效果。
最后展示一下,訓(xùn)練過(guò)程中 same、different、unsure 三個(gè) state 分?jǐn)?shù)的變化。左側(cè)的圖顯示了對(duì)不同的圖片判斷結(jié)果所需要的圖片對(duì)數(shù)量也不同,模型能夠自適應(yīng)選擇。右側(cè)是相應(yīng)的分?jǐn)?shù)變化。
這篇文章算是首次嘗試將增強(qiáng)學(xué)習(xí)方法引入到 multi-shot 重識(shí)別問(wèn)題當(dāng)中,其結(jié)果顯示可能只需要所有圖片(例如視頻流)中的 3%-6% 的圖片即可獲得最好的結(jié)果。可能這里更為關(guān)鍵的是它可以使用到 single-shot 重識(shí)別問(wèn)題中。據(jù)王乃巖表示,這種方法除了能夠用于行人的重識(shí)別外,或許也可以作為不確定估計(jì)的一種通用方法。期待他們接下來(lái)的研究成果。
論文:Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
報(bào)告人:張史梁,北京大學(xué)
這篇文章可能提供了最大的多場(chǎng)景、多時(shí)間段的行人數(shù)據(jù)集了。
從 2005 年行人重識(shí)別任務(wù)首次提出后,經(jīng)過(guò) 2014 年深度學(xué)習(xí)被引入該領(lǐng)域,行人重識(shí)別的研究得到大量的研究(例如 CVPR 上行人重識(shí)別的文章從 2014 年的 3 篇?jiǎng)≡龅浇衲甑?32 篇),在這些研究中各種模型所表現(xiàn)出的性能也逐步提升,在今年的一些數(shù)據(jù)集(例如 CUHK03、Market501)上一些方法的表現(xiàn)甚至超越了人類(lèi)。
一個(gè)讓人不禁產(chǎn)生的問(wèn)題是:我們真的已經(jīng)解決行人重識(shí)別的問(wèn)題了嗎?
事實(shí)可能是并沒(méi)有。對(duì)比大多數(shù)實(shí)驗(yàn)中所使用的數(shù)據(jù)集和真實(shí)世界的數(shù)據(jù)集,就可以發(fā)現(xiàn)仍然存在著很大的差別。例如下表中的五個(gè)已有的公開(kāi)數(shù)據(jù)集 Duke、Market、CUHK03、CUHK01、VIPeR 與真實(shí)世界數(shù)據(jù)集的對(duì)比:
可以看出這些公開(kāi)數(shù)據(jù)集有以下幾個(gè)問(wèn)題:數(shù)據(jù)量小、場(chǎng)景單一(indoor 或者 outdoor)、相機(jī)數(shù)量少、時(shí)間短、光線條件單一等。
此外,在實(shí)驗(yàn)中大多數(shù)情況下,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的數(shù)量都接近于 1 : 1。但是在現(xiàn)實(shí)世界的數(shù)據(jù)中,訓(xùn)練數(shù)據(jù)往往只占全部數(shù)據(jù)中很小的一部分,因此在實(shí)驗(yàn)中表現(xiàn)良好的模型放到真實(shí)世界中可能并不能獲得很好的效果。
有了以上的考慮,怎么才能夠進(jìn)一步促進(jìn)行人重識(shí)別的研究,以便能夠在現(xiàn)實(shí)生活中加以應(yīng)用呢?
第一個(gè)想法就是:我們需要有更加真實(shí)的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的采集應(yīng)該更加接近真實(shí)世界,也即有更多的行人、更多的相機(jī)、更多的 bboxes,同時(shí)也應(yīng)當(dāng)有復(fù)雜的場(chǎng)景(既有室內(nèi)也有室外場(chǎng)景),更加重要的是要還要有不同時(shí)段和不同光照下的數(shù)據(jù)。
解決訓(xùn)練集和測(cè)試集嚴(yán)重不均衡的問(wèn)題,張史梁等人認(rèn)為一個(gè)可行的思路就是重用已有的標(biāo)注數(shù)據(jù)。例如在 PRID 中訓(xùn)練集較少,那么可以利用 CUHK03 的數(shù)據(jù)集進(jìn)行訓(xùn)練,然后在 PRID 中進(jìn)行測(cè)試。但是這種方法并不像想象的這么容易,例如上面的例子,Rank-1 精度只有 2%。思考其背后的原因,可能是因?yàn)樵谶@兩個(gè)數(shù)據(jù)集中有不同的光照、背景、相機(jī)參數(shù)等。
基于這兩點(diǎn)考慮,張史梁等人做了兩項(xiàng)工作,首先是構(gòu)建了一個(gè)大型的多場(chǎng)景多時(shí)段的數(shù)據(jù)集 MSMT17;其次構(gòu)建了一個(gè) Person Transfer GAN,用于將不同的數(shù)據(jù)集進(jìn)行融合,以便在同一個(gè)任務(wù)中使用。
從上圖中可以看出 MSMT17 的相比于其他數(shù)據(jù)集的一些優(yōu)勢(shì)。構(gòu)建這個(gè)數(shù)據(jù)集共使用了 15 個(gè)相機(jī),其中 12 個(gè)為 outdoor,3 個(gè)為 indoor;總共收集了 180 個(gè)小時(shí)的數(shù)據(jù),每個(gè)月選擇天氣環(huán)境不同的 4 天,每天早、中、晚分別 3 個(gè)小時(shí)。他們選擇 Faster RCNN 對(duì)這些行人進(jìn)行 bounding box detection,這個(gè)標(biāo)注過(guò)程花了兩個(gè)月的時(shí)間,一共有 126441 個(gè) body boxes。為了模擬真實(shí)世界中的環(huán)境,他們選擇了 4101 個(gè)對(duì)象,其中 1041 個(gè)人用作訓(xùn)練,3060 個(gè)人用作測(cè)試。該數(shù)據(jù)集目前已經(jīng)公開(kāi),可以說(shuō)是該研究領(lǐng)域最大的數(shù)據(jù)集。
感受一下 MSMT17 數(shù)據(jù)集中的一些案例:
這里有光照的變化、場(chǎng)景和背景的變化、多樣的姿態(tài)以及遮擋物等多種復(fù)雜條件。
這個(gè) GAN 網(wǎng)絡(luò)的目標(biāo)就是將一個(gè)數(shù)據(jù)集 A 上的風(fēng)格(包括背景、光照、照相機(jī)參數(shù)等)轉(zhuǎn)化為另一個(gè)數(shù)據(jù)集 B 的風(fēng)格,轉(zhuǎn)換完之后則可以使用數(shù)據(jù)集 A' 作為數(shù)據(jù)集 B 的訓(xùn)練集。這里要保證兩個(gè)方面:第一,變換后的風(fēng)格符合數(shù)據(jù)集 B 的風(fēng)格;第二,要保證變換前后人的身份信息不變。
張史梁等人提出的 person transfor GAN(PTGAN)如下圖所示:
PTGAN 的訓(xùn)練過(guò)程主要由兩個(gè) Loss 來(lái)約束。
第一個(gè)是 Style transfer,即 A 經(jīng)過(guò) transfer 后風(fēng)格盡可能和 B 相似,這是一個(gè) unpaired image-to-image translation 任務(wù),因此它就直接采用了 Cycle-GAN 的 loss 函數(shù)。另外一個(gè)就是 ID loss,保持身份盡可能地不發(fā)生變化,這里采用了 PSPNet 的 loss 函數(shù)。下圖是三種 GAN 模型作用在輸入圖片上的結(jié)果對(duì)比:
下面變換前后的對(duì)比圖之一,從 CUHK03 到 PRID-cam2 的變換:
用變換后的數(shù)據(jù)訓(xùn)練訓(xùn)練 GoogLeNet,然后在 PRID 數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如下表:
可以看到經(jīng)過(guò)變換后的表現(xiàn)得到了大幅度的提升,例如 CUHK03 - PRID cam1 實(shí)驗(yàn)中,Rank-1 分?jǐn)?shù)從原來(lái)的 2.0% 一下子提升到了 37.5%。
能夠適用于真實(shí)環(huán)境中的行人重識(shí)別模型才是真正的好模型,為了實(shí)現(xiàn)這點(diǎn),張史梁等人提出了兩種方法。一方面他們構(gòu)建了一個(gè)目前來(lái)講最大的近似真實(shí)世界的數(shù)據(jù)集 MSMT17;另一方面他們希望能夠通過(guò)數(shù)據(jù)風(fēng)格遷移在不同的數(shù)據(jù)集之間搭建一個(gè)橋梁,提出了 PTGAN 模型。
相關(guān)代碼和數(shù)據(jù):https://github.com/JoinWei-PKU
報(bào)告題目:Towards More Robust Person Re-identification with Group Consistency and Background-bias Elimination
報(bào)告人:李鴻升,港中文-商湯聯(lián)合實(shí)驗(yàn)室
論文:
1. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification (oral)
2. Eliminating Background-bias for Robust Person Re-identification (Poster)
李鴻升教授所在團(tuán)隊(duì)在今年的 CVPR 上共有 7 篇行人重識(shí)別的論文被錄用,其中 1 篇 oral,6 篇 poster。在這次分享會(huì)上他著重介紹了上述兩篇內(nèi)容。
所謂行人重識(shí)別,按照李鴻升教授的說(shuō)法,即給定一個(gè)檢測(cè)圖片,依據(jù)相似性對(duì)圖片集中的所有行人圖片進(jìn)行排序。這其中的關(guān)鍵問(wèn)題是,如何學(xué)習(xí)行人圖片之間的視覺(jué)相似性。
現(xiàn)有方法在通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視覺(jué)相似性時(shí),一個(gè)局限性問(wèn)題是在其 loss 函數(shù)中只用了局部約束。例如下圖所示的 pairwise loss、triplet loss 或者 quardruplet loss:
這種局部約束的 loss 函數(shù)不能描述圖像之間的相似性?;谶@樣的思考,李鴻升等人認(rèn)為應(yīng)當(dāng)構(gòu)建一種基于組別相似性的新的 loss 函數(shù),這種函數(shù)不僅能夠描述局部相似性,還能夠描述圖片之間的相似性。
如上圖所示,局部相似性?xún)H僅考慮兩幅圖之間的相似性,而全局相似性則考慮 gallery images 中群組之間的相似性(probe image 也可以視為一個(gè) group)。其方法的框架如下圖所示:
共分為三步:先進(jìn)性深度多尺度 feature embedding(使用了 ResNet-50 作為主體網(wǎng)絡(luò)),然后對(duì)圖片進(jìn)行一個(gè)局部的相似性估計(jì)(得到兩張圖片 I_m,I_n 的局部預(yù)估計(jì)相似性為 t_mn),最后一步為組相似性增強(qiáng)。
他們假設(shè):給定一個(gè)圖片 I_p,如果它與圖片集 I_i 相似,而圖片集 I_i 與圖片集 I_j 相似,那么 I_p 也與 I_j 相似;否則如果 I_p 與圖片集 I_i 不相似,而圖片集 I_i 與圖片集 I_j 相似,那么 I_p 與 I_j 不相似。而組相似性取決于整個(gè)圖片組。
如果記 I_p 和 I_i 之間的組相似性為 y_pi。那么基于組相似性的 CRF 模型即為:
這里組相似性應(yīng)當(dāng)盡可能地接近于通過(guò) CNN 網(wǎng)絡(luò)估計(jì)出的局部相似性,因此有:
(unary term)
(pairwise term)
他們的實(shí)驗(yàn)結(jié)果如下:
可以看出基于組相似性的重識(shí)別效果相比之前的 state-of-art 工作有顯著地提升。
已有行人重識(shí)別方法中,大家都是用整張圖片作為一個(gè)獨(dú)立的數(shù)據(jù)樣本去訓(xùn)練和檢測(cè),但是他們忽略了一個(gè)問(wèn)題,即:行人和背景是不同的對(duì)象,在識(shí)別行人中,圖片背景會(huì)帶來(lái)偏差。如下圖所示:
與 query 圖片有相似背景但不同行人的圖片排在 rank 6,而同一行人不同背景的圖片卻排在 rank 25。那么在行人重識(shí)別中,背景到底會(huì)帶來(lái)多大的偏差呢?李鴻升等人通過(guò)在 CUHK03 和 Market-1501 數(shù)據(jù)集上使用 human parsing mask 的方法獲得了 3 類(lèi)數(shù)據(jù)集:mean background、random background 和 background only,如下圖所示:
他們用原始數(shù)據(jù)集進(jìn)行訓(xùn)練后,在 mean background、random background 進(jìn)行測(cè)試:
發(fā)現(xiàn)去除背景或者(尤其是)隨機(jī)換背景后,性能出現(xiàn)大幅度的下降。而另一方面他們嘗試只用背景圖去訓(xùn)練,然后用原圖和背景圖做測(cè)試:
發(fā)現(xiàn)前者的表現(xiàn)并不差。這說(shuō)明在之前深度學(xué)習(xí)模型中背景起到了相當(dāng)大的影響,也同時(shí)給行人重識(shí)別帶來(lái)了偏差。
基于這種發(fā)現(xiàn),他們構(gòu)建了一個(gè) Person-region Guided Pooling Network。
首先他們通過(guò) huaman parsing 方法獲得 4 類(lèi)人體 parsing map(整體、頭、軀干、腿),然后用這些 parsing map 從不同的人體區(qū)域做特征池化。他們分別對(duì)有無(wú)背景以及不同比例、on-off line 做了實(shí)驗(yàn)對(duì)比:
他們發(fā)現(xiàn)通過(guò) online 且隨機(jī)替換掉 50% 的原圖的背景能夠得到最好(限于對(duì)比實(shí)驗(yàn))的結(jié)果。
同時(shí)他們也將這種方法與其他 state-of-art 方法進(jìn)行對(duì)比:
發(fā)現(xiàn)在不同數(shù)據(jù)集上這種方法的表現(xiàn)有顯著的提升。
論文:High Performance Object Tracking with Siamese-network
報(bào)告人:武偉,商湯科技
論文下載地址:暫無(wú)
目標(biāo)追蹤不同于目標(biāo)檢測(cè),首先對(duì)于追蹤的目標(biāo)沒(méi)有一個(gè)預(yù)定義的分類(lèi);其次在整個(gè)視頻幀當(dāng)中只有第一幀帶有標(biāo)注;此外,也沒(méi)有可用于訓(xùn)練的數(shù)據(jù)存在。
據(jù)武偉介紹,他在商湯主要負(fù)責(zé)安防監(jiān)控方面的研發(fā)工作,之所以考慮做目標(biāo)追蹤,是因?yàn)闃I(yè)務(wù)需要。現(xiàn)有的單目標(biāo)跟蹤算法很難兼顧到性能和速度,只能再某一個(gè)指標(biāo)上占優(yōu)。但是在實(shí)際應(yīng)用中則不得不考慮,在不影響性能的同時(shí)如何進(jìn)一步提高速度。
基于這種業(yè)務(wù)需求,武偉等人提出了一種端到端的深度學(xué)習(xí)框架,具體來(lái)說(shuō)就是利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network),構(gòu)建了一種高速且高性能的單目標(biāo)跟蹤算法。如下圖所示:
整體上,算法分為 Siamese 特征提取網(wǎng)絡(luò)和 Region Proposal Network 子網(wǎng)絡(luò)兩個(gè)部分。二者通過(guò)卷積操作升維,統(tǒng)一在一個(gè)端到端的框架里面。
訓(xùn)練過(guò)程中,算法可以利用密集標(biāo)注(VID)和稀疏標(biāo)注(YoutubeBB)的數(shù)據(jù)集對(duì)進(jìn)行訓(xùn)練。相比于現(xiàn)有方法,稀疏標(biāo)注的數(shù)據(jù)集大大增加了訓(xùn)練數(shù)據(jù)來(lái)源,從而可以對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行更充分的訓(xùn)練;Region Proposal Network 中的坐標(biāo)回歸可以讓跟蹤框更加準(zhǔn)確,并且省去多尺度測(cè)試耗費(fèi)的時(shí)間。
實(shí)驗(yàn)方面,本跟蹤算法能在保持高速的情況下(160fps),在 VOT2016 和 VOT2017 數(shù)據(jù)集上取得 state-of-the-art 的結(jié)果。
(Performance on VOT 2016)
(Performance on VOT 2017)
再來(lái)看一張追蹤效果:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。