計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

本文作者：汪思穎

2017-09-12 15:14

導(dǎo)語(yǔ)：速度快、性能優(yōu)的目標(biāo)跟蹤算法大盤點(diǎn)

雷鋒網(wǎng) AI科技評(píng)論按：本文源自YaqiLYU在知乎問題【計(jì)算機(jī)視覺中，目前有哪些經(jīng)典的目標(biāo)跟蹤算法？】下的回答，雷鋒網(wǎng) AI科技評(píng)論已獲得授權(quán)發(fā)布。

相信很多來(lái)到這里的人和我第一次到這里一樣，都是想找一種比較好的目標(biāo)跟蹤算法，或者想對(duì)目標(biāo)跟蹤這個(gè)領(lǐng)域有比較深入的了解，雖然這個(gè)問題是經(jīng)典目標(biāo)跟蹤算法，但事實(shí)上，可能我們并不需要那些曾經(jīng)輝煌但已被拍在沙灘上的tracker(目標(biāo)跟蹤算法)，而是那些即將成為經(jīng)典的，或者就目前來(lái)說最好用、速度和性能都看的過去的tracker。我比較關(guān)注目標(biāo)跟蹤中的相關(guān)濾波方向，接下來(lái)我將介紹我所認(rèn)識(shí)的目標(biāo)跟蹤，尤其是相關(guān)濾波類方法，分享一些我認(rèn)為比較好的算法，順便談?wù)勎业目捶ā?/p>

一

先來(lái)混個(gè)臉熟，大概了解一下目標(biāo)跟蹤這個(gè)方向都有些什么。一切要從2013年開始說起，那一年的冬天和往常一樣冷。如果你問別人近幾年有什么比較niubility的跟蹤算法，大部分人都會(huì)扔給你吳毅老師的論文，OTB50和OTB100(OTB50這里指OTB-2013，OTB100這里指OTB-2015，感謝指正)：

Wu Y, Lim J, Yang M H. Online object tracking: A benchmark [C]// CVPR, 2013.

Wu Y, Lim J, Yang M H. Object tracking benchmark [J]. TPAMI, 2015.

頂會(huì)轉(zhuǎn)頂刊的頂級(jí)待遇，再加上引用量1200+200多，影響力不言而喻，已經(jīng)是做tracking必須跑的數(shù)據(jù)庫(kù)了，測(cè)試代碼和序列都可以下載： Visual Tracker Benchmark（http://cvlab.hanyang.ac.kr/tracker_benchmark/），OTB50包括50個(gè)序列，都經(jīng)過人工標(biāo)注：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

論文在數(shù)據(jù)庫(kù)上對(duì)比了包括2012年及之前的29個(gè)頂尖的tracker，有大家比較熟悉的OAB, IVT, MIL, CT, TLD, Struck等，大都是頂會(huì)轉(zhuǎn)頂刊的神作，由于之前沒有比較公認(rèn)的數(shù)據(jù)庫(kù)，論文都是自賣自夸，大家也不知道到底哪個(gè)好用，所以這個(gè)database的意義非常重大，直接促進(jìn)了跟蹤算法的發(fā)展，后來(lái)又?jǐn)U展為OTB100發(fā)到TPAMI，有100個(gè)序列，難度更大更加權(quán)威，我們這里參考OTB100的結(jié)果，首先是29個(gè)tracker的情況(標(biāo)出了一些性能速度都比較好的算法)：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

接下來(lái)再看結(jié)果(更加詳細(xì)的情況建議您去看論文比較清晰)：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

直接上結(jié)論：平均來(lái)看Struck, SCM, ASLA等算法的性能比較高，排在前三，著重強(qiáng)調(diào)CSK，第一次向世人展示了相關(guān)濾波的潛力，排第四還362FPS簡(jiǎn)直逆天了。速度排第二的是經(jīng)典算法CT(64fps)(這段時(shí)間是壓縮感知大熱的時(shí)候，這里能看到很多稀疏相關(guān)算法~都是歷史)。如果對(duì)更早期的算法感興趣，推薦另一篇經(jīng)典的survey:

Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. CSUR, 2006.

2012年以前的算法基本就是這樣，自從2012年AlexNet問世以后，CV各個(gè)領(lǐng)域都有了巨大變化，所以我猜你肯定還想知道2013到2017年發(fā)生了什么，抱歉我也不知道(容我賣個(gè)關(guān)子)，不過我們可以肯定的是，2013年以后的論文確定以及必定都會(huì)引用OTB50這篇論文，借助谷歌學(xué)術(shù)中的被引用次數(shù)功能，得到如下結(jié)果：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

這里僅列舉幾個(gè)排名靠前的，(注意引用量)依次是Struck轉(zhuǎn)TPAMI, 三大相關(guān)濾波方法KCF, CN, DSST, 和VOT競(jìng)賽，這里僅作示范，有興趣可以親自去試試。(這么做的理論依據(jù)是：一篇論文，在它之前的工作可以看它的引用文獻(xiàn)，之后的工作可以看誰(shuí)引用了它；雖然引用量并不能說明什么，但好的方法大家基本都會(huì)引用的(表示認(rèn)可)；之后還可以通過限定時(shí)間來(lái)查看某段時(shí)間的相關(guān)論文，如2016-2017就能找到最新的論文了，至于論文質(zhì)量需要仔細(xì)甄別；其他方向的重要論文也可以這么用，順藤摸瓜，然后你就知道大牛是哪幾位，接著關(guān)注跟蹤一下他們的工作 )這樣我們就大致知道目標(biāo)跟蹤領(lǐng)域的最新進(jìn)展應(yīng)該就是相關(guān)濾波無(wú)疑了，再往后還能看到相關(guān)濾波類算法有SAMF, LCT, HCF, SRDCF等等。當(dāng)然，引用量也與時(shí)間有關(guān)，建議分每年來(lái)看，這里就不貼圖了(相關(guān)濾波類新論文也可以通過查引用KCF的論文去找)。此外，最新版本OPENCV3.2除了TLD，也包括了幾個(gè)很新的跟蹤算法 OpenCV: Tracking API（http://www.docs.opencv.org/3.2.0/d9/df8/group__tracking.html）：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

TrackerKCF接口實(shí)現(xiàn)了KCF和CN，影響力可見一斑，這一點(diǎn)就可以說明很多問題了，還有個(gè)GOTURN是基于深度學(xué)習(xí)的方法，速度雖快但精度略差，竊以為太激進(jìn)了...

二

總體介紹下目標(biāo)跟蹤。這里說的目標(biāo)跟蹤，是通用單目標(biāo)跟蹤，第一幀給個(gè)矩形框，這個(gè)框在數(shù)據(jù)庫(kù)里面是人工標(biāo)注的，在實(shí)際情況下大多是檢測(cè)算法的結(jié)果，然后需要跟蹤算法在后續(xù)幀緊跟住這個(gè)框，以下是VOT對(duì)跟蹤算法的要求：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

通常目標(biāo)跟蹤面臨幾大難點(diǎn)(吳毅在VALSE的slides)：外觀變形，光照變化，快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊，背景相似干擾：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

平面外旋轉(zhuǎn)，平面內(nèi)旋轉(zhuǎn)，尺度變化，遮擋和出視野等情況：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

正因?yàn)檫@些情況才讓tracking變得很難，目前比較常用的數(shù)據(jù)庫(kù)除了OTB，還有谷歌學(xué)術(shù)找到的VOT競(jìng)賽數(shù)據(jù)庫(kù)(類比ImageNet)，已經(jīng)舉辦了四年，VOT2015和VOT2016都包括60個(gè)序列，所有序列也是免費(fèi)下載 VOT Challenge | Challenges（http://votchallenge.net/challenges.html）：

Kristan M, Pflugfelder R, Leonardis A, et al. The visual object tracking vot2013 challenge results [C]// ICCV, 2013.
Kristan M, Pflugfelder R, Leonardis A, et al. The Visual Object Tracking VOT2014 Challenge Results [C]// ECCV, 2014.
Kristan M, Matas J, Leonardis A, et al. The visual object tracking vot2015 challenge results [C]// ICCV, 2015.
Kristan M, Ales L, Jiri M, et al. The Visual Object Tracking VOT2016 Challenge Results [C]// ECCV, 2016.

OTB和VOT區(qū)別：OTB包括25%的灰度序列，但VOT都是彩色序列，這也是造成很多顏色特征算法性能差異的原因；兩個(gè)庫(kù)的評(píng)價(jià)指標(biāo)不一樣，具體請(qǐng)參考論文；VOT庫(kù)的序列分辨率普遍較高，這一點(diǎn)后面分析會(huì)提到。對(duì)于一個(gè)tracker，如果兩個(gè)庫(kù)(最好是OTB100和VOT2016)都跑了且結(jié)果上佳，那性能肯定是非常優(yōu)秀的(兩個(gè)庫(kù)調(diào)參你能調(diào)好，我服，認(rèn)了~~)。如果只跑了一個(gè)，(僅供參考)我比較認(rèn)可的是VOT2016，因?yàn)樾蛄卸际蔷?xì)標(biāo)注，且評(píng)價(jià)指標(biāo)我更加認(rèn)可(人家畢竟是競(jìng)賽，評(píng)價(jià)指標(biāo)發(fā)過TPAMI的)，差別最大的地方，OTB是隨機(jī)幀開始，或矩形框加隨機(jī)干擾初始化去跑，作者說這樣更加符合檢測(cè)算法給的框框；而VOT是第一幀初始化去跑，每次跟蹤失敗(預(yù)測(cè)框和標(biāo)注框不重疊)時(shí)，5幀之后再次初始化，VOT以short-term為主，且認(rèn)為跟蹤檢測(cè)應(yīng)該在一起永不分離，detecter會(huì)多次初始化tracker。至于哪個(gè)更好，看你，和你的需求。

補(bǔ)充：OTB在2013年公開了，對(duì)于2013以后的算法是透明的，有調(diào)參的可能性，尤其是那些只跑OTB，而且論文中有關(guān)鍵參數(shù)直接給出還精確到小數(shù)點(diǎn)后兩位的算法，建議您先實(shí)測(cè)再評(píng)價(jià)(人心不古啊~被坑的多了)，但VOT競(jìng)賽的數(shù)據(jù)庫(kù)是每年更新，還動(dòng)不動(dòng)就重新標(biāo)注，動(dòng)不動(dòng)就改變?cè)u(píng)價(jià)指標(biāo)，對(duì)當(dāng)年算法是不可見且難度很大的，所以結(jié)果更可靠。如果您認(rèn)可以上看法，后面會(huì)推薦很多在我看來(lái)頂尖又快速的算法。如果您不認(rèn)可以上看法，后面也就沒必要看下去了，謝謝?。疵科撐亩紩?huì)覺得這個(gè)工作太好太重要了，如果沒有這篇論文，必會(huì)地球爆炸，宇宙重啟~~所以就像大家都通過歷年ILSVRC競(jìng)賽結(jié)果為主線了解深度學(xué)習(xí)的發(fā)展一樣，第三方的結(jié)果更具說服力，所以我也以競(jìng)賽排名+是否公開源碼+實(shí)測(cè)性能為標(biāo)準(zhǔn)分析每個(gè)方法）

目標(biāo)視覺跟蹤(Visual Object Tracking)，大家比較公認(rèn)分為兩大類：生成(generative)模型方法和判別(discriminative)模型方法，目前比較流行的是判別類方法，也叫檢測(cè)跟蹤tracking-by-detection，為保持完整性，以下簡(jiǎn)單介紹。

生成類方法，在當(dāng)前幀對(duì)目標(biāo)區(qū)域建模，下一幀尋找與模型最相似的區(qū)域就是預(yù)測(cè)位置，比較著名的有卡爾曼濾波，粒子濾波，mean-shift等。舉個(gè)例子，從當(dāng)前幀知道了目標(biāo)區(qū)域80%是紅色，20%是綠色，然后在下一幀，搜索算法就像無(wú)頭蒼蠅，到處去找最符合這個(gè)顏色比例的區(qū)域，推薦算法ASMS vojirt/asms（https://github.com/vojirt/asms）：

Vojir T, Noskova J, Matas J. Robust scale-adaptive mean-shift for tracking [J]. Pattern Recognition Letters, 2014.

ASMS是VOT2015的第20名官方推薦的實(shí)時(shí)算法，VOT2016的32名(中等水平)，平均幀率125FPS，在經(jīng)典mean-shift框架下加入了尺度估計(jì)，經(jīng)典顏色直方圖特征，加入了兩個(gè)先驗(yàn)(尺度不劇變+可能偏最大)作為正則項(xiàng)，和反向尺度一致性檢查。作者給了C++代碼，在相關(guān)濾波和深度學(xué)習(xí)盛行的年代，還能看到mean-shift打榜還有如此高的性價(jià)比實(shí)在不容易(已淚目~~)，實(shí)測(cè)性能還不錯(cuò)，如果您對(duì)生成類方法情有獨(dú)鐘，這個(gè)非常推薦您去試試。

判別類方法，OTB50里面的大部分方法都是這一類，CV中的經(jīng)典套路圖像特征+機(jī)器學(xué)習(xí)，當(dāng)前幀以目標(biāo)區(qū)域?yàn)檎龢颖?，背景區(qū)域?yàn)樨?fù)樣本，機(jī)器學(xué)習(xí)方法訓(xùn)練分類器，下一幀用訓(xùn)練好的分類器找最優(yōu)區(qū)域(馬超在VALSE的slides)：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

與生成類方法最大的區(qū)別，是分類器訓(xùn)練過程中用到了背景信息，這樣分類器就能專注區(qū)分前景和背景，所以判別類方法普遍都比生成類好。舉個(gè)例子，在訓(xùn)練時(shí)告訴tracker目標(biāo)80%是紅色，20%是綠色，還告訴它背景中有橘紅色，要格外注意別搞錯(cuò)了，這樣的分類器知道更多信息，效果也肯定更好。tracking-by-detection和檢測(cè)算法非常相似，如經(jīng)典行人檢測(cè)用HOG+SVM，Struck用到了haar+structured output SVM，跟蹤中為了尺度自適應(yīng)也需要多尺度遍歷搜索，區(qū)別僅在于跟蹤算法對(duì)特征和在線機(jī)器學(xué)習(xí)的速度要求更高，檢測(cè)范圍和尺度更小而已。這點(diǎn)其實(shí)并不意外，大多數(shù)情況檢測(cè)識(shí)別算法復(fù)雜度比較高不可能每幀都做，這時(shí)候用復(fù)雜度更低的跟蹤算法就很合適了，只需要在跟蹤失敗(drift)或一定間隔以后再次檢測(cè)去初始化tracker就可以了。經(jīng)典判別類方法推薦Struck和TLD，實(shí)時(shí)性能還行，Struck是2012年之前最好的方法，TLD是經(jīng)典long-term的代表，即使效果差一點(diǎn)但思想非常值得借鑒：

Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels [J]. IEEE TPAMI, 2016.
Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE TPAMI, 2012.

長(zhǎng)江后浪推前浪，前面的已被拍在沙灘上，后浪就是相關(guān)濾波類方法(correlation filter簡(jiǎn)稱CF，或discriminative correlation filter簡(jiǎn)稱DCF，注意和后面KCF種的DCF方法區(qū)別，包括前面提到的那幾個(gè)，后面要著重介紹)，和深度學(xué)習(xí)(Deep ConvNet based)類方法，因?yàn)樯疃葘W(xué)習(xí)類并不了解就不瞎推薦了，除了Winsty的幾篇 Naiyan Wang - Home（http://www.winsty.net/），還有VOT2015的冠軍MDNet Learning Multi-Domain Convolutional Neural Networks for Visual Tracking（http://cvlab.postech.ac.kr/research/mdnet/）和VOT2016的冠軍TCNN（http://www.votchallenge.net/vot2016/download/44_TCNN.zip），速度方面比較突出的如80FPS的SiamFC SiameseFC tracker（http://www.robots.ox.ac.uk/~luca/siamese-fc.html）和100FPS的GOTURN davheld/GOTURN（https://github.com/davheld/GOTURN），注意是在GPU上。基于ResNet的SiamFC-R在VOT2016表現(xiàn)不錯(cuò)，很看好后續(xù)發(fā)展，如果有興趣可以去VALSE聽作者自己講解 VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu（http://www.iqiyi.com/w_19ruirwrel.html#vfrm=8-8-0-1），至于GOTURN，效果比較差，跑100FPS又有什么用呢，所以還不推薦，暫時(shí)持觀望態(tài)度。寫論文的同學(xué)深度學(xué)習(xí)類是特點(diǎn)也有巨大潛力。

Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]// CVPR, 2016.
Nam H, Baek M, Han B. Modeling and propagating cnns in a tree structure for visual tracking. arXiv preprint arXiv:1608.07242, 2016.
Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking [C]// ECCV, 2016.
Held D, Thrun S, Savarese S. Learning to track at 100 fps with deep regression networks [C]// ECCV, 2016.

還有幾篇國(guó)人大作遇到了不要驚訝：MEEM, TGPR, CLRST, MUSTer，在VOT中能看到身影。最后，深度學(xué)習(xí)END2END的強(qiáng)大威力在目標(biāo)跟蹤方向還遠(yuǎn)沒有發(fā)揮出來(lái)，還沒有和相關(guān)濾波類方法拉開多大差距(速度慢是天生的我不怪你，但效果總該很高吧，不然你存在的意義是什么呢。。革命尚未成功，同志仍須努力)

最后強(qiáng)力推薦@Qiang Wang維護(hù)的資源benchmark_results：大量頂級(jí)方法在OTB庫(kù)上的性能對(duì)比，各種論文代碼應(yīng)有盡有，大神自己C++實(shí)現(xiàn)并開源的CSK, KCF和DAT，找不著路的同學(xué)請(qǐng)跟緊，別迷路 foolwood/benchmark_results（https://github.com/foolwood/benchmark_results），還有他自己最新論文DCFNet論文加源碼，別錯(cuò)過。

再隆重推薦@H Hakase維護(hù)的相關(guān)濾波類資源 HakaseH/CF_benchmark_results（https://github.com/HakaseH/CF_benchmark_results），詳細(xì)分類和論文代碼資源，走過路過別錯(cuò)過，是我見過的最詳盡的相關(guān)濾波資源，可見非常之用心！

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

三

接下來(lái)介紹幾個(gè)最經(jīng)典的高速相關(guān)濾波類跟蹤算法CSK, KCF/DCF, CN。很多人最早了解CF，應(yīng)該和我一樣，都是被下面這張圖吸引了：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

這是KCF/DCF算法在OTB50上(2014年4月就掛arVix了, 那時(shí)候OTB100還沒有發(fā)表)的實(shí)驗(yàn)結(jié)果，Precision和FPS碾壓了OTB50上最好的Struck，看慣了勉強(qiáng)實(shí)時(shí)的Struck和TLD，飆到高速的KCF/DCF突然有點(diǎn)讓人不敢相信，其實(shí)KCF/DCF就是在OTB上大放異彩的CSK的多通道特征改進(jìn)算法。注意到那個(gè)超高速615FPS的MOSSE了吧(嚴(yán)重超速這是您的罰單)，這是目標(biāo)跟蹤領(lǐng)域的第一篇相關(guān)濾波類方法，這其實(shí)是真正第一次顯示了相關(guān)濾波的潛力。和KCF同一時(shí)期的還有個(gè)CN，在2014'CVPR上引起劇烈反響的顏色特征方法，其實(shí)也是CSK的多通道顏色特征改進(jìn)算法。從MOSSE(615)到 CSK(362) 再到 KCF(172FPS), DCF(292FPS), CN(152FPS), CN2(202FPS)，速度雖然是越來(lái)越慢，但效果越來(lái)越好，而且始終保持在高速水平：

Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters [C]// CVPR, 2010.
Henriques J F, Caseiro R, Martins P, et al. Exploiting the circulant structure of tracking-by- detection with kernels [C]// ECCV, 2012.
Henriques J F, Rui C, Martins P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE TPAMI, 2015.
Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

CSK和KCF都是Henriques J F(牛津大學(xué))Jo?o F. Henriques 大神先后兩篇論文，影響后來(lái)很多工作的嶺回歸，循環(huán)移位的近似密集采樣，還給出了整個(gè)相關(guān)濾波算法的詳細(xì)推導(dǎo)。還有嶺回歸加kernel-trick的封閉解，多通道HOG特征。

Martin Danelljan大牛(林雪平大學(xué))用多通道顏色特征Color Names(CN)去擴(kuò)展CSK得到了不錯(cuò)的效果，算法也簡(jiǎn)稱CN Coloring Visual Tracking 。

MOSSE是單通道灰度特征的相關(guān)濾波，CSK在MOSSE的基礎(chǔ)上擴(kuò)展了密集采樣(加padding)和kernel-trick，KCF在CSK的基礎(chǔ)上擴(kuò)展了多通道梯度的HOG特征，CN在CSK的基礎(chǔ)上擴(kuò)展了多通道顏色的Color Names。HOG是梯度特征，而CN是顏色特征，兩者可以互補(bǔ)，所以HOG+CN在近兩年的跟蹤算法中成為了hand-craft特征標(biāo)配。最后，根據(jù)KCF/DCF的實(shí)驗(yàn)結(jié)果，討論兩個(gè)問題：

1. 為什么只用單通道灰度特征的KCF和用了多通道HOG特征的KCF速度差異很?。?/strong>

第一，HOG，作者用了HOG的快速算法fHOG，來(lái)自Piotr's Computer Vision Matlab Toolbox，C代碼而且做了SSE優(yōu)化。如對(duì)fHOG有疑問，請(qǐng)參考論文Object Detection with Discriminatively Trained Part Based Models第12頁(yè)。

第二，HOG特征常用cell size是4，這就意味著，100*100的圖像，HOG特征圖的維度只有25*25，而Raw pixels是灰度圖歸一化，維度依然是100*100，我們簡(jiǎn)單算一下：27通道HOG特征的復(fù)雜度是27*625*log(625) = 47180,而單通道灰度特征的復(fù)雜度是10000log（10000）=40000 ，結(jié)果也是相差不多，符合表格(不知道這種算法對(duì)不對(duì)，如果有誤請(qǐng)指出，謝謝)。

看代碼你會(huì)發(fā)現(xiàn)，作者在擴(kuò)展后目標(biāo)區(qū)域面積較大時(shí)，會(huì)先對(duì)提取到的圖像塊做因子2的下采樣，到50*50這樣復(fù)雜度就變成了2500log（2500）=8495，下降了非常多。那你可能會(huì)想，如果下采樣再多一點(diǎn)，復(fù)雜度就更低了，但這是以犧牲跟蹤精度為代價(jià)的，再舉個(gè)例子，如果圖像塊面積為200*200，先下采樣到100*100，再提取HOG特征，分辨率降到了25*25，這就意味著響應(yīng)圖的分辨率也是25*25，也就是說，響應(yīng)圖每位移1個(gè)像素，原始圖像中跟蹤框要移動(dòng)8個(gè)像素，這樣就降低了跟蹤精度。在精度要求不高時(shí)，你完全可以稍微犧牲下精度提高幀率(但真的不能再下采樣了)。

2. HOG特征的KCF和DCF哪個(gè)更好？

大部分人都會(huì)認(rèn)為KCF效果超過DCF，而且各屬性的準(zhǔn)確度都在DCF之上，然而，如果換個(gè)角度來(lái)看，以DCF為基準(zhǔn)，再來(lái)看加了kernel-trick的KCF，mean precision僅提高了0.4%，而FPS下降了41%，這么看是不是挺驚訝的呢？除了圖像塊像素總數(shù)，KCF的復(fù)雜度還主要和kernel-trick相關(guān)。所以，下文中的CF方法如果沒有kernel-trick，就簡(jiǎn)稱基于DCF，如果加了kernel-trick，就簡(jiǎn)稱基于KCF(劇透，基本兩類各占一半)。當(dāng)然這里的CN也有kernel-trick，但請(qǐng)注意，這是Martin Danelljan大神第一次使用kernel-trick，也是最后一次。

可能會(huì)有這樣的疑問，kernel-trick這么強(qiáng)大的東西，怎么才提高這么點(diǎn)？這里就不得不提到Winsty的另一篇大作：

Wang N, Shi J, Yeung D Y, et al. Understanding and diagnosing visual tracking systems[C]// ICCV, 2015.

一句話，別看那些五花八門的機(jī)器學(xué)習(xí)方法，那都是虛的，目標(biāo)跟蹤算法中特征才是最重要的（就是因?yàn)檫@篇文章我成了WIN叔粉絲，哈哈），以上就是前三個(gè)首先推薦的高速算法，CSK, KCF/DCF和CN。

四

VOT2014競(jìng)賽 VOT2014 Benchmark （http://votchallenge.net/vot2014/index.html）。這一年有25個(gè)精挑細(xì)選的序列，38個(gè)算法，那時(shí)候深度學(xué)習(xí)的戰(zhàn)火還沒有燒到tracking，所以也只能CF獨(dú)霸一方了，下面是前幾名的具體情況：

前三名都是相關(guān)濾波CF類方法，第三名的KCF已經(jīng)很熟悉了，這里稍微有點(diǎn)區(qū)別就是加了多尺度檢測(cè)和子像素峰值估計(jì)，再加上VOT序列的分辨率比較高(檢測(cè)更新圖像塊的分辨率比較高)，導(dǎo)致KCF的速度只有24.23(EFO換算66.6FPS)。這里的speed指的的EFO(Equivalent Filter Operations)，在VOT2015和VOT2016里面也用這個(gè)參數(shù)衡量算法速度，這里一次性列出來(lái)供參考(MATLAB實(shí)現(xiàn)的tracker實(shí)際速度要更高一些)：

其實(shí)前三名除了特征略有差異，核心都是擴(kuò)展了多尺度檢測(cè)，概要如下：

尺度變化是跟蹤中比較基本和常見的問題，前面介紹的三個(gè)算法都沒有尺度更新，如果目標(biāo)縮小，濾波器就會(huì)學(xué)習(xí)到大量背景信息，如果目標(biāo)擴(kuò)大，濾波器就跟著目標(biāo)局部紋理走了，這兩種情況都很可能出現(xiàn)非預(yù)期的結(jié)果，導(dǎo)致漂移和失敗。

推薦SAMF ihpdep/samf（https://github.com/ihpdep/samf），來(lái)自浙大的工作，基于KCF，特征是HOG+CN，多尺度方法是平移濾波器在多尺度縮放的圖像塊上進(jìn)行目標(biāo)檢測(cè)，取響應(yīng)最大的那個(gè)平移位置和響應(yīng)所在尺度：

Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration [C]// ECCV, 2014.

和Martin Danelljan的DSST Accurate scale estimation for visual tracking（http://www.cvl.isy.liu.se/research/objrec/visualtracking/scalvistrack/index.html），專門訓(xùn)練類似MOSSE的尺度濾波器用于檢測(cè)尺度變化，開創(chuàng)了平移濾波+尺度濾波，之后轉(zhuǎn)PAMI做了一系列加速：

Danelljan M, H?ger G, Khan F, et al. Accurate scale estimation for robust visual tracking [C]// BMVC, 2014.
Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.

簡(jiǎn)單對(duì)比下這兩種多尺度方法：

DSST和SAMF所采用的尺度檢測(cè)方法哪個(gè)更好？

首先給大家講個(gè)笑話：Martin Danelljan大神提出DSST之后，他的后續(xù)論文就再?zèng)]有用過。

1、雖然SAMF和DSST都可以跟上普通的目標(biāo)尺度變化，但SAMF只有7個(gè)尺度比較粗，而DSST有33個(gè)尺度比較精細(xì)準(zhǔn)確；

2、DSST先檢測(cè)最佳平移再檢測(cè)最佳尺度，是分布最優(yōu)，而SAMF是平移尺度一起檢測(cè)，是平移和尺度同時(shí)最優(yōu)，而往往局部最優(yōu)和全局最優(yōu)是不一樣的；

3、DSST看成兩個(gè)問題可以采用不同的方法和特征更加靈活，但需要額外訓(xùn)練一個(gè)濾波器，每幀尺度檢測(cè)需要采樣33個(gè)圖像塊，分別計(jì)算特征，加窗，F(xiàn)FT，尺度濾波器還要額外訓(xùn)練；SAMF只需要一個(gè)濾波器，不需要額外訓(xùn)練和存儲(chǔ)，每個(gè)尺度檢測(cè)就一次提特征和FFT，但在圖像塊較大時(shí)計(jì)算量比DSST高。

所以尺度檢測(cè)DSST并不總是比SAMF好，其實(shí)，在VOT2015和VOT2016上SAMF都是超過DSST的，當(dāng)然這主要是因?yàn)樘卣鞲?，但至少說明尺度方法不差。雖然DSST比SAMF更具創(chuàng)新度，但SAMF也是很優(yōu)秀的方法。(記得高中數(shù)學(xué)老師說過，“一個(gè)人一生能有一點(diǎn)點(diǎn)創(chuàng)新就非常了不起了”，所以我們才會(huì)看到那么那么多灌水論文，創(chuàng)新真的太難了，那些雖然創(chuàng)新力不夠但踏踏實(shí)實(shí)有效果，敢公開源碼經(jīng)得起驗(yàn)證的論文同樣值得欽佩)

DSST一定要33個(gè)尺度嗎？

如果你認(rèn)真跑過實(shí)驗(yàn)，就會(huì)發(fā)現(xiàn)DSST標(biāo)配的33個(gè)尺度非常非常敏感，輕易降低尺度數(shù)量，即使你增加相應(yīng)步長(zhǎng)，尺度濾波器也會(huì)完全跟不上尺度變化。關(guān)于這一點(diǎn)我想到的可能解釋是，訓(xùn)練尺度濾波器用的是一維樣本，而且沒有循環(huán)移位，這就意味著一次訓(xùn)練更新只有33個(gè)樣本，如果降低樣本數(shù)量，會(huì)造成訓(xùn)練不足，分類器判別力嚴(yán)重下降，不像平移濾波器有非常多的移位樣本(如果不對(duì)或您有其他看法歡迎交流)。總之，請(qǐng)不要輕易嘗試大幅降低尺度數(shù)量，如果非要用尺度濾波器33和1.02就好。

以上就是兩種推薦的尺度檢測(cè)方法，以后簡(jiǎn)稱為類似DSST的多尺度和類似SAMF的多尺度。如果您對(duì)尺度的要求不高而更看重速度，SAMF只要3個(gè)尺度就可以粗略跟上尺度變化(比如VOT2014中的KCF)；如果您需要精確尺度跟蹤，則推薦DSST但速度稍慢，且DSST的尺度數(shù)量不能輕易減少；如果尺度變化不明顯則不推薦使用。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

15人收藏

分享：

相關(guān)文章

目標(biāo)跟蹤算法計(jì)算機(jī)視覺

AI 賦能游戲工業(yè)化，網(wǎng)易互娛AI Lab動(dòng)捕去噪新方法入 ...

創(chuàng)新奇智目標(biāo)跟蹤算法斬獲中科院GOT-10K冠軍

大華股份：三季度超2億匯兌損失，將挖掘B端視頻物聯(lián) ...

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

最新文章

獨(dú)家丨百川智能聯(lián)合創(chuàng)始人謝劍將離職

Andrej Karpathy 盛贊！斯坦福團(tuán)隊(duì)新作，讓Llama-1B 實(shí)現(xiàn)毫秒級(jí)推理

開發(fā)者，找找找丨千萬(wàn)粉絲女子電競(jìng)第一人同游GDC（限量粉絲福利）

開源僅6天，阿里萬(wàn)相大模型登上全球開源榜首

無(wú)問芯穹領(lǐng)航鑄造模速空間算力生態(tài)平臺(tái)，以充沛算力助造全球最大人工智能孵化器

MiniMax緊盯底層模型加速迭代，旗下海螺AI訪問量全球居首

熱門搜索

芯片 Android應(yīng)用日?qǐng)?bào) OPPO Android Wear 互聯(lián)網(wǎng)金融硬創(chuàng)公開課 xbox 戴爾共享單車理想汽車

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）