計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

本文作者：汪思穎

2017-09-14 18:01

導(dǎo)語：看過來

雷鋒網(wǎng) AI科技評(píng)論按：本文源自YaqiLYU在知乎問題【計(jì)算機(jī)視覺中，目前有哪些經(jīng)典的目標(biāo)跟蹤算法？】下的回答，雷鋒網(wǎng) AI科技評(píng)論已獲得授權(quán)發(fā)布。

上部分內(nèi)容請(qǐng)查閱計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（上）

五

VOT2015競(jìng)賽 VOT2015 Challenge | Home（http://votchallenge.net/vot2015/）如期而至，這一年有60個(gè)精挑細(xì)選的序列，62個(gè)tracker，最大看點(diǎn)是深度學(xué)習(xí)開始進(jìn)擊tracking，MDNet直接拿下當(dāng)年的冠軍，而結(jié)合深度特征的相關(guān)濾波方法DeepSRDCF是第二名，主要解決邊界效應(yīng)的SRDCF僅HOG特征排在第四：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

隨著VOT競(jìng)賽的影響力擴(kuò)大，舉辦方也是用心良苦，經(jīng)典的和頂尖的齊聚一堂，百家爭(zhēng)鳴，多達(dá)62個(gè)tracker皇城PK，華山論劍。除了前面介紹的深度學(xué)習(xí)和相關(guān)濾波，還有結(jié)合object proposals(類物體區(qū)域檢測(cè))的EBT(EBT：Proposal與Tracking不得不說的秘密 - 知乎專欄)（https://zhuanlan.zhihu.com/p/26654891）排第三，Mean-Shift類顏色算法ASMS是推薦實(shí)時(shí)算法，還請(qǐng)注意另一個(gè)顏色算法DAT，而第9的那個(gè)Struck已經(jīng)不是原來的了。除此之外，還能看到經(jīng)典方法如OAB, STC, CMT, CT, NCC等都排在倒數(shù)位置，經(jīng)典方法已經(jīng)被遠(yuǎn)遠(yuǎn)拉開了距離，所以在決定用那些經(jīng)典方法之前，可以先測(cè)試幾個(gè)新算法看看，說不定有驚喜。

在介紹SRDCF之前，先來分析下相關(guān)濾波有什么缺點(diǎn)?？傮w來說，相關(guān)濾波類方法對(duì)快速變形和快速運(yùn)動(dòng)情況的跟蹤效果不好。

快速變形主要因?yàn)镃F是模板類方法。容易跟丟這個(gè)比較好理解，前面分析了相關(guān)濾波是模板類方法，如果目標(biāo)快速變形，那基于HOG的梯度模板肯定就跟不上了，如果快速變色，那基于CN的顏色模板肯定也就跟不上了。這個(gè)還和模型更新策略與更新速度有關(guān)，固定學(xué)習(xí)率的線性加權(quán)更新，如果學(xué)習(xí)率太大，部分或短暫遮擋和任何檢測(cè)不準(zhǔn)確，模型就會(huì)學(xué)習(xí)到背景信息，積累到一定程度模型跟著背景私奔了，一去不復(fù)返。如果學(xué)習(xí)率太小，目標(biāo)已經(jīng)變形了而模板還是那個(gè)模板，就會(huì)變得不認(rèn)識(shí)目標(biāo)。(舉個(gè)例子，多年不見的同學(xué)，你很可能就認(rèn)不出了，而經(jīng)常見面的同學(xué)，即使變化很大你也認(rèn)識(shí)，因?yàn)槌Ｒ姷耐瑢W(xué)在你大腦里面的模型在持續(xù)更新，而多年不見就是很久不更新)

快速運(yùn)動(dòng)主要是邊界效應(yīng)(Boundary Effets)，而且邊界效應(yīng)產(chǎn)生的錯(cuò)誤樣本會(huì)造成分類器判別力不夠強(qiáng)，下面分訓(xùn)練階段和檢測(cè)階段分別討論。

訓(xùn)練階段，合成樣本降低了判別能力。如果不加余弦窗，那么移位樣本是長這樣的：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

除了那個(gè)最原始樣本，其他樣本都是“合成”的，100*100的圖像塊，只有1/10000的樣本是真實(shí)的，這樣的樣本集根本不能拿來訓(xùn)練。如果加了余弦窗，由于圖像邊緣像素值都是0，循環(huán)移位過程中只要目標(biāo)保持完整那這個(gè)樣本就是合理的，只有目標(biāo)中心接近邊緣時(shí)，目標(biāo)跨越邊界的那些樣本是錯(cuò)誤的，這樣雖不真實(shí)但合理的樣本數(shù)量增加到了大約2/3(padding= 1)，即使這樣仍然有1/3(3000/10000)的樣本是不合理的，這些樣本會(huì)降低分類器的判別能力。再者，加余弦窗也不是“免費(fèi)的”，余弦窗將圖像塊的邊緣區(qū)域像素全部變成0，大量過濾掉分類器本來非常需要學(xué)習(xí)的背景信息，原本訓(xùn)練時(shí)判別器能看到的背景信息就非常有限，我們還加了個(gè)余弦窗擋住了背景，這樣進(jìn)一步降低了分類器的判別力(是不是上帝在我前遮住了簾。不是上帝，是余弦窗)。

檢測(cè)階段，相關(guān)濾波對(duì)快速運(yùn)動(dòng)的目標(biāo)檢測(cè)比較乏力。相關(guān)濾波訓(xùn)練的圖像塊和檢測(cè)的圖像塊大小必須是一樣的，這就是說你訓(xùn)練了一個(gè)100*100的濾波器，那你也只能檢測(cè)100*100的區(qū)域，如果打算通過加更大的padding來擴(kuò)展檢測(cè)區(qū)域，那樣除了擴(kuò)展了復(fù)雜度，并不會(huì)有什么好處。目標(biāo)運(yùn)動(dòng)可能是目標(biāo)自身移動(dòng)，或攝像機(jī)移動(dòng)，按照目標(biāo)在檢測(cè)區(qū)域的位置分四種情況來看：

1、如果目標(biāo)在中心附近，檢測(cè)準(zhǔn)確且成功。

2、如果目標(biāo)移動(dòng)到了邊界附近但還沒有出邊界，加了余弦窗以后，部分目標(biāo)像素會(huì)被過濾掉，這時(shí)候就沒法保證這里的響應(yīng)是全局最大的，而且，這時(shí)候的檢測(cè)樣本和訓(xùn)練過程中的那些不合理樣本很像，所以很可能會(huì)失敗。

3、如果目標(biāo)的一部分已經(jīng)移出了這個(gè)區(qū)域，而我們還要加余弦窗，很可能就過濾掉了僅存的目標(biāo)像素，檢測(cè)失敗。

4、如果整個(gè)目標(biāo)已經(jīng)位移出了這個(gè)區(qū)域，那肯定就檢測(cè)失敗了。

以上就是邊界效應(yīng)(Boundary Effets)，推薦兩個(gè)主流的解決邊界效應(yīng)的方法，但速度比較慢，并不推薦用于實(shí)時(shí)場(chǎng)合。

一種方法是Martin Danelljan大牛的SRDCF Learning Spatially Regularized Correlation Filters for Visual Tracking（http://www.cvl.isy.liu.se/research/objrec/visualtracking/regvistrack/index.html），主要思路：既然邊界效應(yīng)發(fā)生在邊界附近，那就忽略所有移位樣本的邊界部分像素，或者說邊界附近濾波器系數(shù)為0：

Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for visual tracking [C]// ICCV. 2015.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

SRDCF基于DCF，類SAMF多尺度，采用更大的檢測(cè)區(qū)域(padding = 4)，同時(shí)加入空域正則化，懲罰邊界區(qū)域的濾波器系數(shù)，沒有閉合解，采用高斯-塞德爾方法迭代優(yōu)化。

另一種方法是Hamed Kiani提出的基于灰度特征MOSSE的CFLM Correlation Filters with Limited Boundaries （http://www.hamedkiani.com/cfwlb.html）和基于HOG特征的BACF，主要思路是采用較大尺寸檢測(cè)圖像塊和較小尺寸濾波器來提高真實(shí)樣本的比例，或者說濾波器填充0以保持和檢測(cè)圖像一樣大，同樣沒有閉合解，采用ADMM迭代優(yōu)化：

Kiani Galoogahi H, Sim T, Lucey S. Correlation filters with limited boundaries [C]// CVPR, 2015.
Kiani Galoogahi H,, Fagg A, Lucey S. Learning Background-Aware Correlation Filters for Visual Tracking [C]// arXiv preprint arXiv:1703.04590, 2017.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

其實(shí)這兩個(gè)解決方案挺像的，都是用更大的檢測(cè)和更新圖像塊，訓(xùn)練作用域比較小的相關(guān)濾波器，不同點(diǎn)是SRDCF的濾波器系數(shù)從中心到邊緣平滑過渡到0，而CFLM直接用0填充濾波器邊緣。

VOT2015相關(guān)濾波方面還有排在第二名，結(jié)合深度特征的DeepSRDCF，因?yàn)樯疃忍卣鞫挤浅Ｂ?，在CPU上別說高速，實(shí)時(shí)都到不了，雖然性能非常高，但這里就不推薦，先跳過。

六

VOT2016競(jìng)賽 VOT2016 Challenge | Home（http://votchallenge.net/vot2016/），依然是VOT2015那60個(gè)序列，不過這次做了重新標(biāo)注更加公平合理，今年有70位參賽選手，意料之中深度學(xué)習(xí)已經(jīng)雄霸天下了，8個(gè)純CNN方法和6個(gè)結(jié)合深度特征的CF方法大都名列前茅，還有一片的CF方法，最最最重要的是，良心舉辦方竟然公開了他們能拿到的38個(gè)tracker，部分tracker代碼和主頁下載地址：VOT2016 Challenge | Trackers （http://votchallenge.net/vot2016/trackers.html）(以后媽媽再也不用擔(dān)心我找不到源碼了~)，注意部分是下載鏈接，部分是源碼壓縮包，部分源碼是二進(jìn)制文件，好不好用一試便知，方便對(duì)比和研究，需要的趕快去試試。馬上來看競(jìng)賽結(jié)果(這里僅列舉前60個(gè))：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

標(biāo)出來了前面介紹過的或比較重要的方法，結(jié)合多層深度特征的相關(guān)濾波C-COT排第一名，而CNN方法TCNN是VOT2016的冠軍，作者和MDNet是同一人，純顏色方法DAT和ASMS都在中等水平(其實(shí)兩種方法實(shí)測(cè)表現(xiàn)非常接近)，其他tracker的情況請(qǐng)參考論文。再來看速度，SMACF沒有公開代碼，ASMS依然那么快，排在前10的方法中也有兩個(gè)速度比較快，分別是排第5的Staple，和其改進(jìn)算法排第9的STAPLE+，而且STAPLE+是今年的推薦實(shí)時(shí)算法。首先恭喜Luca Bertinetto大牛的SiamFC和Staple都表現(xiàn)非常不錯(cuò)，然后再為大牛默哀三分鐘(VOT2016的paper原文)：

This was particularly obvious in case of SiamFC trackers, which runs orders higher than realtime (albeit on GPU), and Staple, which is realtime, but are incorrectly among the non-realtime trackers.

VOT2016竟然發(fā)生了烏龍事件，Staple在論文中是80FPS，怎么EFO在這里只有11？幸好公開代碼有Staple和STAPLE+，有興趣您可以去實(shí)測(cè)下，雖然我電腦不如Luca Bertinetto大牛，但Staple我也能跑60-70FPS，而更可笑的是，STAPLE+比Staple慢了大約7-8倍，竟然EFO高出4倍，到底怎么回事呢？

首先看Staple的代碼，如果您直接下載Staple并設(shè)置params.visualization = 1來跑，Staple調(diào)用Computer Vision System Toolbox來顯示序列圖像，而恰好如果您沒有這個(gè)工具箱，默認(rèn)每幀都會(huì)用imshow(im)來顯示圖像所以非常非常慢，而設(shè)置params.visualization = 0就跑的飛快，建議您將顯示圖像部分代碼替換成DSST中對(duì)應(yīng)部分代碼就可以正常跑和顯示了。

再來看STAPLE+的代碼，改進(jìn)包括額外從顏色概率圖中提取HOG特征，特征增加到56通道(Staple是28通道)，平移檢測(cè)額外加入了大位移光流運(yùn)動(dòng)估計(jì)的響應(yīng)，所以才會(huì)這么慢，而且肯定會(huì)這么慢。

所以很大可能是VOT舉辦方把Staple和STAPLE+的EFO弄反了，VOT2016的實(shí)時(shí)推薦算法應(yīng)該是排第5的Staple，相關(guān)濾波結(jié)合顏色方法，沒有深度特征更沒有CNN，跑80FPS還能排在第五，這就是接下來主要介紹的，2016年最NIUBILITY的目標(biāo)跟蹤算法之一Staple (讓排在后面的一眾深度學(xué)習(xí)算法汗顏，懷疑人生)。

顏色特征，在目標(biāo)跟蹤中顏色是個(gè)非常重要的特征，不管多少個(gè)人在一起，只要目標(biāo)穿不同顏色的衣服就非常明顯。前面介紹過2014年CVPR的CN是相關(guān)濾波框架下的模板顏色方法，這里隆重介紹統(tǒng)計(jì)顏色特征方法DAT Learning, Recognition, and Surveillance @ ICG，幀率15FPS：

Possegger H, Mauthner T, Bischof H. In defense of color-based model-free tracking [C]// CVPR, 2015.

如果要用一句話介紹Luca Bertinetto大牛(牛津大學(xué))的Staple Staple tracker（http://www.robots.ox.ac.uk/~luca/staple.html），那就是把模板特征方法DSST(基于DCF)和統(tǒng)計(jì)特征方法DAT結(jié)合：

Bertinetto L, Valmadre J, Golodetz S, et al. Staple: Complementary Learners for Real-Time Tracking [C]// CVPR, 2016.

前面分析了相關(guān)濾波模板類特征(HOG)對(duì)快速變形和快速運(yùn)動(dòng)效果不好，但對(duì)運(yùn)動(dòng)模糊光照變化等情況比較好；而顏色統(tǒng)計(jì)特征(顏色直方圖)對(duì)變形不敏感，而且不屬于相關(guān)濾波框架沒有邊界效應(yīng)，快速運(yùn)動(dòng)當(dāng)然也是沒問題的，但對(duì)光照變化和背景相似顏色不好。綜上，這兩類方法可以互補(bǔ)，也就是說DSST和DAT可以互補(bǔ)結(jié)合：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

兩個(gè)框架的算法高效無縫結(jié)合，25FPS的DSST和15FPS的DAT，而結(jié)合后速度竟然達(dá)到了80FPS。DSST框架把跟蹤劃分為兩個(gè)問題，即平移檢測(cè)和尺度檢測(cè)，DAT就加在平移檢測(cè)部分，相關(guān)濾波有一個(gè)響應(yīng)圖，像素級(jí)前景概率也有一個(gè)響應(yīng)圖，兩個(gè)響應(yīng)圖線性加權(quán)得到最終響應(yīng)圖，其他部分與DSST類似，平移濾波器、尺度濾波器和顏色概率模型都以固定學(xué)習(xí)率線性加權(quán)更新。

另一種相關(guān)濾波結(jié)合顏色概率的方法是CSR-DCF，提出了空域可靠性和通道可靠性，13FPS性能直逼C-COT:

Luke?i? A, Vojí? T, ?ehovin L, et al. Discriminative Correlation Filter with Channel and Spatial Reliability [C]// CVPR, 2017.

CSR-DCF中的空域可靠性得到的二值掩膜就類似于CFLM中的掩膜矩陣P，在這里自適應(yīng)選擇更容易跟蹤的目標(biāo)區(qū)域且減小邊界效應(yīng)；以往多通道特征都是直接求和，而CSR-DCF中通道采用加權(quán)求和，而通道可靠性就是那個(gè)自適應(yīng)加權(quán)系數(shù)。采用ADMM迭代優(yōu)化。

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

相關(guān)濾波還有第一名的C-COT，和DeepSRDCF一樣先跳過。

七

以前提到的很多CF算法，也包括VOT競(jìng)賽，都是針對(duì)short-term的跟蹤問題，即短期跟蹤，我們只關(guān)注短期內(nèi)(如100~500幀)跟蹤是否準(zhǔn)確。但在實(shí)際應(yīng)用場(chǎng)合，我們希望正確跟蹤時(shí)間長一點(diǎn)，如幾分鐘或十幾分鐘，這就是長期跟蹤問題。

Long-term就是希望tracker能長期正確跟蹤，我們分析了前面介紹的方法不適合這種應(yīng)用場(chǎng)合，必須是short-term tracker + detecter配合才能實(shí)現(xiàn)正確的長期跟蹤。

用一句話介紹Long-term，就是給普通tracker配一個(gè)detecter，在發(fā)現(xiàn)跟蹤出錯(cuò)的時(shí)候調(diào)用自帶detecter重新檢測(cè)并矯正tracker。

接下來介紹CF方向一篇比較有代表性的long-term方法，馬超大神的LCT chaoma99/lct-tracker（https://github.com/chaoma99/lct-tracker）：

Ma C, Yang X, Zhang C, et al. Long-term correlation tracking[C]// CVPR, 2015.

LCT在DSST一個(gè)平移相關(guān)濾波Rc和一個(gè)尺度相關(guān)濾波的基礎(chǔ)上，又加入第三個(gè)負(fù)責(zé)檢測(cè)目標(biāo)置信度的相關(guān)濾波Rt，檢測(cè)模塊Online Detector是TLD中所用的隨機(jī)蕨分類器(random fern)，在代碼中改為SVM。第三個(gè)相關(guān)濾波類似MOSSE不加padding，而且特征也不加cosine窗，放在平移檢測(cè)之后。

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

LCT加入檢測(cè)機(jī)制，對(duì)遮擋和出視野等情況理論上較好，速度27fps，實(shí)驗(yàn)只跑了OTB-2013，跟蹤精度非常高，根據(jù)其他論文，LCT在OTB-2015和 VOT上效果略差一點(diǎn)可能是兩個(gè)核心閾值沒有自適應(yīng)，關(guān)于long-term，TLD和LCT的思想都值得參考。

接下來介紹跟蹤置信度。跟蹤算法需要能反映每一次跟蹤結(jié)果的可靠程度，這一點(diǎn)非常重要，不然就可能造成跟丟了還不知道的情況。有兩種指標(biāo)可以反映相關(guān)濾波類方法的跟蹤置信度：前面見過的最大響應(yīng)值，和沒見過的響應(yīng)模式，或者綜合反映這兩點(diǎn)的指標(biāo)。

LMCF(MM Wang的目標(biāo)跟蹤專欄：目標(biāo)跟蹤算法 - 知乎專欄 )提出了多峰檢測(cè)和高置信度更新：

Wang M, Liu Y, Huang Z. Large Margin Object Tracking with Circulant Feature Maps [C]// CVPR, 2017.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

高置信度更新，只有在跟蹤置信度比較高的時(shí)候才更新跟蹤模型，避免目標(biāo)模型被污染，同時(shí)提升速度。第一個(gè)置信度指標(biāo)是最大響應(yīng)分?jǐn)?shù)Fmax，就是最大響應(yīng)值(Staple和LCT中都有提到)。第二個(gè)置信度指標(biāo)是平均峰值相關(guān)能量(average peak-to correlation energy, APCE)，反映響應(yīng)圖的波動(dòng)程度和檢測(cè)目標(biāo)的置信水平，這個(gè)(可能)是目前最好的指標(biāo)，推薦：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

跟蹤置信度指標(biāo)還有，MOSSE中的峰值旁瓣比(Peak to Sidelobe Ratio, PSR)，由相關(guān)濾波峰值，與11*11峰值窗口以外旁瓣的均值與標(biāo)準(zhǔn)差計(jì)算得到，推薦：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

跟蹤置信度指標(biāo)還有，在CSR-DCF的空域可靠性中，也用了兩個(gè)類似指標(biāo)反映通道可靠性，第一個(gè)指標(biāo)也是每個(gè)通道的最大響應(yīng)峰值，就是Fmax，第二個(gè)指標(biāo)是響應(yīng)圖中第二和第一主模式之間的比率，反映每個(gè)通道響應(yīng)中主模式的表現(xiàn)力，但需要先做極大值檢測(cè)：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

以上就是目前相關(guān)濾波方法中提到的比較好的跟蹤置信度指標(biāo)。

八

最后這部分是Martin Danelljan的專場(chǎng)，主要介紹他的一些工作，尤其是結(jié)合深度特征的相關(guān)濾波方法，代碼都在他主頁Visual Tracking（http://www.cvl.isy.liu.se/research/objrec/visualtracking/），就不一一貼出了。

Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

在CN中提出了非常重要的多通道顏色特征Color Names，用于CSK框架取得非常好的效果，還提出了加速算法CN2，通過類PCA的自適應(yīng)降維方法，對(duì)特征通道數(shù)量降維(10 -> 2)，平滑項(xiàng)增加跨越不同特征子空間時(shí)的代價(jià)，也就是PCA中的協(xié)方差矩陣線性更新防止降維矩陣變化太大。

Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.

DSST是VOT2014的第一名，開創(chuàng)了平移濾波+尺度濾波的方式。在fDSST中對(duì)DSST進(jìn)行加速，PCA方法將平移濾波HOG特征的通道降維(31 -> 18)，QR方法將尺度濾波器~1000*17的特征降維到17*17，最后用三角插值(頻域插值)將尺度數(shù)量從17插值到33以獲得更精確的尺度定位。

SRDCF是VOT2015的第四名，為了減輕邊界效應(yīng)擴(kuò)大檢測(cè)區(qū)域，優(yōu)化目標(biāo)增加了空間約束項(xiàng)，用高斯-塞德爾方法迭代優(yōu)化，并用牛頓法迭代優(yōu)化平移檢測(cè)的子網(wǎng)格精確目標(biāo)定位。

Danelljan M, Hager G, Shahbaz Khan F, et al. Adaptive decontamination of the training set: A unified formulation for discriminative visual tracking [C]// CVPR, 2016.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

SRDCFdecon在SRDCF的基礎(chǔ)上，改進(jìn)了樣本和學(xué)習(xí)率問題。以前的相關(guān)濾波都是固定學(xué)習(xí)率線性加權(quán)更新模型，雖然這樣比較簡單不用保存以前樣本，但在定位不準(zhǔn)確、遮擋、背景擾動(dòng)等情況會(huì)污染模型導(dǎo)致漂移。SRDCFdecon選擇保存以往樣本(圖像塊包括正，負(fù)樣本)，在優(yōu)化目標(biāo)函數(shù)中添加樣本權(quán)重參數(shù)和正則項(xiàng)，采用交替凸搜索，首先固定樣本權(quán)重，高斯-塞德爾方法迭代優(yōu)化模型參數(shù)，然后固定模型參數(shù)，凸二次規(guī)劃方法優(yōu)化樣本權(quán)重。

Danelljan M, Hager G, Shahbaz Khan F, et al. Convolutional features for correlation filter based visual tracking [C]// ICCVW, 2015.

DeepSRDCF是VOT2015的第二名，將SRDCF中的HOG特征替換為CNN中單層卷積層的深度特征(也就是卷積網(wǎng)絡(luò)的激活值)，效果有了極大提升。這里用imagenet-vgg-2048 network，VGG網(wǎng)絡(luò)的遷移能力比較強(qiáng)，而且MatConvNet就是VGG組的，MATLAB調(diào)用非常方便。論文還測(cè)試了不同卷積層在目標(biāo)跟蹤任務(wù)中的表現(xiàn)：

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

第1層表現(xiàn)最好，第2和第5次之。由于卷積層數(shù)越高語義信息越多，但紋理細(xì)節(jié)越少，從1到4層越來越差的原因之一就是特征圖的分辨率越來越低，但第5層反而很高，是因?yàn)榘ㄍ暾恼Z義信息，判別力比較強(qiáng)(本來就是用來做識(shí)別的)。

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

注意區(qū)分這里的深度特征和基于深度學(xué)習(xí)的方法，深度特征來自ImageNet上預(yù)訓(xùn)練的圖像分類網(wǎng)絡(luò)，沒有fine-turn這一過程，不存在過擬合的問題。而基于深度學(xué)習(xí)的方法大多需要在跟蹤序列上end-to-end訓(xùn)練或fine-turn，如果樣本數(shù)量和多樣性有限就很可能過擬合。

Ma C, Huang J B, Yang X, et al. Hierarchical convolutional features for visual tracking [C]// ICCV, 2015.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

值得一提的還有馬超大神的HCF，結(jié)合多層卷積特征提升效果，用了VGG19的Conv5-4, Conv4-4和Conv3-4的激活值作為特征，所有特征都縮放到圖像塊分辨率，雖然按照論文應(yīng)該是由粗到細(xì)確定目標(biāo)，但代碼中比較直接，三種卷積層的響應(yīng)以固定權(quán)值1, 0.5, 0.02線性加權(quán)作為最終響應(yīng)。雖然用了多層卷積特征，但沒有關(guān)注邊界效應(yīng)而且線性加權(quán)的方式過于簡單，HCF在VOT2016僅排在28名（單層卷積深度特征的DeepSRDCF是第13名）。

Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking [C]// ECCV, 2016.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

C-COT是VOT2016的第一名，綜合了SRDCF的空域正則化和SRDCFdecon的自適應(yīng)樣本權(quán)重，還將DeepSRDCF的單層卷積的深度特征擴(kuò)展為多層卷積的深度特征（VGG第1和5層），為了應(yīng)對(duì)不同卷積層分辨率不同的問題，提出了連續(xù)空間域插值轉(zhuǎn)換操作，在訓(xùn)練之前通過頻域隱式插值將特征圖插值到連續(xù)空域，方便集成多分辨率特征圖，并且保持定位的高精度。目標(biāo)函數(shù)通過共軛梯度下降方法迭代優(yōu)化，比高斯-塞德爾方法要快，自適應(yīng)樣本權(quán)值直接采用先驗(yàn)權(quán)值，沒有交替凸優(yōu)化過程，檢測(cè)中用牛頓法迭代優(yōu)化目標(biāo)位置。

注意以上SRDCF, SRDCFdecon，DeepSRDCF，C-COT都無法實(shí)時(shí)，這一系列工作雖然效果越來越好，但也越來越復(fù)雜，在相關(guān)濾波越來越慢失去速度優(yōu)勢(shì)的時(shí)候，Martin Danelljan在2017CVPR的ECO來了一腳急剎車，大神來告訴我們什么叫又好又快，不忘初心：

Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking [C]// CVPR, 2017.

ECO是C-COT的加速版，從模型大小、樣本集大小和更新策略三個(gè)方面加速，速度比C-COT提升了20倍，加量還減價(jià)，EAO提升了13.3%，最最最厲害的是， hand-crafted features的ECO-HC有60FPS。吹完了，來看看具體做法。

第一減少模型參數(shù)，定義了factorized convolution operator(分解卷積操作)，效果類似PCA，用PCA初始化，然后僅在第一幀優(yōu)化這個(gè)降維矩陣，以后幀都直接用，簡單來說就是有監(jiān)督降維，深度特征時(shí)模型參數(shù)減少了80%。

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

第二減少樣本數(shù)量， compact generative model(緊湊的樣本集生成模型)，采用Gaussian Mixture Model (GMM)合并相似樣本，建立更具代表性和多樣性的樣本集，需要保存和優(yōu)化的樣本集數(shù)量降到C-COT的1/8。

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

第三改變更新策略，sparser updating scheme(稀疏更新策略)，每隔5幀做一次優(yōu)化更新模型參數(shù)，不但提高了算法速度，而且提高了對(duì)突變、遮擋等情況的穩(wěn)定性。但樣本集是每幀都更新的，稀疏更新并不會(huì)錯(cuò)過間隔期的樣本變化信息。

ECO的成功當(dāng)然還有很多細(xì)節(jié)，而且有些我也看的不是很懂，總之很厲害就是了。ECO實(shí)驗(yàn)跑了四個(gè)庫(VOT2016, UAV123, OTB-2015, and TempleColor)都是第一，而且沒有過擬合的問題，僅性能來說ECO是目前最好的相關(guān)濾波算法，也有可能是最好的目標(biāo)跟蹤算法。hand-crafted features版本的ECO-HC，降維部分原來HOG+CN的42維特征降到13維，其他部分類似，實(shí)驗(yàn)結(jié)果雖然沒給ECO-HC在VOT2016的結(jié)果，但其他三個(gè)都很高，而且論文給出速度是60FPS。

最后是來自Luca Bertinetto的CFNet End-to-end representation learning for Correlation Filter based tracking（http://www.robots.ox.ac.uk/~luca/cfnet.html），除了上面介紹的相關(guān)濾波結(jié)合深度特征，相關(guān)濾波也可以end-to-end方式在CNN中訓(xùn)練了：

Valmadre J, Bertinetto L, Henriques J F, et al. End-to-end representation learning for Correlation Filter based tracking [C]// CVPR, 2017.

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

在SiamFC的基礎(chǔ)上，將相關(guān)濾波也作為CNN中的一層，最重要的是cf層的前向傳播和反向傳播公式推導(dǎo)，兩層卷積層的CFNet在GPU上是75FPS，綜合表現(xiàn)并沒有很驚艷，可能是難以處理CF層的邊界效應(yīng)吧，持觀望態(tài)度。

九

目前相關(guān)濾波方向貢獻(xiàn)最多的是以下兩個(gè)組(有創(chuàng)新有代碼)：

牛津大學(xué)：Joao F. Henriques和Luca Bertinetto，代表：CSK, KCF/DCF, Staple, CFNet (其他SiamFC, Learnet)

林雪平大學(xué)：Martin Danelljan，代表：CN, DSST, SRDCF, DeepSRDCF, SRDCFdecon, C-COT, ECO

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

13人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）

計(jì)算機(jī)視覺中，究竟有哪些好用的目標(biāo)跟蹤算法（下）