目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

本文作者： AI科技評(píng)論

2019-05-24 17:15

導(dǎo)語：商湯科技智能視頻團(tuán)隊(duì)首次開源其目標(biāo)跟蹤研究平臺(tái)PySOT，包含商湯科技SiamRPN系列算法，以及剛被CVPR2019收錄為Oral的SiamRPN++。

雷鋒網(wǎng) AI 科技評(píng)論消息，日前，商湯科技智能視頻團(tuán)隊(duì)首次開源其目標(biāo)跟蹤研究平臺(tái) PySOT。PySOT 包含了商湯科技 SiamRPN 系列算法，以及剛被 CVPR2019 收錄為 Oral 的 SiamRPN++。此篇文章將獨(dú)家解讀目標(biāo)跟蹤最強(qiáng)算法 SiamRPN 系列。

背景

由于存在遮擋、光照變化、尺度變化等一些列問題，單目標(biāo)跟蹤的實(shí)際落地應(yīng)用一直都存在較大的挑戰(zhàn)。過去兩年中，商湯智能視頻團(tuán)隊(duì)在孿生網(wǎng)絡(luò)上做了一系列工作，包括將檢測(cè)引入跟蹤后實(shí)現(xiàn)第一個(gè)高性能孿生網(wǎng)絡(luò)跟蹤算法的 SiamRPN（CVPR 18），更好地利用訓(xùn)練數(shù)據(jù)增強(qiáng)判別能力的 DaSiamRPN（ECCV 18），以及最新的解決跟蹤無法利用到深網(wǎng)絡(luò)問題的 SiamRPN++（CVPR 19）。其中 SiamRPN++在多個(gè)數(shù)據(jù)集上都完成了 10% 以上的超越，并且達(dá)到了 SOTA 水平，是當(dāng)之無愧的目標(biāo)跟蹤最強(qiáng)算法。

項(xiàng)目地址：https://github.com/STVIR/pysot

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

以上動(dòng)圖中，紅色框是 SiamRPN++的跟蹤效果，藍(lán)色框是 ECCV 2018 上的 UPDT 的結(jié)果，可以看出 SiamRPN++的效果更佳，跟蹤效果更穩(wěn)定，框也更準(zhǔn)。從這個(gè)圖也可以看出跟蹤的一些挑戰(zhàn)：光照急劇變化，形狀、大小變化等。

SiamRPN (CVPR18 Spotlight):

在 CVPR18 的論文中（SiamRPN），商湯智能視頻團(tuán)隊(duì)發(fā)現(xiàn)孿生網(wǎng)絡(luò)無法對(duì)跟蹤目標(biāo)的形狀進(jìn)行調(diào)節(jié)。之前的跟蹤算法更多的將跟蹤問題抽象成比對(duì)問題，但是跟蹤問題其實(shí)和檢測(cè)問題也非常類似，對(duì)目標(biāo)的定位與對(duì)目標(biāo)框的回歸預(yù)測(cè)一樣重要。

研究人員分析了以往跟蹤算法的缺陷并對(duì)其進(jìn)行改進(jìn)：

1. 大多數(shù)的跟蹤算法把跟蹤考慮成定位問題，但它和檢測(cè)問題也比較類似，對(duì)目標(biāo)的定位和對(duì)目標(biāo)邊界框的回歸預(yù)測(cè)一樣重要。為此，SiamRPN 將跟蹤問題抽象成單樣本檢測(cè)問題，即需要設(shè)計(jì)一個(gè)算法，使其能夠通過第一幀的信息來初始化的一個(gè)局部檢測(cè)器。為此，SiamRPN 結(jié)合了跟蹤中的孿生網(wǎng)絡(luò)和檢測(cè)中的區(qū)域推薦網(wǎng)絡(luò)：孿生網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)跟蹤目標(biāo)的適應(yīng)，讓算法可以利用被跟蹤目標(biāo)的信息，完成檢測(cè)器的初始化；區(qū)域推薦網(wǎng)絡(luò)可以讓算法可以對(duì)目標(biāo)位置進(jìn)行更精準(zhǔn)的預(yù)測(cè)。經(jīng)過兩者的結(jié)合，SiamRPN 可以進(jìn)行端到端的訓(xùn)練。

2. 以往的濾波類的方法，沒辦法通過數(shù)據(jù)驅(qū)動(dòng)的形式提升跟蹤的性能。而 SiamRPN 可以端到端訓(xùn)練，所以更大規(guī)模的數(shù)據(jù)集 Youtube-BB 也被引入到了訓(xùn)練中，通過數(shù)據(jù)驅(qū)動(dòng)的形式提升最終的性能。

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

結(jié)合以上兩點(diǎn)創(chuàng)新，在基線算法 SiamFC 的基礎(chǔ)上，SiamRPN 實(shí)現(xiàn)了五個(gè)點(diǎn)以上的提升（OTB100，VOT15/16/17 數(shù)據(jù)集）；同時(shí)還達(dá)到了更快的速度（160fps）、也更好地實(shí)現(xiàn)了精度與速度的平衡。

DaSiamRPN (ECCV18):

SiamRPN 雖然取得了非常好的性能，但由于訓(xùn)練集問題，物體類別過少限制了跟蹤的性能；同時(shí)，在之前的訓(xùn)練方式中，負(fù)樣本只有背景信息，一定程度上也限制了網(wǎng)絡(luò)的判別能力，網(wǎng)絡(luò)只具備區(qū)分前景與不含語義的背景的能力。基于這兩個(gè)問題，DaSiamRPN 設(shè)計(jì)了兩種數(shù)據(jù)增強(qiáng)方式：

1. 孿生網(wǎng)絡(luò)的訓(xùn)練只需要圖像對(duì)，而并非完整的視頻，所以檢測(cè)圖片也可以被擴(kuò)展為訓(xùn)練數(shù)據(jù)。更準(zhǔn)確的來說，通過對(duì)檢測(cè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，生成可用于訓(xùn)練的圖片對(duì)。因此在 DaSiamRPN 中，COCO 和 ImageNet Det 也被引入了訓(xùn)練，極大地豐富了訓(xùn)練集中的類別信息。同時(shí)，數(shù)據(jù)量增大的本身也帶來了性能上的提升。

2. 在孿生網(wǎng)絡(luò)的訓(xùn)練過程中，通過構(gòu)造有語意的負(fù)樣本對(duì)來增強(qiáng)跟蹤器的判別能力，即訓(xùn)練過程中不再讓模板和搜索區(qū)域是相同目標(biāo)；而是讓網(wǎng)絡(luò)學(xué)習(xí)判別能力，去尋找搜索區(qū)域中和模版更相似的物體，而并非一個(gè)簡(jiǎn)單的有語義的物體。

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

經(jīng)過上述的改進(jìn)，網(wǎng)絡(luò)的判別能力變得更強(qiáng)，檢測(cè)分?jǐn)?shù)也變得更有辨別力，這樣就可以根據(jù)檢測(cè)分?jǐn)?shù)判斷目標(biāo)是否消失?；诖?，DaSiamRPN 可以將短時(shí)跟蹤拓展到長(zhǎng)時(shí)跟蹤，并且在 UAV20L 數(shù)據(jù)集上比之前最好的方法提高了 6 個(gè)點(diǎn)。在 ECCV18 的 VOT workshop 上面，DaSiamRPN 取得了實(shí)時(shí)比賽的冠軍，相比去年的冠軍有了 80% 的提升。

SiamRPN++ (CVPR19 Oral)：

目前，孿生網(wǎng)絡(luò)中的核心問題在于現(xiàn)有的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法只能用比較淺的卷積網(wǎng)絡(luò)（如 AlexNet），無法利用現(xiàn)代化網(wǎng)絡(luò)為跟蹤算法提升精度，而直接引入深網(wǎng)絡(luò)甚至?xí)剐阅艽蠓p。

為了解決深網(wǎng)絡(luò)這個(gè) Siamese 跟蹤器的痛點(diǎn)，商湯智能視頻團(tuán)隊(duì)基于之前 ECCV2018 的工作（DaSiamRPN），通過分析孿生神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程，發(fā)現(xiàn)孿生網(wǎng)絡(luò)在使用現(xiàn)代化深度神經(jīng)網(wǎng)絡(luò)存在位置偏見問題，而這一問題是由于卷積的 padding 會(huì)破壞嚴(yán)格的平移不變性。然而深網(wǎng)絡(luò)并不能去掉 padding，為了緩解這一問題，讓深網(wǎng)絡(luò)能夠在跟蹤提升性能，SiamRPN++中提出在訓(xùn)練過程中加入位置均衡的采樣策略。通過修改采樣策略來緩解網(wǎng)絡(luò)在訓(xùn)練過程中的存在的位置偏見問題，讓深網(wǎng)絡(luò)能夠發(fā)揮出應(yīng)有的效果。

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

通過加入這一采樣策略，深層網(wǎng)絡(luò)終于能夠在跟蹤任務(wù)中發(fā)揮作用，讓跟蹤的性能不再受制于網(wǎng)絡(luò)的容量。同時(shí)，為了更好地發(fā)揮深層網(wǎng)絡(luò)的性能，SiamRPN++中利用了多層融合。由于淺層特征具有更多的細(xì)節(jié)信息，而深層網(wǎng)絡(luò)具有更多的語義信息，將多層融合起來以后，可以跟蹤器兼顧細(xì)節(jié)和深層語義信息，從而進(jìn)一步提升性能。

除此之外，研究人員還提出了新的連接部件，深度可分離相關(guān)層（Depthwise Correlation，后續(xù)簡(jiǎn)寫為 DW）。相比于之前的升維相關(guān)層（UpChannel correlation，后續(xù)簡(jiǎn)寫為 UP），DW 可以極大地簡(jiǎn)化參數(shù)量，平衡兩支的參數(shù)量，同時(shí)讓訓(xùn)練更加穩(wěn)定，也能更好的收斂。

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

為了驗(yàn)證以上提出的內(nèi)容，研究人員做了詳細(xì)的實(shí)驗(yàn)。在比較常用的 VOT 和 OTB 數(shù)據(jù)集上，SiamRPN++取得了 SOTA 的結(jié)果。在 VOT18 的長(zhǎng)時(shí)跟蹤，以及最近新出的一些大規(guī)模數(shù)據(jù)集上如 LaSOT，TrackingNet，SiamRPN++也都取得了 SOTA 的結(jié)果。

目標(biāo)跟蹤最強(qiáng)算法開源：商湯SiamRPN系列解讀

傳送門：

目前相關(guān)代碼現(xiàn)已上傳至商湯科技開源目標(biāo)跟蹤研究平臺(tái) PySOT。PySOT 實(shí)現(xiàn)了目前 SOTA 的多個(gè)單目標(biāo)跟蹤算法，旨在提供高質(zhì)量、高性能的視覺跟蹤研究代碼庫，并將其靈活應(yīng)用于新算法的實(shí)現(xiàn)和評(píng)估中。歡迎大家使用與交流！

PySOT 開源項(xiàng)目

https://github.com/STVIR/pysot

SiamRPN

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

DaSiamRPN

http://openaccess.thecvf.com/content_ECCV_2018/papers/Zheng_Zhu_Distractor-aware_Siamese_Networks_ECCV_2018_paper.pdf

SiamRPN++

https://arxiv.org/abs/1812.11703

參考文獻(xiàn)：

Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan, "SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks" (Oral) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019

Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan, "Distractor-aware Siamese Networks for Visual Object Tracking" European Conference on Computer Vision (ECCV) 2018

Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu, "High Performance Visual Tracking with Siamese Region Proposal Network" (Spotlight) in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2018

Luca Bertinetto, Jack Valmadre, Jo?o F. Henriques, Andrea Vedaldi, Philip H. S. Torr

"Fully-Convolutional Siamese Networks for Object Tracking" in ECCV Workshop 2016

Goutam Bhat, Joakim Johnander, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg."Unveiling the Power of Deep Tracking" European Conference on Computer Vision (ECCV) 2018

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

AI科技評(píng)論

編輯

發(fā)私信

當(dāng)月熱門文章