人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

本文作者：李尊

2016-07-15 18:47

導(dǎo)語：導(dǎo)讀：2016國際人工智能聯(lián)合會(huì)議（IJCAI2016）于7月9日至7月15日舉行，今年會(huì)議聚焦于人類意識(shí)的人工智能，本文是IJCAI2016接收論文。

導(dǎo)讀：2016國際人工智能聯(lián)合會(huì)議（IJCAI2016）于7月9日至7月15日舉行，今年會(huì)議聚焦于人類意識(shí)的人工智能，本文是IJCAI2016接收論文。除了論文詳解之外，我們另外邀請(qǐng)到哈爾濱工業(yè)大學(xué)李衍杰副教授進(jìn)行點(diǎn)評(píng)。

基于可靠記憶的視覺追蹤

聯(lián)合編譯：Blake、章敏、陳圳

摘要

在本文中，我們提出了一個(gè)新的視覺追蹤架構(gòu)，它能在大量視頻中智能地發(fā)現(xiàn)可靠模式，用來減少長期追蹤任務(wù)中的偏移誤差。首先，我們?cè)O(shè)計(jì)了一種基于離散傅里葉變化（DFT-based）的視覺追蹤器，它能夠在確保實(shí)時(shí)表現(xiàn)的情況下對(duì)大量樣本進(jìn)行追蹤。然后我們提出了一種新的使用時(shí)間約束的集群辦法，它能從之前的畫面中發(fā)現(xiàn)并記住相應(yīng)模式，我們稱之為“可靠記憶”。憑借這種方法，我們的追蹤器可以利用未被污染信息來減少偏移問題。實(shí)現(xiàn)結(jié)果表明我們的追蹤器在目前的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了最佳的表現(xiàn)。更進(jìn)一步的是，它能解決在超過4000幀畫面的長視頻中進(jìn)行魯棒性追蹤的問題，但其他方法在早期畫面幀數(shù)中就不能準(zhǔn)確追蹤了。

1. 引言

在計(jì)算機(jī)視覺和人工智能領(lǐng)域中，視覺追蹤是一個(gè)雖然基礎(chǔ)卻充滿挑戰(zhàn)的問題。雖然近年來已經(jīng)取得了許多進(jìn)步，但是仍然有喜多未解決的難題。因?yàn)槠湓谠S多因素方面還存在復(fù)雜性，比如亮度和角度變化、混亂的環(huán)境以及形狀畸變與遮擋等問題。大量有關(guān)視覺追蹤的研究都采用檢測追蹤框架，通過將現(xiàn)有的機(jī)器學(xué)習(xí)方法（通常是判斷性的）與在線學(xué)習(xí)技術(shù)應(yīng)用到其中，這些方法獲得了不錯(cuò)的結(jié)果。為了針對(duì)不同的表現(xiàn)變化進(jìn)行建模，他們對(duì)大量的樣本進(jìn)行了檢測和更新處理。然而，他們所有人都碰到了同樣的困境：雖然更多的樣本能帶來更好的準(zhǔn)確度和適應(yīng)性，但是也同樣提高了計(jì)算成本與偏移的風(fēng)險(xiǎn)。

為了更好的判斷方式，Ross等人利用修正學(xué)習(xí)率（learning-rate）的通用模型對(duì)目標(biāo)表現(xiàn)的變化做了記錄。學(xué)習(xí)率（learning-rate）本質(zhì)上是在適應(yīng)性和穩(wěn)定性之間取得折中方案。然而在一個(gè)很小的學(xué)習(xí)率下，他們的模型在以前的樣本上的作用在畫面幀數(shù)上仍然指數(shù)性的下掉，且偏移錯(cuò)誤仍然不斷上升。為了減少偏移錯(cuò)誤，Babenko等人設(shè)計(jì)圍繞目標(biāo)區(qū)域發(fā)現(xiàn)隱藏結(jié)構(gòu)信息。通過將第一幀已標(biāo)記樣本與追蹤過程中的樣本結(jié)合，其他的方法都在嘗試建立這樣的模型來避免偏移錯(cuò)誤。然而，很少有樣本能夠被看做是“非常確定的”，這也反過來限制了它們?cè)陂L期挑戰(zhàn)性任務(wù)中的魯棒性。最近，多種方法使用離散傅里葉變化（DFT）來進(jìn)行快速檢測并實(shí)現(xiàn)了在最小的計(jì)算成本下的最高精確度。然而和其它通用方法一樣，它們模型的記憶長度受限于一個(gè)修正遺忘率，所以它們?nèi)匀辉陂L期任務(wù)中仍然存在累計(jì)偏移錯(cuò)誤。

有一個(gè)非常重要的觀察——當(dāng)被追蹤目標(biāo)平穩(wěn)移動(dòng)時(shí)且沒有遮擋或者旋轉(zhuǎn)等情況下，它在特征空間中的不同畫面中的表現(xiàn)是相當(dāng)相似的。相反當(dāng)它進(jìn)行劇烈的移動(dòng)時(shí)，它的表現(xiàn)可能與之前一個(gè)畫面都不一樣。因此，如果我們用一個(gè)時(shí)間約束來劃分這些樣本（只有這樣相鄰的時(shí)間量才能聚集到一起），這樣當(dāng)目標(biāo)進(jìn)行微小的表現(xiàn)變化時(shí)數(shù)據(jù)集才能識(shí)別出來。我們將人類記憶來對(duì)這些數(shù)據(jù)簇進(jìn)行類比，使用可靠的記憶來代表經(jīng)過長時(shí)間感知的大型簇。在這些文本中，擁有更多樣本支持的早期記憶比很少樣本支持的近期記憶更加可靠，特別是當(dāng)畫面變化偏移錯(cuò)誤累積的時(shí)候。因此，追蹤器可以從早先的記憶中選取相關(guān)性高的樣本從偏移錯(cuò)誤中恢復(fù)過來。

基于這些研究，我們提出了一種新的追蹤框架，它能夠在連續(xù)畫面中發(fā)現(xiàn)自相關(guān)的表現(xiàn)簇，然后為長期魯棒性視覺追蹤將可靠記憶保存起來。首先，我們?cè)O(shè)計(jì)了一種基于離散傅里葉變化（DFT-based）的視覺追蹤器。它能夠在確保實(shí)時(shí)表現(xiàn)的情況下，對(duì)大量追蹤樣本進(jìn)行準(zhǔn)確檢測并保存良好的記憶。然后我們提出了一種新的使用時(shí)間約束的集群辦法，它能從之前的畫面中發(fā)現(xiàn)清晰可靠的記憶，這能幫助我們的追蹤器減少偏移誤差。這種方式獲得的數(shù)據(jù)流固有相關(guān)性，并保證在積分圖像的仔細(xì)設(shè)計(jì)以較快的速度收斂。據(jù)我們所知，我們提出的時(shí)間限制簇辦法在視覺流數(shù)據(jù)分析中相當(dāng)新穎，它的收斂速度與良好表現(xiàn)體現(xiàn)了其在在線視頻問題上的巨大潛力。特別是它能夠在之前追蹤過的樣本中中發(fā)現(xiàn)數(shù)據(jù)簇（即可靠的記憶），還讓我們的追蹤器能夠減少偏移誤差。實(shí)現(xiàn)結(jié)果表明我們的追蹤器在處理偏移誤差上相當(dāng)優(yōu)秀，并且在目前的基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了目前最佳的表現(xiàn)。更進(jìn)一步的是，它能在超過4000幀畫面的視頻中實(shí)現(xiàn)魯棒性地追蹤，其他的方法在早期的畫面中就不能準(zhǔn)確追蹤了。

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

圖1 簡單介紹我們方法的邏輯

2.基于循環(huán)架構(gòu)的視覺追蹤

最近一些研究使用了離散傅里葉變化（DFT）并且對(duì)目標(biāo)區(qū)域使用循環(huán)架構(gòu)，實(shí)現(xiàn)了目前技術(shù)水平下最小計(jì)算成本的最高精確度。在本節(jié)中，我們將簡單介紹下這些與我們的工作高度相關(guān)的方法。

假設(shè)X?RL是大小為MXN的圖像塊的矢量，集中在目標(biāo)中心區(qū)域（L=MXN），我們的目標(biāo)是發(fā)現(xiàn)能使花費(fèi)最小的RLS函數(shù)：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

公式一

公式一也可這樣表示

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

公式二

公式（2）中的函數(shù)是凸的且可微的，它有一個(gè)封閉（解析）形式的解

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

也可以這樣表示

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

等式3的分離是在傅里葉領(lǐng)域進(jìn)行的，因此它是按元素素進(jìn)行的。在實(shí)踐中，不需要從A中計(jì)算α，所以在給定的圖像塊 z上可以進(jìn)行快速檢測通過：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

Y中的脈沖峰顯示了輸入圖像z的目標(biāo)轉(zhuǎn)換。在 [Gray, 2005; Rifkin et al., 2003;Henriques et al., 2012]中有詳細(xì)的推導(dǎo)過程。

盡管最近的方法MOSSE和ACT有著不同的核函數(shù)配置合特征（例如，點(diǎn)產(chǎn)生的核心k導(dǎo)致的MOSSE，和RBF核心導(dǎo)致的更后面的兩個(gè)），他們都在當(dāng)前幀p使用了簡單的線性組合學(xué)習(xí)目標(biāo)外觀模型{xp，Ap}通過

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

CSK通過等式4直接更新它的分級(jí)系數(shù)Ap，為了穩(wěn)定的目標(biāo)，MOSSE和ACT分別更新分子Apn和系數(shù)Ap的分母ApD。學(xué)習(xí)率γ是長期記憶和模型適應(yīng)能力的權(quán)衡參數(shù)。擴(kuò)展等式4后我們得到：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

三種方法都有記憶力指數(shù)減少模式：學(xué)習(xí)率γ通常都很小，例如γ=0.1，樣品{xj，Aj}對(duì)確定幀j 100幀之后的影響可以忽略不計(jì)。換句話說，在幫助抑制抵抗累積漂移誤差前，基于追蹤器的學(xué)習(xí)率無法準(zhǔn)確追索樣品的蹤跡。

3.提出的方法

除了上面提到的基于卷積的視覺跟蹤器，還要很多其它的追蹤器用了相似的結(jié)構(gòu)如Q ? p =(1-γ)Q ? p-1+γQp （學(xué)習(xí)率參數(shù)γ(0, 1]且有漂移的問題）更新他們的模型Q。

我們發(fā)現(xiàn)流暢的動(dòng)作通常提供一致的外觀線索，它可以被模擬為可靠的記憶，并且從漂移問題（由于激烈的外觀變化造成）中恢復(fù)路徑。在該部分，我們首先介紹了我們新穎的框架，它可以在處理大量的樣本的同時(shí)保證快速檢測。隨后，我們?cè)敱M闡述看關(guān)于智能整理過去樣本到不同的和可靠的集群（允許我們的追蹤器抵抗漂移誤差）的細(xì)節(jié)。

3.1大量樣本的循環(huán)追蹤器

給定在幀p的正樣本xp，我們想建立一個(gè)適應(yīng)模型{xp，Ap}用圖像z快速檢測接下來p+1幀的樣本：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

如圖所示，適應(yīng)學(xué)習(xí)外觀xp是以前樣本p和固定比例γ中xp注意力的結(jié)合。系數(shù){βj}p-1j=1代表當(dāng)前評(píng)估外觀xp和以前外觀{xj}p-1j=1的相關(guān)性。選擇的{βj}p-1j=1應(yīng)該使模型滿足：1）適應(yīng)新的外觀變化，2）由過去的外觀組成以避免漂移現(xiàn)象。在本論文中，我們討論了用偏于以前可靠的記憶設(shè)置{βj}p-1j=1，它可以給我們的追蹤器提供非常高的魯棒性以避免漂移誤差。我們?cè)?.2節(jié)中討論了如何找到這些可靠的記憶，并在3.3節(jié)中介紹了于{βj}p-1j=1的相關(guān)性。

現(xiàn)在，我們集中于尋找一套分類系數(shù)α——適用于學(xué)習(xí)外觀Xp的一致性和當(dāng)前外觀xp的適應(yīng)性?；诘仁?和等式2我們得出以下的成本函數(shù)，以盡量減少：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

我們發(fā)現(xiàn)適應(yīng)性學(xué)習(xí)外觀x^p應(yīng)該近似于當(dāng)前的xp，因?yàn)樗墙咏谶^去{xj}p-1j=1外觀和當(dāng)前外觀xp的組合，如等式7所示。注意兩個(gè)核矩陣Kp和K^p

（和他們的線性組合λI）是半正定。通過聯(lián)系等式8和

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

只要找到適合的系數(shù){βj}p-1j=1，我們就可以通過等式7和等式9建立檢測模型{x^p,A^p}。下一幀p+1中，可以通過有這種模型的等式6進(jìn)行快速檢測。

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

圖2：左：如算法1中描述的距離矩陣D，右：為了直觀理解，展示了六個(gè)有著相應(yīng)顏色邊界盒的具有代表性的組。大邊界盒中的圖像塊是當(dāng)前群體（記憶）的平均外觀，而小的圖像塊是從每個(gè)群集中在時(shí)間域上均勻地選擇的樣本。

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

算法1

3.2時(shí)間約束聚類

本部分中，我們介紹了時(shí)間約束聚類——從輸入樣本（以非?？斓姆绞剑W(xué)習(xí)區(qū)別和可靠記憶。結(jié)合排序的記憶（3.3節(jié)），我們的追蹤器對(duì)于不準(zhǔn)確的追蹤結(jié)果具有魯棒性，且可以從漂移誤差中恢復(fù)出來。

假設(shè)一組正樣本在幀P中給出：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

我們的目標(biāo)如下：1）在每個(gè)子集sh的樣本都具有高相關(guān)性；2）來自不同子集的樣本有比較大的外觀差異，因此它們的線性組合是模糊的，甚至是模棱兩可的描述跟蹤目標(biāo)（例如，來自不同目標(biāo)的不同觀點(diǎn)的樣本）。所以它可以被建模為一個(gè)普遍的聚類問題：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

這是一個(gè)離散的優(yōu)化問題被稱為NP-hard，通過調(diào)整到固定常量K的子集M的數(shù)量，k-means聚類可以收斂到局部最優(yōu)。

然而，在視覺跟蹤的進(jìn)程中，我們不知道聚類的足夠數(shù)量。同時(shí)過多的集群會(huì)導(dǎo)致過擬合問題，而過少的集群可能會(huì)導(dǎo)致歧義。更關(guān)鍵的是，一旦我們?cè)诰垲惼陂g允許樣本隨機(jī)結(jié)合，任何一個(gè)集群都有帶入漂移誤差污染樣品的風(fēng)險(xiǎn)，就算是錯(cuò)誤標(biāo)記的樣品也一樣，這反過來又會(huì)降低建立在他們身上的模型的性能。

其中有一個(gè)重要的發(fā)現(xiàn)，在時(shí)域中目標(biāo)外觀相互關(guān)閉或許會(huì)形成一個(gè)區(qū)別和一致模式，比如可靠記憶。如果在一段時(shí)間內(nèi)，一個(gè)完美追蹤的目標(biāo)以即沒有大的旋轉(zhuǎn)也沒有大的角度變化的方式進(jìn)行移動(dòng)，那么與不同角度的特征進(jìn)行對(duì)比時(shí)，它的矢量特征會(huì)有更高的相似性。為了發(fā)現(xiàn)這些記憶，我們?cè)诘仁?0中加入了時(shí)間約束：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

然而這個(gè)新問題的約束是相互分離的，并且想要達(dá)到全局最優(yōu)十分的困難。因此我們?cè)O(shè)計(jì)了一個(gè)極具野心的算法，如算法1，這一算法是從p子集的微小狀態(tài)開始的。這一算法試圖通過聯(lián)合相鄰子集sh和sh+1來減少公式10中原函數(shù)的正則化r(|M|),但卻使得平均樣本的距離增加。

通過Integral Image的巧妙使用，在算法1中的每一聯(lián)合步驟的評(píng)價(jià)操作只需使用O（1）的運(yùn)行時(shí)間在integral image J中，每一次迭代只需花費(fèi)O（p）的操作。整個(gè)計(jì)算過程發(fā)生在雙重樹的底部，就算是在最糟糕的情況下也是發(fā)生在O(p log p)，在桌面計(jì)算超過1000個(gè)例子但運(yùn)行時(shí)間少于30ms。在設(shè)計(jì)的實(shí)驗(yàn)中，我們可以見到所提議的算法在發(fā)現(xiàn)突出特征集合（可靠的記憶）對(duì)用于我們的追蹤器進(jìn)行學(xué)習(xí)已經(jīng)足夠。

3.3 追蹤框架的工作流程

在我們的框架中，我們已采用了兩個(gè)特征庫，其中一個(gè)是跨越框架收集積極的實(shí)例，另一個(gè)是（曾由U提及）用于收集學(xué)習(xí)記憶。每一個(gè)內(nèi)存u∈U,并且包括一定數(shù)量的實(shí)例

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

當(dāng)Nu表示的是存儲(chǔ)器u中的實(shí)例數(shù)量，那么Bu就是存儲(chǔ)器u剛開始的框架數(shù)量。這一記憶信心與我們的假設(shè)是一致的；存儲(chǔ)器在初始時(shí)期實(shí)例越多就越穩(wěn)定且更不易受漸增的遷移錯(cuò)誤影響。對(duì)于每一個(gè)框架，我們最開始為評(píng)價(jià)目標(biāo)的翻譯會(huì)使用公式6對(duì)目標(biāo)進(jìn)行檢測，緊接著會(huì)利用新的實(shí)例和公式7以及公式9去更新我們的外觀模型{?xp, ?Ap}。

相關(guān)系數(shù)能通過下列公式進(jìn)行計(jì)算：

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

為更新記憶，我們使用算法1去收集在第一個(gè)特征庫中的積極實(shí)例，并將其融入進(jìn)“記憶”中；把所有的實(shí)例除了最后一個(gè)都添加進(jìn)U中。當(dāng)|U|達(dá)到其臨界值時(shí)，存儲(chǔ)器的記憶信心會(huì)降到最低從而會(huì)立馬放棄。

4. 實(shí)驗(yàn)

我們的框架是在Matlab中實(shí)施的，其運(yùn)行速度達(dá)到12fps至20fps，在桌面上Intel Xeon(R)3.5GHz CPU，一個(gè)Tesla K40c的視頻存儲(chǔ)卡，以及32GB RAM。適應(yīng)能力比γ在所有的試驗(yàn)中都以經(jīng)驗(yàn)設(shè)定為0.15?；夭陕适敲恳粋€(gè)視頻的前40幀平均協(xié)方差的1.2倍。內(nèi)存|U |的最大值被定為10并且（Nu）的最大值為100。

4.1 時(shí)間約束聚類評(píng)價(jià)

為證實(shí)我們的假設(shè)：時(shí)間約束聚類評(píng)價(jià)是按照時(shí)間順序追蹤實(shí)例并形成可信和可識(shí)別的模式，對(duì)此基于追蹤結(jié)果我們對(duì)離線的積極實(shí)例按照算法1來進(jìn)行計(jì)算。因?yàn)橹暗氖占膶?shí)例會(huì)影響后面收集實(shí)例，所以我們的的算法在離線或是在線模式都會(huì)給出準(zhǔn)確的精準(zhǔn)且相同的結(jié)果。由于空間局限，在圖2我們按照Sylvester順序?qū)Y(jié)果進(jìn)行解釋。如圖所示，目標(biāo)經(jīng)歷了光照變化，歷經(jīng)1345幀在平面或是不在平面的旋轉(zhuǎn)。左邊部分顯示的是矩陣D距離，可以通過算法1進(jìn)行計(jì)算。像素Dij是深藍(lán)色（淡黃色）暗示實(shí)例Xi和實(shí)例Xj再特征集合中的距離近（遠(yuǎn)）。不同的框架顏色代表不同的時(shí)間約束集群。右邊部分顯示的是6個(gè)不同的集群，分別對(duì)應(yīng)矩陣中不同的框架顏色。存儲(chǔ)器#1和存儲(chǔ)器#8是兩個(gè)最大的集群包含了大量的外形相似實(shí)例（藍(lán)色）。存儲(chǔ)器#11代表的是集群只有16個(gè)實(shí)例。由于其出現(xiàn)晚且實(shí)例數(shù)量有限，所以導(dǎo)致記憶信心cu十分的低，所以不太可能取代現(xiàn)有可靠的存儲(chǔ)器。

4.2 通過深度CNN進(jìn)行加速

我們的追蹤器對(duì)于搜尋相似的模式(內(nèi)存)的固有要求是在框架全局與目標(biāo)檢測任務(wù)重合的部分進(jìn)行。最近卷積神經(jīng)網(wǎng)絡(luò)（CNN）急速發(fā)展，F(xiàn)aster-RCNN通過使用目標(biāo)建議個(gè)目標(biāo)檢測共有的卷積層其檢測速度達(dá)到了≥5fps。為保證記憶的可靠性，我們給追蹤器裝上了全方位視角，并改進(jìn)了Faster-RCNN探索器的FC層，因?yàn)槲覀兺ㄟ^學(xué)習(xí)發(fā)現(xiàn)足夠多的視頻記憶能幫助追蹤器解決由追蹤范圍過小造成的問題。通過已有的粗糙探索，我們的追蹤器能從就近范圍到目標(biāo)進(jìn)行探索，從而進(jìn)一步確保追蹤結(jié)果的準(zhǔn)確和可行，但卻有出錯(cuò)的危險(xiǎn)。注意到我們只調(diào)整CNN一次，在Tesla K40c上150秒運(yùn)行時(shí)間進(jìn)行3000此迭代。當(dāng)追蹤任務(wù)時(shí)間過長，例如，超過了3000幀，平均的fps會(huì)超過15，但是值得對(duì)粗糙性進(jìn)行改進(jìn)的。在接下來的文章中，我們會(huì)展示在每5幀中實(shí)施CNN檢測，每一次所花時(shí)間會(huì)少于0.1秒。

4.3 定量分析

首先我們會(huì)在50個(gè)極具挑戰(zhàn)序列中對(duì)我們的方法進(jìn)行評(píng)價(jià)，從OTB-2013開始，會(huì)依次和12個(gè)先進(jìn)的方法進(jìn)行比較：ACT，AST，ASLA，CXT，DSST，KCF，LOT，MEEM，SCM，Struct，TGPR TLD，VTD。

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

圖3：對(duì)于OTB-2013數(shù)據(jù)集中的50個(gè)序列追蹤結(jié)果比較。我們的追蹤器是由RMT所指代的，并且表現(xiàn)最好。MEEM，TGPR，和KCF的表現(xiàn)與我們的表現(xiàn)結(jié)果較為接近。12個(gè)追蹤器中只有前10個(gè)的結(jié)果可見。其成功率在每一個(gè)模式的名字后可見。

人工智能如何實(shí)現(xiàn)可靠的視覺追蹤 |IJCAI2016論文詳解

表1：基于中心位置在像素方面的平均誤差（越小越好），對(duì)追蹤結(jié)果進(jìn)行了比較，比較對(duì)象是4個(gè)較長的視頻，超過了13,000幀。平均表現(xiàn)是通過幀的準(zhǔn)確度來進(jìn)行判斷的。

我們采用公共資源（例如，OTB-2013）發(fā)布的代碼或是作者所發(fā)布的版本，在測試中的每一個(gè)追蹤器其所有的參數(shù)都是固定的。圖3展示了在整個(gè)數(shù)據(jù)集中只有一個(gè)通過了評(píng)價(jià)（OPE）標(biāo)準(zhǔn)的成功圖。我們追蹤器是RMT（可信的記憶追蹤器）其表現(xiàn)結(jié)果最佳，但MEEM，TGPR，KCF和DSST表現(xiàn)也不差。值得注意是，TGRP基于附加實(shí)例來建立追蹤器的想法和MEEM使用追蹤器抓拍的想法都可以理解為是充分利用早期形成的記憶模式，這與我們的方法也是息息相關(guān)的。我們的追蹤器在如圖3中所示的具有挑戰(zhàn)性的場景：堵塞，平面旋轉(zhuǎn)，消失和急速移動(dòng)中都表現(xiàn)的十分出色。其主要原因是我們的追蹤器擁有大量可信的記憶以及全方位的視角，所以就算是外部特征發(fā)生了顯著的變化，它也能重新把焦點(diǎn)集聚在目標(biāo)上。

為探索我們所使用追蹤器的堅(jiān)固性，以及對(duì)長時(shí)間任務(wù)中遷移錯(cuò)誤的抵抗性，把追蹤器用于四個(gè)長序列形式，一共有13000多幀。之前已經(jīng)基于我們所使用的方法息息相關(guān)的方法對(duì)卷積過濾層進(jìn)行了評(píng)估：MOSSE，ACT，DSST，KCF，和MEEM，以及以探測器為基礎(chǔ)的TLD方法。為展示“可信記憶”在阻止未用于CNN實(shí)例方面的有效性，我們也展示了CNN-boosted DEET和KCF的比較結(jié)果。MOSSE在早期的幀中會(huì)經(jīng)常丟失目標(biāo)，但KCF，ACT，和DSST卻能在幾百幀中都能準(zhǔn)確地對(duì)目標(biāo)進(jìn)行追蹤，但是它們?cè)?00幀之后也會(huì)丟失目標(biāo)。MEEM在超過1700幀的視頻Motocross中表現(xiàn)出了較好的堅(jiān)強(qiáng)性，但它不能適應(yīng)大規(guī)模的變化，而且結(jié)果也會(huì)經(jīng)常出錯(cuò)。從CNN到KCF和DSST的改進(jìn)是有限的，因?yàn)镃NN是用受過污染的例子進(jìn)行訓(xùn)練，所以會(huì)導(dǎo)致不準(zhǔn)確（甚至是錯(cuò)誤警報(bào)），除非這些追蹤器能把自己從CNN的訓(xùn)練過程中剔除出來，就如同我們所使用的方法一樣，否則結(jié)果不會(huì)改善。我們所使用的追蹤器和TLD在所有的視頻中比其他追蹤器表現(xiàn)都要更好，因?yàn)槭褂昧巳曇白粉櫰鬟M(jìn)行目標(biāo)鎖定。然而，如果是基于離線的樹形模式，TLD理解錯(cuò)誤的積極例子速度會(huì)變慢，進(jìn)而導(dǎo)致探測錯(cuò)誤或是追蹤結(jié)果不準(zhǔn)確。反之，由CNN探測器指導(dǎo)和我們信任的記憶進(jìn)行訓(xùn)練，我們的追蹤器僅僅只會(huì)受少部分錯(cuò)誤探測結(jié)果的影響。它能準(zhǔn)確地在所有的幀中定位目標(biāo)，并在這四個(gè)視頻的最后一幀之前給出準(zhǔn)確的位置以及目標(biāo)的大小。

5.結(jié)論

在本文我們提出了一個(gè)新穎的幀追蹤方法，它能跨越所有的追蹤過的實(shí)例按照時(shí)間順序探索外形相似的聚集，接著保存可靠的記憶以用于視覺追蹤。這一種新穎的聚類方法和時(shí)間限制都是進(jìn)過精心設(shè)計(jì)的，能幫助追蹤從大量的實(shí)例中提出有用的記憶并用于精準(zhǔn)探測，但同時(shí)也保證其實(shí)時(shí)性能。試驗(yàn)表明我們的方法在從長期的追蹤任務(wù)遷移錯(cuò)誤中進(jìn)行恢復(fù)的能力突出，并且還超過了其他先進(jìn)的方法。

追蹤示例視頻見此

via IJCAI2016

點(diǎn)評(píng)

視覺跟蹤是計(jì)算機(jī)視覺和人工智能的基礎(chǔ)和挑戰(zhàn)性問題，這篇論文針對(duì)該問題提出了一種新的視覺跟蹤方法，該方法能從大量視頻中智能地發(fā)現(xiàn)可靠模式，用來減少長期追蹤任務(wù)中的偏移誤差?，F(xiàn)在該方向的研究已取得了很大的進(jìn)展，但在光照強(qiáng)度和角度改變，雜亂背景等情況下還存在較多問題需要研究，結(jié)合近期在線學(xué)習(xí)的跟蹤-檢測方法取得了很不錯(cuò)的結(jié)果。但仍然存在計(jì)算量大等問題，而利用學(xué)習(xí)率來記錄目標(biāo)外觀變化的方法則存在以往樣本記憶指數(shù)衰減的問題，從而不能消除跟蹤過程累計(jì)的漂移誤差。為此，論文通過探索可用的目標(biāo)外觀集群，保護(hù)視頻中的可靠記憶信息，利用可靠記憶信息基于離散傅里葉變換設(shè)計(jì)了一種循環(huán)跟蹤器（Circulant Tracker）。該跟蹤器不僅具有很高的跟蹤成功度率，而且具有一定的實(shí)時(shí)性。

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

李尊

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章