1
本文作者: 李尊 | 2016-07-15 18:47 |
導(dǎo)讀:2016國際人工智能聯(lián)合會議(IJCAI2016)于7月9日至7月15日舉行,今年會議聚焦于人類意識的人工智能,本文是IJCAI2016接收論文。除了論文詳解之外,我們另外邀請到哈爾濱工業(yè)大學(xué)李衍杰副教授進行點評。
聯(lián)合編譯:Blake、章敏、陳圳
摘要
在本文中,我們提出了一個新的視覺追蹤架構(gòu),它能在大量視頻中智能地發(fā)現(xiàn)可靠模式,用來減少長期追蹤任務(wù)中的偏移誤差。首先,我們設(shè)計了一種基于離散傅里葉變化(DFT-based)的視覺追蹤器,它能夠在確保實時表現(xiàn)的情況下對大量樣本進行追蹤。然后我們提出了一種新的使用時間約束的集群辦法,它能從之前的畫面中發(fā)現(xiàn)并記住相應(yīng)模式,我們稱之為“可靠記憶”。憑借這種方法,我們的追蹤器可以利用未被污染信息來減少偏移問題。實現(xiàn)結(jié)果表明我們的追蹤器在目前的基準數(shù)據(jù)集上實現(xiàn)了最佳的表現(xiàn)。更進一步的是,它能解決在超過4000幀畫面的長視頻中進行魯棒性追蹤的問題,但其他方法在早期畫面幀數(shù)中就不能準確追蹤了。
1. 引言
在計算機視覺和人工智能領(lǐng)域中,視覺追蹤是一個雖然基礎(chǔ)卻充滿挑戰(zhàn)的問題。雖然近年來已經(jīng)取得了許多進步,但是仍然有喜多未解決的難題。因為其在許多因素方面還存在復(fù)雜性,比如亮度和角度變化、混亂的環(huán)境以及形狀畸變與遮擋等問題。大量有關(guān)視覺追蹤的研究都采用檢測追蹤框架,通過將現(xiàn)有的機器學(xué)習(xí)方法(通常是判斷性的)與在線學(xué)習(xí)技術(shù)應(yīng)用到其中,這些方法獲得了不錯的結(jié)果。為了針對不同的表現(xiàn)變化進行建模,他們對大量的樣本進行了檢測和更新處理。然而,他們所有人都碰到了同樣的困境:雖然更多的樣本能帶來更好的準確度和適應(yīng)性,但是也同樣提高了計算成本與偏移的風(fēng)險。
為了更好的判斷方式,Ross等人利用修正學(xué)習(xí)率(learning-rate)的通用模型對目標表現(xiàn)的變化做了記錄。學(xué)習(xí)率(learning-rate)本質(zhì)上是在適應(yīng)性和穩(wěn)定性之間取得折中方案。然而在一個很小的學(xué)習(xí)率下,他們的模型在以前的樣本上的作用在畫面幀數(shù)上仍然指數(shù)性的下掉,且偏移錯誤仍然不斷上升。為了減少偏移錯誤,Babenko等人設(shè)計圍繞目標區(qū)域發(fā)現(xiàn)隱藏結(jié)構(gòu)信息。通過將第一幀已標記樣本與追蹤過程中的樣本結(jié)合,其他的方法都在嘗試建立這樣的模型來避免偏移錯誤。然而,很少有樣本能夠被看做是“非常確定的”,這也反過來限制了它們在長期挑戰(zhàn)性任務(wù)中的魯棒性。最近,多種方法使用離散傅里葉變化(DFT)來進行快速檢測并實現(xiàn)了在最小的計算成本下的最高精確度。然而和其它通用方法一樣,它們模型的記憶長度受限于一個修正遺忘率,所以它們?nèi)匀辉陂L期任務(wù)中仍然存在累計偏移錯誤。
有一個非常重要的觀察——當(dāng)被追蹤目標平穩(wěn)移動時且沒有遮擋或者旋轉(zhuǎn)等情況下,它在特征空間中的不同畫面中的表現(xiàn)是相當(dāng)相似的。相反當(dāng)它進行劇烈的移動時,它的表現(xiàn)可能與之前一個畫面都不一樣。因此,如果我們用一個時間約束來劃分這些樣本(只有這樣相鄰的時間量才能聚集到一起),這樣當(dāng)目標進行微小的表現(xiàn)變化時數(shù)據(jù)集才能識別出來。我們將人類記憶來對這些數(shù)據(jù)簇進行類比,使用可靠的記憶來代表經(jīng)過長時間感知的大型簇。在這些文本中,擁有更多樣本支持的早期記憶比很少樣本支持的近期記憶更加可靠,特別是當(dāng)畫面變化偏移錯誤累積的時候。因此,追蹤器可以從早先的記憶中選取相關(guān)性高的樣本從偏移錯誤中恢復(fù)過來。
基于這些研究,我們提出了一種新的追蹤框架,它能夠在連續(xù)畫面中發(fā)現(xiàn)自相關(guān)的表現(xiàn)簇,然后為長期魯棒性視覺追蹤將可靠記憶保存起來。首先,我們設(shè)計了一種基于離散傅里葉變化(DFT-based)的視覺追蹤器。它能夠在確保實時表現(xiàn)的情況下,對大量追蹤樣本進行準確檢測并保存良好的記憶。然后我們提出了一種新的使用時間約束的集群辦法,它能從之前的畫面中發(fā)現(xiàn)清晰可靠的記憶,這能幫助我們的追蹤器減少偏移誤差。這種方式獲得的數(shù)據(jù)流固有相關(guān)性,并保證在積分圖像的仔細設(shè)計以較快的速度收斂。據(jù)我們所知,我們提出的時間限制簇辦法在視覺流數(shù)據(jù)分析中相當(dāng)新穎,它的收斂速度與良好表現(xiàn)體現(xiàn)了其在在線視頻問題上的巨大潛力。特別是它能夠在之前追蹤過的樣本中中發(fā)現(xiàn)數(shù)據(jù)簇(即可靠的記憶),還讓我們的追蹤器能夠減少偏移誤差。實現(xiàn)結(jié)果表明我們的追蹤器在處理偏移誤差上相當(dāng)優(yōu)秀,并且在目前的基準數(shù)據(jù)集上實現(xiàn)了目前最佳的表現(xiàn)。更進一步的是,它能在超過4000幀畫面的視頻中實現(xiàn)魯棒性地追蹤,其他的方法在早期的畫面中就不能準確追蹤了。
圖1 簡單介紹我們方法的邏輯
2.基于循環(huán)架構(gòu)的視覺追蹤
最近一些研究使用了離散傅里葉變化(DFT)并且對目標區(qū)域使用循環(huán)架構(gòu),實現(xiàn)了目前技術(shù)水平下最小計算成本的最高精確度。在本節(jié)中,我們將簡單介紹下這些與我們的工作高度相關(guān)的方法。
假設(shè)X?RL是大小為MXN的圖像塊的矢量,集中在目標中心區(qū)域(L=MXN),我們的目標是發(fā)現(xiàn)能使花費最小的RLS函數(shù):
公式一
公式一也可這樣表示
公式二
公式(2)中的函數(shù)是凸的且可微的,它有一個封閉(解析)形式的解
也可以這樣表示
等式3的分離是在傅里葉領(lǐng)域進行的,因此它是按元素素進行的。在實踐中,不需要從A中計算α,所以在給定的圖像塊 z上可以進行快速檢測通過:
Y中的脈沖峰顯示了輸入圖像z的目標轉(zhuǎn)換。在 [Gray, 2005; Rifkin et al., 2003;Henriques et al., 2012]中有詳細的推導(dǎo)過程。
盡管最近的方法MOSSE和ACT有著不同的核函數(shù)配置合特征(例如,點產(chǎn)生的核心k導(dǎo)致的MOSSE,和RBF核心導(dǎo)致的更后面的兩個),他們都在當(dāng)前幀p使用了簡單的線性組合學(xué)習(xí)目標外觀模型{xp,Ap}通過
CSK通過等式4直接更新它的分級系數(shù)Ap,為了穩(wěn)定的目標,MOSSE和ACT分別更新分子Apn和系數(shù)Ap的分母ApD。學(xué)習(xí)率γ是長期記憶和模型適應(yīng)能力的權(quán)衡參數(shù)。擴展等式4后我們得到:
三種方法都有記憶力指數(shù)減少模式:學(xué)習(xí)率γ通常都很小,例如γ=0.1,樣品{xj,Aj}對確定幀j 100幀之后的影響可以忽略不計。換句話說,在幫助抑制抵抗累積漂移誤差前,基于追蹤器的學(xué)習(xí)率無法準確追索樣品的蹤跡。
3.提出的方法
除了上面提到的基于卷積的視覺跟蹤器,還要很多其它的追蹤器用了相似的結(jié)構(gòu)如Q ? p =(1-γ)Q ? p-1+γQp (學(xué)習(xí)率參數(shù)γ(0, 1]且有漂移的問題)更新他們的模型Q。
我們發(fā)現(xiàn)流暢的動作通常提供一致的外觀線索,它可以被模擬為可靠的記憶,并且從漂移問題(由于激烈的外觀變化造成)中恢復(fù)路徑。在該部分,我們首先介紹了我們新穎的框架,它可以在處理大量的樣本的同時保證快速檢測。隨后,我們詳盡闡述看關(guān)于智能整理過去樣本到不同的和可靠的集群(允許我們的追蹤器抵抗漂移誤差)的細節(jié)。
3.1大量樣本的循環(huán)追蹤器
給定在幀p的正樣本xp,我們想建立一個適應(yīng)模型{xp,Ap}用圖像z快速檢測接下來p+1幀的樣本:
如圖所示,適應(yīng)學(xué)習(xí)外觀xp是以前樣本p和 固定比例γ中xp注意力的結(jié)合。系數(shù){βj}p-1j=1代表當(dāng)前評估外觀xp和以前外觀{xj}p-1j=1的相關(guān)性。選擇的{βj}p-1j=1應(yīng)該使模型滿足:1)適應(yīng)新的外觀變化,2)由過去的外觀組成以避免漂移現(xiàn)象。在本論文中,我們討論了用偏于以前可靠的記憶設(shè)置{βj}p-1j=1,它可以給我們的追蹤器提供非常高的魯棒性以避免漂移誤差。我們在3.2節(jié)中討論了如何找到這些可靠的記憶,并在3.3節(jié)中介紹了于{βj}p-1j=1的相關(guān)性。
現(xiàn)在,我們集中于尋找一套分類系數(shù)α——適用于學(xué)習(xí)外觀Xp的一致性和當(dāng)前外觀xp的適應(yīng)性?;诘仁?和等式2我們得出以下的成本函數(shù),以盡量減少:
我們發(fā)現(xiàn)適應(yīng)性學(xué)習(xí)外觀x^p應(yīng)該近似于當(dāng)前的xp,因為它是接近于過去{xj}p-1j=1外觀和當(dāng)前外觀xp的組合,如等式7所示。注意兩個核矩陣Kp和K^p
(和他們的線性組合λI)是半正定 。通過聯(lián)系等式8和
只要找到適合的系數(shù){βj}p-1j=1,我們就可以通過等式7和等式9建立檢測模型{x^p,A^p}。下一幀p+1中,可以通過有這種模型的等式6進行快速檢測。
圖2:左:如算法1中描述的距離矩陣D,右:為了直觀理解,展示了六個有著相應(yīng)顏色邊界盒的具有代表性的組。大邊界盒中的圖像塊是當(dāng)前群體(記憶)的平均外觀,而小的圖像塊是從每個群集中在時間域上均勻地選擇的樣本。
算法1
3.2時間約束聚類
本部分中,我們介紹了時間約束聚類——從輸入樣本(以非常快的方式)學(xué)習(xí)區(qū)別和可靠記憶。結(jié)合排序的記憶(3.3節(jié)),我們的追蹤器對于不準確的追蹤結(jié)果具有魯棒性,且可以從漂移誤差中恢復(fù)出來。
假設(shè)一組正樣本在幀P中給出:
我們的目標如下:1)在每個子集sh的樣本都具有高相關(guān)性;2)來自不同子集的樣本有比較大的外觀差異,因此它們的線性組合是模糊的,甚至是模棱兩可的描述跟蹤目標(例如,來自不同目標的不同觀點的樣本)。所以它可以被建模為一個普遍的聚類問題:
這是一個離散的優(yōu)化問題被稱為NP-hard,通過調(diào)整到固定常量K的子集M的數(shù)量,k-means聚類可以收斂到局部最優(yōu)。
然而,在視覺跟蹤的進程中,我們不知道聚類的足夠數(shù)量。同時過多的集群會導(dǎo)致過擬合問題,而過少的集群可能會導(dǎo)致歧義。更關(guān)鍵的是,一旦我們在聚類期間允許樣本隨機結(jié)合,任何一個集群都有帶入漂移誤差污染樣品的風(fēng)險,就算是錯誤標記的樣品也一樣,這反過來又會降低建立在他們身上的模型的性能。
其中有一個重要的發(fā)現(xiàn),在時域中目標外觀相互關(guān)閉或許會形成一個區(qū)別和一致模式,比如可靠記憶。如果在一段時間內(nèi),一個完美追蹤的目標以即沒有大的旋轉(zhuǎn)也沒有大的角度變化的方式進行移動,那么與不同角度的特征進行對比時,它的矢量特征會有更高的相似性。為了發(fā)現(xiàn)這些記憶,我們在等式10中加入了時間約束:
然而這個新問題的約束是相互分離的,并且想要達到全局最優(yōu)十分的困難。因此我們設(shè)計了一個極具野心的算法,如算法1,這一算法是從p子集的微小狀態(tài)開始的。這一算法試圖通過聯(lián)合相鄰子集sh和sh+1來減少公式10中原函數(shù)的正則化r(|M|),但卻使得平均樣本的距離增加。
通過Integral Image的巧妙使用,在算法1中的每一聯(lián)合步驟的評價操作只需使用O(1)的運行時間在integral image J中,每一次迭代只需花費O(p)的操作。整個計算過程發(fā)生在雙重樹的底部,就算是在最糟糕的情況下也是發(fā)生在O(p log p),在桌面計算超過1000個例子但運行時間少于30ms。在設(shè)計的實驗中,我們可以見到所提議的算法在發(fā)現(xiàn)突出特征集合(可靠的記憶)對用于我們的追蹤器進行學(xué)習(xí)已經(jīng)足夠。
3.3 追蹤框架的工作流程
在我們的框架中,我們已采用了兩個特征庫,其中一個是跨越框架收集積極的實例,另一個是(曾由U提及)用于收集學(xué)習(xí)記憶。每一個內(nèi)存u∈U,并且包括一定數(shù)量的實例
當(dāng)Nu表示的是存儲器u中的實例數(shù)量,那么Bu就是存儲器u剛開始的框架數(shù)量。這一記憶信心與我們的假設(shè)是一致的;存儲器在初始時期實例越多就越穩(wěn)定且更不易受漸增的遷移錯誤影響。對于每一個框架,我們最開始為評價目標的翻譯會使用公式6對目標進行檢測,緊接著會利用新的實例和公式7以及公式9去更新我們的外觀模型{?xp, ?Ap}。
相關(guān)系數(shù)能通過下列公式進行計算:
為更新記憶,我們使用算法1去收集在第一個特征庫中的積極實例,并將其融入進“記憶”中;把所有的實例除了最后一個都添加進U中。當(dāng)|U|達到其臨界值時,存儲器的記憶信心會降到最低從而會立馬放棄。
4. 實驗
我們的框架是在Matlab中實施的,其運行速度達到12fps至20fps,在桌面上Intel Xeon(R)3.5GHz CPU,一個Tesla K40c的視頻存儲卡,以及32GB RAM。適應(yīng)能力比γ在所有的試驗中都以經(jīng)驗設(shè)定為0.15?;夭陕适敲恳粋€視頻的前40幀平均協(xié)方差的1.2倍。內(nèi)存|U |的最大值被定為10并且(Nu)的最大值為100。
4.1 時間約束聚類評價
為證實我們的假設(shè):時間約束聚類評價是按照時間順序追蹤實例并形成可信和可識別的模式,對此基于追蹤結(jié)果我們對離線的積極實例按照算法1來進行計算。因為之前的收集的實例會影響后面收集實例,所以我們的的算法在離線或是在線模式都會給出準確的精準且相同的結(jié)果。由于空間局限,在圖2我們按照Sylvester順序?qū)Y(jié)果進行解釋。如圖所示,目標經(jīng)歷了光照變化,歷經(jīng)1345幀在平面或是不在平面的旋轉(zhuǎn)。左邊部分顯示的是矩陣D距離,可以通過算法1進行計算。像素Dij是深藍色(淡黃色)暗示實例Xi和實例Xj再特征集合中的距離近(遠)。不同的框架顏色代表不同的時間約束集群。右邊部分顯示的是6個不同的集群,分別對應(yīng)矩陣中不同的框架顏色。存儲器#1和存儲器#8是兩個最大的集群包含了大量的外形相似實例(藍色)。存儲器#11代表的是集群只有16個實例。由于其出現(xiàn)晚且實例數(shù)量有限,所以導(dǎo)致記憶信心cu十分的低,所以不太可能取代現(xiàn)有可靠的存儲器。
4.2 通過深度CNN進行加速
我們的追蹤器對于搜尋相似的模式(內(nèi)存)的固有要求是在框架全局與目標檢測任務(wù)重合的部分進行。最近卷積神經(jīng)網(wǎng)絡(luò)(CNN)急速發(fā)展,F(xiàn)aster-RCNN通過使用目標建議個目標檢測共有的卷積層其檢測速度達到了≥5fps。為保證記憶的可靠性,我們給追蹤器裝上了全方位視角,并改進了Faster-RCNN探索器的FC層,因為我們通過學(xué)習(xí)發(fā)現(xiàn)足夠多的視頻記憶能幫助追蹤器解決由追蹤范圍過小造成的問題。通過已有的粗糙探索,我們的追蹤器能從就近范圍到目標進行探索,從而進一步確保追蹤結(jié)果的準確和可行,但卻有出錯的危險。注意到我們只調(diào)整CNN一次,在Tesla K40c上150秒運行時間進行3000此迭代。當(dāng)追蹤任務(wù)時間過長,例如,超過了3000幀,平均的fps會超過15,但是值得對粗糙性進行改進的。在接下來的文章中,我們會展示在每5幀中實施CNN檢測,每一次所花時間會少于0.1秒。
4.3 定量分析
首先我們會在50個極具挑戰(zhàn)序列中對我們的方法進行評價,從OTB-2013開始,會依次和12個先進的方法進行比較:ACT,AST,ASLA,CXT,DSST,KCF,LOT,MEEM,SCM,Struct,TGPR TLD,VTD。
圖3:對于OTB-2013數(shù)據(jù)集中的50個序列追蹤結(jié)果比較。我們的追蹤器是由RMT所指代的,并且表現(xiàn)最好。MEEM,TGPR,和KCF的表現(xiàn)與我們的表現(xiàn)結(jié)果較為接近。12個追蹤器中只有前10個的結(jié)果可見。其成功率在每一個模式的名字后可見。
表1:基于中心位置在像素方面的平均誤差(越小越好),對追蹤結(jié)果進行了比較,比較對象是4個較長的視頻,超過了13,000幀。平均表現(xiàn)是通過幀的準確度來進行判斷的。
我們采用公共資源(例如,OTB-2013)發(fā)布的代碼或是作者所發(fā)布的版本,在測試中的每一個追蹤器其所有的參數(shù)都是固定的。圖3展示了在整個數(shù)據(jù)集中只有一個通過了評價(OPE)標準的成功圖。我們追蹤器是RMT(可信的記憶追蹤器)其表現(xiàn)結(jié)果最佳,但MEEM,TGPR,KCF和DSST表現(xiàn)也不差。值得注意是,TGRP基于附加實例來建立追蹤器的想法和MEEM使用追蹤器抓拍的想法都可以理解為是充分利用早期形成的記憶模式,這與我們的方法也是息息相關(guān)的。我們的追蹤器在如圖3中所示的具有挑戰(zhàn)性的場景:堵塞,平面旋轉(zhuǎn),消失和急速移動中都表現(xiàn)的十分出色。其主要原因是我們的追蹤器擁有大量可信的記憶以及全方位的視角,所以就算是外部特征發(fā)生了顯著的變化,它也能重新把焦點集聚在目標上。
為探索我們所使用追蹤器的堅固性,以及對長時間任務(wù)中遷移錯誤的抵抗性,把追蹤器用于四個長序列形式,一共有13000多幀。之前已經(jīng)基于我們所使用的方法息息相關(guān)的方法對卷積過濾層進行了評估:MOSSE,ACT,DSST,KCF,和MEEM,以及以探測器為基礎(chǔ)的TLD方法。為展示“可信記憶”在阻止未用于CNN實例方面的有效性,我們也展示了CNN-boosted DEET和KCF的比較結(jié)果。MOSSE在早期的幀中會經(jīng)常丟失目標,但KCF,ACT,和DSST卻能在幾百幀中都能準確地對目標進行追蹤,但是它們在600幀之后也會丟失目標。MEEM在超過1700幀的視頻Motocross中表現(xiàn)出了較好的堅強性,但它不能適應(yīng)大規(guī)模的變化,而且結(jié)果也會經(jīng)常出錯。從CNN到KCF和DSST的改進是有限的,因為CNN是用受過污染的例子進行訓(xùn)練,所以會導(dǎo)致不準確(甚至是錯誤警報),除非這些追蹤器能把自己從CNN的訓(xùn)練過程中剔除出來,就如同我們所使用的方法一樣,否則結(jié)果不會改善。我們所使用的追蹤器和TLD在所有的視頻中比其他追蹤器表現(xiàn)都要更好,因為使用了全視野追蹤器進行目標鎖定。然而,如果是基于離線的樹形模式,TLD理解錯誤的積極例子速度會變慢,進而導(dǎo)致探測錯誤或是追蹤結(jié)果不準確。反之,由CNN探測器指導(dǎo)和我們信任的記憶進行訓(xùn)練,我們的追蹤器僅僅只會受少部分錯誤探測結(jié)果的影響。它能準確地在所有的幀中定位目標,并在這四個視頻的最后一幀之前給出準確的位置以及目標的大小。
5.結(jié)論
在本文我們提出了一個新穎的幀追蹤方法,它能跨越所有的追蹤過的實例按照時間順序探索外形相似的聚集,接著保存可靠的記憶以用于視覺追蹤。這一種新穎的聚類方法和時間限制都是進過精心設(shè)計的,能幫助追蹤從大量的實例中提出有用的記憶并用于精準探測,但同時也保證其實時性能。試驗表明我們的方法在從長期的追蹤任務(wù)遷移錯誤中進行恢復(fù)的能力突出,并且還超過了其他先進的方法。
追蹤示例視頻見此
via IJCAI2016
點評
視覺跟蹤是計算機視覺和人工智能的基礎(chǔ)和挑戰(zhàn)性問題,這篇論文針對該問題提出了一種新的視覺跟蹤方法,該方法能從大量視頻中智能地發(fā)現(xiàn)可靠模式,用來減少長期追蹤任務(wù)中的偏移誤差?,F(xiàn)在該方向的研究已取得了很大的進展,但在光照強度和角度改變,雜亂背景等情況下還存在較多問題需要研究,結(jié)合近期在線學(xué)習(xí)的跟蹤-檢測方法取得了很不錯的結(jié)果。但仍然存在計算量大等問題,而利用學(xué)習(xí)率來記錄目標外觀變化的方法則存在以往樣本記憶指數(shù)衰減的問題,從而不能消除跟蹤過程累計的漂移誤差。為此,論文通過探索可用的目標外觀集群,保護視頻中的可靠記憶信息,利用可靠記憶信息基于離散傅里葉變換設(shè)計了一種循環(huán)跟蹤器(Circulant Tracker)。該跟蹤器不僅具有很高的跟蹤成功度率,而且具有一定的實時性。
PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。