0
本文作者: 李詩 | 2017-07-27 17:21 |
所謂AR(Augmented Reality,增強(qiáng)現(xiàn)實(shí))廣義上來說就是在現(xiàn)實(shí)環(huán)境上疊加虛擬場景,區(qū)別于VR,理解真實(shí)環(huán)境是AR的基本點(diǎn)?;谄矫鎴D的視覺跟蹤是AR的核心技術(shù)之一,據(jù)雷鋒網(wǎng)了解到,盡管目前AR發(fā)展迅速,但是計(jì)算機(jī)視覺算法在處理平面跟蹤時(shí)依然還有很多不足,在平面圖片傾斜、陰影、遮擋、運(yùn)動狀態(tài)下,AR的識別跟蹤還不穩(wěn)定。
雷鋒網(wǎng)獲知,國內(nèi)AR公司亮風(fēng)臺研發(fā)出基于圖的平面物體跟蹤算法,該可在強(qiáng)干擾的場景下實(shí)現(xiàn)快速且準(zhǔn)確的平面跟蹤。其成果論文已被人工智能領(lǐng)域國際頂級期刊《PAMI》(IEEE模式分析和機(jī)器智能匯刊)錄用,即將于2018年正式刊出。
該論文主要實(shí)現(xiàn)了:
提出將圖模型和圖匹配機(jī)制運(yùn)用于平面物體跟蹤。
設(shè)計(jì)了一種能預(yù)測物體姿態(tài)和關(guān)鍵點(diǎn)匹配的新策略,并把這種策略集成到最優(yōu)解尋找的問題中。
設(shè)計(jì)了一個(gè)帶有標(biāo)注的真實(shí)場景數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫可以用來評估快速移動下的視覺跟蹤。
作者介紹
凌海濱,亮風(fēng)臺首席科學(xué)家,Temple大學(xué)終身教授,曾就職于微軟亞洲研究院、西門子美國研究院。在T-PAMI、IJCV、T-IP、CVPR、ICCV、ECCV、AAAI、MICCAI等AI相關(guān)領(lǐng)域國際權(quán)威雜志和頂級會議上發(fā)表論文140余篇,曾任權(quán)威會議Area Chair、IEEE PAMI 編委,也是美國NSF Career Award獲得者。
王濤,北京交通大學(xué)碩博,主持和參與包括國家自然科學(xué)基金項(xiàng)目在內(nèi)的科研項(xiàng)目20余項(xiàng)。以第一作者在AAAI、CVIU等國際學(xué)術(shù)會議和期刊發(fā)表論文10余篇。目前主要研究方向?yàn)榛趫D模型的圖像語義理解和計(jì)算。
下文內(nèi)容由亮風(fēng)臺編譯自論文原文,雷鋒網(wǎng)經(jīng)授權(quán)選編。
基于圖的跟蹤算法:Gracker
基于圖的跟蹤算法Gracker能夠充分利用物體的結(jié)構(gòu)信息來提高跟蹤性能。為了表示物體的結(jié)構(gòu),我們將平面物體建模為一個(gè)圖而不是簡單的關(guān)鍵點(diǎn)集合。如此,將跟蹤問題轉(zhuǎn)化為圖匹配問題,利用幾何圖匹配算法建立關(guān)鍵點(diǎn)的對應(yīng)關(guān)系。
Gracker算法的框架
具體地說,我們用圖對平面物體建模,圖的頂點(diǎn)由可靠的自動選擇機(jī)制生成而不是傳統(tǒng)的基于HoG的檢測子。這種機(jī)制使得圖結(jié)構(gòu)更加穩(wěn)定,因此本方法對極端環(huán)境變量具有魯棒性,例如極端照度條件和運(yùn)動模糊。
除此之外,我們把特征對應(yīng)和姿態(tài)估計(jì)集成在一個(gè)統(tǒng)一的幾何圖匹配框架中。幾何圖中的二元限制條件能夠?qū)θ謳缀侮P(guān)系編碼,這樣Gracker算法對各種幾何和光學(xué)變換更具有魯棒性和精確性。
如何構(gòu)造圖
將目標(biāo)表示為無向圖,而不是一堆局部部件或者星形模型。給定目標(biāo)圖GM和候選圖GC,我們的目標(biāo)是找到他們之間的最優(yōu)對應(yīng)關(guān)系,然后根據(jù)對應(yīng)結(jié)果決定最優(yōu)的目標(biāo)狀態(tài)??梢园慈缦路绞綐?gòu)造目標(biāo)物體的模型圖:
1. 生成頂點(diǎn):我們提取每一幀的關(guān)鍵點(diǎn)來表示局部部分,然后建模為圖的頂點(diǎn)。經(jīng)典算法是通過搜尋不同縮放尺寸的DoG圖像的局部最小/最大值來獲得關(guān)鍵點(diǎn),比如SIFT。然而關(guān)鍵點(diǎn)的數(shù)量會隨著檢測子和幀背景的變化而變化。另外,SIFT容易受到不同環(huán)境變化影響,例如:照度變化和運(yùn)動模糊,這不利于跟蹤精度。我們采用更魯棒的方法提取關(guān)鍵點(diǎn):首先對每個(gè)像素R計(jì)算SIFT響應(yīng),隨后我們將R等分為N個(gè)網(wǎng)格,從每個(gè)網(wǎng)格中取最大的SIFT響應(yīng)作為這個(gè)網(wǎng)格的關(guān)鍵點(diǎn),將所選取的關(guān)鍵點(diǎn)建模為圖的節(jié)點(diǎn),然后計(jì)算它們的描述子作為這個(gè)節(jié)點(diǎn)的屬性。
2. 生成邊:現(xiàn)存幾種普遍的邊生存方法,比如鄰域圖,K最近鄰圖和全連通圖。全連通圖包含了大量的結(jié)構(gòu)信息,但是它占用太多存儲空間和計(jì)算時(shí)間,因此并不適用于實(shí)時(shí)應(yīng)用。鄰域圖依賴于參數(shù)的選取,而且受到物體縮放問題的影響。我們使用狄洛尼三角剖分構(gòu)建圖的邊,因?yàn)樗哂衅揭啤⒖s放和旋轉(zhuǎn)不變性。
對每一個(gè)輸入幀,我們用同樣方式構(gòu)造一個(gè)候選圖Gt,然后將匹配問題表達(dá)為圖匹配問題。
圖匹配
給定規(guī)模為N的模型圖和候選圖,匹配問題可以視為尋找GM和Gt頂點(diǎn)的對應(yīng)關(guān)系。一般的圖匹配問題中,兩個(gè)頂點(diǎn)集間的變換通常不被考慮,因?yàn)槿狈ο闰?yàn)知識。而對于物體跟蹤,我們可以利用先前幀的變換信息引導(dǎo)匹配。我們提出了一種幾何圖匹配(GGM)框架將變換線索融入圖匹配。傳統(tǒng)的基于匹配的跟蹤方法將特征匹配和變換估計(jì)區(qū)分計(jì)算,GMM方法的不同在于將特征匹配和變換估計(jì)結(jié)合成一個(gè)統(tǒng)一的框架。
Gracker算法效果
為了系統(tǒng)地評估算法,我們采用了兩個(gè)常用的基準(zhǔn)數(shù)據(jù)庫,UCSB[1]和TMT[2],和一個(gè)我們收集的快速運(yùn)動數(shù)據(jù)庫。下面我們比較了Gracker和其他三個(gè)基準(zhǔn)算法Struck[3], IC[4], ESM[5]在兩個(gè)基準(zhǔn)數(shù)據(jù)庫和我們收集的數(shù)據(jù)庫上的結(jié)果。
縮放:下圖是弱紋理的落日圖片??梢钥吹絀C和Struck算法出現(xiàn)目標(biāo)丟失情況,而ESM和Gracker算法給出更精確的結(jié)果。
傾斜:下圖書本傾斜的例子揭示了IC,ESM和Gracker算法對傾斜具有魯棒性,而當(dāng)物體處于極端傾斜的情況下,Struck算法未能捕捉到對象物體。
平移和旋轉(zhuǎn):所有的算法都能處理小角度旋轉(zhuǎn),但是大角度情況下,只有ESM和Gracker比較魯棒。在360幀之后由于運(yùn)動模糊,ESM算法變得不精確,而Gracker算法在所有幀中更穩(wěn)定。
遮擋和光線:下圖給出了幾種算法在正常和黑暗的光照條件下的部分遮擋的實(shí)驗(yàn)結(jié)果?;谀0宓乃惴ㄈ鏘C和ESM受到部分遮擋的影響。相反,基于匹配的算法Struck和Gracker對部分遮擋更魯棒。在黑暗光照條件下,Struck算法精度相對較低,因?yàn)槠涫褂玫幕贖oG的檢測子在黑暗光照條件下檢測到的關(guān)鍵點(diǎn)不可靠。而我們提出的Gracker算法在光線變化的情況下更魯棒。
運(yùn)動模糊:IC和Struck算法對運(yùn)動模糊很敏感,所以從很早開始直到視頻結(jié)束都丟失了目標(biāo)。ESM算法基本上在每一幀里面都捕捉到了對象物體,但是捕捉到的位置并不準(zhǔn)確。相反,我們提出的Gracker在所有的幀里都給出了更加準(zhǔn)確的結(jié)果。
復(fù)合運(yùn)動變換:下圖顯示了集平移,旋轉(zhuǎn),傾斜和輕微的非線性變換的復(fù)合變換。從比較中我們可以看到,我們的Gracker算法給出了最好的跟蹤結(jié)果。
部分參考文獻(xiàn):
[1] S. Gauglitz, T. Hollerer, and M. Turk. Evaluation of interest point detectors and feature descriptors for visual tracking. IJCV, 94(3):335– 360, 2011.
[2] A. Roy, X. Zhang, N. Wolleb, C. P. Quintero, and M. J¨agersand. Tracking benchmark and evaluation for manipulation tasks. In ICRA, pages 2448– 2453, 2015.
[3] S. Hare, A. Saffari, and P. H. S. Torr. Efficient online structured output learning for keypoing-based object tracking. In CVPR, pages 1894–1901, 2012.
[4] S. Baker and lain A. Matthews. Lucas-kanade 20 years on: A unifying framework. IJCV, 56(3):221–255, 2004.
[5] E. Malis. Improving vision-based control using efficient second-order minimization techniques. In ICRA, pages 1843–1848, 2004.
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。