0
本文作者: 李尊 | 2016-06-29 15:01 |
針對基于深度人物識別的遞歸注意力模型
協(xié)同編譯:陳圳、章敏、Blake
摘要
鑒于缺失RGB信息時(shí),人體的形態(tài)和運(yùn)動(dòng)方式可用于確認(rèn)個(gè)人,我們提出了一種基于注意力的模型。這種方法充分利用了獨(dú)特的四維時(shí)空簽名來解決跨天的識別問題。制定一個(gè)強(qiáng)化學(xué)習(xí)任務(wù),這個(gè)模型是在結(jié)合卷積和遞歸神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上識別小的部分,判別人體的區(qū)域指示。同時(shí)我們證明了該模型,在發(fā)布的幾個(gè)只給出深度圖像數(shù)據(jù)集中,產(chǎn)生了最好的結(jié)果。另外,我們進(jìn)一步學(xué)習(xí)了模型對于視角,外觀和體積變化的魯棒性。最后,在從模型的時(shí)空注意力收集到的可解釋的2D,3D和4D可視化方面,分享了我們的見解。
1.簡介
快速的部分視圖足以用于辨別一個(gè)人的身份。對于現(xiàn)代計(jì)算機(jī)視覺系統(tǒng),這種不尋常的能力是難以實(shí)現(xiàn)的。但是,它在安全認(rèn)證,跟蹤,公共安全,和基于角色的行為理解方面表現(xiàn)出了非常有價(jià)值的任務(wù)。
當(dāng)給出一個(gè)輸入圖像時(shí),人體識別的目的是給圖像中的個(gè)體分配識別標(biāo)簽。盡管前期工作中做了大量的努力,該問題仍然有很大一部分尚未得到?jīng)]有解決。由于內(nèi)部分級的不同,在沒有準(zhǔn)確的空間或時(shí)間限制下,單獨(dú)的視覺功能在匹配跨越時(shí)間的個(gè)人時(shí),內(nèi)部往往很薄弱。而光照,視角和姿勢產(chǎn)生的額外差異,進(jìn)一步惡化了這個(gè)問題。 據(jù)生理學(xué)和心理學(xué)的研究結(jié)果表明,每個(gè)人的步姿都是獨(dú)特的?;谠摪l(fā)現(xiàn),我們致力于學(xué)習(xí)每個(gè)人獨(dú)特的身體形態(tài)和運(yùn)動(dòng)特征(如圖1所示)。并且,受啟于到最近深度模式的成功,我們的目的是從深度圖像或者視頻中獲得一個(gè)識別標(biāo)簽。
圖1:每個(gè)人的步姿是獨(dú)一無二。我們提出了一個(gè)四維性注意力模型以便學(xué)習(xí)時(shí)空特征并且從深度圖像來識別個(gè)人。
該目標(biāo)的一大挑戰(zhàn)是設(shè)計(jì)模型,它不僅要豐富到足以解釋運(yùn)動(dòng)和身體形態(tài),還得有強(qiáng)大的內(nèi)部分級變化。第二大挑戰(zhàn)是人體識別本質(zhì)上是由大量的,每一級只經(jīng)過很少訓(xùn)練實(shí)例(在某些情況下,一個(gè)單一的訓(xùn)練例子)的類組成?,F(xiàn)有的數(shù)據(jù)集總是收集外表不變的正臉視圖(例如衣服類似的集合)。盡管,這使得識別問題變得更加容易,我們?nèi)匀幌氩还苓@些假設(shè),以便完成更大眾,適用于更廣泛群體的識別任務(wù)。
我們的核心觀點(diǎn)是,不管培訓(xùn)稀少的輸入,利用原始深度視頻,制定一個(gè)類似于強(qiáng)化學(xué)習(xí)問題的任務(wù),來解決上述的挑戰(zhàn)。該方法涉及處理高維輸入空間并專注于細(xì)小的部分,以及沒有視覺和時(shí)間假設(shè)時(shí)判別的區(qū)域。具體的說,我們的成就是:
(I)我們開發(fā)了一個(gè)基于深度視頻識別個(gè)人的遞歸注意力模型。該模型利用了一個(gè)4D輸入,而且它對外觀和體積變化具有魯棒性。通過結(jié)合稀疏化技術(shù)和強(qiáng)化學(xué)習(xí)任務(wù),我們的遞歸注意力模型進(jìn)入了具有高的保真度的小時(shí)空區(qū)域,同時(shí)避免少信息的區(qū)域(見第3節(jié))。
(II)我們重新審視了人體識別任務(wù),并且建立一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,用于考核現(xiàn)有的方法(見圖4)。通過改變視角和在不同訓(xùn)練樣例中進(jìn)行測試,我們把模型推向了極限,在這些樣例中,人拿著不同的物體(如咖啡或筆記本電腦)或佩戴著帽子和背包。
在第4部分,展現(xiàn)了模型在現(xiàn)存數(shù)據(jù)集中達(dá)到的最好效果。另外,我們吸取了遞歸注意力模型的優(yōu)點(diǎn),解釋了關(guān)于hard attention 2D,3D,4D的可視化。我們的研究在個(gè)體之間的體積和運(yùn)動(dòng)差異方面揭露了新的見解。同時(shí),為了有助于未來的研究,我們將會(huì)公開出版所有的代碼,數(shù)據(jù)和注釋。
2.相關(guān)工作
基于RGB的方法
識別的初級挑戰(zhàn)是類內(nèi)方差。這包括照明,視角、姿勢和遮擋導(dǎo)致的外表變化。我們已經(jīng)嘗試許多方法解決這個(gè)問題,如通過改善特征表示和探索新的相似性度量。基于輪廓的方法完全忽略了色彩,它使用了人體測量或測身體部位之間距離的方法。
基于深度的方法
根據(jù)基于輪廓方法的模式,基于深度的學(xué)習(xí)已經(jīng)應(yīng)用了人體測量和三維人體骨骼軟生物識別方法。有幾篇論文中充分利用了深度相機(jī)的力量,將三維點(diǎn)云用于個(gè)人識別的研究。雖然這些方法成功了,但它們依靠了手工制作特征(例如,手臂長度、寬度)或低級的RGB特征(如SURF,SIFT)。
時(shí)空表示
目前為止介紹的方法,在很大程度上忽略了時(shí)空信息。在參考文獻(xiàn)[26]中最初提出步姿能量圖和ifigts變型,通過平均輪廓視頻的所有幀,將時(shí)間信息嵌入到二維圖像。測試時(shí)間預(yù)測是從K附近查詢得到的。
最近,步姿能量圖通過深度傳感器被擴(kuò)展成3D圖??臻g體積和高維張量已用于行為識別,醫(yī)學(xué)圖像分析,機(jī)器人學(xué)和人類的行為分析,但在個(gè)人識別領(lǐng)域沒有得到深入的探討。
識別深度學(xué)習(xí)
部分研究已經(jīng)探討了深層神經(jīng)網(wǎng)絡(luò)對個(gè)人識別的適用性。在參考文獻(xiàn)[73]中,Yi等人。提出了一種用于相似性度量學(xué)習(xí)的暹羅卷積神經(jīng)網(wǎng)絡(luò)。在參考文獻(xiàn)[41]中Li等人。提出了類似的方法,通過使用濾波器來模擬光度和幾何變換。根據(jù)這些工作,Ding等人,制定了一個(gè)三重包含正確和不正確參考圖像的輸入。在中,Ahmed等人,介紹了交叉輸入鄰域的差異。
我們的工作與上述工作有幾個(gè)關(guān)鍵的區(qū)別:首先,我們致力于深度模式并且不利用任何的RGB信息。其次上述的方法攝取了幾個(gè)圖像作為輸入,并且計(jì)算這些輸入之間的相似性。他們通過使用非重疊相機(jī)視圖捕獲的圖像,把識別問題變成了圖像相似性度的問題。而我們的模型使用了一個(gè)單一的圖像作為輸入,并且不依賴度量的學(xué)習(xí)。
我們的模型使用了一個(gè)單一的圖像作為輸入,并且不依賴度量的學(xué)習(xí)。
注意力模型
深度學(xué)習(xí)模型的可解釋性,在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域變得越來越重要。通過測量輸出變量對輸入方差的靈敏度,注意力模型被應(yīng)用于圖像分類,圖像字幕,目標(biāo)檢測以及跟蹤,這已經(jīng)揭秘了卷積和遞歸網(wǎng)絡(luò)的方方面面。這些方法利用輸入的空間結(jié)構(gòu)來理解中心網(wǎng)絡(luò)表示。時(shí)序數(shù)據(jù),另一方面,要求時(shí)間注意力模型根據(jù)輸入數(shù)據(jù)去理解命令。最近的論文,在語音識別,視頻字幕和自然語言處理方面,探討了在時(shí)間域中注意力的概念。
許多深度學(xué)習(xí)模型強(qiáng)加了對輸入的限制。鑒于高維的圖像(即高像素?cái)?shù)),預(yù)處理通常包括恢復(fù)和/或裁剪原始輸入圖像。視頻通常截?cái)嗟揭粋€(gè)固定長度用于訓(xùn)練。但由于計(jì)算的限制,信息的損失對于約束運(yùn)行時(shí)間來說是難免的。在下一章節(jié)中,我們的描述了實(shí)驗(yàn)?zāi)P鸵约叭绾瓮ㄟ^運(yùn)用視覺“瞥見”平衡這種權(quán)衡,,用高保真度處理小的4D區(qū),并且用更低的細(xì)節(jié)成長到更大的區(qū)域。
3.我們的模型
我們的目標(biāo)是從深度圖像或者視頻中識別個(gè)人。模型(圖2)計(jì)算hard attention區(qū)域用于預(yù)測識別標(biāo)簽。這一部分中,在探討完關(guān)注模型之后,我們描述了4D輸入表示。
圖2:我們的整體模型,虛線箭頭表示跨時(shí)間步驟的信息交換。固體箭頭指示信息在時(shí)間步長內(nèi)交換。兩個(gè)時(shí)間的步驟顯示從左到右發(fā)生的一系列事件。注:RAM時(shí)間t,指的是模式中的“迭代”并不是指輸入視頻的時(shí)間。所有其他變定義在第3.2節(jié)。
3.1.輸入表示
高維空間投影到較低的空間會(huì)導(dǎo)致信息丟失。這是我們使用4D數(shù)據(jù)的動(dòng)機(jī):我們希望盡可能多的保留信息,然后讓我們的模型決定相關(guān)的區(qū)域。四維數(shù)據(jù)由一個(gè)三維點(diǎn)云(例如,X,Y,和Z相關(guān))和時(shí)間τ組成。簡單的說,圖2顯示了輸入作為從深度圖像構(gòu)建出的三維點(diǎn)云。每個(gè)訓(xùn)練示例(X,Y)由一個(gè)可變大小的四維張量x和對應(yīng)的標(biāo)簽y組成。由于視頻長度的可變,張量也是可變的。讓f表示數(shù)字在視頻中的幀i,讓X,Y和Z表示張量平方的寬度,高度,和深度的尺寸。
C是級數(shù)。平均視頻包含500個(gè)幀,扁平化X導(dǎo)致的特征向量2.5x109,為了對比,一張227x227RGB圖像(一個(gè)典型的卷積網(wǎng)絡(luò)),結(jié)果是1.2x106。這意味著,我們的模型必須在一個(gè)輸入空間大于公共卷積網(wǎng)絡(luò)三個(gè)數(shù)量級的情況下工作,因此,我們的模型必須被設(shè)計(jì)成,能夠智能地導(dǎo)航該高維空間的模型。
3.2遞歸注意力模型模型
鑒于這種高維深度表示,我們希望我們的模型集中在較小的,輸入空間中可判別的區(qū)域。Minh等人,最近提出了周期性注意模型(RAM)用于圖像分類和強(qiáng)化學(xué)習(xí)問題。他們表現(xiàn)出有前途的結(jié)果,他們有幾個(gè)優(yōu)勢:
首先訓(xùn)練數(shù)據(jù)豐富,圖像分類已得到很好的研究并且存在幾個(gè)大的基準(zhǔn)。動(dòng)態(tài)環(huán)境如基于控制的視頻游戲,當(dāng)游戲在玩時(shí)它可以在飛行中產(chǎn)生數(shù)據(jù)。
其次,這些問題的輸入維數(shù)是比較小的:MNIST是28x28當(dāng)控制游戲時(shí)是24x24。
個(gè)人識別,另一方面,不喜歡這些優(yōu)點(diǎn)。相反,我們的任務(wù)是有限的,高維的訓(xùn)練數(shù)據(jù)。圖2顯示了我們提出模型的概述。它包括一個(gè)瞥見層向下采樣的輸入,一個(gè)編碼階段作為額外的降維工具,和一個(gè)核心RAM網(wǎng)絡(luò)負(fù)責(zé)時(shí)空學(xué)習(xí)。
瞥見層
瞥見層的目標(biāo)是雙重的:(I)它必須避免(或大大限制)信息丟失而且(II)必須避免處理大的輸入。在一個(gè)給定的時(shí)間長度T,我們的模型沒有完全訪問輸入X,而是提取一個(gè)部分觀察或“一瞥”記為(x,T)。一瞥用高分辨率編碼t周圍的區(qū)域,而不是逐步降低t中點(diǎn)的分辨率。
編碼器
掠影層包含大量目標(biāo)特征(大約有1×106)。在掠影用于有數(shù)據(jù)限制的人物識別任務(wù)時(shí),我們必須進(jìn)行壓縮。為實(shí)現(xiàn)這一目標(biāo),我們使用編碼層進(jìn)一步壓縮特征所占空間,在我們的模式中使用的是4D卷積編碼。此編碼層是脫機(jī)進(jìn)行訓(xùn)練且與RAM分離。
核心RAM單元
如上文所提到一樣,與4D輸入相關(guān)的特征大概有1×109個(gè)。傳統(tǒng)的深度學(xué)習(xí)方法不能探索虛實(shí),也不能從輸入中學(xué)到什么。受此啟發(fā),我們使用循環(huán)注意力模式。RAM的目標(biāo)有兩個(gè):第一,模式的可解釋性是本項(xiàng)研究的關(guān)鍵。通過基于圖像的輸入,以注意為基礎(chǔ)的模式能讓我們看到人的形態(tài)和活動(dòng)。第二,RAM通過簡化空間輸和關(guān)注可辨別的區(qū)域,簡化了計(jì)算。如圖二所示,我們的模式是一個(gè)循環(huán)網(wǎng)絡(luò):它由一個(gè)長的短時(shí)記憶單元(LSTM)和兩個(gè)副網(wǎng)絡(luò)組成。
副網(wǎng)絡(luò)系統(tǒng)
在RAM進(jìn)行下一個(gè)循環(huán)之前,我們的模式必須采取兩個(gè)步驟:第一,決定下一個(gè)掠影位置;第二,為當(dāng)前時(shí)間步驟貼上可預(yù)測的識別標(biāo)簽。我們是通過兩個(gè)副網(wǎng)絡(luò)系統(tǒng)進(jìn)行運(yùn)算:定位網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)。
3.3訓(xùn)練和優(yōu)化
構(gòu)想。深度視頻是本質(zhì)上是一個(gè)大的特征集合。為避免探索整個(gè)輸入空間,我們把訓(xùn)練任務(wù)當(dāng)做是在鞏固問題研究。
優(yōu)化
我們模式的政策是涵蓋所有可能的掠影路徑。目標(biāo)是將反饋功能最大化。
但是計(jì)算預(yù)期牽扯到未知的環(huán)境參數(shù),讓問題變得難以處理。把任務(wù)用公式表示為部分可見的Markov決定過程,讓我們能計(jì)算樣本的相似性,其公式為REINFORCE準(zhǔn)則。
我們用交叉熵?fù)p失函數(shù)訓(xùn)練動(dòng)作網(wǎng)絡(luò),用REINFORCE訓(xùn)練位置網(wǎng)絡(luò)。這兩個(gè)公式能讓我們的模式關(guān)注重要3D區(qū)域的空間和時(shí)間。
表1:數(shù)據(jù)比較。DPI-T是最新收集的數(shù)據(jù)。我們列舉了用于訓(xùn)練和測試的目標(biāo),圖像和視頻的數(shù)目。測試數(shù)據(jù)在括號中。外觀特征是由一個(gè)人的衣著和長相決定的。
優(yōu)點(diǎn)
這兩個(gè)公式的最大優(yōu)點(diǎn)是能限制訓(xùn)練數(shù)據(jù)。我們的模式是在掠影(例如,部分輸入)上,而不是整個(gè)視頻中進(jìn)行訓(xùn)練。因此,每一視頻中適用于我們模式的有效訓(xùn)練實(shí)例大約有1×106到1×109。除非只輸入一個(gè)視頻,我們的模式從未見過兩個(gè)相同的訓(xùn)練實(shí)例。模式受限于訓(xùn)練數(shù)據(jù)的數(shù)量,但公式讓數(shù)量變得不是那么重要。
4.試驗(yàn)
首先,我們描述數(shù)據(jù)集和評價(jià)指標(biāo)。接著討論實(shí)驗(yàn),超參數(shù)和超參數(shù)選擇。然后是單幀和多幀人物識別的結(jié)果。最后我們會(huì)展示2D,3D,4D視覺效果圖,以及總結(jié)模式的不足之處。
4.1數(shù)據(jù)集
我們的目標(biāo)是通過由深度攝像捕捉到的人體3D形狀和活動(dòng)完成人物識別任務(wù)。大部分的人類RGB-D數(shù)據(jù)集都能用于人類活動(dòng)分析和行為識別。因?yàn)镽GB-D數(shù)據(jù)集一般是由一些主體的的姿勢構(gòu)成,所以不能用于人物識別。因此我們用一些現(xiàn)存的深度辨別數(shù)據(jù)集和收集的新數(shù)據(jù)進(jìn)一步測試我們的模式。
我們用一些現(xiàn)存的深度辨認(rèn)模式對我們的模式進(jìn)行探究:如BIWI,IIT PAVIS和IAS-Lab。這些數(shù)據(jù)集分別包括50個(gè)人,79個(gè)人和11個(gè)人。對于BIWI,我們使用所有的訓(xùn)練集和Walking測試集。對于PAVIS,我們使用Walking1 和Walking2作為訓(xùn)練和測試集。對于IAS-Lab,我們使用所有的訓(xùn)練集和部分測試集。
現(xiàn)存的的數(shù)據(jù)集為簡化人物識別難題增加了限制(例如,每一個(gè)人有不同的衣服,前方景象不一樣或是較慢的走路速度)。我們收集了新的數(shù)據(jù)集:從高處(DPI-T)的深度人物識別,這與此前的數(shù)據(jù)集都不一樣。
圖3:來自(DPI-T)深度人物識別的樣本圖像。每一行都是不同的人。左邊的三列是RGB映像,右邊的一列是深度映像。
為每一個(gè)人都提供更多的觀察資料。平均算來,每個(gè)人幾天之內(nèi)大概出現(xiàn)在25個(gè)視頻之內(nèi)。在這期間每個(gè)人肯定會(huì)換衣服---大概是5套左右。從圖三可以看出在我們數(shù)據(jù)集中的三個(gè)人穿著不同衣服。此外,他們的步行速度會(huì)隨著每天或是每周時(shí)間的不同而發(fā)生變化。
挑戰(zhàn)高處視角
在現(xiàn)實(shí)生活中(如便利店和醫(yī)院)的攝像頭一般會(huì)置于天花板上朝下錄像,與我們現(xiàn)存數(shù)據(jù)集中的清晰,超前或是超兩側(cè)的錄像剛好相反。這會(huì)造成自我遮擋的麻煩或是不完整的3D云再現(xiàn)。
人類一般攜帶著物體
現(xiàn)存數(shù)據(jù)集從控制的場景中收集的數(shù)據(jù)。在我們的數(shù)據(jù)集中,人們都是“在外面”,一般會(huì)帶著食物,咖啡或是筆記本。此外,由于我們收集的數(shù)據(jù)時(shí)間跨度較長,人們一般會(huì)帶著帽子,包,或是雨傘(見圖三)。
4.2評價(jià)指標(biāo)
“單鏡頭”方法,一個(gè)映像一個(gè)標(biāo)簽,或是“多鏡頭”方法平衡框架特征和時(shí)間特征。通過這兩個(gè)方法都能解決人物識別的問題。此外,我們會(huì)提供“單鏡頭”和“多鏡頭”的評價(jià)結(jié)果。
表2:單鏡頭的辨別表現(xiàn)。上文所提及的方法只使用了空間信息。兩種方法都有在測試集上進(jìn)行過計(jì)算。數(shù)值越大越好。破折號表示沒用可用信息。(*)表示盡管這樣比較不公平,為了完整性,我們進(jìn)行RGB和RGB-D方法的比較。
圖4:(a-c)漸增的曲線是在不同的數(shù)據(jù)集和模式中的測試表現(xiàn)。
4.3試驗(yàn)設(shè)置
對于3D或是4D輸入,我們通過增加高斯噪音來擴(kuò)大數(shù)據(jù),云圖中的每一點(diǎn)平均會(huì)產(chǎn)生0cm至5cm的不同。在原始或是隨機(jī)框定的0.8×和1.2×范圍內(nèi)的圖像和張量都移動(dòng)了0至+/-5cm。CNN在增加的實(shí)例中比RAM先進(jìn)行訓(xùn)練。
4.4 基準(zhǔn)線
單鏡頭識別。我們比較了循環(huán)模式和一些深度模式。表2向我們展示了單鏡頭識別人物的一些方法和結(jié)果:(1)我們使用統(tǒng)一隨機(jī)的方法計(jì)算表現(xiàn)。(2)四個(gè)人手動(dòng)完成識別任務(wù)。每個(gè)人可看見一張測試圖片和所有的訓(xùn)練數(shù)據(jù)。(3-5)框架之間的區(qū)別可看做是人工添加的特征。(6)三維的CNN模式在3D云圖中運(yùn)行。(7)二維的RAM在深度圖像中運(yùn)行。(8)三維RAM在3D點(diǎn)云中運(yùn)行。(9)使用面部描述符。(10)點(diǎn)傾斜變焦相機(jī)對圖像不同部分變焦。(11)面部描述符在框架之間的距離連接起來。(12)在3D點(diǎn)云和框架距離間分?jǐn)?shù)相近。
多次識別
表3列舉了一些多點(diǎn)方式:(1-2)使用隨機(jī)人類表現(xiàn)作為基準(zhǔn)。(3-4)評估步態(tài)能量圖和容量。(5-6)使用手動(dòng)框架距離和幀間表決系統(tǒng)。(7)一堆框架間距離(和5-6一樣)放入LSTM中。(8)隨時(shí)間平均化的一個(gè)3D CNN網(wǎng)絡(luò)。(9)在3D點(diǎn)云中運(yùn)行的3D LSTM。(10)最終的RAM模型。(11-12)面部描述在表決系統(tǒng)中的運(yùn)用。(13)一系列圖片中多重成分差異計(jì)算。(14)RGB-D點(diǎn)云與手動(dòng)特性協(xié)同使用識別。
表3
4.5 單次識別表現(xiàn)
學(xué)會(huì)編碼能提升表現(xiàn)。
為了更好的理解表現(xiàn)的原因,我們減少了RAM輸入的維度同時(shí)評估了一個(gè)2D和3D變量。這些2D和3D模型是單次任務(wù)評估的。從2D到3D,隨著輸入維度的增加,RAM的表現(xiàn)也單調(diào)增加了(見圖4)。與之相反的是步態(tài)能量的變化(見表2)。從2D到3D,步態(tài)能力實(shí)現(xiàn)了相似的轉(zhuǎn)移,但是在高維狀態(tài)下表現(xiàn)更差。這表明我們的學(xué)會(huì)編碼的模型能從高維輸入保存相當(dāng)?shù)男畔ⅲ綉B(tài)能量體沒有編碼能力則不行。
RAM比深度學(xué)習(xí)基準(zhǔn)表現(xiàn)得要好。
為了進(jìn)一步驗(yàn)證我們模型的表現(xiàn),我們預(yù)估了一個(gè)3D卷積神經(jīng)網(wǎng)絡(luò)。對兩者3D CNN和3D RAM進(jìn)行3D點(diǎn)云輸入。如表2所示,3D RAM比3D CNN要表現(xiàn)好。這個(gè)確認(rèn)了我們的猜想,我們的RAM能人為夠影響提升訓(xùn)練樣本數(shù)量的片段同時(shí)提高表現(xiàn)水準(zhǔn)。
4.6 多次識別表現(xiàn)
我們的最終模型(4D RAM)比現(xiàn)有的人類基準(zhǔn)和深度方法都要優(yōu)秀。Munaro和Barbosa都在使用框架間隔距離作為一個(gè)特性。我們在表3中列舉了一些手工特性的表現(xiàn)。結(jié)果表明這些特性不能推斷復(fù)雜的潛在變量。我們的4D RAM在表3中同樣超過了RGB-D。使用了上述框架距離特性,方法(13)計(jì)算了一個(gè)標(biāo)準(zhǔn)的3D點(diǎn)云表現(xiàn)。雖然方法(13)影響了RGB學(xué)習(xí),它表明整個(gè)點(diǎn)云可能包含外來噪音。我們的模型能夠通過選擇包含有效學(xué)習(xí)的片段來避免噪音。
4.7重點(diǎn)關(guān)注區(qū)域
這是3D和4DRAM之間最大的不同之處。在3D模式下,我們的模型必須“注意”每一幀的區(qū)域。然而,在4D的模式下,我們的模型沒有這方面的要求,因?yàn)樗亲杂蓞?shù)。我們的模型在要“注意”那些框架方面有充分的自由裁量權(quán),并可以根據(jù)需要向前和向后移動(dòng)時(shí)間。我們在圖5中做出了分析。整個(gè)視頻過程中,p(? yt = y) 在變化。我們的模型不僅可以改變每個(gè)幀中一瞥的空間位置,也可以改變大小。雖然我們的模型沒有關(guān)注程度的明確概念,但它可以間接模仿概念。為了減少給對于定幀K注意力的大小,我們的模型移動(dòng)一瞥中心至一個(gè)遠(yuǎn)離K的框架。雖然每一次關(guān)注整體的“大小”是不變的,但它對K的關(guān)注量已減少。
如圖5所示,我們的模型開始于1,“盯著”人的肩膀,跳到一個(gè)不同的框架,并繼續(xù)“盯著”的肩膀。對此的解釋是我們的模型已經(jīng)學(xué)會(huì)了識別循環(huán)周期。有趣的是,生物學(xué)中證明,男性行走時(shí)肩膀表現(xiàn)出較強(qiáng)的旋轉(zhuǎn)位移。[46]我們模型的關(guān)注證明了這一說法。然后模型在時(shí)間點(diǎn)向后跳躍并且出現(xiàn)在3的底部。這表明腿運(yùn)動(dòng)(即步態(tài))可能提供身份的痕跡。這特別的一瞥路徑很有可能被采納,因?yàn)槲覀儗W(xué)到的政策根本沒有探索其他路徑,但我們的模型訓(xùn)練過許多不同最初一憋位置的時(shí)代,以便減少這種可能性。
圖5
我們將在2D圖像上展示4D關(guān)注,圖6A顯示我們模型瞥見的路徑,注意它幾乎總是訪問一個(gè)主要的骨架關(guān)節(jié)。圖6b顯示一個(gè)注意所有像素的熱圖,它說明了不同的身體部位吸引不同程度的注意。我們的模型很容易識別獨(dú)特的鞋或頭發(fā)款式。此外,它確定了女性左邊的臀部為一個(gè)可識別區(qū)域,如生物力學(xué)文獻(xiàn)中所確定的[ 15 ],女性在髖關(guān)節(jié)區(qū)表現(xiàn)出強(qiáng)烈的橫向搖擺。對于一些女性,這一點(diǎn)可以成為獨(dú)特的運(yùn)動(dòng)標(biāo)簽。
圖6
5. 結(jié)論
本文中我們介紹了一種遞歸注意力模型,它能在深度視頻中判斷并識別里面的時(shí)空和地域,進(jìn)而解決人類識別問題。我們的模型從一種高維4D輸入空間學(xué)會(huì)了一種獨(dú)特的空間標(biāo)記方法。通過微小的片段和解碼器來減少維度,這使得我們訓(xùn)練出一種LSTM模型的遞歸網(wǎng)絡(luò)。利用在二維、三維、四維空間的輸入表現(xiàn),對我們的模型進(jìn)行評估,證明我們的注意力模型已經(jīng)取得了在“多個(gè)人物識別數(shù)據(jù)組”中的最佳表現(xiàn)。并將我們的注意力模型視覺化,這為未來在計(jì)算機(jī)視覺、生物力學(xué)、生理學(xué)等領(lǐng)域提供了新的見解。
Via CVPR2016 Recurrent Attention Models for Depth-Based Person Identification
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。