0
本文作者: 李尊 | 2016-06-29 15:01 |
針對基于深度人物識別的遞歸注意力模型
協(xié)同編譯:陳圳、章敏、Blake
摘要
鑒于缺失RGB信息時,人體的形態(tài)和運動方式可用于確認個人,我們提出了一種基于注意力的模型。這種方法充分利用了獨特的四維時空簽名來解決跨天的識別問題。制定一個強化學習任務,這個模型是在結(jié)合卷積和遞歸神經(jīng)網(wǎng)絡基礎上識別小的部分,判別人體的區(qū)域指示。同時我們證明了該模型,在發(fā)布的幾個只給出深度圖像數(shù)據(jù)集中,產(chǎn)生了最好的結(jié)果。另外,我們進一步學習了模型對于視角,外觀和體積變化的魯棒性。最后,在從模型的時空注意力收集到的可解釋的2D,3D和4D可視化方面,分享了我們的見解。
1.簡介
快速的部分視圖足以用于辨別一個人的身份。對于現(xiàn)代計算機視覺系統(tǒng),這種不尋常的能力是難以實現(xiàn)的。但是,它在安全認證,跟蹤,公共安全,和基于角色的行為理解方面表現(xiàn)出了非常有價值的任務。
當給出一個輸入圖像時,人體識別的目的是給圖像中的個體分配識別標簽。盡管前期工作中做了大量的努力,該問題仍然有很大一部分尚未得到?jīng)]有解決。由于內(nèi)部分級的不同,在沒有準確的空間或時間限制下,單獨的視覺功能在匹配跨越時間的個人時,內(nèi)部往往很薄弱。而光照,視角和姿勢產(chǎn)生的額外差異,進一步惡化了這個問題。 據(jù)生理學和心理學的研究結(jié)果表明,每個人的步姿都是獨特的?;谠摪l(fā)現(xiàn),我們致力于學習每個人獨特的身體形態(tài)和運動特征(如圖1所示)。并且,受啟于到最近深度模式的成功,我們的目的是從深度圖像或者視頻中獲得一個識別標簽。
圖1:每個人的步姿是獨一無二。我們提出了一個四維性注意力模型以便學習時空特征并且從深度圖像來識別個人。
該目標的一大挑戰(zhàn)是設計模型,它不僅要豐富到足以解釋運動和身體形態(tài),還得有強大的內(nèi)部分級變化。第二大挑戰(zhàn)是人體識別本質(zhì)上是由大量的,每一級只經(jīng)過很少訓練實例(在某些情況下,一個單一的訓練例子)的類組成?,F(xiàn)有的數(shù)據(jù)集總是收集外表不變的正臉視圖(例如衣服類似的集合)。盡管,這使得識別問題變得更加容易,我們?nèi)匀幌氩还苓@些假設,以便完成更大眾,適用于更廣泛群體的識別任務。
我們的核心觀點是,不管培訓稀少的輸入,利用原始深度視頻,制定一個類似于強化學習問題的任務,來解決上述的挑戰(zhàn)。該方法涉及處理高維輸入空間并專注于細小的部分,以及沒有視覺和時間假設時判別的區(qū)域。具體的說,我們的成就是:
(I)我們開發(fā)了一個基于深度視頻識別個人的遞歸注意力模型。該模型利用了一個4D輸入,而且它對外觀和體積變化具有魯棒性。通過結(jié)合稀疏化技術(shù)和強化學習任務,我們的遞歸注意力模型進入了具有高的保真度的小時空區(qū)域,同時避免少信息的區(qū)域(見第3節(jié))。
(II)我們重新審視了人體識別任務,并且建立一個具有挑戰(zhàn)性的數(shù)據(jù)集,用于考核現(xiàn)有的方法(見圖4)。通過改變視角和在不同訓練樣例中進行測試,我們把模型推向了極限,在這些樣例中,人拿著不同的物體(如咖啡或筆記本電腦)或佩戴著帽子和背包。
在第4部分,展現(xiàn)了模型在現(xiàn)存數(shù)據(jù)集中達到的最好效果。另外,我們吸取了遞歸注意力模型的優(yōu)點,解釋了關于hard attention 2D,3D,4D的可視化。我們的研究在個體之間的體積和運動差異方面揭露了新的見解。同時,為了有助于未來的研究,我們將會公開出版所有的代碼,數(shù)據(jù)和注釋。
2.相關工作
基于RGB的方法
識別的初級挑戰(zhàn)是類內(nèi)方差。這包括照明,視角、姿勢和遮擋導致的外表變化。我們已經(jīng)嘗試許多方法解決這個問題,如通過改善特征表示和探索新的相似性度量?;谳喞姆椒ㄍ耆雎粤松剩褂昧巳梭w測量或測身體部位之間距離的方法。
基于深度的方法
根據(jù)基于輪廓方法的模式,基于深度的學習已經(jīng)應用了人體測量和三維人體骨骼軟生物識別方法。有幾篇論文中充分利用了深度相機的力量,將三維點云用于個人識別的研究。雖然這些方法成功了,但它們依靠了手工制作特征(例如,手臂長度、寬度)或低級的RGB特征(如SURF,SIFT)。
時空表示
目前為止介紹的方法,在很大程度上忽略了時空信息。在參考文獻[26]中最初提出步姿能量圖和ifigts變型,通過平均輪廓視頻的所有幀,將時間信息嵌入到二維圖像。測試時間預測是從K附近查詢得到的。
最近,步姿能量圖通過深度傳感器被擴展成3D圖??臻g體積和高維張量已用于行為識別,醫(yī)學圖像分析,機器人學和人類的行為分析,但在個人識別領域沒有得到深入的探討。
識別深度學習
部分研究已經(jīng)探討了深層神經(jīng)網(wǎng)絡對個人識別的適用性。在參考文獻[73]中,Yi等人。提出了一種用于相似性度量學習的暹羅卷積神經(jīng)網(wǎng)絡。在參考文獻[41]中Li等人。提出了類似的方法,通過使用濾波器來模擬光度和幾何變換。根據(jù)這些工作,Ding等人,制定了一個三重包含正確和不正確參考圖像的輸入。在中,Ahmed等人,介紹了交叉輸入鄰域的差異。
我們的工作與上述工作有幾個關鍵的區(qū)別:首先,我們致力于深度模式并且不利用任何的RGB信息。其次上述的方法攝取了幾個圖像作為輸入,并且計算這些輸入之間的相似性。他們通過使用非重疊相機視圖捕獲的圖像,把識別問題變成了圖像相似性度的問題。而我們的模型使用了一個單一的圖像作為輸入,并且不依賴度量的學習。
我們的模型使用了一個單一的圖像作為輸入,并且不依賴度量的學習。
注意力模型
深度學習模型的可解釋性,在機器學習和計算機視覺領域變得越來越重要。通過測量輸出變量對輸入方差的靈敏度,注意力模型被應用于圖像分類,圖像字幕,目標檢測以及跟蹤,這已經(jīng)揭秘了卷積和遞歸網(wǎng)絡的方方面面。這些方法利用輸入的空間結(jié)構(gòu)來理解中心網(wǎng)絡表示。時序數(shù)據(jù),另一方面,要求時間注意力模型根據(jù)輸入數(shù)據(jù)去理解命令。最近的論文,在語音識別,視頻字幕和自然語言處理方面,探討了在時間域中注意力的概念。
許多深度學習模型強加了對輸入的限制。鑒于高維的圖像(即高像素數(shù)),預處理通常包括恢復和/或裁剪原始輸入圖像。視頻通常截斷到一個固定長度用于訓練。但由于計算的限制,信息的損失對于約束運行時間來說是難免的。在下一章節(jié)中,我們的描述了實驗模型以及如何通過運用視覺“瞥見”平衡這種權(quán)衡,,用高保真度處理小的4D區(qū),并且用更低的細節(jié)成長到更大的區(qū)域。
3.我們的模型
我們的目標是從深度圖像或者視頻中識別個人。模型(圖2)計算hard attention區(qū)域用于預測識別標簽。這一部分中,在探討完關注模型之后,我們描述了4D輸入表示。
圖2:我們的整體模型,虛線箭頭表示跨時間步驟的信息交換。固體箭頭指示信息在時間步長內(nèi)交換。兩個時間的步驟顯示從左到右發(fā)生的一系列事件。注:RAM時間t,指的是模式中的“迭代”并不是指輸入視頻的時間。所有其他變定義在第3.2節(jié)。
3.1.輸入表示
高維空間投影到較低的空間會導致信息丟失。這是我們使用4D數(shù)據(jù)的動機:我們希望盡可能多的保留信息,然后讓我們的模型決定相關的區(qū)域。四維數(shù)據(jù)由一個三維點云(例如,X,Y,和Z相關)和時間τ組成。簡單的說,圖2顯示了輸入作為從深度圖像構(gòu)建出的三維點云。每個訓練示例(X,Y)由一個可變大小的四維張量x和對應的標簽y組成。由于視頻長度的可變,張量也是可變的。讓f表示數(shù)字在視頻中的幀i,讓X,Y和Z表示張量平方的寬度,高度,和深度的尺寸。
C是級數(shù)。平均視頻包含500個幀,扁平化X導致的特征向量2.5x109,為了對比,一張227x227RGB圖像(一個典型的卷積網(wǎng)絡),結(jié)果是1.2x106。這意味著,我們的模型必須在一個輸入空間大于公共卷積網(wǎng)絡三個數(shù)量級的情況下工作,因此,我們的模型必須被設計成,能夠智能地導航該高維空間的模型。
3.2遞歸注意力模型模型
鑒于這種高維深度表示,我們希望我們的模型集中在較小的,輸入空間中可判別的區(qū)域。Minh等人,最近提出了周期性注意模型(RAM)用于圖像分類和強化學習問題。他們表現(xiàn)出有前途的結(jié)果,他們有幾個優(yōu)勢:
首先訓練數(shù)據(jù)豐富,圖像分類已得到很好的研究并且存在幾個大的基準。動態(tài)環(huán)境如基于控制的視頻游戲,當游戲在玩時它可以在飛行中產(chǎn)生數(shù)據(jù)。
其次,這些問題的輸入維數(shù)是比較小的:MNIST是28x28當控制游戲時是24x24。
個人識別,另一方面,不喜歡這些優(yōu)點。相反,我們的任務是有限的,高維的訓練數(shù)據(jù)。圖2顯示了我們提出模型的概述。它包括一個瞥見層向下采樣的輸入,一個編碼階段作為額外的降維工具,和一個核心RAM網(wǎng)絡負責時空學習。
瞥見層
瞥見層的目標是雙重的:(I)它必須避免(或大大限制)信息丟失而且(II)必須避免處理大的輸入。在一個給定的時間長度T,我們的模型沒有完全訪問輸入X,而是提取一個部分觀察或“一瞥”記為(x,T)。一瞥用高分辨率編碼t周圍的區(qū)域,而不是逐步降低t中點的分辨率。
編碼器
掠影層包含大量目標特征(大約有1×106)。在掠影用于有數(shù)據(jù)限制的人物識別任務時,我們必須進行壓縮。為實現(xiàn)這一目標,我們使用編碼層進一步壓縮特征所占空間,在我們的模式中使用的是4D卷積編碼。此編碼層是脫機進行訓練且與RAM分離。
核心RAM單元
如上文所提到一樣,與4D輸入相關的特征大概有1×109個。傳統(tǒng)的深度學習方法不能探索虛實,也不能從輸入中學到什么。受此啟發(fā),我們使用循環(huán)注意力模式。RAM的目標有兩個:第一,模式的可解釋性是本項研究的關鍵。通過基于圖像的輸入,以注意為基礎的模式能讓我們看到人的形態(tài)和活動。第二,RAM通過簡化空間輸和關注可辨別的區(qū)域,簡化了計算。如圖二所示,我們的模式是一個循環(huán)網(wǎng)絡:它由一個長的短時記憶單元(LSTM)和兩個副網(wǎng)絡組成。
副網(wǎng)絡系統(tǒng)
在RAM進行下一個循環(huán)之前,我們的模式必須采取兩個步驟:第一,決定下一個掠影位置;第二,為當前時間步驟貼上可預測的識別標簽。我們是通過兩個副網(wǎng)絡系統(tǒng)進行運算:定位網(wǎng)絡和動作網(wǎng)絡。
3.3訓練和優(yōu)化
構(gòu)想。深度視頻是本質(zhì)上是一個大的特征集合。為避免探索整個輸入空間,我們把訓練任務當做是在鞏固問題研究。
優(yōu)化
我們模式的政策是涵蓋所有可能的掠影路徑。目標是將反饋功能最大化。
但是計算預期牽扯到未知的環(huán)境參數(shù),讓問題變得難以處理。把任務用公式表示為部分可見的Markov決定過程,讓我們能計算樣本的相似性,其公式為REINFORCE準則。
我們用交叉熵損失函數(shù)訓練動作網(wǎng)絡,用REINFORCE訓練位置網(wǎng)絡。這兩個公式能讓我們的模式關注重要3D區(qū)域的空間和時間。
表1:數(shù)據(jù)比較。DPI-T是最新收集的數(shù)據(jù)。我們列舉了用于訓練和測試的目標,圖像和視頻的數(shù)目。測試數(shù)據(jù)在括號中。外觀特征是由一個人的衣著和長相決定的。
優(yōu)點
這兩個公式的最大優(yōu)點是能限制訓練數(shù)據(jù)。我們的模式是在掠影(例如,部分輸入)上,而不是整個視頻中進行訓練。因此,每一視頻中適用于我們模式的有效訓練實例大約有1×106到1×109。除非只輸入一個視頻,我們的模式從未見過兩個相同的訓練實例。模式受限于訓練數(shù)據(jù)的數(shù)量,但公式讓數(shù)量變得不是那么重要。
4.試驗
首先,我們描述數(shù)據(jù)集和評價指標。接著討論實驗,超參數(shù)和超參數(shù)選擇。然后是單幀和多幀人物識別的結(jié)果。最后我們會展示2D,3D,4D視覺效果圖,以及總結(jié)模式的不足之處。
4.1數(shù)據(jù)集
我們的目標是通過由深度攝像捕捉到的人體3D形狀和活動完成人物識別任務。大部分的人類RGB-D數(shù)據(jù)集都能用于人類活動分析和行為識別。因為RGB-D數(shù)據(jù)集一般是由一些主體的的姿勢構(gòu)成,所以不能用于人物識別。因此我們用一些現(xiàn)存的深度辨別數(shù)據(jù)集和收集的新數(shù)據(jù)進一步測試我們的模式。
我們用一些現(xiàn)存的深度辨認模式對我們的模式進行探究:如BIWI,IIT PAVIS和IAS-Lab。這些數(shù)據(jù)集分別包括50個人,79個人和11個人。對于BIWI,我們使用所有的訓練集和Walking測試集。對于PAVIS,我們使用Walking1 和Walking2作為訓練和測試集。對于IAS-Lab,我們使用所有的訓練集和部分測試集。
現(xiàn)存的的數(shù)據(jù)集為簡化人物識別難題增加了限制(例如,每一個人有不同的衣服,前方景象不一樣或是較慢的走路速度)。我們收集了新的數(shù)據(jù)集:從高處(DPI-T)的深度人物識別,這與此前的數(shù)據(jù)集都不一樣。
圖3:來自(DPI-T)深度人物識別的樣本圖像。每一行都是不同的人。左邊的三列是RGB映像,右邊的一列是深度映像。
為每一個人都提供更多的觀察資料。平均算來,每個人幾天之內(nèi)大概出現(xiàn)在25個視頻之內(nèi)。在這期間每個人肯定會換衣服---大概是5套左右。從圖三可以看出在我們數(shù)據(jù)集中的三個人穿著不同衣服。此外,他們的步行速度會隨著每天或是每周時間的不同而發(fā)生變化。
挑戰(zhàn)高處視角
在現(xiàn)實生活中(如便利店和醫(yī)院)的攝像頭一般會置于天花板上朝下錄像,與我們現(xiàn)存數(shù)據(jù)集中的清晰,超前或是超兩側(cè)的錄像剛好相反。這會造成自我遮擋的麻煩或是不完整的3D云再現(xiàn)。
人類一般攜帶著物體
現(xiàn)存數(shù)據(jù)集從控制的場景中收集的數(shù)據(jù)。在我們的數(shù)據(jù)集中,人們都是“在外面”,一般會帶著食物,咖啡或是筆記本。此外,由于我們收集的數(shù)據(jù)時間跨度較長,人們一般會帶著帽子,包,或是雨傘(見圖三)。
4.2評價指標
“單鏡頭”方法,一個映像一個標簽,或是“多鏡頭”方法平衡框架特征和時間特征。通過這兩個方法都能解決人物識別的問題。此外,我們會提供“單鏡頭”和“多鏡頭”的評價結(jié)果。
表2:單鏡頭的辨別表現(xiàn)。上文所提及的方法只使用了空間信息。兩種方法都有在測試集上進行過計算。數(shù)值越大越好。破折號表示沒用可用信息。(*)表示盡管這樣比較不公平,為了完整性,我們進行RGB和RGB-D方法的比較。
圖4:(a-c)漸增的曲線是在不同的數(shù)據(jù)集和模式中的測試表現(xiàn)。
4.3試驗設置
對于3D或是4D輸入,我們通過增加高斯噪音來擴大數(shù)據(jù),云圖中的每一點平均會產(chǎn)生0cm至5cm的不同。在原始或是隨機框定的0.8×和1.2×范圍內(nèi)的圖像和張量都移動了0至+/-5cm。CNN在增加的實例中比RAM先進行訓練。
4.4 基準線
單鏡頭識別。我們比較了循環(huán)模式和一些深度模式。表2向我們展示了單鏡頭識別人物的一些方法和結(jié)果:(1)我們使用統(tǒng)一隨機的方法計算表現(xiàn)。(2)四個人手動完成識別任務。每個人可看見一張測試圖片和所有的訓練數(shù)據(jù)。(3-5)框架之間的區(qū)別可看做是人工添加的特征。(6)三維的CNN模式在3D云圖中運行。(7)二維的RAM在深度圖像中運行。(8)三維RAM在3D點云中運行。(9)使用面部描述符。(10)點傾斜變焦相機對圖像不同部分變焦。(11)面部描述符在框架之間的距離連接起來。(12)在3D點云和框架距離間分數(shù)相近。
多次識別
表3列舉了一些多點方式:(1-2)使用隨機人類表現(xiàn)作為基準。(3-4)評估步態(tài)能量圖和容量。(5-6)使用手動框架距離和幀間表決系統(tǒng)。(7)一堆框架間距離(和5-6一樣)放入LSTM中。(8)隨時間平均化的一個3D CNN網(wǎng)絡。(9)在3D點云中運行的3D LSTM。(10)最終的RAM模型。(11-12)面部描述在表決系統(tǒng)中的運用。(13)一系列圖片中多重成分差異計算。(14)RGB-D點云與手動特性協(xié)同使用識別。
表3
4.5 單次識別表現(xiàn)
學會編碼能提升表現(xiàn)。
為了更好的理解表現(xiàn)的原因,我們減少了RAM輸入的維度同時評估了一個2D和3D變量。這些2D和3D模型是單次任務評估的。從2D到3D,隨著輸入維度的增加,RAM的表現(xiàn)也單調(diào)增加了(見圖4)。與之相反的是步態(tài)能量的變化(見表2)。從2D到3D,步態(tài)能力實現(xiàn)了相似的轉(zhuǎn)移,但是在高維狀態(tài)下表現(xiàn)更差。這表明我們的學會編碼的模型能從高維輸入保存相當?shù)男畔ⅲ綉B(tài)能量體沒有編碼能力則不行。
RAM比深度學習基準表現(xiàn)得要好。
為了進一步驗證我們模型的表現(xiàn),我們預估了一個3D卷積神經(jīng)網(wǎng)絡。對兩者3D CNN和3D RAM進行3D點云輸入。如表2所示,3D RAM比3D CNN要表現(xiàn)好。這個確認了我們的猜想,我們的RAM能人為夠影響提升訓練樣本數(shù)量的片段同時提高表現(xiàn)水準。
4.6 多次識別表現(xiàn)
我們的最終模型(4D RAM)比現(xiàn)有的人類基準和深度方法都要優(yōu)秀。Munaro和Barbosa都在使用框架間隔距離作為一個特性。我們在表3中列舉了一些手工特性的表現(xiàn)。結(jié)果表明這些特性不能推斷復雜的潛在變量。我們的4D RAM在表3中同樣超過了RGB-D。使用了上述框架距離特性,方法(13)計算了一個標準的3D點云表現(xiàn)。雖然方法(13)影響了RGB學習,它表明整個點云可能包含外來噪音。我們的模型能夠通過選擇包含有效學習的片段來避免噪音。
4.7重點關注區(qū)域
這是3D和4DRAM之間最大的不同之處。在3D模式下,我們的模型必須“注意”每一幀的區(qū)域。然而,在4D的模式下,我們的模型沒有這方面的要求,因為它是自由參數(shù)。我們的模型在要“注意”那些框架方面有充分的自由裁量權(quán),并可以根據(jù)需要向前和向后移動時間。我們在圖5中做出了分析。整個視頻過程中,p(? yt = y) 在變化。我們的模型不僅可以改變每個幀中一瞥的空間位置,也可以改變大小。雖然我們的模型沒有關注程度的明確概念,但它可以間接模仿概念。為了減少給對于定幀K注意力的大小,我們的模型移動一瞥中心至一個遠離K的框架。雖然每一次關注整體的“大小”是不變的,但它對K的關注量已減少。
如圖5所示,我們的模型開始于1,“盯著”人的肩膀,跳到一個不同的框架,并繼續(xù)“盯著”的肩膀。對此的解釋是我們的模型已經(jīng)學會了識別循環(huán)周期。有趣的是,生物學中證明,男性行走時肩膀表現(xiàn)出較強的旋轉(zhuǎn)位移。[46]我們模型的關注證明了這一說法。然后模型在時間點向后跳躍并且出現(xiàn)在3的底部。這表明腿運動(即步態(tài))可能提供身份的痕跡。這特別的一瞥路徑很有可能被采納,因為我們學到的政策根本沒有探索其他路徑,但我們的模型訓練過許多不同最初一憋位置的時代,以便減少這種可能性。
圖5
我們將在2D圖像上展示4D關注,圖6A顯示我們模型瞥見的路徑,注意它幾乎總是訪問一個主要的骨架關節(jié)。圖6b顯示一個注意所有像素的熱圖,它說明了不同的身體部位吸引不同程度的注意。我們的模型很容易識別獨特的鞋或頭發(fā)款式。此外,它確定了女性左邊的臀部為一個可識別區(qū)域,如生物力學文獻中所確定的[ 15 ],女性在髖關節(jié)區(qū)表現(xiàn)出強烈的橫向搖擺。對于一些女性,這一點可以成為獨特的運動標簽。
圖6
5. 結(jié)論
本文中我們介紹了一種遞歸注意力模型,它能在深度視頻中判斷并識別里面的時空和地域,進而解決人類識別問題。我們的模型從一種高維4D輸入空間學會了一種獨特的空間標記方法。通過微小的片段和解碼器來減少維度,這使得我們訓練出一種LSTM模型的遞歸網(wǎng)絡。利用在二維、三維、四維空間的輸入表現(xiàn),對我們的模型進行評估,證明我們的注意力模型已經(jīng)取得了在“多個人物識別數(shù)據(jù)組”中的最佳表現(xiàn)。并將我們的注意力模型視覺化,這為未來在計算機視覺、生物力學、生理學等領域提供了新的見解。
Via CVPR2016 Recurrent Attention Models for Depth-Based Person Identification
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。