0
本文作者: 李尊 | 2016-07-01 15:11 |
聯(lián)合編譯:陳圳、章敏、Blake
雖然相當(dāng)適合用來進行序列建模,但深度遞歸神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)缺乏直觀的高階時空架構(gòu)。計算機視覺領(lǐng)域的許多問題都固有存在高階架構(gòu),所以我們思考從這方面進行提高。在解決現(xiàn)實世界中的高階直覺計算方面,時空領(lǐng)域圖像是一個相當(dāng)流行的工具。在本文中,我們提出了一種結(jié)合高階時空圖像和遞歸神經(jīng)網(wǎng)絡(luò)的方法。我們開發(fā)了一種可隨意擴展時空圖像的辦法,這是一種正反饋、差異化高、可同步訓(xùn)練的RNN混合網(wǎng)絡(luò)。這種方法是通用的,通過一系列設(shè)定好的步驟可以將任意時空圖像進行轉(zhuǎn)化。這種估值計算能解決一系列不同的問題,從人類運動建模到物體迭代,比目前最佳的解決方案還要好一大截。我們希望這種通過高階時空圖像和遞歸神經(jīng)網(wǎng)絡(luò)的方法能夠提供新的解決方案。
1.引言
我們生活的世界本質(zhì)上是結(jié)構(gòu)化的。它包括與在空間和時間上彼此相互作用的組分,形成了一個時空結(jié)合物。在這類問題上使用這種結(jié)構(gòu)可以將高階信息注入學(xué)習(xí)框架。這一直是計算機視覺和機器學(xué)習(xí)努力的原因,比如邏輯網(wǎng)、圖片模型和結(jié)構(gòu)化SVMs。這跨越了空間和時間(時空)的結(jié)構(gòu),在計算機視覺和機器人技術(shù)社區(qū)相當(dāng)流行。首先,在現(xiàn)實世界中的人類和環(huán)境之間的相互作用是固有時空性的。例如,在烹飪的時候人類既和空間,又和時間中多個對象進行交互。同樣,人的身體(胳膊,腿等)有單獨的功能,但在實際行動中又互相合作。因此,對許多應(yīng)用來說高階的時空結(jié)構(gòu)和豐富的序列建模能力協(xié)同作用是相當(dāng)重要的。
RNNs的顯著的成功已經(jīng)證明它們能應(yīng)用到對許多端對端學(xué)習(xí)任務(wù)。雖然它們已被證明能夠?qū)﹂L序列成功建模,但它們?nèi)狈Ω唠A的和直觀的時空結(jié)構(gòu)。時空圖(ST-圖)是一種流行的用來表示這種高階的時空結(jié)構(gòu)的通用工具。圖的節(jié)點通常代表該問題的組件,并且邊緣捕捉他們時空相互作用。為了實現(xiàn)上述目標(biāo),我們開發(fā)用于轉(zhuǎn)化任意ST-圖形成RNNs的前饋混合物,命名結(jié)構(gòu)-RNN(S-RNN)的通用工具,見圖1所示。
圖1
在高階步驟中,給定一個任意的ST-圖,我們先推出它的時間分解成一組因素組件。因素共同確定一個決定,并從ST-圖形的兩邊緣和節(jié)點所來源的獨立組件。我們?nèi)缓笳Z義組因子部件和表示使用一個RNN,這導(dǎo)致所需RNN混合物。這種轉(zhuǎn)變問題的主要挑戰(zhàn)是:1)使RNN混合盡可能豐富,學(xué)習(xí)復(fù)雜的功能,2)相對于輸入ST-圖的大小保持RNN混合可擴展,為了使所得RNN混合物豐富,我們代表每個時空因子(包括節(jié)點的因素,邊的因素,和時空邊緣因子)利用每一個RNN。在另一方面,為了保持整體的混合物可擴展,但不能失去必要的學(xué)習(xí)能力,我們利用“因素共享”,并允許類似語義的功能要素共享一個RNN。這導(dǎo)致RNNs的前饋混合物豐富且可擴展,它等效于在輸入、輸出和時空關(guān)系方面所提供的ST-曲線圖。該混合物也完全差異化的,可以共同作為一個實體和擴展的構(gòu)筑。
該方法是原則性通用的,它是適用于可以配制為ST-圖。以前幾個工作已經(jīng)試圖解決在使用RNNs的集合,但是它們幾乎一致沒有任務(wù)特定的具體問題。為了分解或要素共享機制,也沒有利用在制定他們的架構(gòu),以確保豐富性和可擴展性相似。
S-RNN也是模型化的,它的根本也是一個高階架構(gòu)。
本文的主要貢獻在于:
l 提出一個通用處理辦法,對于時空圖設(shè)計了豐富、可拓展、可同步訓(xùn)練的RNN混合網(wǎng)絡(luò)。
l S-RNN比未架構(gòu)RNN的表現(xiàn)要顯著提高。
l 為了和RNN進行比較,針對幾個時空圖像問題對S-RNN的表現(xiàn)與無深度構(gòu)架網(wǎng)絡(luò)進行對比,S-RNN表現(xiàn)優(yōu)異。
2. 相關(guān)工作
我們對相關(guān)內(nèi)容進行分類概述。大體來說,我們的工作與現(xiàn)有的科技有三個主要區(qū)別:第一是我們是通用不限制與某個特定問題的,第二是提供了一個為了豐富RNN轉(zhuǎn)移的一個方法。
時空問題
在機器人和計算機視覺領(lǐng)域,需要時間和空間推理來解決的問題非常普遍。包括人類互動視頻,模擬人類運動等。事實上,大多數(shù)我們的日?;顒釉诒举|(zhì)上是時空之間。隨著豐富的交互和機器人技術(shù)不斷增長,這種形式的推理將變得更加重要。我們評估三個時空問題,:(一)人體運動模擬(二)人體對象交互理解(三)驅(qū)動預(yù)期。
深度構(gòu)架混合
以前的工作大多基于建立多個網(wǎng)絡(luò)和以捕捉,如活動檢測,場景標(biāo)簽,圖像字幕和目標(biāo)檢測等。然而,這樣的架構(gòu)大多是設(shè)計來處理具體問題,雖然他們展示采用模型深度架構(gòu)也十分受益。在另一方面,遞歸神經(jīng)網(wǎng)絡(luò)是通用的前饋結(jié)構(gòu)。我們的工作是為時空圖問題提供補救措施。
深度圖像模型學(xué)習(xí)
針對架構(gòu)預(yù)測任務(wù),許多工作都將圖像模型添加到深度網(wǎng)絡(luò)中。Bengio等人將CNNs和HMM結(jié)合起來用來進行手寫識別。Tomposon等人主要將CNN和MRF用來人類姿勢預(yù)估。Chen等人使用和MRF差不多的相似圖像分類。
圖2:人類活動的時空圖像。(a)時空圖像記錄人與物體之間的互動。(b)通過邊緣展開時空圖像,節(jié)點和邊緣都由與其相關(guān)的特征向量進行標(biāo)注。(c)時空圖的因子圖參數(shù)化。
最近的一些研究通過完全連接的CRF模式解決了端對端圖像分割。一些研究則使用兩步走的方法及在CRF中減弱深度網(wǎng)絡(luò)。這些方法曾用于解決多種問題如圖像分割,姿勢評價及文件分析。所有的研究都提倡也展示了在有深層結(jié)構(gòu)中探索有問題的結(jié)構(gòu)。但是,他們不解決時空問題,并且認為結(jié)構(gòu)問題是有具體任務(wù)指向的。
條件隨機場模式(CRF)通過學(xué)習(xí)共同的分布,其附屬領(lǐng)域位于輸入之間。他們被運用于許多應(yīng)用程序,包括通常被作為用于時空CRF模式的時空圖像。在我們的方法中,我們采用時空圖像作為一般圖像的表示方法,并使用RNN復(fù)合結(jié)構(gòu)進行具像化。與CRF不同的是,我們的方法是有概率性的,并且也不會在輸出之間的共同分布進行建模。S-RNN通過RNNs在輸出之間的結(jié)構(gòu)分享學(xué)習(xí)輸出之間的相關(guān)性。
3.S-RNN結(jié)構(gòu)
在本段,我們會描述建立S-RNN(Structual RNN)的方法。我們首先以時間空間圖像開始,然后用RNN代表每一個因子。RNN模式是通過能捕捉時間空間圖像構(gòu)造和相互聯(lián)系的結(jié)構(gòu)聯(lián)系起來的。
3.1 時間空間圖像的表現(xiàn)。
許多運用程序要求時空圖像推理過程是使用時空圖像建模的。圖2a展示了在活動中人與物之間相互聯(lián)系的時空圖片。圖2b展示的是按照時間順序展開的時空圖像。在人與物的互動中,節(jié)點的特征能通過物體和人的姿勢進行表示,邊緣能確定他們的方向。節(jié)點標(biāo)簽表示人的活動以及功能可見性。標(biāo)簽yvt 會受到節(jié)點及節(jié)點之間的互動影響,從而導(dǎo)致系統(tǒng)混亂。此類互動會參數(shù)化成因子圖,進而能把時空圖的復(fù)雜函數(shù)參數(shù)化成簡單的函數(shù)。我們能從時空圖的因子圖表示中得出S-RNN模式。圖2c展示的是圖2a相對應(yīng)的因子圖。
分享節(jié)點之間的因子
在時空圖中的每一個因子都有參數(shù),且需要我們了解。不是通過學(xué)習(xí)每一個節(jié)點的特征,語義上相似的節(jié)點能隨意地分享因子。例如所有在時空圖中的“物體節(jié)點”{v, w}都能分享共同的節(jié)點因子和參數(shù)。這一建模選擇能加強相似節(jié)點之間的分享。同時也能在不增加參數(shù)的情況下,進一步加強通過節(jié)點處理時空圖片的靈活性。
根據(jù)語義分割節(jié)點會導(dǎo)致自然語義的邊緣分割。在所有“人與物的邊緣”{(v, w),(v, w)}是通過相同的邊緣因子建模的?;谡Z義的分享因子能讓參數(shù)化更緊密。實際上,分享參數(shù)對于解決節(jié)點是基于實際情況的應(yīng)用十分關(guān)鍵。例如,在所有的人與物之間的互動中物體節(jié)點的數(shù)量會隨著環(huán)境的變化而發(fā)生改變。因此在沒有節(jié)點之間的參數(shù)情況下,模式不能適應(yīng)有更多物體的環(huán)境。對于建模的靈活性,邊緣因子不會跨邊緣分享。
我們將節(jié)點因子和邊緣因子定義為鄰居,因為它們能共同影響時空圖像中的節(jié)點標(biāo)簽。我們將會在構(gòu)建S-RNN中使用這一定義,因為它能在時空圖像中捕捉相互互動。
圖3.S-RNN的時空圖片。(a)圖2的時空圖用彩色重新進行了繪制,暗示節(jié)點因子和邊緣因子之間的分享。相同顏色之間的節(jié)點因子和邊緣因子會進行分享。所有的因子一共有6種,2種節(jié)點因子和4種邊緣因子。(b)S-RNN結(jié)構(gòu)中的每一個因子都有一個RNN。節(jié)點RNNs和邊緣RNNs 會連接起來形成一個雙向圖。
3.2 來自時空圖片的S-RNN
我們從時空圖的因子圖片中能得出S-RNN結(jié)構(gòu)。時空圖中的因子會按照時間順序運行,且每一步因子都會觀察(節(jié)點和邊緣)的特征,并且會在這些特征上進行運算。在S-RNN中,我們會用一個RNN代表一個因子。我們會把從節(jié)點因子得到的RNNs指代為nodeRNNs,把從邊緣因子中得出的RNNs指代為edgeRNNs。由時空圖表示的相互互動是通過nodeRNNs和edgeRNNs之間的聯(lián)系進行記錄的。
在算法1中,我們能看到建立S-RNN的方法。圖3b展示了用于表示人類活動的S-RNN通過圖3b再一次進行展示。節(jié)點S-RNN聯(lián)合邊緣S-RNN的輸出,而這些輸出是用于預(yù)測節(jié)點標(biāo)簽的。節(jié)點RNNs的預(yù)測能通過邊緣RNNs相互發(fā)生作用。每一個邊緣RNN能處理在時空圖中有聯(lián)系的節(jié)點之間的一個特殊語義關(guān)系。
3.3 訓(xùn)練S-RNN模式
為訓(xùn)練S-RNN模式,每一個時空圖節(jié)點的特征都與節(jié)點連接起來進入S-RNN結(jié)構(gòu)中。在訓(xùn)練時,在預(yù)測中的錯誤能通過向前傳播的節(jié)點RNN和邊緣RNN進行反向傳播。在此方法中,為預(yù)測節(jié)點標(biāo)簽,S-RNN會對節(jié)點和邊緣的特征進行非線性連接。
圖4:向前傳播的人類節(jié)點v展示了與圖3相對應(yīng)的結(jié)構(gòu)分布。
圖3展示的是通過S-RNN向前傳播的人類節(jié)點。圖4展示的是相同向前傳播的結(jié)構(gòu)細節(jié)。特征的集合與連接相反,對于解決有易變但卻有固定結(jié)構(gòu)的物體節(jié)點十分重要。因為物體節(jié)點計算會隨著環(huán)境變化而發(fā)生變化,所以用固定長度的向量特征表示可變環(huán)境極具挑戰(zhàn)性。依經(jīng)驗來看,增加特征比合并均值更有用。我們推測增加部分會維持目標(biāo)計算和時空圖像特征,而合并均值會平衡邊緣數(shù)。
參數(shù)共享及構(gòu)建的特征空間。S-RNN模式的一個重要方面是跨越節(jié)點標(biāo)簽的參數(shù)分享。當(dāng)RNN在向前傳播時,節(jié)點標(biāo)簽之間的會進行參數(shù)分享。
圖5。不同的時空人物。我們使用S-RNN去跟蹤3種不同的時空問題。
4.實驗
為保證S-RNN的通用性,我們展示了三個不同的時空問題,如圖5所示。這一運用包括:(i)基于活動數(shù)據(jù)對人類活動進行建模;(ii)人類活動的探測和預(yù)測;(iii)基于現(xiàn)實世界數(shù)據(jù)進行預(yù)期假設(shè)。
4.1 對人類活動進行建模和預(yù)測
人類的身體是分開但卻聯(lián)系緊密部分的典型代表。人類活動包括不同部分(如胳膊,腿,脊椎)之間復(fù)雜的時空作用,而這會導(dǎo)致可見的移動,如走路,吃飯等。在此實驗中,我們用復(fù)雜的時空圖片代表人的活動,并試著用S-RNN進行建模。從活動中收集數(shù)據(jù)再進行活動預(yù)測這一方面,我們建模方法超過其他未進行建模的深層結(jié)構(gòu)。此外一些方法曾基于高斯法,玻爾茲曼法(RNMs)和RNN對人類活動進行過探索。最近,F(xiàn)ragkiadaki等其他人提議進行編碼—RNN—解碼方法進行探索,因為此方法曾取得較好的預(yù)測數(shù)據(jù)。
用于人類活動的S-RNN結(jié)構(gòu)
S-RNN結(jié)構(gòu)是按照圖5的時空圖流程運行的,見圖5a。據(jù)圖可是,脊椎是身體所有部分的相互作用,胳膊和腿相互作用。時空圖會自動轉(zhuǎn)化為S-RNN結(jié)構(gòu),見3.2部分。S-RNN對身體的每一個部分(胳膊,腿,脊椎)標(biāo)上3個節(jié)點RNN,對于時空圖之間的相互作用建模會標(biāo)上4個邊緣節(jié)點,而他們之間的時空聯(lián)系會標(biāo)上3個邊緣RNN。對于邊緣RNN和節(jié)點RNN我們分別使用FC(256)-FC(256)-LSTM(512)和LSTM(512)-FC(256)-FC(100)-FC(·)結(jié)構(gòu),并且跳過了輸入和輸出之間的關(guān)系。節(jié)點RNN是不同身體部分的框架連接。為在訓(xùn)練時在動作捕捉時增加噪音。而這會刺激課程學(xué)習(xí)并能幫助預(yù)測動作與人類動作相符。
圖6:預(yù)測測試對象的飲食活動。在非周期性行為中,ERD和LSTM-3LR努力的模仿人類行為。S-RNN,另一方面,在短期內(nèi)模擬地面實況,并且長期產(chǎn)生類似人類的行為 。在沒有(w/o)edgeRNNs情況下,行為在一些預(yù)定站著的位置上凍結(jié)了。見視頻。
我們聯(lián)合訓(xùn)練RNNs,以便最小化預(yù)測捕獲幀和地面實況之間的歐幾里得幾何學(xué)的損耗。訓(xùn)練的細節(jié)見項目網(wǎng)頁補充材料。
評估體系
我們在H3.6m動作捕捉數(shù)據(jù)集中將S-RNN和最先進的ERD結(jié)構(gòu)進行了對比。同時也與3層LSTM架構(gòu)進行了比較(LSTM-3LR),這被用來作基線。為了預(yù)測運動,我們遵循[ 14 ]中的實驗設(shè)置。兩次向下采樣H3.6,并且在項目6中訓(xùn)練,在項目S5中測試。為了預(yù)測,我們首先將初始捕獲幀注入結(jié)構(gòu)中,然后預(yù)測未來的幀。緊接著,我們考慮了行走,飲食,和抽煙行為。除了這三個,還考慮了討論行為。
預(yù)測人類非周期性的行為是非常具有挑戰(zhàn)性的任務(wù)
在H3.6數(shù)據(jù)集中,飲食、吸煙和討論作為的重要組成部分是非周期性的,而行走行為大部分是周期性的。我們在三個方面表明了擁有一個基礎(chǔ)結(jié)構(gòu)的好處:(i)對于復(fù)雜的非周期性運動,我們提出了可視化和定量化的結(jié)果。(ii)我們預(yù)測人類行為的時間比最高的水準(zhǔn)還要長兩倍。對于非周期性活動,這非常具有挑戰(zhàn)性的;(iii)我們展現(xiàn)了S-RNN非常有趣的學(xué)習(xí)語義概念,并且通過混合人體行為展示其模塊性。非結(jié)構(gòu)化的深層結(jié)構(gòu),如[ 14 ]不具備這樣的模塊化。
表1運動預(yù)測角度誤差。初始運動1毫秒后。平均結(jié)果超過了8個測試項目上,每個活動的初始運動序列。
運動預(yù)測的定性結(jié)果
圖6顯示了預(yù)測1000ms內(nèi)人類“飲食”的行為——散步時喝飲料的項目。S-RNN短期內(nèi)保持近似地面實況,并長期產(chǎn)生類似人類行為。移除edgernns,人體身體部分變得獨立,并通過參數(shù)停止相互作用。因此,沒有edgRNN的骨架,在一些預(yù)定的位置會凍結(jié)。LSTM-3LR面臨漂移問題。在很多測試實例中它漂移到了人類行走的平均位置。ERD產(chǎn)生的行為在短時間內(nèi)保持類似于人類,但在長時間時,它漂移到不像人類的行為。與S-RNN不同,在復(fù)雜的非周期性活動中,這是ERD常見的結(jié)果。此外,在許多測試實例中ERD產(chǎn)生的人類行為并不流暢。更多實例見項目網(wǎng)頁。
定量評價
我們遵循Fragkiadaki等人的評價指標(biāo),并在表1的預(yù)測捕獲幀和地面實況之間提出了3D角度誤差。ERD模擬人類運動在質(zhì)量方面比LSTM-3LR要好。然而在短期內(nèi),它模仿地面的實況沒有LSTM-3LR效果好。Fragkiadaki 等人同樣注意到了ERD和LSTM-3LR之間的權(quán)衡。另一方面,S-RNN在短期內(nèi)預(yù)測行為的效果比LSTM-3LR和ERD都要好。所以S-RNN在短時間內(nèi)模擬地面實況,并在長時間內(nèi)產(chǎn)生人類的行為。以這種方式,它能夠很好地處理短期和長期預(yù)測。由于人體行為的隨機性、根據(jù)地面實況的長期預(yù)測(>500ms)會變得顯著不同,但它仍然可以描繪人類的行為。鑒于這個原因,表1中的長期預(yù)測數(shù)據(jù)并不能有效的代表算法的建模能力。同時,我們也觀察到討論對于算法來說是最具挑戰(zhàn)性的非周期運動。
圖7S-RNN記憶細胞可視化。當(dāng)腿向前運動時,(左)腿部nodeRNN的一個細胞激勵。(右)將手靠近臉時,手臂nodeRNN的一個細胞激勵。我們在飲食和抽煙活動中假設(shè)了相同的細胞(見視頻)。
用戶研究
我們要求用戶動的速率運在1至3李克特量表之間。據(jù)用戶研究,S-RNN表現(xiàn)的最好。結(jié)果見補充材料。
總結(jié)
非結(jié)構(gòu)化方法如LSTM-3LR和ERD,努力在復(fù)雜的行為方面,模擬更長時間的人類運動。S-RNN的良好性能,歸功于它的結(jié)構(gòu)是通過底層st-圖模擬人類的行為。S-RNN用nodeRNN分別模擬身體的每一個部分,并且用edgeRNNs捕獲它們之間的相互運動,以便產(chǎn)生相干運動。
4.2.深入RNN結(jié)構(gòu)
我們現(xiàn)在展示幾個S-RNN結(jié)構(gòu)的內(nèi)部視圖,并演示結(jié)構(gòu)的模塊化,確保它能夠產(chǎn)生混合的人體運動。
記憶細胞的可視化 。我們研究了S-RNN記憶細胞是否能夠代表有意義的語義替代運動。有人在更早的問題中研究了語義細胞。圖7中展示了,腿部nodeRNN的一個細胞學(xué)習(xí)向前移動的語義行為。腿向前移動時細胞積極的激勵(紅色)和向后運動時消極的激勵(藍色)。當(dāng)主體先前運動時,細胞選擇左腿和右腿的激勵。右腿更長時間的運動,對應(yīng)了右腿需要更長執(zhí)行的步驟。同樣的,圖7中展示了,手臂nodeRNN的一個細胞學(xué)習(xí)把手靠近臉概念的過程。主體在飲食或者抽煙時將手靠近臉細胞激勵是一樣的。只要手緊貼臉部,細胞就保持活躍。見視頻。
生成混合人體運動
我們通過生成新的尚未有意義,而且不在數(shù)據(jù)集中的行為。展示模塊化架構(gòu)的靈活性,這種模塊化是有趣的,而且它已被探討用于產(chǎn)生不同的行為風(fēng)格。由于存在一個潛在的高層結(jié)構(gòu),我們的方法允許在RNNs和S-RNN之間,交換不同運動風(fēng)格的訓(xùn)練結(jié)構(gòu)。利用該優(yōu)勢,我們創(chuàng)建了一個新的S-RNN結(jié)構(gòu),它產(chǎn)生了人類用單腳先前跳躍的混合行為,如圖8所示。為了該試驗,我們使用了不同的nodeRNNS模擬左腿和右腿。我們訓(xùn)練了兩個獨立的S-RNN模型–一個更慢的和一個更快的模型(通過向下采樣數(shù)據(jù))–然后換左腿nodeRNN訓(xùn)練模型。由此產(chǎn)生一個有著更慢的左腿卻更快的人,用左腳向前跳躍,以便跟上比它快兩倍的右腿。非結(jié)構(gòu)化的結(jié)構(gòu)如ERD,不具備這種靈活性。
圖8(右)用迭代次數(shù)檢查了測試和訓(xùn)練誤差。S-RNN和ERD都收斂到了相似的訓(xùn)練誤差,然而,S-RNN推廣的更好,因為進行下一步預(yù)測時它有著更小的測試誤差。補充中進行了討論。
圖8(左)生成混合行為(見視頻)我們通過“人單腳向前跳躍”的混合行為,展示了S-RNN的靈活性。(右)訓(xùn)練和測試誤差。由于有著更小的測試誤差,S-RNN比ERD推廣的更好。
4.3 人類活動檢測與預(yù)測
在該部分提出了S-RNN用于模擬人類行為。我們考慮了CAD-120數(shù)據(jù)集,它涉及豐富的人類對象相互作用活動。每個活動包括一系列的子活動(如運動、飲酒等)和對象功能可視性(例如,可觸性,飲用性等),它能隨著活動進程而演變。檢測和預(yù)測的子活動及功能可見性確保了私人機器人去幫助人類。然而,這問題是具有挑戰(zhàn)性的,因為它涉及復(fù)雜的相互作用——在活動過程中人類與多個對象相互影響,對象之間也相互作用(例如,將水從“玻璃”倒進一個“容器”),這使得它非常適合來評估我們的方法。Koppula等人用ST圖表示了這種豐富的時空相互作用,如圖5b所示的,并且用時空CRF模擬它。在實驗中,我們展示了用S-RNN收益量模擬相同的st圖會產(chǎn)生卓越的結(jié)果。其中,我們使用了[29]中的節(jié)點和邊緣功能。
圖3b顯示了我們的S-RNN結(jié)構(gòu)模擬st圖。由于對象的數(shù)目隨環(huán)境變化,對象節(jié)點和人類的物體邊緣之間的因子共享變得至關(guān)重要。在S-RNN中,Rv2和RE1分別處理所有的對象節(jié)點和人類對像邊緣。這使得固定S-RNN架構(gòu)可以處理不同大小的ST圖。對于edgeRNNs,我們使用了一個大小為128的單獨層LSTM。每一步,人類nodeRNN都會輸出子活動標(biāo)簽(10級),并且項目nodeRNN會輸出功能的可見性(12級)。觀察ST圖至?xí)r間t,我們的目標(biāo)是檢測在目前時間t的子活動和可見性功能標(biāo)簽。并預(yù)測他們在時間步長為T + 1的標(biāo)簽。為了檢測,我們在當(dāng)前時間步長的標(biāo)簽訓(xùn)練S-RNN。給定觀測點為當(dāng)前時間,為了預(yù)測,我們訓(xùn)練結(jié)構(gòu)預(yù)測下一步的標(biāo)簽 。我們還培養(yǎng)了多任務(wù)版本的S-RNN,在每個nodeRNN中加入了兩個softmax層,并且聯(lián)合訓(xùn)練以便預(yù)測和檢測。
表2:真實世界中1100英里預(yù)測的移動數(shù)據(jù)。S-RNN來自圖5c中顯示的ST圖。Jain等人使用了相同的st圖,但他們是在AIO-HMM的概率框架中進行模擬。這個表格顯示了平均精度,召回和時間-動作。時間-動作區(qū)間在算法預(yù)測時間和行動開始時間之間。算法的特征比較來自于[22].
表3。CAD-120的結(jié)果。S-RNN結(jié)構(gòu)來自圖5b的st圖,它優(yōu)于Koppula等人的結(jié)構(gòu),在概率框架中模擬了相同的st圖。S-RNN在多任務(wù)設(shè)置(聯(lián)合檢測和預(yù)期)中進一步提高了性能。
圖9:CAD-120中飲食活動的定性結(jié)果。顯示了多任務(wù)S-RNN的檢測和預(yù)期結(jié)果。為了使子活動在時間t,標(biāo)簽的預(yù)測是在時間t- 1。(放大以便看清圖像)
表3顯示檢測和預(yù)期的F1平均分?jǐn)?shù)超過了所有的級。S-RNN在預(yù)測和檢測兩方面顯著的提高超越了Koppula等人。在預(yù)測對象可見性功能方面S-RNN的F1分?jǐn)?shù)比[31]多44%,在檢測方面多7%。S-RNN沒有任何像時空CRF的馬爾科夫假設(shè),因此,它能更好的模擬預(yù)測所需的長期依賴。該表還展示了edGERNNs在處理時空組件方面的重要性。EdgeRNN在人和物體之間傳輸信息,這有助于預(yù)測對象標(biāo)簽。因此,沒有edgeRNNs的S-RNN很難模擬物體。這意味著edgeRNNs的重要性,同時也驗證了我們的設(shè)計。最后,在大多數(shù)案例中,以多任務(wù)的方式訓(xùn)練S-RNN,效果是最好的。圖9中我們展示了飲食活動的可視化。我們從在每個子活動和相對應(yīng)的預(yù)測中展示了一個代表性的幀。
S-RNN的復(fù)雜性
在復(fù)雜性方面,我們討論了兩點作為基礎(chǔ)st圖的函數(shù):(i)混合中RNNs的數(shù)量。(ii)向前-通過的復(fù)雜性。RNNs的數(shù)量取決于st圖中相似的語義點數(shù)量。S-RNN的整體結(jié)構(gòu)是緊湊的,因為edgeRNNs和nodeRNNs是共享的,而且在內(nèi)容豐富的應(yīng)用中,語義的種類通常很少。此外,由于因素共享,如果在st圖中加入了更多相似的語義點,RNNs的數(shù)量并不會增加。向前-通過的復(fù)雜性取決于RNNs的數(shù)量。由于向前-通過貫穿了整個edgeRNNs,并且nodeRNNS能夠平行發(fā)生,實踐中的復(fù)雜度僅僅取決于兩個神經(jīng)網(wǎng)絡(luò)的級聯(lián)(nodeRNN緊隨edgeRNN)。
4.4司機行動預(yù)測
我們最后提出了S-RNN的另一個應(yīng)用,它涉及在行為發(fā)生之前,預(yù)測幾秒鐘后的行動。Jain等人用圖5c中的st圖代表了該問題。他們將st圖模擬成一個概率貝葉斯網(wǎng)絡(luò)(AIO-HMM [ 22 ])。St圖代表了車外的觀察資料(例如路的特征),司機的行動,和車內(nèi)的觀察資料(例如司機的面部特征)之間的相互作用。我們使用了從Jain等人獲得的點和邊緣特征,模擬相同S-RNN結(jié)構(gòu)的st圖。表2顯示了該任務(wù)中不同算法的性能。在每任何設(shè)定下,S-RNN的性能都好于最先進的AIO-HMM。討論和細節(jié)見補充材料。
本文提出了一個通用的原則性方法,用來結(jié)合高層次時空圖和序列成功建模RNNs。我們利用因子圖,和因子共享以獲得一個RNN混合物。它是可擴展的,并且適用于任何st圖問題的表達。我們的RNN混合在底層的st圖中,捕獲了豐富的相互作用。而且在三個不同的時空問題中,我們的S-RNN表現(xiàn)了出顯著的改善:(i) 人類行為模擬。(ii)人類-物體相互作用。(iii)司機行動預(yù)測。我們通過可視化記憶細胞,展示S-RNN學(xué)習(xí)特定語義子運動,并且通過生成新的人類行為,展示其模塊化。
via CVPR2016
題圖來自 ExtemeTech
PS : 本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。