丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國(guó)際 正文
發(fā)私信給李尊
發(fā)送

0

斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展 | CVPR2016最佳學(xué)生論文詳解

本文作者: 李尊 2016-07-01 15:11
導(dǎo)語:最新CVPR2016最佳學(xué)生論文,深度學(xué)習(xí)還能進(jìn)一步拓展? 斯坦福AI實(shí)驗(yàn)室又一力作

結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò): 時(shí)空領(lǐng)域圖像中的深度學(xué)習(xí)

聯(lián)合編譯:陳圳、章敏、Blake

摘要

雖然相當(dāng)適合用來進(jìn)行序列建模,但深度遞歸神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)缺乏直觀的高階時(shí)空架構(gòu)。計(jì)算機(jī)視覺領(lǐng)域的許多問題都固有存在高階架構(gòu),所以我們思考從這方面進(jìn)行提高。在解決現(xiàn)實(shí)世界中的高階直覺計(jì)算方面,時(shí)空領(lǐng)域圖像是一個(gè)相當(dāng)流行的工具。在本文中,我們提出了一種結(jié)合高階時(shí)空?qǐng)D像和遞歸神經(jīng)網(wǎng)絡(luò)的方法。我們開發(fā)了一種可隨意擴(kuò)展時(shí)空?qǐng)D像的辦法,這是一種正反饋、差異化高、可同步訓(xùn)練的RNN混合網(wǎng)絡(luò)。這種方法是通用的,通過一系列設(shè)定好的步驟可以將任意時(shí)空?qǐng)D像進(jìn)行轉(zhuǎn)化。這種估值計(jì)算能解決一系列不同的問題,從人類運(yùn)動(dòng)建模到物體迭代,比目前最佳的解決方案還要好一大截。我們希望這種通過高階時(shí)空?qǐng)D像和遞歸神經(jīng)網(wǎng)絡(luò)的方法能夠提供新的解決方案。

 1.引言

我們生活的世界本質(zhì)上是結(jié)構(gòu)化的。它包括與在空間和時(shí)間上彼此相互作用的組分,形成了一個(gè)時(shí)空結(jié)合物。在這類問題上使用這種結(jié)構(gòu)可以將高階信息注入學(xué)習(xí)框架。這一直是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)努力的原因,比如邏輯網(wǎng)、圖片模型和結(jié)構(gòu)化SVMs。這跨越了空間和時(shí)間(時(shí)空)的結(jié)構(gòu),在計(jì)算機(jī)視覺和機(jī)器人技術(shù)社區(qū)相當(dāng)流行。首先,在現(xiàn)實(shí)世界中的人類和環(huán)境之間的相互作用是固有時(shí)空性的。例如,在烹飪的時(shí)候人類既和空間,又和時(shí)間中多個(gè)對(duì)象進(jìn)行交互。同樣,人的身體(胳膊,腿等)有單獨(dú)的功能,但在實(shí)際行動(dòng)中又互相合作。因此,對(duì)許多應(yīng)用來說高階的時(shí)空結(jié)構(gòu)和豐富的序列建模能力協(xié)同作用是相當(dāng)重要的。

RNNs的顯著的成功已經(jīng)證明它們能應(yīng)用到對(duì)許多端對(duì)端學(xué)習(xí)任務(wù)。雖然它們已被證明能夠?qū)﹂L(zhǎng)序列成功建模,但它們?nèi)狈Ω唠A的和直觀的時(shí)空結(jié)構(gòu)。時(shí)空?qǐng)D(ST-圖)是一種流行的用來表示這種高階的時(shí)空結(jié)構(gòu)的通用工具。圖的節(jié)點(diǎn)通常代表該問題的組件,并且邊緣捕捉他們時(shí)空相互作用。為了實(shí)現(xiàn)上述目標(biāo),我們開發(fā)用于轉(zhuǎn)化任意ST-圖形成RNNs的前饋混合物,命名結(jié)構(gòu)-RNN(S-RNN)的通用工具,見圖1所示。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖1

在高階步驟中,給定一個(gè)任意的ST-圖,我們先推出它的時(shí)間分解成一組因素組件。因素共同確定一個(gè)決定,并從ST-圖形的兩邊緣和節(jié)點(diǎn)所來源的獨(dú)立組件。我們?nèi)缓笳Z義組因子部件和表示使用一個(gè)RNN,這導(dǎo)致所需RNN混合物。這種轉(zhuǎn)變問題的主要挑戰(zhàn)是:1)使RNN混合盡可能豐富,學(xué)習(xí)復(fù)雜的功能,2)相對(duì)于輸入ST-圖的大小保持RNN混合可擴(kuò)展,為了使所得RNN混合物豐富,我們代表每個(gè)時(shí)空因子(包括節(jié)點(diǎn)的因素,邊的因素,和時(shí)空邊緣因子)利用每一個(gè)RNN。在另一方面,為了保持整體的混合物可擴(kuò)展,但不能失去必要的學(xué)習(xí)能力,我們利用“因素共享”,并允許類似語義的功能要素共享一個(gè)RNN。這導(dǎo)致RNNs的前饋混合物豐富且可擴(kuò)展,它等效于在輸入、輸出和時(shí)空關(guān)系方面所提供的ST-曲線圖。該混合物也完全差異化的,可以共同作為一個(gè)實(shí)體和擴(kuò)展的構(gòu)筑。

該方法是原則性通用的,它是適用于可以配制為ST-圖。以前幾個(gè)工作已經(jīng)試圖解決在使用RNNs的集合,但是它們幾乎一致沒有任務(wù)特定的具體問題。為了分解或要素共享機(jī)制,也沒有利用在制定他們的架構(gòu),以確保豐富性和可擴(kuò)展性相似。

S-RNN也是模型化的,它的根本也是一個(gè)高階架構(gòu)。

本文的主要貢獻(xiàn)在于:

l 提出一個(gè)通用處理辦法,對(duì)于時(shí)空?qǐng)D設(shè)計(jì)了豐富、可拓展、可同步訓(xùn)練的RNN混合網(wǎng)絡(luò)。

l S-RNN比未架構(gòu)RNN的表現(xiàn)要顯著提高。

l 為了和RNN進(jìn)行比較,針對(duì)幾個(gè)時(shí)空?qǐng)D像問題對(duì)S-RNN的表現(xiàn)與無深度構(gòu)架網(wǎng)絡(luò)進(jìn)行對(duì)比,S-RNN表現(xiàn)優(yōu)異。

2. 相關(guān)工作

我們對(duì)相關(guān)內(nèi)容進(jìn)行分類概述。大體來說,我們的工作與現(xiàn)有的科技有三個(gè)主要區(qū)別:第一是我們是通用不限制與某個(gè)特定問題的,第二是提供了一個(gè)為了豐富RNN轉(zhuǎn)移的一個(gè)方法。

時(shí)空問題

在機(jī)器人和計(jì)算機(jī)視覺領(lǐng)域,需要時(shí)間和空間推理來解決的問題非常普遍。包括人類互動(dòng)視頻,模擬人類運(yùn)動(dòng)等。事實(shí)上,大多數(shù)我們的日?;顒?dòng)在本質(zhì)上是時(shí)空之間。隨著豐富的交互和機(jī)器人技術(shù)不斷增長(zhǎng),這種形式的推理將變得更加重要。我們?cè)u(píng)估三個(gè)時(shí)空問題,:(一)人體運(yùn)動(dòng)模擬(二)人體對(duì)象交互理解(三)驅(qū)動(dòng)預(yù)期。

深度構(gòu)架混合

以前的工作大多基于建立多個(gè)網(wǎng)絡(luò)和以捕捉,如活動(dòng)檢測(cè),場(chǎng)景標(biāo)簽,圖像字幕和目標(biāo)檢測(cè)等。然而,這樣的架構(gòu)大多是設(shè)計(jì)來處理具體問題,雖然他們展示采用模型深度架構(gòu)也十分受益。在另一方面,遞歸神經(jīng)網(wǎng)絡(luò)是通用的前饋結(jié)構(gòu)。我們的工作是為時(shí)空?qǐng)D問題提供補(bǔ)救措施。

深度圖像模型學(xué)習(xí)

針對(duì)架構(gòu)預(yù)測(cè)任務(wù),許多工作都將圖像模型添加到深度網(wǎng)絡(luò)中。Bengio等人將CNNs和HMM結(jié)合起來用來進(jìn)行手寫識(shí)別。Tomposon等人主要將CNN和MRF用來人類姿勢(shì)預(yù)估。Chen等人使用和MRF差不多的相似圖像分類。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖2:人類活動(dòng)的時(shí)空?qǐng)D像。(a)時(shí)空?qǐng)D像記錄人與物體之間的互動(dòng)。(b)通過邊緣展開時(shí)空?qǐng)D像,節(jié)點(diǎn)和邊緣都由與其相關(guān)的特征向量進(jìn)行標(biāo)注。(c)時(shí)空?qǐng)D的因子圖參數(shù)化。

最近的一些研究通過完全連接的CRF模式解決了端對(duì)端圖像分割。一些研究則使用兩步走的方法及在CRF中減弱深度網(wǎng)絡(luò)。這些方法曾用于解決多種問題如圖像分割,姿勢(shì)評(píng)價(jià)及文件分析。所有的研究都提倡也展示了在有深層結(jié)構(gòu)中探索有問題的結(jié)構(gòu)。但是,他們不解決時(shí)空問題,并且認(rèn)為結(jié)構(gòu)問題是有具體任務(wù)指向的。

條件隨機(jī)場(chǎng)模式(CRF)通過學(xué)習(xí)共同的分布,其附屬領(lǐng)域位于輸入之間。他們被運(yùn)用于許多應(yīng)用程序,包括通常被作為用于時(shí)空CRF模式的時(shí)空?qǐng)D像。在我們的方法中,我們采用時(shí)空?qǐng)D像作為一般圖像的表示方法,并使用RNN復(fù)合結(jié)構(gòu)進(jìn)行具像化。與CRF不同的是,我們的方法是有概率性的,并且也不會(huì)在輸出之間的共同分布進(jìn)行建模。S-RNN通過RNNs在輸出之間的結(jié)構(gòu)分享學(xué)習(xí)輸出之間的相關(guān)性。

3.S-RNN結(jié)構(gòu)

在本段,我們會(huì)描述建立S-RNN(Structual RNN)的方法。我們首先以時(shí)間空間圖像開始,然后用RNN代表每一個(gè)因子。RNN模式是通過能捕捉時(shí)間空間圖像構(gòu)造和相互聯(lián)系的結(jié)構(gòu)聯(lián)系起來的。

3.1 時(shí)間空間圖像的表現(xiàn)。

許多運(yùn)用程序要求時(shí)空?qǐng)D像推理過程是使用時(shí)空?qǐng)D像建模的。圖2a展示了在活動(dòng)中人與物之間相互聯(lián)系的時(shí)空?qǐng)D片。圖2b展示的是按照時(shí)間順序展開的時(shí)空?qǐng)D像。在人與物的互動(dòng)中,節(jié)點(diǎn)的特征能通過物體和人的姿勢(shì)進(jìn)行表示,邊緣能確定他們的方向。節(jié)點(diǎn)標(biāo)簽表示人的活動(dòng)以及功能可見性。標(biāo)簽yvt 會(huì)受到節(jié)點(diǎn)及節(jié)點(diǎn)之間的互動(dòng)影響,從而導(dǎo)致系統(tǒng)混亂。此類互動(dòng)會(huì)參數(shù)化成因子圖,進(jìn)而能把時(shí)空?qǐng)D的復(fù)雜函數(shù)參數(shù)化成簡(jiǎn)單的函數(shù)。我們能從時(shí)空?qǐng)D的因子圖表示中得出S-RNN模式。圖2c展示的是圖2a相對(duì)應(yīng)的因子圖。

分享節(jié)點(diǎn)之間的因子

在時(shí)空?qǐng)D中的每一個(gè)因子都有參數(shù),且需要我們了解。不是通過學(xué)習(xí)每一個(gè)節(jié)點(diǎn)的特征,語義上相似的節(jié)點(diǎn)能隨意地分享因子。例如所有在時(shí)空?qǐng)D中的“物體節(jié)點(diǎn)”{v, w}都能分享共同的節(jié)點(diǎn)因子和參數(shù)。這一建模選擇能加強(qiáng)相似節(jié)點(diǎn)之間的分享。同時(shí)也能在不增加參數(shù)的情況下,進(jìn)一步加強(qiáng)通過節(jié)點(diǎn)處理時(shí)空?qǐng)D片的靈活性。

根據(jù)語義分割節(jié)點(diǎn)會(huì)導(dǎo)致自然語義的邊緣分割。在所有“人與物的邊緣”{(v, w),(v, w)}是通過相同的邊緣因子建模的。基于語義的分享因子能讓參數(shù)化更緊密。實(shí)際上,分享參數(shù)對(duì)于解決節(jié)點(diǎn)是基于實(shí)際情況的應(yīng)用十分關(guān)鍵。例如,在所有的人與物之間的互動(dòng)中物體節(jié)點(diǎn)的數(shù)量會(huì)隨著環(huán)境的變化而發(fā)生改變。因此在沒有節(jié)點(diǎn)之間的參數(shù)情況下,模式不能適應(yīng)有更多物體的環(huán)境。對(duì)于建模的靈活性,邊緣因子不會(huì)跨邊緣分享。

我們將節(jié)點(diǎn)因子和邊緣因子定義為鄰居,因?yàn)樗鼈兡芄餐绊憰r(shí)空?qǐng)D像中的節(jié)點(diǎn)標(biāo)簽。我們將會(huì)在構(gòu)建S-RNN中使用這一定義,因?yàn)樗茉跁r(shí)空?qǐng)D像中捕捉相互互動(dòng)。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖3.S-RNN的時(shí)空?qǐng)D片。(a)圖2的時(shí)空?qǐng)D用彩色重新進(jìn)行了繪制,暗示節(jié)點(diǎn)因子和邊緣因子之間的分享。相同顏色之間的節(jié)點(diǎn)因子和邊緣因子會(huì)進(jìn)行分享。所有的因子一共有6種,2種節(jié)點(diǎn)因子和4種邊緣因子。(b)S-RNN結(jié)構(gòu)中的每一個(gè)因子都有一個(gè)RNN。節(jié)點(diǎn)RNNs和邊緣RNNs 會(huì)連接起來形成一個(gè)雙向圖。

3.2 來自時(shí)空?qǐng)D片的S-RNN

我們從時(shí)空?qǐng)D的因子圖片中能得出S-RNN結(jié)構(gòu)。時(shí)空?qǐng)D中的因子會(huì)按照時(shí)間順序運(yùn)行,且每一步因子都會(huì)觀察(節(jié)點(diǎn)和邊緣)的特征,并且會(huì)在這些特征上進(jìn)行運(yùn)算。在S-RNN中,我們會(huì)用一個(gè)RNN代表一個(gè)因子。我們會(huì)把從節(jié)點(diǎn)因子得到的RNNs指代為nodeRNNs,把從邊緣因子中得出的RNNs指代為edgeRNNs。由時(shí)空?qǐng)D表示的相互互動(dòng)是通過nodeRNNs和edgeRNNs之間的聯(lián)系進(jìn)行記錄的。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

在算法1中,我們能看到建立S-RNN的方法。圖3b展示了用于表示人類活動(dòng)的S-RNN通過圖3b再一次進(jìn)行展示。節(jié)點(diǎn)S-RNN聯(lián)合邊緣S-RNN的輸出,而這些輸出是用于預(yù)測(cè)節(jié)點(diǎn)標(biāo)簽的。節(jié)點(diǎn)RNNs的預(yù)測(cè)能通過邊緣RNNs相互發(fā)生作用。每一個(gè)邊緣RNN能處理在時(shí)空?qǐng)D中有聯(lián)系的節(jié)點(diǎn)之間的一個(gè)特殊語義關(guān)系。

3.3 訓(xùn)練S-RNN模式

為訓(xùn)練S-RNN模式,每一個(gè)時(shí)空?qǐng)D節(jié)點(diǎn)的特征都與節(jié)點(diǎn)連接起來進(jìn)入S-RNN結(jié)構(gòu)中。在訓(xùn)練時(shí),在預(yù)測(cè)中的錯(cuò)誤能通過向前傳播的節(jié)點(diǎn)RNN和邊緣RNN進(jìn)行反向傳播。在此方法中,為預(yù)測(cè)節(jié)點(diǎn)標(biāo)簽,S-RNN會(huì)對(duì)節(jié)點(diǎn)和邊緣的特征進(jìn)行非線性連接。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖4:向前傳播的人類節(jié)點(diǎn)v展示了與圖3相對(duì)應(yīng)的結(jié)構(gòu)分布。

圖3展示的是通過S-RNN向前傳播的人類節(jié)點(diǎn)。圖4展示的是相同向前傳播的結(jié)構(gòu)細(xì)節(jié)。特征的集合與連接相反,對(duì)于解決有易變但卻有固定結(jié)構(gòu)的物體節(jié)點(diǎn)十分重要。因?yàn)槲矬w節(jié)點(diǎn)計(jì)算會(huì)隨著環(huán)境變化而發(fā)生變化,所以用固定長(zhǎng)度的向量特征表示可變環(huán)境極具挑戰(zhàn)性。依經(jīng)驗(yàn)來看,增加特征比合并均值更有用。我們推測(cè)增加部分會(huì)維持目標(biāo)計(jì)算和時(shí)空?qǐng)D像特征,而合并均值會(huì)平衡邊緣數(shù)。

參數(shù)共享及構(gòu)建的特征空間。S-RNN模式的一個(gè)重要方面是跨越節(jié)點(diǎn)標(biāo)簽的參數(shù)分享。當(dāng)RNN在向前傳播時(shí),節(jié)點(diǎn)標(biāo)簽之間的會(huì)進(jìn)行參數(shù)分享。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖5。不同的時(shí)空人物。我們使用S-RNN去跟蹤3種不同的時(shí)空問題。

 

4.實(shí)驗(yàn)

為保證S-RNN的通用性,我們展示了三個(gè)不同的時(shí)空問題,如圖5所示。這一運(yùn)用包括:(i)基于活動(dòng)數(shù)據(jù)對(duì)人類活動(dòng)進(jìn)行建模;(ii)人類活動(dòng)的探測(cè)和預(yù)測(cè);(iii)基于現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行預(yù)期假設(shè)。

4.1 對(duì)人類活動(dòng)進(jìn)行建模和預(yù)測(cè)

人類的身體是分開但卻聯(lián)系緊密部分的典型代表。人類活動(dòng)包括不同部分(如胳膊,腿,脊椎)之間復(fù)雜的時(shí)空作用,而這會(huì)導(dǎo)致可見的移動(dòng),如走路,吃飯等。在此實(shí)驗(yàn)中,我們用復(fù)雜的時(shí)空?qǐng)D片代表人的活動(dòng),并試著用S-RNN進(jìn)行建模。從活動(dòng)中收集數(shù)據(jù)再進(jìn)行活動(dòng)預(yù)測(cè)這一方面,我們建模方法超過其他未進(jìn)行建模的深層結(jié)構(gòu)。此外一些方法曾基于高斯法,玻爾茲曼法(RNMs)和RNN對(duì)人類活動(dòng)進(jìn)行過探索。最近,F(xiàn)ragkiadaki等其他人提議進(jìn)行編碼—RNN—解碼方法進(jìn)行探索,因?yàn)榇朔椒ㄔ〉幂^好的預(yù)測(cè)數(shù)據(jù)。

用于人類活動(dòng)的S-RNN結(jié)構(gòu)

S-RNN結(jié)構(gòu)是按照?qǐng)D5的時(shí)空?qǐng)D流程運(yùn)行的,見圖5a。據(jù)圖可是,脊椎是身體所有部分的相互作用,胳膊和腿相互作用。時(shí)空?qǐng)D會(huì)自動(dòng)轉(zhuǎn)化為S-RNN結(jié)構(gòu),見3.2部分。S-RNN對(duì)身體的每一個(gè)部分(胳膊,腿,脊椎)標(biāo)上3個(gè)節(jié)點(diǎn)RNN,對(duì)于時(shí)空?qǐng)D之間的相互作用建模會(huì)標(biāo)上4個(gè)邊緣節(jié)點(diǎn),而他們之間的時(shí)空聯(lián)系會(huì)標(biāo)上3個(gè)邊緣RNN。對(duì)于邊緣RNN和節(jié)點(diǎn)RNN我們分別使用FC(256)-FC(256)-LSTM(512)和LSTM(512)-FC(256)-FC(100)-FC(·)結(jié)構(gòu),并且跳過了輸入和輸出之間的關(guān)系。節(jié)點(diǎn)RNN是不同身體部分的框架連接。為在訓(xùn)練時(shí)在動(dòng)作捕捉時(shí)增加噪音。而這會(huì)刺激課程學(xué)習(xí)并能幫助預(yù)測(cè)動(dòng)作與人類動(dòng)作相符。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖6:預(yù)測(cè)測(cè)試對(duì)象的飲食活動(dòng)。在非周期性行為中,ERD和LSTM-3LR努力的模仿人類行為。S-RNN,另一方面,在短期內(nèi)模擬地面實(shí)況,并且長(zhǎng)期產(chǎn)生類似人類的行為 。在沒有(w/o)edgeRNNs情況下,行為在一些預(yù)定站著的位置上凍結(jié)了。見視頻。

我們聯(lián)合訓(xùn)練RNNs,以便最小化預(yù)測(cè)捕獲幀和地面實(shí)況之間的歐幾里得幾何學(xué)的損耗。訓(xùn)練的細(xì)節(jié)見項(xiàng)目網(wǎng)頁補(bǔ)充材料。

評(píng)估體系

我們?cè)贖3.6m動(dòng)作捕捉數(shù)據(jù)集中將S-RNN和最先進(jìn)的ERD結(jié)構(gòu)進(jìn)行了對(duì)比。同時(shí)也與3層LSTM架構(gòu)進(jìn)行了比較(LSTM-3LR),這被用來作基線。為了預(yù)測(cè)運(yùn)動(dòng),我們遵循[ 14 ]中的實(shí)驗(yàn)設(shè)置。兩次向下采樣H3.6,并且在項(xiàng)目6中訓(xùn)練,在項(xiàng)目S5中測(cè)試。為了預(yù)測(cè),我們首先將初始捕獲幀注入結(jié)構(gòu)中,然后預(yù)測(cè)未來的幀。緊接著,我們考慮了行走,飲食,和抽煙行為。除了這三個(gè),還考慮了討論行為。

預(yù)測(cè)人類非周期性的行為是非常具有挑戰(zhàn)性的任務(wù)

在H3.6數(shù)據(jù)集中,飲食、吸煙和討論作為的重要組成部分是非周期性的,而行走行為大部分是周期性的。我們?cè)谌齻€(gè)方面表明了擁有一個(gè)基礎(chǔ)結(jié)構(gòu)的好處:(i)對(duì)于復(fù)雜的非周期性運(yùn)動(dòng),我們提出了可視化和定量化的結(jié)果。(ii)我們預(yù)測(cè)人類行為的時(shí)間比最高的水準(zhǔn)還要長(zhǎng)兩倍。對(duì)于非周期性活動(dòng),這非常具有挑戰(zhàn)性的;(iii)我們展現(xiàn)了S-RNN非常有趣的學(xué)習(xí)語義概念,并且通過混合人體行為展示其模塊性。非結(jié)構(gòu)化的深層結(jié)構(gòu),如[ 14 ]不具備這樣的模塊化。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

表1運(yùn)動(dòng)預(yù)測(cè)角度誤差。初始運(yùn)動(dòng)1毫秒后。平均結(jié)果超過了8個(gè)測(cè)試項(xiàng)目上,每個(gè)活動(dòng)的初始運(yùn)動(dòng)序列。

運(yùn)動(dòng)預(yù)測(cè)的定性結(jié)果

圖6顯示了預(yù)測(cè)1000ms內(nèi)人類“飲食”的行為——散步時(shí)喝飲料的項(xiàng)目。S-RNN短期內(nèi)保持近似地面實(shí)況,并長(zhǎng)期產(chǎn)生類似人類行為。移除edgernns,人體身體部分變得獨(dú)立,并通過參數(shù)停止相互作用。因此,沒有edgRNN的骨架,在一些預(yù)定的位置會(huì)凍結(jié)。LSTM-3LR面臨漂移問題。在很多測(cè)試實(shí)例中它漂移到了人類行走的平均位置。ERD產(chǎn)生的行為在短時(shí)間內(nèi)保持類似于人類,但在長(zhǎng)時(shí)間時(shí),它漂移到不像人類的行為。與S-RNN不同,在復(fù)雜的非周期性活動(dòng)中,這是ERD常見的結(jié)果。此外,在許多測(cè)試實(shí)例中ERD產(chǎn)生的人類行為并不流暢。更多實(shí)例見項(xiàng)目網(wǎng)頁。

定量評(píng)價(jià)

我們遵循Fragkiadaki等人的評(píng)價(jià)指標(biāo),并在表1的預(yù)測(cè)捕獲幀和地面實(shí)況之間提出了3D角度誤差。ERD模擬人類運(yùn)動(dòng)在質(zhì)量方面比LSTM-3LR要好。然而在短期內(nèi),它模仿地面的實(shí)況沒有LSTM-3LR效果好。Fragkiadaki 等人同樣注意到了ERD和LSTM-3LR之間的權(quán)衡。另一方面,S-RNN在短期內(nèi)預(yù)測(cè)行為的效果比LSTM-3LR和ERD都要好。所以S-RNN在短時(shí)間內(nèi)模擬地面實(shí)況,并在長(zhǎng)時(shí)間內(nèi)產(chǎn)生人類的行為。以這種方式,它能夠很好地處理短期和長(zhǎng)期預(yù)測(cè)。由于人體行為的隨機(jī)性、根據(jù)地面實(shí)況的長(zhǎng)期預(yù)測(cè)(>500ms)會(huì)變得顯著不同,但它仍然可以描繪人類的行為。鑒于這個(gè)原因,表1中的長(zhǎng)期預(yù)測(cè)數(shù)據(jù)并不能有效的代表算法的建模能力。同時(shí),我們也觀察到討論對(duì)于算法來說是最具挑戰(zhàn)性的非周期運(yùn)動(dòng)。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖7S-RNN記憶細(xì)胞可視化。當(dāng)腿向前運(yùn)動(dòng)時(shí),(左)腿部nodeRNN的一個(gè)細(xì)胞激勵(lì)。(右)將手靠近臉時(shí),手臂nodeRNN的一個(gè)細(xì)胞激勵(lì)。我們?cè)陲嬍澈统闊熁顒?dòng)中假設(shè)了相同的細(xì)胞(見視頻)。

用戶研究

我們要求用戶動(dòng)的速率運(yùn)在1至3李克特量表之間。據(jù)用戶研究,S-RNN表現(xiàn)的最好。結(jié)果見補(bǔ)充材料。

總結(jié)

非結(jié)構(gòu)化方法如LSTM-3LR和ERD,努力在復(fù)雜的行為方面,模擬更長(zhǎng)時(shí)間的人類運(yùn)動(dòng)。S-RNN的良好性能,歸功于它的結(jié)構(gòu)是通過底層st-圖模擬人類的行為。S-RNN用nodeRNN分別模擬身體的每一個(gè)部分,并且用edgeRNNs捕獲它們之間的相互運(yùn)動(dòng),以便產(chǎn)生相干運(yùn)動(dòng)。

4.2.深入RNN結(jié)構(gòu)

我們現(xiàn)在展示幾個(gè)S-RNN結(jié)構(gòu)的內(nèi)部視圖,并演示結(jié)構(gòu)的模塊化,確保它能夠產(chǎn)生混合的人體運(yùn)動(dòng)。

記憶細(xì)胞的可視化 。我們研究了S-RNN記憶細(xì)胞是否能夠代表有意義的語義替代運(yùn)動(dòng)。有人在更早的問題中研究了語義細(xì)胞。圖7中展示了,腿部nodeRNN的一個(gè)細(xì)胞學(xué)習(xí)向前移動(dòng)的語義行為。腿向前移動(dòng)時(shí)細(xì)胞積極的激勵(lì)(紅色)和向后運(yùn)動(dòng)時(shí)消極的激勵(lì)(藍(lán)色)。當(dāng)主體先前運(yùn)動(dòng)時(shí),細(xì)胞選擇左腿和右腿的激勵(lì)。右腿更長(zhǎng)時(shí)間的運(yùn)動(dòng),對(duì)應(yīng)了右腿需要更長(zhǎng)執(zhí)行的步驟。同樣的,圖7中展示了,手臂nodeRNN的一個(gè)細(xì)胞學(xué)習(xí)把手靠近臉概念的過程。主體在飲食或者抽煙時(shí)將手靠近臉細(xì)胞激勵(lì)是一樣的。只要手緊貼臉部,細(xì)胞就保持活躍。見視頻。

生成混合人體運(yùn)動(dòng)

我們通過生成新的尚未有意義,而且不在數(shù)據(jù)集中的行為。展示模塊化架構(gòu)的靈活性,這種模塊化是有趣的,而且它已被探討用于產(chǎn)生不同的行為風(fēng)格。由于存在一個(gè)潛在的高層結(jié)構(gòu),我們的方法允許在RNNs和S-RNN之間,交換不同運(yùn)動(dòng)風(fēng)格的訓(xùn)練結(jié)構(gòu)。利用該優(yōu)勢(shì),我們創(chuàng)建了一個(gè)新的S-RNN結(jié)構(gòu),它產(chǎn)生了人類用單腳先前跳躍的混合行為,如圖8所示。為了該試驗(yàn),我們使用了不同的nodeRNNS模擬左腿和右腿。我們訓(xùn)練了兩個(gè)獨(dú)立的S-RNN模型–一個(gè)更慢的和一個(gè)更快的模型(通過向下采樣數(shù)據(jù))–然后換左腿nodeRNN訓(xùn)練模型。由此產(chǎn)生一個(gè)有著更慢的左腿卻更快的人,用左腳向前跳躍,以便跟上比它快兩倍的右腿。非結(jié)構(gòu)化的結(jié)構(gòu)如ERD,不具備這種靈活性。

圖8(右)用迭代次數(shù)檢查了測(cè)試和訓(xùn)練誤差。S-RNN和ERD都收斂到了相似的訓(xùn)練誤差,然而,S-RNN推廣的更好,因?yàn)檫M(jìn)行下一步預(yù)測(cè)時(shí)它有著更小的測(cè)試誤差。補(bǔ)充中進(jìn)行了討論。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖8(左)生成混合行為(見視頻)我們通過“人單腳向前跳躍”的混合行為,展示了S-RNN的靈活性。(右)訓(xùn)練和測(cè)試誤差。由于有著更小的測(cè)試誤差,S-RNN比ERD推廣的更好。

4.3 人類活動(dòng)檢測(cè)與預(yù)測(cè)

在該部分提出了S-RNN用于模擬人類行為。我們考慮了CAD-120數(shù)據(jù)集,它涉及豐富的人類對(duì)象相互作用活動(dòng)。每個(gè)活動(dòng)包括一系列的子活動(dòng)(如運(yùn)動(dòng)、飲酒等)和對(duì)象功能可視性(例如,可觸性,飲用性等),它能隨著活動(dòng)進(jìn)程而演變。檢測(cè)和預(yù)測(cè)的子活動(dòng)及功能可見性確保了私人機(jī)器人去幫助人類。然而,這問題是具有挑戰(zhàn)性的,因?yàn)樗婕皬?fù)雜的相互作用——在活動(dòng)過程中人類與多個(gè)對(duì)象相互影響,對(duì)象之間也相互作用(例如,將水從“玻璃”倒進(jìn)一個(gè)“容器”),這使得它非常適合來評(píng)估我們的方法。Koppula等人用ST圖表示了這種豐富的時(shí)空相互作用,如圖5b所示的,并且用時(shí)空CRF模擬它。在實(shí)驗(yàn)中,我們展示了用S-RNN收益量模擬相同的st圖會(huì)產(chǎn)生卓越的結(jié)果。其中,我們使用了[29]中的節(jié)點(diǎn)和邊緣功能。

圖3b顯示了我們的S-RNN結(jié)構(gòu)模擬st圖。由于對(duì)象的數(shù)目隨環(huán)境變化,對(duì)象節(jié)點(diǎn)和人類的物體邊緣之間的因子共享變得至關(guān)重要。在S-RNN中,Rv2和RE1分別處理所有的對(duì)象節(jié)點(diǎn)和人類對(duì)像邊緣。這使得固定S-RNN架構(gòu)可以處理不同大小的ST圖。對(duì)于edgeRNNs,我們使用了一個(gè)大小為128的單獨(dú)層LSTM。每一步,人類nodeRNN都會(huì)輸出子活動(dòng)標(biāo)簽(10級(jí)),并且項(xiàng)目nodeRNN會(huì)輸出功能的可見性(12級(jí))。觀察ST圖至?xí)r間t,我們的目標(biāo)是檢測(cè)在目前時(shí)間t的子活動(dòng)和可見性功能標(biāo)簽。并預(yù)測(cè)他們?cè)跁r(shí)間步長(zhǎng)為T + 1的標(biāo)簽。為了檢測(cè),我們?cè)诋?dāng)前時(shí)間步長(zhǎng)的標(biāo)簽訓(xùn)練S-RNN。給定觀測(cè)點(diǎn)為當(dāng)前時(shí)間,為了預(yù)測(cè),我們訓(xùn)練結(jié)構(gòu)預(yù)測(cè)下一步的標(biāo)簽 。我們還培養(yǎng)了多任務(wù)版本的S-RNN,在每個(gè)nodeRNN中加入了兩個(gè)softmax層,并且聯(lián)合訓(xùn)練以便預(yù)測(cè)和檢測(cè)。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

表2:真實(shí)世界中1100英里預(yù)測(cè)的移動(dòng)數(shù)據(jù)。S-RNN來自圖5c中顯示的ST圖。Jain等人使用了相同的st圖,但他們是在AIO-HMM的概率框架中進(jìn)行模擬。這個(gè)表格顯示了平均精度,召回和時(shí)間-動(dòng)作。時(shí)間-動(dòng)作區(qū)間在算法預(yù)測(cè)時(shí)間和行動(dòng)開始時(shí)間之間。算法的特征比較來自于[22].

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

表3。CAD-120的結(jié)果。S-RNN結(jié)構(gòu)來自圖5b的st圖,它優(yōu)于Koppula等人的結(jié)構(gòu),在概率框架中模擬了相同的st圖。S-RNN在多任務(wù)設(shè)置(聯(lián)合檢測(cè)和預(yù)期)中進(jìn)一步提高了性能。

 斯坦福AI實(shí)驗(yàn)室又一力作:深度學(xué)習(xí)還能進(jìn)一步擴(kuò)展  | CVPR2016最佳學(xué)生論文詳解

圖9:CAD-120中飲食活動(dòng)的定性結(jié)果。顯示了多任務(wù)S-RNN的檢測(cè)和預(yù)期結(jié)果。為了使子活動(dòng)在時(shí)間t,標(biāo)簽的預(yù)測(cè)是在時(shí)間t- 1。(放大以便看清圖像)

表3顯示檢測(cè)和預(yù)期的F1平均分?jǐn)?shù)超過了所有的級(jí)。S-RNN在預(yù)測(cè)和檢測(cè)兩方面顯著的提高超越了Koppula等人。在預(yù)測(cè)對(duì)象可見性功能方面S-RNN的F1分?jǐn)?shù)比[31]多44%,在檢測(cè)方面多7%。S-RNN沒有任何像時(shí)空CRF的馬爾科夫假設(shè),因此,它能更好的模擬預(yù)測(cè)所需的長(zhǎng)期依賴。該表還展示了edGERNNs在處理時(shí)空組件方面的重要性。EdgeRNN在人和物體之間傳輸信息,這有助于預(yù)測(cè)對(duì)象標(biāo)簽。因此,沒有edgeRNNs的S-RNN很難模擬物體。這意味著edgeRNNs的重要性,同時(shí)也驗(yàn)證了我們的設(shè)計(jì)。最后,在大多數(shù)案例中,以多任務(wù)的方式訓(xùn)練S-RNN,效果是最好的。圖9中我們展示了飲食活動(dòng)的可視化。我們從在每個(gè)子活動(dòng)和相對(duì)應(yīng)的預(yù)測(cè)中展示了一個(gè)代表性的幀。

S-RNN的復(fù)雜性

在復(fù)雜性方面,我們討論了兩點(diǎn)作為基礎(chǔ)st圖的函數(shù):(i)混合中RNNs的數(shù)量。(ii)向前-通過的復(fù)雜性。RNNs的數(shù)量取決于st圖中相似的語義點(diǎn)數(shù)量。S-RNN的整體結(jié)構(gòu)是緊湊的,因?yàn)閑dgeRNNs和nodeRNNs是共享的,而且在內(nèi)容豐富的應(yīng)用中,語義的種類通常很少。此外,由于因素共享,如果在st圖中加入了更多相似的語義點(diǎn),RNNs的數(shù)量并不會(huì)增加。向前-通過的復(fù)雜性取決于RNNs的數(shù)量。由于向前-通過貫穿了整個(gè)edgeRNNs,并且nodeRNNS能夠平行發(fā)生,實(shí)踐中的復(fù)雜度僅僅取決于兩個(gè)神經(jīng)網(wǎng)絡(luò)的級(jí)聯(lián)(nodeRNN緊隨edgeRNN)。

4.4司機(jī)行動(dòng)預(yù)測(cè)

我們最后提出了S-RNN的另一個(gè)應(yīng)用,它涉及在行為發(fā)生之前,預(yù)測(cè)幾秒鐘后的行動(dòng)。Jain等人用圖5c中的st圖代表了該問題。他們將st圖模擬成一個(gè)概率貝葉斯網(wǎng)絡(luò)(AIO-HMM [ 22 ])。St圖代表了車外的觀察資料(例如路的特征),司機(jī)的行動(dòng),和車內(nèi)的觀察資料(例如司機(jī)的面部特征)之間的相互作用。我們使用了從Jain等人獲得的點(diǎn)和邊緣特征,模擬相同S-RNN結(jié)構(gòu)的st圖。表2顯示了該任務(wù)中不同算法的性能。在每任何設(shè)定下,S-RNN的性能都好于最先進(jìn)的AIO-HMM。討論和細(xì)節(jié)見補(bǔ)充材料。

5.總結(jié)

本文提出了一個(gè)通用的原則性方法,用來結(jié)合高層次時(shí)空?qǐng)D和序列成功建模RNNs。我們利用因子圖,和因子共享以獲得一個(gè)RNN混合物。它是可擴(kuò)展的,并且適用于任何st圖問題的表達(dá)。我們的RNN混合在底層的st圖中,捕獲了豐富的相互作用。而且在三個(gè)不同的時(shí)空問題中,我們的S-RNN表現(xiàn)了出顯著的改善:(i) 人類行為模擬。(ii)人類-物體相互作用。(iii)司機(jī)行動(dòng)預(yù)測(cè)。我們通過可視化記憶細(xì)胞,展示S-RNN學(xué)習(xí)特定語義子運(yùn)動(dòng),并且通過生成新的人類行為,展示其模塊化。

 via CVPR2016

題圖來自 ExtemeTech

PS : 本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說