丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文作者: 奕欣 2018-02-16 10:56 專題:AAAI 2018
導(dǎo)語:港中文 AAAI 會(huì)議論文提出了一種新的 ST-GCN,即時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型,用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別問題。

雷鋒網(wǎng) AI 科技評(píng)論按:第 32 屆 AAAI 大會(huì)(AAAI 2018)日前在美國新奧爾良進(jìn)行,于當(dāng)?shù)貢r(shí)間 2 月 2 日至 7 日為人工智能研究者們帶來一場(chǎng)精彩的學(xué)術(shù)盛宴。AAAI 2018 今年共收到論文投稿 3808 篇,接收論文 938 篇,接收率約為 24.6 %。

雷鋒網(wǎng) AI 科技評(píng)論作為持續(xù)關(guān)注頂級(jí)學(xué)術(shù)會(huì)議的雷鋒網(wǎng)學(xué)術(shù)頻道,從 2016 年開始涉足、參與并報(bào)道國際學(xué)術(shù)會(huì)議,不僅為讀者帶來一線精彩報(bào)道,更為人工智能相關(guān)領(lǐng)域的學(xué)者們提供更多縱覽全球?qū)W術(shù)會(huì)議的機(jī)會(huì)。如果讀者們想了解雷鋒網(wǎng)  AI 科技評(píng)論 2017 年走遍全球 11 個(gè)學(xué)術(shù)頂會(huì)所帶來的精彩報(bào)道,歡迎掃描二維碼,了解 AI 科技評(píng)論的年度特輯。

港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文為 AAAI 2018 錄用論文「Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition」作者向 AI 科技評(píng)論投遞的解讀稿件。

ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型

作者:顏思捷,熊元駿,林達(dá)華

文章鏈接:https://arxiv.org/abs/1801.07455

Github 代碼:https://github.com/yysijie/st-gcn 

簡(jiǎn)介

近日,香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室的最新 AAAI 會(huì)議論文「Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition」提出了一種新的 ST-GCN,即時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型,用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別問題。該方法除了思路新穎之外,在標(biāo)準(zhǔn)的動(dòng)作識(shí)別數(shù)據(jù)集上也取得了較大的性能提升。本文中我們將詳細(xì)介紹該論文中提出的方法,并介紹一些計(jì)劃中的進(jìn)一步工作等。

 港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 1 ST-GCN 的模型結(jié)構(gòu)示意圖

港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

 港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 2 對(duì) ST-GCN 最末卷積層的響應(yīng)進(jìn)行可視化的結(jié)果。(via GitHub

基于骨架關(guān)鍵點(diǎn)的動(dòng)作識(shí)別

隨著如 Microsoft Kinect、OpenPose 等人體姿態(tài)檢測(cè)系統(tǒng)的成熟,基于骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別成了計(jì)算機(jī)視覺,特別是人類動(dòng)作識(shí)別研究中的一個(gè)重要任務(wù)。該任務(wù)要求輸入在連續(xù)的視頻幀中檢測(cè)到的人體骨架關(guān)鍵點(diǎn)序列,輸出正在發(fā)生的人類動(dòng)作類別。作為動(dòng)作識(shí)別系統(tǒng)中的重要模態(tài),基于骨架的動(dòng)作識(shí)別已經(jīng)展現(xiàn)出重要的實(shí)用價(jià)值與研究?jī)r(jià)值。本論文正是針對(duì)這個(gè)任務(wù)提出了一種全新的深度學(xué)習(xí)模型,我們稱之為「時(shí)空?qǐng)D卷積網(wǎng)絡(luò)」(ST-GCN)。

構(gòu)建時(shí)空?qǐng)D

ST-GCN 的基礎(chǔ)是時(shí)空?qǐng)D結(jié)構(gòu)。從骨架關(guān)鍵點(diǎn)序列構(gòu)建時(shí)空?qǐng)D (spatial-temporal graph) 的想法來源于我們對(duì)現(xiàn)有的骨架動(dòng)作識(shí)別方法以及圖像識(shí)別方法的觀察。我們發(fā)現(xiàn),現(xiàn)有的基于骨架的動(dòng)作識(shí)別方法中為了提高識(shí)別精度多數(shù)引入了一些空間結(jié)構(gòu)信息,包括相鄰關(guān)鍵點(diǎn)的連接關(guān)系或身體部件等(如手-手肘-肩膀的連接關(guān)系)。

為了建模這些空間信息,現(xiàn)有方法常常使用 RNN 等序列模型來遍歷相連的關(guān)鍵點(diǎn)。這就要求模型設(shè)計(jì)者定義一種遍歷的規(guī)則,或者手動(dòng)定義一些身體部件。我們指出,在這種設(shè)計(jì)中,很難得到一個(gè)最優(yōu)的遍歷規(guī)則或者部件劃分。但是,我們發(fā)現(xiàn),關(guān)鍵點(diǎn)之間天然的連接關(guān)系,其實(shí)構(gòu)成了一個(gè)天然的圖結(jié)構(gòu)(graph)。那么,我們?cè)趺茨軌蚋咝У厥褂眠@些圖結(jié)構(gòu)來進(jìn)行動(dòng)作識(shí)別呢?

在 ST-GCN 的工作中我們提出,可以從輸入的關(guān)鍵點(diǎn)序列中建立一個(gè)時(shí)空?qǐng)D(spatial-temporal graph)。這個(gè)圖結(jié)構(gòu)按照如下的規(guī)則來構(gòu)建。

1. 在每一幀內(nèi)部,按照人體的自然骨架連接關(guān)系構(gòu)造空間圖;

2. 在相鄰兩幀的相同關(guān)鍵點(diǎn)連接起來,構(gòu)成時(shí)序邊;

3. 所有輸入幀中關(guān)鍵點(diǎn)構(gòu)成節(jié)點(diǎn)集(node set),步驟 1、2 中的所有邊構(gòu)成邊集(edge set),即構(gòu)成所需的時(shí)空?qǐng)D。

在按照上述規(guī)則得到的時(shí)空?qǐng)D上,我們自然地保留了骨架關(guān)鍵點(diǎn)的空間信息,并使得關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡(trajectory)以時(shí)序邊的形式得到表現(xiàn)。這使得我們可以設(shè)計(jì)一個(gè)統(tǒng)一的模型來完整地對(duì)這些信息進(jìn)行建模。在圖 3 中我們展示了一種時(shí)空?qǐng)D的結(jié)構(gòu)。

港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 3. NTU-RGBD 數(shù)據(jù)集上建立的時(shí)空?qǐng)D示例。

圖結(jié)構(gòu)上的卷積網(wǎng)絡(luò)

為了在時(shí)空?qǐng)D上對(duì)人類動(dòng)作的信息進(jìn)行分析,我們提出使用圖卷積網(wǎng)絡(luò) (graph convolutional networks – GCN)。圖上的神經(jīng)網(wǎng)絡(luò)模型是機(jī)器學(xué)習(xí)研究的一個(gè)熱點(diǎn)領(lǐng)域。本文中使用的圖卷積網(wǎng)絡(luò)即是圖上神經(jīng)網(wǎng)絡(luò)中的一種,其在網(wǎng)絡(luò)分析、文本分類等問題都有成功應(yīng)用。

在介紹圖卷積網(wǎng)絡(luò)的概念之前,我們先來回顧圖像上的卷積操作。在圖像上,卷積操作使用一些固定大小的卷積核(filter/kernel)來掃描輸入的圖像。如圖 3 所示,在每個(gè)掃描的中心位置像素附近,抽取一個(gè)與權(quán)重矩陣大小相同的像素矩陣,將這些像素上的特征向量按空間順序拼接并與卷積核的參數(shù)向量做內(nèi)積以得到該位置的卷積輸出值。在這里,「附近像素」可以定義為像素網(wǎng)格(grid)上的一個(gè)鄰域(neighborhood)。將圖像上的卷積操作推廣到任意結(jié)構(gòu)的圖結(jié)構(gòu)上時(shí),我們同樣可以定義任何一個(gè)節(jié)點(diǎn)的鄰域,與一系列權(quán)重矩陣。這就是圖卷積網(wǎng)絡(luò)的基本思想。

但是,與圖像不同的是,普通的圖結(jié)構(gòu)上如果使用鄰接矩陣(Adjacency matrix)來定義鄰域時(shí),每個(gè)節(jié)點(diǎn)的鄰域中節(jié)點(diǎn)的數(shù)量并不是固定的(考慮補(bǔ) 0 時(shí),圖像上像素附近的像素是總是固定的)。這就使得我們我們很難確定: 1)需要使用的卷積核的參數(shù)維度;2)如果排列權(quán)重矩陣與鄰域內(nèi)的節(jié)點(diǎn)以進(jìn)行內(nèi)積運(yùn)算。在原始的 GCN 文章中,作者提出了將內(nèi)積操作變?yōu)檫@樣一個(gè)操作:使用同一個(gè)向量與所有鄰域內(nèi)的點(diǎn)上的特征向量計(jì)算內(nèi)積并將結(jié)果求均值。這使得: 1)卷積核的參數(shù)可以確定為一個(gè)固定長(zhǎng)度的向量;2)不需要考慮鄰域內(nèi)節(jié)點(diǎn)的順序。這個(gè)設(shè)計(jì)使得 GCN 可以在任意連接關(guān)系的圖上使用,并在一些任務(wù),如網(wǎng)絡(luò)分析和半監(jiān)督學(xué)習(xí)中取得了較好的性能。

需要注意的是,圖上神經(jīng)網(wǎng)絡(luò)除了上面提到基于圖的空間結(jié)構(gòu)的思路之外,還有一種基于譜分析 (spectral analysis) 的構(gòu)造思路。關(guān)于這一類方法,請(qǐng)見參考文獻(xiàn)【2】。在 ST-GCN 中,我們也使用了基于圖的空間結(jié)構(gòu)的思路。

時(shí)空?qǐng)D卷積網(wǎng)絡(luò)與動(dòng)作識(shí)別

要將圖卷積網(wǎng)絡(luò)運(yùn)用于基于骨架關(guān)鍵點(diǎn)的動(dòng)作識(shí)別中,我們還需要仔細(xì)分析這個(gè)任務(wù)的特點(diǎn)與難點(diǎn),而不是直接將已有方法生搬硬湊。在本文中,我們指出了原始 GCN 的一個(gè)重要性質(zhì):該文中提出的卷積操作,實(shí)質(zhì)上等價(jià)于先將鄰域內(nèi)所有節(jié)點(diǎn)的特征向量求平均,再與卷積核的參數(shù)向量計(jì)算內(nèi)積。這種平均操作在骨架動(dòng)作識(shí)別會(huì)遇到一個(gè)重要問題,即:它無法建模關(guān)鍵點(diǎn)之間相對(duì)位置變化的情況,或所謂的「微分性質(zhì)」(differential properties)。因此基于原始 GCN 的模型,識(shí)別性能并不會(huì)很理想。

針對(duì)這個(gè)問題,我們認(rèn)為,要真正增強(qiáng)的模型的性能,必須跳出原始 GCN 的「平均思想」。為了解決這個(gè)問題,我們將理解了圖像上的卷積操作理解為把中心像素相鄰的像素集合(鄰域集-neighbor set)按照空間順序,如從左至右,從上至下,劃分為一系列集合。在圖像的情形中,每個(gè)集合正好包含一個(gè)像素。這些集合就構(gòu)成了鄰域集的一個(gè)劃分(partition)。卷積核的參數(shù)只與這個(gè)劃分中的子集個(gè)數(shù)以及特征向量長(zhǎng)度有關(guān)。那么在普通的圖結(jié)構(gòu)中,只要定義了某種劃分規(guī)則(partitioning strategy),我們就也可以參照?qǐng)D像卷積來定義卷積核的參數(shù)。類似的思想也應(yīng)用在了如 deformable CNN 等近期工作中。

有了這個(gè)思想,我們就可以針對(duì)骨架動(dòng)作識(shí)別,乃至任何圖卷積網(wǎng)絡(luò)所面對(duì)的問題來定義有針對(duì)性的卷積操作。而定義卷積操作就簡(jiǎn)化為了設(shè)計(jì)對(duì)應(yīng)的劃分規(guī)則。對(duì)一個(gè)存在 K 個(gè)子集的劃分規(guī)則,卷積核的參數(shù)包含 K 個(gè)部分,每個(gè)部分參數(shù)數(shù)量與特征向量一樣。仍然以圖像上的卷積為例,在一個(gè)窗口大小為 3x3 的卷積操作中,一個(gè)像素的鄰域(窗口)按照空間順序被劃分為 9 個(gè)子集(左上,上,右上,左,中,右,左下,下,右下),每個(gè)子集包含一個(gè)像素。卷積核的參數(shù)包含 9 個(gè)部分,每個(gè)部分與特征圖(feature map)的特征向量長(zhǎng)度(number of channel)一致。也就是說,圖像卷積可以解釋為普通圖上卷積在規(guī)則網(wǎng)格圖(regular grid)上的一種應(yīng)用。

為了在時(shí)空?qǐng)D上進(jìn)行骨架動(dòng)作識(shí)別,我們提出了三種空間的劃分規(guī)則。

第一種稱為「唯一劃分」(uni-labeling)。其與原始 GCN 相同,將節(jié)點(diǎn)的 1 鄰域劃分為一個(gè)子集。

第二種稱為「基于距離的劃分」(distance partitioning),它將節(jié)點(diǎn)的 1 鄰域分為兩個(gè)子集,即節(jié)點(diǎn)本身子集與鄰節(jié)點(diǎn)子集。引入基于距離的劃分使得我們可以分析骨架關(guān)鍵點(diǎn)之間的微分性質(zhì)。

進(jìn)一步,我們針對(duì)動(dòng)作識(shí)別的特點(diǎn),提出了第三種,「空間構(gòu)型劃分」(spatial configuration partitioning)。這種劃分規(guī)則將節(jié)點(diǎn)的 1 鄰域劃分為 3 個(gè)子集,第一個(gè)子集為節(jié)點(diǎn)本身,第二個(gè)為空間位置上比本節(jié)點(diǎn)更靠近整個(gè)骨架重心的鄰節(jié)點(diǎn)集合,第三個(gè)則為更遠(yuǎn)離重心的鄰節(jié)點(diǎn)集合。建立這種劃分規(guī)則在根據(jù)運(yùn)動(dòng)分析的研究中對(duì)向心運(yùn)動(dòng)與離心運(yùn)動(dòng)的定義。三種劃分規(guī)則的示意圖請(qǐng)見圖 4。

 港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 4,三種空間的劃分規(guī)則示意圖。

除了同一幀內(nèi)部的空間劃分規(guī)則,在時(shí)間上,由于時(shí)序邊構(gòu)成了一個(gè)網(wǎng)格,我們可以直接使用類似于時(shí)序卷積(temporal convolution)的劃分規(guī)則。最終,時(shí)空?qǐng)D上使用的劃分規(guī)則得到的子集集合會(huì)是空間劃分與時(shí)序劃分的笛卡爾積。

定義好了時(shí)空?qǐng)D上的卷積操作,我們就可以設(shè)計(jì)卷積網(wǎng)絡(luò)了。為了展示 ST-GCN 的性能,我們直接從一個(gè)已有的時(shí)序卷積網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了文中用到的 ST-GCN 的網(wǎng)絡(luò)結(jié)構(gòu)。我們將所有時(shí)序卷積操作轉(zhuǎn)為時(shí)空?qǐng)D的卷積操作,每一個(gè)卷積層的輸出是一個(gè)時(shí)空?qǐng)D,圖上每一個(gè)節(jié)點(diǎn)保有一個(gè)特征向量。最終,我們合并所有節(jié)點(diǎn)上的特征并使用線性分類層進(jìn)行動(dòng)作分類。訓(xùn)練使用標(biāo)準(zhǔn)的 SoftMax 交叉熵?fù)p失函數(shù)進(jìn)行監(jiān)督。參數(shù)學(xué)習(xí)使用標(biāo)準(zhǔn)隨機(jī)梯度下降算法(SGD)。

實(shí)驗(yàn)結(jié)果

我們?cè)趦蓚€(gè)性質(zhì)迥異的骨架動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)來驗(yàn)證 ST-GCN 的性能。

第一個(gè)數(shù)據(jù)集是 Kinetics-Skeleton,它來自于最近由 Google DeepMind 貢獻(xiàn)的 Kinetics 視頻人類動(dòng)作識(shí)別數(shù)據(jù)集。我們使用 OpenPose 姿態(tài)估計(jì)軟件得到視頻中所有的骨架關(guān)鍵點(diǎn)信息來構(gòu)成 Kinetics-Skeleton。該數(shù)據(jù)集共有約 30 萬個(gè)視頻與 400 類動(dòng)作。

第二個(gè)數(shù)據(jù)集是 NTU-RGB+D,這是三維骨架動(dòng)作識(shí)別的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集。它包含了用 Microsoft Kinect 采集的三維骨架序列。該數(shù)據(jù)集共有約 6 萬個(gè)視頻,60 個(gè)動(dòng)作類別。這個(gè)數(shù)據(jù)集包含了兩個(gè)測(cè)試協(xié)議,即跨表演人(X-Sub)與跨視角(X-View)協(xié)議。在兩個(gè)數(shù)據(jù)集的三個(gè)測(cè)試協(xié)議上,ST-GCN 相比現(xiàn)有方法在識(shí)別精度上均有很大提高,具體結(jié)果可見表圖 1。

 港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 1. 骨架動(dòng)作識(shí)別結(jié)果

除了得到更好的性能,我們也詳細(xì)分析了三種劃分規(guī)則對(duì)識(shí)別精度的影響。如表 2 所示,正如我們所期望的,距離劃分與空間構(gòu)型劃分相對(duì)于原始 GCN 使用的唯一劃分在精度上均有較大提高。這證明了引入新的劃分規(guī)則的重要性。特別的,針對(duì)動(dòng)作識(shí)別任務(wù)設(shè)計(jì)的空間構(gòu)型劃分取得了最高的性能,并被最后應(yīng)用于 ST-GCN 的相關(guān)實(shí)驗(yàn)中。

我們還將 ST-GCN 的最后一層神經(jīng)元響應(yīng)進(jìn)行了可視化(表 2)。在結(jié)果中我們可以明顯看到 ST-GCN 能夠追蹤并深入分析在某個(gè)時(shí)間段與動(dòng)作最相關(guān)的身體部分的運(yùn)動(dòng),這解釋了為何 ST-GCN 相對(duì)于其他不關(guān)注空間結(jié)構(gòu)的現(xiàn)有方法能得到很大的性能提高。

 港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 2,不同劃分規(guī)則的影響

思考與最后的話

回顧 ST-GCN 的提出,我們總結(jié)了兩個(gè)重要的思想跨越。

  • 第一個(gè)是從將骨架序列理解為一幀幀的骨架演進(jìn)為將整個(gè)視頻理解為一個(gè)整體的時(shí)空?qǐng)D,這使得用一個(gè)統(tǒng)一的模型來分析動(dòng)作成為可能。

  • 第二個(gè)是從原始 GCN 的樸素思想演進(jìn)為使用基于劃分規(guī)則的卷積定義。這個(gè)思想使得我們可以超越原始 GCN 并得到巨大的性能提升,該思想也在 MoNet【3】的工作中被提及過。我們將其原則化為 集合的劃分操作。這也使得這個(gè)思想可以應(yīng)用其他的分析任務(wù)中。

在將來的工作中,我們計(jì)劃運(yùn)用 ST-GCN 的靈活性來處理更多的圖分析問題。同時(shí),針對(duì)動(dòng)作識(shí)別任務(wù),一個(gè)自然的演進(jìn)就是在骨架關(guān)鍵點(diǎn)坐標(biāo)的基礎(chǔ)上引入視覺特征,如圖像特征,乃至場(chǎng)景圖(scene-graph)等,并將它們統(tǒng)一在 ST-GCN 的分析框架下。我們的最終目標(biāo)則是一個(gè)性能更高,更具有可解釋性的統(tǒng)一的視頻動(dòng)作識(shí)別模型。

相關(guān)文獻(xiàn):

【1】「Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition」, Sijie Yan, Yuanjun Xiong and Dahua Lin, AAAI 2018.

【2】「Convolutional neural networks on graphs with fast localized spectral filtering.」,Defferrard, et. al., NIPS 2016.

【3】 "Geometric deep learning on graphs and manifolds using mixture model CNNs.", Monti, Federico, et al. CVPR 2017.

頭圖via commons.wikimedia

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

港中文AAAI錄用論文詳解:ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說