丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文作者: 奕欣 2018-02-16 10:56 專題:AAAI 2018
導(dǎo)語:港中文 AAAI 會議論文提出了一種新的 ST-GCN,即時空圖卷積網(wǎng)絡(luò)模型,用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動作識別問題。

雷鋒網(wǎng) AI 科技評論按:第 32 屆 AAAI 大會(AAAI 2018)日前在美國新奧爾良進(jìn)行,于當(dāng)?shù)貢r間 2 月 2 日至 7 日為人工智能研究者們帶來一場精彩的學(xué)術(shù)盛宴。AAAI 2018 今年共收到論文投稿 3808 篇,接收論文 938 篇,接收率約為 24.6 %。

雷鋒網(wǎng) AI 科技評論作為持續(xù)關(guān)注頂級學(xué)術(shù)會議的雷鋒網(wǎng)學(xué)術(shù)頻道,從 2016 年開始涉足、參與并報道國際學(xué)術(shù)會議,不僅為讀者帶來一線精彩報道,更為人工智能相關(guān)領(lǐng)域的學(xué)者們提供更多縱覽全球?qū)W術(shù)會議的機(jī)會。如果讀者們想了解雷鋒網(wǎng)  AI 科技評論 2017 年走遍全球 11 個學(xué)術(shù)頂會所帶來的精彩報道,歡迎掃描二維碼,了解 AI 科技評論的年度特輯。

港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文為 AAAI 2018 錄用論文「Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition」作者向 AI 科技評論投遞的解讀稿件。

ST-GCN 時空圖卷積網(wǎng)絡(luò)模型

作者:顏思捷,熊元駿,林達(dá)華

文章鏈接:https://arxiv.org/abs/1801.07455

Github 代碼:https://github.com/yysijie/st-gcn 

簡介

近日,香港中大-商湯科技聯(lián)合實驗室的最新 AAAI 會議論文「Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition」提出了一種新的 ST-GCN,即時空圖卷積網(wǎng)絡(luò)模型,用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動作識別問題。該方法除了思路新穎之外,在標(biāo)準(zhǔn)的動作識別數(shù)據(jù)集上也取得了較大的性能提升。本文中我們將詳細(xì)介紹該論文中提出的方法,并介紹一些計劃中的進(jìn)一步工作等。

 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 1 ST-GCN 的模型結(jié)構(gòu)示意圖

港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 2 對 ST-GCN 最末卷積層的響應(yīng)進(jìn)行可視化的結(jié)果。(via GitHub

基于骨架關(guān)鍵點(diǎn)的動作識別

隨著如 Microsoft Kinect、OpenPose 等人體姿態(tài)檢測系統(tǒng)的成熟,基于骨架關(guān)鍵點(diǎn)的人類動作識別成了計算機(jī)視覺,特別是人類動作識別研究中的一個重要任務(wù)。該任務(wù)要求輸入在連續(xù)的視頻幀中檢測到的人體骨架關(guān)鍵點(diǎn)序列,輸出正在發(fā)生的人類動作類別。作為動作識別系統(tǒng)中的重要模態(tài),基于骨架的動作識別已經(jīng)展現(xiàn)出重要的實用價值與研究價值。本論文正是針對這個任務(wù)提出了一種全新的深度學(xué)習(xí)模型,我們稱之為「時空圖卷積網(wǎng)絡(luò)」(ST-GCN)。

構(gòu)建時空圖

ST-GCN 的基礎(chǔ)是時空圖結(jié)構(gòu)。從骨架關(guān)鍵點(diǎn)序列構(gòu)建時空圖 (spatial-temporal graph) 的想法來源于我們對現(xiàn)有的骨架動作識別方法以及圖像識別方法的觀察。我們發(fā)現(xiàn),現(xiàn)有的基于骨架的動作識別方法中為了提高識別精度多數(shù)引入了一些空間結(jié)構(gòu)信息,包括相鄰關(guān)鍵點(diǎn)的連接關(guān)系或身體部件等(如手-手肘-肩膀的連接關(guān)系)。

為了建模這些空間信息,現(xiàn)有方法常常使用 RNN 等序列模型來遍歷相連的關(guān)鍵點(diǎn)。這就要求模型設(shè)計者定義一種遍歷的規(guī)則,或者手動定義一些身體部件。我們指出,在這種設(shè)計中,很難得到一個最優(yōu)的遍歷規(guī)則或者部件劃分。但是,我們發(fā)現(xiàn),關(guān)鍵點(diǎn)之間天然的連接關(guān)系,其實構(gòu)成了一個天然的圖結(jié)構(gòu)(graph)。那么,我們怎么能夠高效地使用這些圖結(jié)構(gòu)來進(jìn)行動作識別呢?

在 ST-GCN 的工作中我們提出,可以從輸入的關(guān)鍵點(diǎn)序列中建立一個時空圖(spatial-temporal graph)。這個圖結(jié)構(gòu)按照如下的規(guī)則來構(gòu)建。

1. 在每一幀內(nèi)部,按照人體的自然骨架連接關(guān)系構(gòu)造空間圖;

2. 在相鄰兩幀的相同關(guān)鍵點(diǎn)連接起來,構(gòu)成時序邊;

3. 所有輸入幀中關(guān)鍵點(diǎn)構(gòu)成節(jié)點(diǎn)集(node set),步驟 1、2 中的所有邊構(gòu)成邊集(edge set),即構(gòu)成所需的時空圖。

在按照上述規(guī)則得到的時空圖上,我們自然地保留了骨架關(guān)鍵點(diǎn)的空間信息,并使得關(guān)鍵點(diǎn)的運(yùn)動軌跡(trajectory)以時序邊的形式得到表現(xiàn)。這使得我們可以設(shè)計一個統(tǒng)一的模型來完整地對這些信息進(jìn)行建模。在圖 3 中我們展示了一種時空圖的結(jié)構(gòu)。

港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 3. NTU-RGBD 數(shù)據(jù)集上建立的時空圖示例。

圖結(jié)構(gòu)上的卷積網(wǎng)絡(luò)

為了在時空圖上對人類動作的信息進(jìn)行分析,我們提出使用圖卷積網(wǎng)絡(luò) (graph convolutional networks – GCN)。圖上的神經(jīng)網(wǎng)絡(luò)模型是機(jī)器學(xué)習(xí)研究的一個熱點(diǎn)領(lǐng)域。本文中使用的圖卷積網(wǎng)絡(luò)即是圖上神經(jīng)網(wǎng)絡(luò)中的一種,其在網(wǎng)絡(luò)分析、文本分類等問題都有成功應(yīng)用。

在介紹圖卷積網(wǎng)絡(luò)的概念之前,我們先來回顧圖像上的卷積操作。在圖像上,卷積操作使用一些固定大小的卷積核(filter/kernel)來掃描輸入的圖像。如圖 3 所示,在每個掃描的中心位置像素附近,抽取一個與權(quán)重矩陣大小相同的像素矩陣,將這些像素上的特征向量按空間順序拼接并與卷積核的參數(shù)向量做內(nèi)積以得到該位置的卷積輸出值。在這里,「附近像素」可以定義為像素網(wǎng)格(grid)上的一個鄰域(neighborhood)。將圖像上的卷積操作推廣到任意結(jié)構(gòu)的圖結(jié)構(gòu)上時,我們同樣可以定義任何一個節(jié)點(diǎn)的鄰域,與一系列權(quán)重矩陣。這就是圖卷積網(wǎng)絡(luò)的基本思想。

但是,與圖像不同的是,普通的圖結(jié)構(gòu)上如果使用鄰接矩陣(Adjacency matrix)來定義鄰域時,每個節(jié)點(diǎn)的鄰域中節(jié)點(diǎn)的數(shù)量并不是固定的(考慮補(bǔ) 0 時,圖像上像素附近的像素是總是固定的)。這就使得我們我們很難確定: 1)需要使用的卷積核的參數(shù)維度;2)如果排列權(quán)重矩陣與鄰域內(nèi)的節(jié)點(diǎn)以進(jìn)行內(nèi)積運(yùn)算。在原始的 GCN 文章中,作者提出了將內(nèi)積操作變?yōu)檫@樣一個操作:使用同一個向量與所有鄰域內(nèi)的點(diǎn)上的特征向量計算內(nèi)積并將結(jié)果求均值。這使得: 1)卷積核的參數(shù)可以確定為一個固定長度的向量;2)不需要考慮鄰域內(nèi)節(jié)點(diǎn)的順序。這個設(shè)計使得 GCN 可以在任意連接關(guān)系的圖上使用,并在一些任務(wù),如網(wǎng)絡(luò)分析和半監(jiān)督學(xué)習(xí)中取得了較好的性能。

需要注意的是,圖上神經(jīng)網(wǎng)絡(luò)除了上面提到基于圖的空間結(jié)構(gòu)的思路之外,還有一種基于譜分析 (spectral analysis) 的構(gòu)造思路。關(guān)于這一類方法,請見參考文獻(xiàn)【2】。在 ST-GCN 中,我們也使用了基于圖的空間結(jié)構(gòu)的思路。

時空圖卷積網(wǎng)絡(luò)與動作識別

要將圖卷積網(wǎng)絡(luò)運(yùn)用于基于骨架關(guān)鍵點(diǎn)的動作識別中,我們還需要仔細(xì)分析這個任務(wù)的特點(diǎn)與難點(diǎn),而不是直接將已有方法生搬硬湊。在本文中,我們指出了原始 GCN 的一個重要性質(zhì):該文中提出的卷積操作,實質(zhì)上等價于先將鄰域內(nèi)所有節(jié)點(diǎn)的特征向量求平均,再與卷積核的參數(shù)向量計算內(nèi)積。這種平均操作在骨架動作識別會遇到一個重要問題,即:它無法建模關(guān)鍵點(diǎn)之間相對位置變化的情況,或所謂的「微分性質(zhì)」(differential properties)。因此基于原始 GCN 的模型,識別性能并不會很理想。

針對這個問題,我們認(rèn)為,要真正增強(qiáng)的模型的性能,必須跳出原始 GCN 的「平均思想」。為了解決這個問題,我們將理解了圖像上的卷積操作理解為把中心像素相鄰的像素集合(鄰域集-neighbor set)按照空間順序,如從左至右,從上至下,劃分為一系列集合。在圖像的情形中,每個集合正好包含一個像素。這些集合就構(gòu)成了鄰域集的一個劃分(partition)。卷積核的參數(shù)只與這個劃分中的子集個數(shù)以及特征向量長度有關(guān)。那么在普通的圖結(jié)構(gòu)中,只要定義了某種劃分規(guī)則(partitioning strategy),我們就也可以參照圖像卷積來定義卷積核的參數(shù)。類似的思想也應(yīng)用在了如 deformable CNN 等近期工作中。

有了這個思想,我們就可以針對骨架動作識別,乃至任何圖卷積網(wǎng)絡(luò)所面對的問題來定義有針對性的卷積操作。而定義卷積操作就簡化為了設(shè)計對應(yīng)的劃分規(guī)則。對一個存在 K 個子集的劃分規(guī)則,卷積核的參數(shù)包含 K 個部分,每個部分參數(shù)數(shù)量與特征向量一樣。仍然以圖像上的卷積為例,在一個窗口大小為 3x3 的卷積操作中,一個像素的鄰域(窗口)按照空間順序被劃分為 9 個子集(左上,上,右上,左,中,右,左下,下,右下),每個子集包含一個像素。卷積核的參數(shù)包含 9 個部分,每個部分與特征圖(feature map)的特征向量長度(number of channel)一致。也就是說,圖像卷積可以解釋為普通圖上卷積在規(guī)則網(wǎng)格圖(regular grid)上的一種應(yīng)用。

為了在時空圖上進(jìn)行骨架動作識別,我們提出了三種空間的劃分規(guī)則。

第一種稱為「唯一劃分」(uni-labeling)。其與原始 GCN 相同,將節(jié)點(diǎn)的 1 鄰域劃分為一個子集。

第二種稱為「基于距離的劃分」(distance partitioning),它將節(jié)點(diǎn)的 1 鄰域分為兩個子集,即節(jié)點(diǎn)本身子集與鄰節(jié)點(diǎn)子集。引入基于距離的劃分使得我們可以分析骨架關(guān)鍵點(diǎn)之間的微分性質(zhì)。

進(jìn)一步,我們針對動作識別的特點(diǎn),提出了第三種,「空間構(gòu)型劃分」(spatial configuration partitioning)。這種劃分規(guī)則將節(jié)點(diǎn)的 1 鄰域劃分為 3 個子集,第一個子集為節(jié)點(diǎn)本身,第二個為空間位置上比本節(jié)點(diǎn)更靠近整個骨架重心的鄰節(jié)點(diǎn)集合,第三個則為更遠(yuǎn)離重心的鄰節(jié)點(diǎn)集合。建立這種劃分規(guī)則在根據(jù)運(yùn)動分析的研究中對向心運(yùn)動與離心運(yùn)動的定義。三種劃分規(guī)則的示意圖請見圖 4。

 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 4,三種空間的劃分規(guī)則示意圖。

除了同一幀內(nèi)部的空間劃分規(guī)則,在時間上,由于時序邊構(gòu)成了一個網(wǎng)格,我們可以直接使用類似于時序卷積(temporal convolution)的劃分規(guī)則。最終,時空圖上使用的劃分規(guī)則得到的子集集合會是空間劃分與時序劃分的笛卡爾積。

定義好了時空圖上的卷積操作,我們就可以設(shè)計卷積網(wǎng)絡(luò)了。為了展示 ST-GCN 的性能,我們直接從一個已有的時序卷積網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上設(shè)計了文中用到的 ST-GCN 的網(wǎng)絡(luò)結(jié)構(gòu)。我們將所有時序卷積操作轉(zhuǎn)為時空圖的卷積操作,每一個卷積層的輸出是一個時空圖,圖上每一個節(jié)點(diǎn)保有一個特征向量。最終,我們合并所有節(jié)點(diǎn)上的特征并使用線性分類層進(jìn)行動作分類。訓(xùn)練使用標(biāo)準(zhǔn)的 SoftMax 交叉熵?fù)p失函數(shù)進(jìn)行監(jiān)督。參數(shù)學(xué)習(xí)使用標(biāo)準(zhǔn)隨機(jī)梯度下降算法(SGD)。

實驗結(jié)果

我們在兩個性質(zhì)迥異的骨架動作識別數(shù)據(jù)集上進(jìn)行了實驗來驗證 ST-GCN 的性能。

第一個數(shù)據(jù)集是 Kinetics-Skeleton,它來自于最近由 Google DeepMind 貢獻(xiàn)的 Kinetics 視頻人類動作識別數(shù)據(jù)集。我們使用 OpenPose 姿態(tài)估計軟件得到視頻中所有的骨架關(guān)鍵點(diǎn)信息來構(gòu)成 Kinetics-Skeleton。該數(shù)據(jù)集共有約 30 萬個視頻與 400 類動作。

第二個數(shù)據(jù)集是 NTU-RGB+D,這是三維骨架動作識別的標(biāo)準(zhǔn)測試數(shù)據(jù)集。它包含了用 Microsoft Kinect 采集的三維骨架序列。該數(shù)據(jù)集共有約 6 萬個視頻,60 個動作類別。這個數(shù)據(jù)集包含了兩個測試協(xié)議,即跨表演人(X-Sub)與跨視角(X-View)協(xié)議。在兩個數(shù)據(jù)集的三個測試協(xié)議上,ST-GCN 相比現(xiàn)有方法在識別精度上均有很大提高,具體結(jié)果可見表圖 1。

 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 1. 骨架動作識別結(jié)果

除了得到更好的性能,我們也詳細(xì)分析了三種劃分規(guī)則對識別精度的影響。如表 2 所示,正如我們所期望的,距離劃分與空間構(gòu)型劃分相對于原始 GCN 使用的唯一劃分在精度上均有較大提高。這證明了引入新的劃分規(guī)則的重要性。特別的,針對動作識別任務(wù)設(shè)計的空間構(gòu)型劃分取得了最高的性能,并被最后應(yīng)用于 ST-GCN 的相關(guān)實驗中。

我們還將 ST-GCN 的最后一層神經(jīng)元響應(yīng)進(jìn)行了可視化(表 2)。在結(jié)果中我們可以明顯看到 ST-GCN 能夠追蹤并深入分析在某個時間段與動作最相關(guān)的身體部分的運(yùn)動,這解釋了為何 ST-GCN 相對于其他不關(guān)注空間結(jié)構(gòu)的現(xiàn)有方法能得到很大的性能提高。

 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 2,不同劃分規(guī)則的影響

思考與最后的話

回顧 ST-GCN 的提出,我們總結(jié)了兩個重要的思想跨越。

  • 第一個是從將骨架序列理解為一幀幀的骨架演進(jìn)為將整個視頻理解為一個整體的時空圖,這使得用一個統(tǒng)一的模型來分析動作成為可能。

  • 第二個是從原始 GCN 的樸素思想演進(jìn)為使用基于劃分規(guī)則的卷積定義。這個思想使得我們可以超越原始 GCN 并得到巨大的性能提升,該思想也在 MoNet【3】的工作中被提及過。我們將其原則化為 集合的劃分操作。這也使得這個思想可以應(yīng)用其他的分析任務(wù)中。

在將來的工作中,我們計劃運(yùn)用 ST-GCN 的靈活性來處理更多的圖分析問題。同時,針對動作識別任務(wù),一個自然的演進(jìn)就是在骨架關(guān)鍵點(diǎn)坐標(biāo)的基礎(chǔ)上引入視覺特征,如圖像特征,乃至場景圖(scene-graph)等,并將它們統(tǒng)一在 ST-GCN 的分析框架下。我們的最終目標(biāo)則是一個性能更高,更具有可解釋性的統(tǒng)一的視頻動作識別模型。

相關(guān)文獻(xiàn):

【1】「Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition」, Sijie Yan, Yuanjun Xiong and Dahua Lin, AAAI 2018.

【2】「Convolutional neural networks on graphs with fast localized spectral filtering.」,Defferrard, et. al., NIPS 2016.

【3】 "Geometric deep learning on graphs and manifolds using mixture model CNNs.", Monti, Federico, et al. CVPR 2017.

頭圖via commons.wikimedia

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網(wǎng)絡(luò)模型 | AAAI 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說