港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文作者：奕欣

2018-02-16 10:56

專題：AAAI 2018

導(dǎo)語(yǔ)：港中文 AAAI 會(huì)議論文提出了一種新的 ST-GCN，即時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型，用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別問題。

雷鋒網(wǎng) AI 科技評(píng)論按：第 32 屆 AAAI 大會(huì)（AAAI 2018）日前在美國(guó)新奧爾良進(jìn)行，于當(dāng)?shù)貢r(shí)間 2 月 2 日至 7 日為人工智能研究者們帶來(lái)一場(chǎng)精彩的學(xué)術(shù)盛宴。AAAI 2018 今年共收到論文投稿 3808 篇，接收論文 938 篇，接收率約為 24.6 %。

雷鋒網(wǎng) AI 科技評(píng)論作為持續(xù)關(guān)注頂級(jí)學(xué)術(shù)會(huì)議的雷鋒網(wǎng)學(xué)術(shù)頻道，從 2016 年開始涉足、參與并報(bào)道國(guó)際學(xué)術(shù)會(huì)議，不僅為讀者帶來(lái)一線精彩報(bào)道，更為人工智能相關(guān)領(lǐng)域的學(xué)者們提供更多縱覽全球?qū)W術(shù)會(huì)議的機(jī)會(huì)。如果讀者們想了解雷鋒網(wǎng) AI 科技評(píng)論 2017 年走遍全球 11 個(gè)學(xué)術(shù)頂會(huì)所帶來(lái)的精彩報(bào)道，歡迎掃描二維碼，了解 AI 科技評(píng)論的年度特輯。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

本文為 AAAI 2018 錄用論文「Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition」作者向 AI 科技評(píng)論投遞的解讀稿件。

ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型

作者：顏思捷，熊元駿，林達(dá)華

文章鏈接：https://arxiv.org/abs/1801.07455

Github 代碼：https://github.com/yysijie/st-gcn

簡(jiǎn)介

近日，香港中大-商湯科技聯(lián)合實(shí)驗(yàn)室的最新 AAAI 會(huì)議論文「Spatial Temporal Graph Convolution Networks for Skeleton Based Action Recognition」提出了一種新的 ST-GCN，即時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型，用于解決基于人體骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別問題。該方法除了思路新穎之外，在標(biāo)準(zhǔn)的動(dòng)作識(shí)別數(shù)據(jù)集上也取得了較大的性能提升。本文中我們將詳細(xì)介紹該論文中提出的方法，并介紹一些計(jì)劃中的進(jìn)一步工作等。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 1 ST-GCN 的模型結(jié)構(gòu)示意圖

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 2 對(duì) ST-GCN 最末卷積層的響應(yīng)進(jìn)行可視化的結(jié)果。（via GitHub）

基于骨架關(guān)鍵點(diǎn)的動(dòng)作識(shí)別

隨著如 Microsoft Kinect、OpenPose 等人體姿態(tài)檢測(cè)系統(tǒng)的成熟，基于骨架關(guān)鍵點(diǎn)的人類動(dòng)作識(shí)別成了計(jì)算機(jī)視覺，特別是人類動(dòng)作識(shí)別研究中的一個(gè)重要任務(wù)。該任務(wù)要求輸入在連續(xù)的視頻幀中檢測(cè)到的人體骨架關(guān)鍵點(diǎn)序列，輸出正在發(fā)生的人類動(dòng)作類別。作為動(dòng)作識(shí)別系統(tǒng)中的重要模態(tài)，基于骨架的動(dòng)作識(shí)別已經(jīng)展現(xiàn)出重要的實(shí)用價(jià)值與研究?jī)r(jià)值。本論文正是針對(duì)這個(gè)任務(wù)提出了一種全新的深度學(xué)習(xí)模型，我們稱之為「時(shí)空?qǐng)D卷積網(wǎng)絡(luò)」（ST-GCN）。

構(gòu)建時(shí)空?qǐng)D

ST-GCN 的基礎(chǔ)是時(shí)空?qǐng)D結(jié)構(gòu)。從骨架關(guān)鍵點(diǎn)序列構(gòu)建時(shí)空?qǐng)D (spatial-temporal graph) 的想法來(lái)源于我們對(duì)現(xiàn)有的骨架動(dòng)作識(shí)別方法以及圖像識(shí)別方法的觀察。我們發(fā)現(xiàn)，現(xiàn)有的基于骨架的動(dòng)作識(shí)別方法中為了提高識(shí)別精度多數(shù)引入了一些空間結(jié)構(gòu)信息，包括相鄰關(guān)鍵點(diǎn)的連接關(guān)系或身體部件等（如手-手肘-肩膀的連接關(guān)系）。

為了建模這些空間信息，現(xiàn)有方法常常使用 RNN 等序列模型來(lái)遍歷相連的關(guān)鍵點(diǎn)。這就要求模型設(shè)計(jì)者定義一種遍歷的規(guī)則，或者手動(dòng)定義一些身體部件。我們指出，在這種設(shè)計(jì)中，很難得到一個(gè)最優(yōu)的遍歷規(guī)則或者部件劃分。但是，我們發(fā)現(xiàn)，關(guān)鍵點(diǎn)之間天然的連接關(guān)系，其實(shí)構(gòu)成了一個(gè)天然的圖結(jié)構(gòu)（graph）。那么，我們?cè)趺茨軌蚋咝У厥褂眠@些圖結(jié)構(gòu)來(lái)進(jìn)行動(dòng)作識(shí)別呢？

在 ST-GCN 的工作中我們提出，可以從輸入的關(guān)鍵點(diǎn)序列中建立一個(gè)時(shí)空?qǐng)D（spatial-temporal graph）。這個(gè)圖結(jié)構(gòu)按照如下的規(guī)則來(lái)構(gòu)建。

1. 在每一幀內(nèi)部，按照人體的自然骨架連接關(guān)系構(gòu)造空間圖；
2. 在相鄰兩幀的相同關(guān)鍵點(diǎn)連接起來(lái)，構(gòu)成時(shí)序邊；
3. 所有輸入幀中關(guān)鍵點(diǎn)構(gòu)成節(jié)點(diǎn)集（node set），步驟 1、2 中的所有邊構(gòu)成邊集（edge set），即構(gòu)成所需的時(shí)空?qǐng)D。

在按照上述規(guī)則得到的時(shí)空?qǐng)D上，我們自然地保留了骨架關(guān)鍵點(diǎn)的空間信息，并使得關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡（trajectory）以時(shí)序邊的形式得到表現(xiàn)。這使得我們可以設(shè)計(jì)一個(gè)統(tǒng)一的模型來(lái)完整地對(duì)這些信息進(jìn)行建模。在圖 3 中我們展示了一種時(shí)空?qǐng)D的結(jié)構(gòu)。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 3. NTU-RGBD 數(shù)據(jù)集上建立的時(shí)空?qǐng)D示例。

圖結(jié)構(gòu)上的卷積網(wǎng)絡(luò)

為了在時(shí)空?qǐng)D上對(duì)人類動(dòng)作的信息進(jìn)行分析，我們提出使用圖卷積網(wǎng)絡(luò) (graph convolutional networks – GCN)。圖上的神經(jīng)網(wǎng)絡(luò)模型是機(jī)器學(xué)習(xí)研究的一個(gè)熱點(diǎn)領(lǐng)域。本文中使用的圖卷積網(wǎng)絡(luò)即是圖上神經(jīng)網(wǎng)絡(luò)中的一種，其在網(wǎng)絡(luò)分析、文本分類等問題都有成功應(yīng)用。

在介紹圖卷積網(wǎng)絡(luò)的概念之前，我們先來(lái)回顧圖像上的卷積操作。在圖像上，卷積操作使用一些固定大小的卷積核（filter/kernel）來(lái)掃描輸入的圖像。如圖 3 所示，在每個(gè)掃描的中心位置像素附近，抽取一個(gè)與權(quán)重矩陣大小相同的像素矩陣，將這些像素上的特征向量按空間順序拼接并與卷積核的參數(shù)向量做內(nèi)積以得到該位置的卷積輸出值。在這里，「附近像素」可以定義為像素網(wǎng)格（grid）上的一個(gè)鄰域（neighborhood）。將圖像上的卷積操作推廣到任意結(jié)構(gòu)的圖結(jié)構(gòu)上時(shí)，我們同樣可以定義任何一個(gè)節(jié)點(diǎn)的鄰域，與一系列權(quán)重矩陣。這就是圖卷積網(wǎng)絡(luò)的基本思想。

但是，與圖像不同的是，普通的圖結(jié)構(gòu)上如果使用鄰接矩陣（Adjacency matrix）來(lái)定義鄰域時(shí)，每個(gè)節(jié)點(diǎn)的鄰域中節(jié)點(diǎn)的數(shù)量并不是固定的（考慮補(bǔ) 0 時(shí)，圖像上像素附近的像素是總是固定的）。這就使得我們我們很難確定： 1）需要使用的卷積核的參數(shù)維度；2）如果排列權(quán)重矩陣與鄰域內(nèi)的節(jié)點(diǎn)以進(jìn)行內(nèi)積運(yùn)算。在原始的 GCN 文章中，作者提出了將內(nèi)積操作變?yōu)檫@樣一個(gè)操作：使用同一個(gè)向量與所有鄰域內(nèi)的點(diǎn)上的特征向量計(jì)算內(nèi)積并將結(jié)果求均值。這使得： 1）卷積核的參數(shù)可以確定為一個(gè)固定長(zhǎng)度的向量；2）不需要考慮鄰域內(nèi)節(jié)點(diǎn)的順序。這個(gè)設(shè)計(jì)使得 GCN 可以在任意連接關(guān)系的圖上使用，并在一些任務(wù)，如網(wǎng)絡(luò)分析和半監(jiān)督學(xué)習(xí)中取得了較好的性能。

需要注意的是，圖上神經(jīng)網(wǎng)絡(luò)除了上面提到基于圖的空間結(jié)構(gòu)的思路之外，還有一種基于譜分析 (spectral analysis) 的構(gòu)造思路。關(guān)于這一類方法，請(qǐng)見參考文獻(xiàn)【2】。在 ST-GCN 中，我們也使用了基于圖的空間結(jié)構(gòu)的思路。

時(shí)空?qǐng)D卷積網(wǎng)絡(luò)與動(dòng)作識(shí)別

要將圖卷積網(wǎng)絡(luò)運(yùn)用于基于骨架關(guān)鍵點(diǎn)的動(dòng)作識(shí)別中，我們還需要仔細(xì)分析這個(gè)任務(wù)的特點(diǎn)與難點(diǎn)，而不是直接將已有方法生搬硬湊。在本文中，我們指出了原始 GCN 的一個(gè)重要性質(zhì)：該文中提出的卷積操作，實(shí)質(zhì)上等價(jià)于先將鄰域內(nèi)所有節(jié)點(diǎn)的特征向量求平均，再與卷積核的參數(shù)向量計(jì)算內(nèi)積。這種平均操作在骨架動(dòng)作識(shí)別會(huì)遇到一個(gè)重要問題，即：它無(wú)法建模關(guān)鍵點(diǎn)之間相對(duì)位置變化的情況，或所謂的「微分性質(zhì)」（differential properties）。因此基于原始 GCN 的模型，識(shí)別性能并不會(huì)很理想。

針對(duì)這個(gè)問題，我們認(rèn)為，要真正增強(qiáng)的模型的性能，必須跳出原始 GCN 的「平均思想」。為了解決這個(gè)問題，我們將理解了圖像上的卷積操作理解為把中心像素相鄰的像素集合（鄰域集-neighbor set）按照空間順序，如從左至右，從上至下，劃分為一系列集合。在圖像的情形中，每個(gè)集合正好包含一個(gè)像素。這些集合就構(gòu)成了鄰域集的一個(gè)劃分（partition）。卷積核的參數(shù)只與這個(gè)劃分中的子集個(gè)數(shù)以及特征向量長(zhǎng)度有關(guān)。那么在普通的圖結(jié)構(gòu)中，只要定義了某種劃分規(guī)則（partitioning strategy），我們就也可以參照?qǐng)D像卷積來(lái)定義卷積核的參數(shù)。類似的思想也應(yīng)用在了如 deformable CNN 等近期工作中。

有了這個(gè)思想，我們就可以針對(duì)骨架動(dòng)作識(shí)別，乃至任何圖卷積網(wǎng)絡(luò)所面對(duì)的問題來(lái)定義有針對(duì)性的卷積操作。而定義卷積操作就簡(jiǎn)化為了設(shè)計(jì)對(duì)應(yīng)的劃分規(guī)則。對(duì)一個(gè)存在 K 個(gè)子集的劃分規(guī)則，卷積核的參數(shù)包含 K 個(gè)部分，每個(gè)部分參數(shù)數(shù)量與特征向量一樣。仍然以圖像上的卷積為例，在一個(gè)窗口大小為 3x3 的卷積操作中，一個(gè)像素的鄰域（窗口）按照空間順序被劃分為 9 個(gè)子集（左上，上，右上，左，中，右，左下，下，右下），每個(gè)子集包含一個(gè)像素。卷積核的參數(shù)包含 9 個(gè)部分，每個(gè)部分與特征圖（feature map）的特征向量長(zhǎng)度（number of channel）一致。也就是說(shuō)，圖像卷積可以解釋為普通圖上卷積在規(guī)則網(wǎng)格圖（regular grid）上的一種應(yīng)用。

為了在時(shí)空?qǐng)D上進(jìn)行骨架動(dòng)作識(shí)別，我們提出了三種空間的劃分規(guī)則。

第一種稱為「唯一劃分」(uni-labeling)。其與原始 GCN 相同，將節(jié)點(diǎn)的 1 鄰域劃分為一個(gè)子集。

第二種稱為「基于距離的劃分」(distance partitioning)，它將節(jié)點(diǎn)的 1 鄰域分為兩個(gè)子集，即節(jié)點(diǎn)本身子集與鄰節(jié)點(diǎn)子集。引入基于距離的劃分使得我們可以分析骨架關(guān)鍵點(diǎn)之間的微分性質(zhì)。

進(jìn)一步，我們針對(duì)動(dòng)作識(shí)別的特點(diǎn)，提出了第三種，「空間構(gòu)型劃分」(spatial configuration partitioning)。這種劃分規(guī)則將節(jié)點(diǎn)的 1 鄰域劃分為 3 個(gè)子集，第一個(gè)子集為節(jié)點(diǎn)本身，第二個(gè)為空間位置上比本節(jié)點(diǎn)更靠近整個(gè)骨架重心的鄰節(jié)點(diǎn)集合，第三個(gè)則為更遠(yuǎn)離重心的鄰節(jié)點(diǎn)集合。建立這種劃分規(guī)則在根據(jù)運(yùn)動(dòng)分析的研究中對(duì)向心運(yùn)動(dòng)與離心運(yùn)動(dòng)的定義。三種劃分規(guī)則的示意圖請(qǐng)見圖 4。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

圖 4，三種空間的劃分規(guī)則示意圖。

除了同一幀內(nèi)部的空間劃分規(guī)則，在時(shí)間上，由于時(shí)序邊構(gòu)成了一個(gè)網(wǎng)格，我們可以直接使用類似于時(shí)序卷積（temporal convolution）的劃分規(guī)則。最終，時(shí)空?qǐng)D上使用的劃分規(guī)則得到的子集集合會(huì)是空間劃分與時(shí)序劃分的笛卡爾積。

定義好了時(shí)空?qǐng)D上的卷積操作，我們就可以設(shè)計(jì)卷積網(wǎng)絡(luò)了。為了展示 ST-GCN 的性能，我們直接從一個(gè)已有的時(shí)序卷積網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了文中用到的 ST-GCN 的網(wǎng)絡(luò)結(jié)構(gòu)。我們將所有時(shí)序卷積操作轉(zhuǎn)為時(shí)空?qǐng)D的卷積操作，每一個(gè)卷積層的輸出是一個(gè)時(shí)空?qǐng)D，圖上每一個(gè)節(jié)點(diǎn)保有一個(gè)特征向量。最終，我們合并所有節(jié)點(diǎn)上的特征并使用線性分類層進(jìn)行動(dòng)作分類。訓(xùn)練使用標(biāo)準(zhǔn)的 SoftMax 交叉熵?fù)p失函數(shù)進(jìn)行監(jiān)督。參數(shù)學(xué)習(xí)使用標(biāo)準(zhǔn)隨機(jī)梯度下降算法（SGD）。

實(shí)驗(yàn)結(jié)果

我們?cè)趦蓚€(gè)性質(zhì)迥異的骨架動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)來(lái)驗(yàn)證 ST-GCN 的性能。

第一個(gè)數(shù)據(jù)集是 Kinetics-Skeleton，它來(lái)自于最近由 Google DeepMind 貢獻(xiàn)的 Kinetics 視頻人類動(dòng)作識(shí)別數(shù)據(jù)集。我們使用 OpenPose 姿態(tài)估計(jì)軟件得到視頻中所有的骨架關(guān)鍵點(diǎn)信息來(lái)構(gòu)成 Kinetics-Skeleton。該數(shù)據(jù)集共有約 30 萬(wàn)個(gè)視頻與 400 類動(dòng)作。

第二個(gè)數(shù)據(jù)集是 NTU-RGB+D，這是三維骨架動(dòng)作識(shí)別的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集。它包含了用 Microsoft Kinect 采集的三維骨架序列。該數(shù)據(jù)集共有約 6 萬(wàn)個(gè)視頻，60 個(gè)動(dòng)作類別。這個(gè)數(shù)據(jù)集包含了兩個(gè)測(cè)試協(xié)議，即跨表演人（X-Sub）與跨視角（X-View）協(xié)議。在兩個(gè)數(shù)據(jù)集的三個(gè)測(cè)試協(xié)議上，ST-GCN 相比現(xiàn)有方法在識(shí)別精度上均有很大提高，具體結(jié)果可見表圖 1。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 1. 骨架動(dòng)作識(shí)別結(jié)果

除了得到更好的性能，我們也詳細(xì)分析了三種劃分規(guī)則對(duì)識(shí)別精度的影響。如表 2 所示，正如我們所期望的，距離劃分與空間構(gòu)型劃分相對(duì)于原始 GCN 使用的唯一劃分在精度上均有較大提高。這證明了引入新的劃分規(guī)則的重要性。特別的，針對(duì)動(dòng)作識(shí)別任務(wù)設(shè)計(jì)的空間構(gòu)型劃分取得了最高的性能，并被最后應(yīng)用于 ST-GCN 的相關(guān)實(shí)驗(yàn)中。

我們還將 ST-GCN 的最后一層神經(jīng)元響應(yīng)進(jìn)行了可視化（表 2）。在結(jié)果中我們可以明顯看到 ST-GCN 能夠追蹤并深入分析在某個(gè)時(shí)間段與動(dòng)作最相關(guān)的身體部分的運(yùn)動(dòng)，這解釋了為何 ST-GCN 相對(duì)于其他不關(guān)注空間結(jié)構(gòu)的現(xiàn)有方法能得到很大的性能提高。

港中文AAAI錄用論文詳解：ST-GCN 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型 | AAAI 2018

表圖 2，不同劃分規(guī)則的影響

思考與最后的話

回顧 ST-GCN 的提出，我們總結(jié)了兩個(gè)重要的思想跨越。

第一個(gè)是從將骨架序列理解為一幀幀的骨架演進(jìn)為將整個(gè)視頻理解為一個(gè)整體的時(shí)空?qǐng)D，這使得用一個(gè)統(tǒng)一的模型來(lái)分析動(dòng)作成為可能。
第二個(gè)是從原始 GCN 的樸素思想演進(jìn)為使用基于劃分規(guī)則的卷積定義。這個(gè)思想使得我們可以超越原始 GCN 并得到巨大的性能提升，該思想也在 MoNet【3】的工作中被提及過(guò)。我們將其原則化為集合的劃分操作。這也使得這個(gè)思想可以應(yīng)用其他的分析任務(wù)中。

在將來(lái)的工作中，我們計(jì)劃運(yùn)用 ST-GCN 的靈活性來(lái)處理更多的圖分析問題。同時(shí)，針對(duì)動(dòng)作識(shí)別任務(wù)，一個(gè)自然的演進(jìn)就是在骨架關(guān)鍵點(diǎn)坐標(biāo)的基礎(chǔ)上引入視覺特征，如圖像特征，乃至場(chǎng)景圖（scene-graph）等，并將它們統(tǒng)一在 ST-GCN 的分析框架下。我們的最終目標(biāo)則是一個(gè)性能更高，更具有可解釋性的統(tǒng)一的視頻動(dòng)作識(shí)別模型。