計(jì)算機(jī)也可以看“視頻”，理解“視頻”

本文作者：高婓

2016-08-08 15:56

導(dǎo)語(yǔ)：摘要我們將在文中介紹一種用于視頻中動(dòng)作檢測(cè)的端對(duì)端方法，該方法用于學(xué)習(xí)直接預(yù)測(cè)動(dòng)作的瞬時(shí)改變。我們認(rèn)為，動(dòng)作檢測(cè)是一個(gè)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行觀察并細(xì)化假設(shè)的過(guò)程：觀察視

聯(lián)合編譯：高斐章敏

摘要

我們將在文中介紹一種用于視頻中動(dòng)作檢測(cè)的端對(duì)端方法，該方法用于學(xué)習(xí)直接預(yù)測(cè)動(dòng)作的瞬時(shí)改變。我們認(rèn)為，動(dòng)作檢測(cè)是一個(gè)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行觀察并細(xì)化假設(shè)的過(guò)程：觀察視頻中每一個(gè)動(dòng)作變化瞬間，細(xì)化關(guān)于一個(gè)動(dòng)作將何時(shí)發(fā)生的所有假設(shè)。基于該觀點(diǎn)，我們將提出的模型視為一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的代理人程序，該代理人程序與視頻進(jìn)行交流互動(dòng)。代理人程序觀察視頻幀序列，決定下一步觀察哪里，何時(shí)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行動(dòng)作預(yù)測(cè)。由于反向傳播算法在這種不可微的環(huán)境下不能得到充分利用，我們使用REINFORCE算法學(xué)習(xí)智能體的決策策略。我們的模型運(yùn)用THUMOS’14和ActivityNet數(shù)據(jù)集，僅僅觀測(cè)一小部分（2%或更少）視頻幀序列就獲得了state-of-the-art結(jié)果。

1 引言

在計(jì)算機(jī)視覺(jué)研究領(lǐng)域，要對(duì)現(xiàn)實(shí)世界中歷時(shí)長(zhǎng)的視頻進(jìn)行動(dòng)作檢測(cè)是一個(gè)頗具挑戰(zhàn)性的科研難題。眾多算法必須不僅能夠推理得出一個(gè)動(dòng)作是否會(huì)在視頻中發(fā)生，也要能夠預(yù)測(cè)該動(dòng)作何時(shí)會(huì)發(fā)生?，F(xiàn)有的文獻(xiàn)[22,39,13,46]均采用構(gòu)建幀級(jí)別分類(lèi)器，在多個(gè)時(shí)間標(biāo)尺下，詳盡地在一個(gè)視頻中運(yùn)行這些分類(lèi)器，并且運(yùn)用后期處理方式，如時(shí)間先驗(yàn)和極大值抑制。然而，在精確度與計(jì)算效率方面，該間接動(dòng)作定位模型不甚令人滿意。

我們?cè)诒疚闹薪榻B一種端對(duì)端的動(dòng)作檢測(cè)方法，該方法能夠直接推理得出動(dòng)作的瞬時(shí)變化。我們的主要觀點(diǎn)為，動(dòng)作檢測(cè)是一個(gè)具有連續(xù)性和慣性的觀察細(xì)化過(guò)程。通過(guò)觀察單個(gè)或多個(gè)幀序列，能夠人為地對(duì)動(dòng)作何時(shí)發(fā)生做出假設(shè)。然后，我們可以重復(fù)觀察一些幀序列證實(shí)作出的假設(shè)，快速確定動(dòng)作將要發(fā)生的位置（例如，圖1所示揮動(dòng)棒球棒這一動(dòng)作）。我們能夠有順序地決定將目光投向哪個(gè)方向，如何采用與已有算法相比較為簡(jiǎn)化的搜索方法，來(lái)細(xì)化動(dòng)作預(yù)測(cè)假設(shè)，獲得精確的動(dòng)作位置信息。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖1：動(dòng)作檢測(cè)是一個(gè)觀察與細(xì)化的過(guò)程。有效地選取幀觀察序列有助于我們快速確定何時(shí)揮動(dòng)棒球棒。

基于上述觀點(diǎn)，我們提出一個(gè)單一連續(xù)性模型，該模型需要一個(gè)歷時(shí)較長(zhǎng)的視頻作為輸入信息，輸出檢測(cè)所得的動(dòng)作實(shí)例的瞬時(shí)變化。我們將提出的模型制定為一個(gè)代理人程序，該代理人程序可以學(xué)習(xí)策略，關(guān)于動(dòng)作實(shí)例形成有序的假設(shè)，并對(duì)作出的假設(shè)進(jìn)行細(xì)化。在一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中運(yùn)用這一觀點(diǎn)，我們采用反向傳播算法與REINFORCE算法[42]相結(jié)合的方法全面端對(duì)端訓(xùn)練所提出的模型。

我們的模型是從一些研究文獻(xiàn)中汲取靈感的，這些文獻(xiàn)運(yùn)用REINFORCE算法來(lái)學(xué)習(xí)對(duì)圖像分類(lèi)與加字幕的空間觀測(cè)策略[19,1,30,43 ]。然而，動(dòng)作檢測(cè)仍面臨另一個(gè)挑戰(zhàn)，即如何處理一個(gè)結(jié)構(gòu)化檢測(cè)輸出結(jié)果的變量集合。為了解決這一難題，我們提出一個(gè)既能夠決定運(yùn)用哪一個(gè)幀觀測(cè)下一個(gè)潛在動(dòng)作，也能夠決定何時(shí)對(duì)動(dòng)作變化作出預(yù)測(cè)。此外，我們介紹了一種獎(jiǎng)勵(lì)機(jī)制，使得計(jì)算機(jī)能夠?qū)W習(xí)這一策略。就我們所知，這是首個(gè)學(xué)習(xí)視頻動(dòng)作檢測(cè)的端對(duì)端方法。

我們認(rèn)為，我們的模型具備有效推理動(dòng)作瞬時(shí)變化的能力，并且能夠運(yùn)用THUMOS’14和ActivityNe數(shù)據(jù)集獲得state-of-the-art性能。此外，我們的模型能夠?qū)W習(xí)決定使用哪一個(gè)幀進(jìn)行觀測(cè)或?qū)崟r(shí)觀測(cè)，它也具備僅觀測(cè)一部分（2%或更少）幀序列，便可學(xué)習(xí)決策策略的能力。

2 相關(guān)研究文獻(xiàn)

視頻分析與活動(dòng)識(shí)別領(lǐng)域具有悠久的研究歷史[20,449,2,31,17,8,10,112,50]。我們參考Poppe[24]與Weinland等人[40]的研究對(duì)該領(lǐng)域進(jìn)行研究。這里我們將回顧近來(lái)有關(guān)瞬時(shí)動(dòng)作檢測(cè)的文獻(xiàn)。瞬時(shí)動(dòng)作檢測(cè) 該研究方向的典型研究成果當(dāng)屬Ke等人[14]。Rohrbach等人[27]與Ni等人[21]在一個(gè)固定攝像機(jī)廚房環(huán)境下，以手和物體為特征分別檢測(cè)嫻熟的烹飪動(dòng)作。與我們當(dāng)前研究更為相關(guān)的是無(wú)約束無(wú)修改設(shè)置的THUMOS’14動(dòng)作數(shù)據(jù)集。Oneata等[22],王等[39]，Karaman等[13]，及Yuan等[46]在滑動(dòng)窗口框架中使用密集軌跡，幀級(jí)別CNN特征，和/或聲音特征檢測(cè)瞬時(shí)動(dòng)作。Sun等[34]基于網(wǎng)絡(luò)圖像提高檢測(cè)性能。Pirsiacash與Ramanan[23]對(duì)復(fù)雜的動(dòng)作建立語(yǔ)法結(jié)構(gòu)，并及時(shí)檢測(cè)子成分。

空間-時(shí)間動(dòng)作檢測(cè)方法也得到了發(fā)展。在“無(wú)約束”的網(wǎng)絡(luò)視頻環(huán)境下，發(fā)展這些方法需要有大量關(guān)于空間-時(shí)間動(dòng)作假說(shuō)的文獻(xiàn)[44,16,36,9,7,45,41]。動(dòng)作檢測(cè)更為寬泛的檢測(cè)場(chǎng)景分析也是一個(gè)活躍的研究領(lǐng)域。Shu等[32]在人群中進(jìn)行推理，Loy等[18]運(yùn)用多臺(tái)攝像機(jī)場(chǎng)景進(jìn)行推理，Kwak等[15]遵循基于二次編程的實(shí)例化原則進(jìn)行推理。這些研究存在一個(gè)共同點(diǎn)，即在時(shí)間維度內(nèi)典型地運(yùn)用基于滑動(dòng)窗口的方法，在空間-時(shí)間動(dòng)作假說(shuō)或人類(lèi)軌跡的基礎(chǔ)上進(jìn)行推理。此外，這些研究是運(yùn)用經(jīng)過(guò)修剪或約束的視頻剪輯開(kāi)展來(lái)的。與之形成鮮明對(duì)比，我們運(yùn)用無(wú)修剪，無(wú)約束的視頻剪輯完成空間動(dòng)作檢測(cè)任務(wù)，提供了一種有效的方法來(lái)確定使用那些幀序列進(jìn)行觀測(cè)。

端對(duì)端檢測(cè) 我們直接推理動(dòng)作的瞬時(shí)變化的研究目的與關(guān)于從整幅圖像到物體變化的物體檢測(cè)的研究工作具有相同的哲學(xué)意義[29,35,5,6,26,25]。相反，現(xiàn)有的動(dòng)作檢測(cè)方法主要運(yùn)用詳盡的滑動(dòng)窗口方法和后期處理程序得出動(dòng)作實(shí)例[22,39,13,46]。就我們所知，我們的研究工作是首個(gè)采用端對(duì)端框架學(xué)習(xí)瞬時(shí)動(dòng)作檢測(cè)的。

學(xué)習(xí)特定任務(wù)策略我們從近期使用REINFORCE算法來(lái)學(xué)習(xí)特定任務(wù)策略的途徑中獲得研究靈感。Mnih等[19]學(xué)習(xí)圖像分類(lèi)的空間注意策略，Xu等[43]學(xué)習(xí)圖像字幕生成。在非視覺(jué)化任務(wù)中，Zaremba等[47]學(xué)習(xí)REINFORCE算法神經(jīng)圖靈機(jī)策略。我們采用的方法是建立在這些研究方向之上，運(yùn)用強(qiáng)化法學(xué)習(xí)處理動(dòng)作檢測(cè)任務(wù)的策略。

3 研究方法

我們的研究目的是運(yùn)用一個(gè)長(zhǎng)的視頻序列，輸出任意一個(gè)指定動(dòng)作的實(shí)例。圖2所示為我們的模型結(jié)構(gòu)。我們將這個(gè)模型制定為一個(gè)REINFORCE算法代理人程序，該代理人程序與視頻在特定時(shí)間段內(nèi)進(jìn)行交流溝通。代理人程序接收一系列視頻幀序列V={v₁,…,v_T}作為輸入信息，能夠觀測(cè)固定比例的幀序列。該模型必須能夠有效地利用這些觀測(cè)結(jié)果，或幀觀測(cè)結(jié)果，來(lái)推理動(dòng)作的瞬時(shí)變化。

3.1結(jié)構(gòu)

我們提出的模型由兩個(gè)主要成分構(gòu)成:一個(gè)觀測(cè)網(wǎng)絡(luò)（見(jiàn)3.1.1），一個(gè)遞歸網(wǎng)絡(luò)（見(jiàn)3.1.2）。觀測(cè)網(wǎng)絡(luò)為視頻幀的視覺(jué)表征編碼。遞歸網(wǎng)絡(luò)有序地加工這些觀測(cè)結(jié)果，并決定運(yùn)用哪一個(gè)幀序列觀測(cè)下一個(gè)動(dòng)作，何時(shí)對(duì)動(dòng)作變化作出預(yù)測(cè)。我們現(xiàn)在將更為詳細(xì)地描述這兩個(gè)組成成分。之后在3.2，我們將闡釋如何運(yùn)用端對(duì)端的方法，結(jié)合反向傳播算法與強(qiáng)化手段訓(xùn)練我們提出的模型。

3.1.1 觀測(cè)網(wǎng)絡(luò)

如圖2所示，觀測(cè)網(wǎng)絡(luò)f₀,用參數(shù)θ₀表示，在每一個(gè)時(shí)間步長(zhǎng)中觀察單一的視頻幀。在該觀測(cè)網(wǎng)絡(luò)中，用特征向量O_n為幀編碼，將該特征向量作為遞歸網(wǎng)絡(luò)的輸入信息。

重要的是，O_n表示在視頻中何處進(jìn)行觀測(cè)及觀測(cè)什么的編碼信息。因而，觀測(cè)網(wǎng)絡(luò)的輸入信息由觀測(cè)的正常時(shí)間位置與相對(duì)應(yīng)的視頻幀構(gòu)成。

觀測(cè)網(wǎng)絡(luò)結(jié)構(gòu)受到文獻(xiàn)[19]中涉及到的空間觀測(cè)網(wǎng)絡(luò)啟發(fā)。L_n和v_ln被映射到一個(gè)隱蔽的空間內(nèi)，然后，與一個(gè)全面的連接層相結(jié)合。在我們的實(shí)驗(yàn)中，我們從一個(gè)經(jīng)過(guò)優(yōu)化的VGG-16網(wǎng)絡(luò)中提取得到f_c7特征。

3.1.2 遞歸網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)f_h，用參數(shù)o_h表示，是學(xué)習(xí)代理人程序的核心網(wǎng)絡(luò)結(jié)構(gòu)。正如可以在圖2中觀測(cè)到的，在每一個(gè)時(shí)間步長(zhǎng)n中，該網(wǎng)絡(luò)的輸入信息為一個(gè)觀測(cè)特征向量o_n。該網(wǎng)絡(luò)的隱蔽空間h_n，o_n與先前隱蔽空間h_n-1，為動(dòng)作實(shí)例構(gòu)建時(shí)間假說(shuō)。

在代理人程序推理的過(guò)程中，每一個(gè)時(shí)間步長(zhǎng)內(nèi)輸出三種信息：候選檢測(cè)結(jié)果d_n，標(biāo)志是否產(chǎn)出預(yù)測(cè)結(jié)果dn的二進(jìn)制指示參數(shù)p_n，及確定觀測(cè)下一個(gè)動(dòng)作的幀的時(shí)間位置l_n+1。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖2：該模型的輸入信息為一系列視頻幀序列，輸出信息為一系列動(dòng)作預(yù)測(cè)結(jié)果。

3.2 訓(xùn)練

我們的最終研究目的是學(xué)習(xí)輸出一系列動(dòng)作檢測(cè)結(jié)果。為了實(shí)現(xiàn)這一目標(biāo)，我們需要在代理人程序的遞歸網(wǎng)絡(luò)中的每一步訓(xùn)練這三種輸出信息：候選檢測(cè)結(jié)果d_n，預(yù)測(cè)指示值p_n，及下一個(gè)觀測(cè)位置l_n+1。鑒于對(duì)長(zhǎng)視頻中瞬時(shí)動(dòng)作注釋的檢測(cè)，訓(xùn)練這些輸出結(jié)果面臨著設(shè)計(jì)合適的損失與獎(jiǎng)勵(lì)函數(shù)，處理不可微模型組成成分。我們運(yùn)用標(biāo)準(zhǔn)的反向傳播算法來(lái)訓(xùn)練d_n，運(yùn)用強(qiáng)化手段來(lái)訓(xùn)練p_n和l_n+1。

3.2.1 候選檢測(cè)結(jié)果

運(yùn)用反向傳播算法訓(xùn)練候選檢測(cè)結(jié)果，以確保每一個(gè)候選檢測(cè)結(jié)果的正確性。由于每一個(gè)候選結(jié)果都代表代理人程序關(guān)于動(dòng)作作出的假設(shè)，不論每一個(gè)候選結(jié)果最終是否得到輸出，我們都希望確保該結(jié)果最為正確。這便要求在訓(xùn)練過(guò)程中將每一個(gè)候選結(jié)果與一個(gè)ground truth實(shí)例相匹配。代理人程序應(yīng)當(dāng)在視頻中最接近當(dāng)前位置的地方對(duì)動(dòng)作實(shí)例作出假設(shè)。這有助于我們?cè)O(shè)計(jì)出一個(gè)簡(jiǎn)單卻有效的匹配函數(shù)。

與ground truth 相匹配如果存在一個(gè)由遞歸網(wǎng)絡(luò)中N個(gè)時(shí)間步長(zhǎng)得出的候選檢測(cè)結(jié)果集合D={dn|n=1,…,N}和ground truth 動(dòng)作實(shí)例g1,…,M，那么每一個(gè)候選檢測(cè)結(jié)果都將于一個(gè)ground truth實(shí)例相匹配；如果M=0,那么沒(méi)有匹配結(jié)果。

我們定義匹配函數(shù)為

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

換句話講，如果在時(shí)間步長(zhǎng)n內(nèi)，代理人程序的時(shí)間位置ln比任何一個(gè)ground truth實(shí)例都接近g_m,候選結(jié)果dn與ground truth g_m匹配。

損失函數(shù) 一旦候選檢測(cè)結(jié)果與ground truth實(shí)例得以匹配，我們運(yùn)用集合D來(lái)優(yōu)化一個(gè)多重任務(wù)分類(lèi)與定位損失函數(shù)：

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

公式中的分類(lèi)術(shù)語(yǔ) 是一個(gè)關(guān)于檢測(cè)信度c_n的標(biāo)準(zhǔn)交叉熵?fù)p失值，如果檢測(cè)結(jié)果d_n與一個(gè)ground truth實(shí)例相匹配，那么信度接近1；否則，信度為0。

我們運(yùn)用反向傳播算法優(yōu)化該損失函數(shù)。

3.2.2 序列的觀測(cè)與輸出

觀測(cè)定位與預(yù)測(cè)指數(shù)輸出結(jié)果是我們的模型中不可微的組成成分，無(wú)法用反向傳播算法訓(xùn)練這些輸出結(jié)果。然而，強(qiáng)化手段是一種強(qiáng)有力的方法，能夠?qū)崿F(xiàn)在不可微的環(huán)境下進(jìn)行學(xué)習(xí)。下文我們將簡(jiǎn)略描述這種強(qiáng)化手段。之后，我們介紹一種與強(qiáng)化手段相結(jié)合的獎(jiǎng)勵(lì)函數(shù)，學(xué)習(xí)觀測(cè)與預(yù)測(cè)輸出序列的有效策略。

強(qiáng)化手段存在Α，一個(gè)動(dòng)作序列空間，和一個(gè)Pθ(a),強(qiáng)化目標(biāo)可以表示為

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

在該公式中r(a)為分配給每一個(gè)可能動(dòng)作序列的獎(jiǎng)勵(lì)，J(θ)為每一個(gè)可能動(dòng)作序列分布結(jié)果的預(yù)期獎(jiǎng)勵(lì)。我們希望學(xué)習(xí)網(wǎng)絡(luò)參數(shù)θ，該參數(shù)使每一個(gè)位置序列和預(yù)期指示輸出結(jié)果的預(yù)期獎(jiǎng)勵(lì)實(shí)現(xiàn)最大值。

目標(biāo)梯度為

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

由于可能動(dòng)作序列具有高維度空間，這將導(dǎo)致一個(gè)特殊的優(yōu)化問(wèn)題。強(qiáng)化手段通過(guò)使用蒙特卡洛樣本和近似梯度方程學(xué)習(xí)網(wǎng)絡(luò)參數(shù)，以解決這一問(wèn)題。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

由于一個(gè)代理人程序與周?chē)h(huán)境進(jìn)行交流溝通，在我們的視頻中，π_θ為代理人程序的策略。在每一個(gè)時(shí)間步長(zhǎng)n內(nèi)，a_n是該策略的當(dāng)前動(dòng)作，h_1:n為包括當(dāng)前狀態(tài)在內(nèi)的過(guò)去狀態(tài)的歷史記錄，a_1:n-1為過(guò)去動(dòng)作的歷史記錄。通過(guò)在其所處環(huán)境中，經(jīng)營(yíng)一個(gè)代理人程序的當(dāng)前策略，以獲得K互動(dòng)序列，最終計(jì)算得出近似梯度。

根據(jù)該近似梯度，強(qiáng)化手段學(xué)習(xí)模型參數(shù)。導(dǎo)致高未來(lái)獎(jiǎng)勵(lì)的動(dòng)作的概率在不斷增長(zhǎng)，那些導(dǎo)致低獎(jiǎng)勵(lì)的概率將下降?？梢赃\(yùn)用反向傳播算法對(duì)模型參數(shù)實(shí)施實(shí)時(shí)更新。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖1：THYMOS`14上的行動(dòng)檢測(cè)結(jié)果。與THUMOS`14挑戰(zhàn)榜排行前3的性能進(jìn)行比較，并且展示了消融模型。mAP報(bào)道了不同的交叉聯(lián)合（intersection-over-union/IOU）閾值α

獎(jiǎng)勵(lì)函數(shù) 訓(xùn)練強(qiáng)化手段要求設(shè)計(jì)出一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)。我們的目標(biāo)是學(xué)習(xí)位置與預(yù)測(cè)指示輸出結(jié)果的策略，這些輸出結(jié)果將產(chǎn)生高回憶和高精確度的動(dòng)作檢測(cè)結(jié)果。因而，我們介紹一種能夠使真肯定檢測(cè)結(jié)果最大化，而使假肯定檢測(cè)結(jié)果最小化的獎(jiǎng)勵(lì)函數(shù)：

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

所有的獎(jiǎng)勵(lì)都是在Nth（最后）時(shí)間步長(zhǎng)時(shí)提供的，且n<N時(shí)為0，因?yàn)槲覀兿胝业揭粋€(gè)可以共同產(chǎn)生高整體檢測(cè)性能的方法。M是正確標(biāo)注（ground truth）行為實(shí)例的數(shù)量，并且Np是代理發(fā)出預(yù)測(cè)的數(shù)量。N+是正的正樣本（positive predictions）預(yù)測(cè)數(shù)量，N-是最小正的負(fù)樣本（false positive）預(yù)測(cè)數(shù)量，并且R+和R-分別是每一個(gè)預(yù)測(cè)的正獎(jiǎng)勵(lì)和負(fù)獎(jiǎng)勵(lì)。如果一個(gè)預(yù)測(cè)與正確標(biāo)注的重疊比閾值大，且比其他所有的預(yù)測(cè)還高，那么該預(yù)測(cè)就是正確的。為了鼓勵(lì)代理人不過(guò)于保守，當(dāng)視頻包含正確標(biāo)注實(shí)例（M > 0），但該模型沒(méi)有發(fā)出任何預(yù)測(cè)（NP = 0）時(shí)，我們提供一個(gè)負(fù)面的獎(jiǎng)勵(lì)Rp。

我們使用有REINFORACE的函數(shù)訓(xùn)練位置和預(yù)測(cè)指標(biāo)輸出，并學(xué)習(xí)觀測(cè)和排放政策（emission policies）以優(yōu)化行動(dòng)檢測(cè)。

4.實(shí)驗(yàn)

我們?cè)赥HUMOS`14和ActivityNet兩個(gè)數(shù)據(jù)集評(píng)估了我們的模型。結(jié)果顯示，我們的端對(duì)端的方法確保了模型可以最大幅度的在兩個(gè)數(shù)據(jù)集產(chǎn)生最好的結(jié)果。此外，幀的學(xué)習(xí)策略即有效又高效；當(dāng)觀測(cè)到的視頻幀只有2%或更少的時(shí)，模型達(dá)到了這些結(jié)果。

4.1實(shí)施細(xì)節(jié)

對(duì)于每一個(gè)行動(dòng)級(jí)別我們都學(xué)習(xí)了1-vs-all模型。在觀測(cè)網(wǎng)絡(luò)中，我們使用了VGG-16網(wǎng)絡(luò)優(yōu)調(diào)數(shù)據(jù)集，以便從觀測(cè)的視頻幀中提取視覺(jué)特征。FC7-layer特征被提取并嵌入幀的時(shí)間位置到1024維的觀測(cè)向量。

對(duì)于遞歸網(wǎng)絡(luò)，我們使用了一個(gè)3層LSTM網(wǎng)絡(luò)（在每一個(gè)層都有1024個(gè)隱藏單元）視頻在THUMOS`14向下采樣到5fps，在ActivityNe向下采樣到1fps，并且在50幀的序列中進(jìn)行。代理被給予了對(duì)于每個(gè)序列固定數(shù)量的觀測(cè)，我們實(shí)驗(yàn)中代表性的數(shù)量是6。在視頻序列中，所有的時(shí)間位置被歸一化成[0,1]。任何預(yù)測(cè)重疊或交叉序列的邊界都會(huì)被融合到一個(gè)簡(jiǎn)單的聯(lián)盟規(guī)則。我們學(xué)習(xí)256序列中極小的一部分，并且在優(yōu)化時(shí)使用RMSProp模擬預(yù)參數(shù)學(xué)習(xí)率（the perparameter learning rate）。其它的超參數(shù)通過(guò)交叉驗(yàn)證（cross-validation）來(lái)學(xué)習(xí)。序列的系數(shù)包含了每一個(gè)極小部分（mini-batch）的正實(shí)例，它是阻止模型過(guò)渡保守的一個(gè)非常重要的超參數(shù)。大概三分之一到一半的正實(shí)例被代表性的使用。

4.2.THUMOS`14數(shù)據(jù)集

THUMOS`14的行動(dòng)檢測(cè)任務(wù)包括20類(lèi)運(yùn)動(dòng)，且表1顯示了在這個(gè)數(shù)據(jù)集上的結(jié)果。因?yàn)樵撊蝿?wù)只包括數(shù)據(jù)集中101類(lèi)動(dòng)作的其中20類(lèi)，我們第一次粗過(guò)濾了這些類(lèi)測(cè)試視頻的整個(gè)集，用視頻水平的平均值池化類(lèi)概率——每300幀計(jì)算一次（0.1fps）。我們報(bào)道了不同IOU閾值的αmAP，并與THUMOS`14挑戰(zhàn)榜排名前3的性能進(jìn)行了比較。所有這些方法計(jì)算密集的軌跡和/或時(shí)間窗口的CNN特征，并使用一個(gè)非最大抑制滑動(dòng)窗口的方法獲得預(yù)測(cè)。僅使用密集的軌跡，[使用時(shí)間窗口結(jié)合密集的軌跡和CNN特征，以及使用有著視頻水平CNN分類(lèi)預(yù)測(cè)的密集軌跡的時(shí)間窗口。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖片3：將我們的w / odobs描述與所有的模型進(jìn)行比較。參考圖5中圖形結(jié)構(gòu)的說(shuō)明

和配色方案。每個(gè)模型的觀測(cè)幀用綠色顯示，預(yù)測(cè)程度用紅色顯示。允許模型選擇要觀測(cè)的幀，以確保行動(dòng)邊界上所需的分辨率。

我們的模型優(yōu)于所有在α值處現(xiàn)存的方法。隨著α的減少，相對(duì)利潤(rùn)率增加了，這表明我們的模型更頻繁地預(yù)測(cè)接近于正確標(biāo)注情況的行動(dòng)，即使不精確定位的情況相。我們的模型使用它的學(xué)習(xí)觀測(cè)策略進(jìn)行到視頻幀的2%時(shí)就實(shí)現(xiàn)了該結(jié)果。

消融（Ablation）實(shí)驗(yàn).表1也顯示了消融實(shí)驗(yàn)的結(jié)果，分析不同模型組件的貢獻(xiàn)。消融模型如下：

·我們的w/o dpred移除預(yù)測(cè)指標(biāo)輸出。在每一個(gè)時(shí)間步長(zhǎng)的候選檢測(cè)都被發(fā)出，并與非極大值抑制合并。

·我們的w/o dobs移除了位置輸出指標(biāo)（下一個(gè)要觀測(cè)哪一個(gè)地方）。觀測(cè)不再是由均勻采樣相同總數(shù)的觀測(cè)決定。

·我們的w/o dobs w/o dpred移除了預(yù)測(cè)指標(biāo)和位置預(yù)測(cè)輸出

·我們的 w/o loc移除位置回歸。所有發(fā)射檢測(cè)都是訓(xùn)練集的中等長(zhǎng)度，并集中在目前觀測(cè)到的幀。

·有NMS的CNN移除了時(shí)間行動(dòng)邊界的直接預(yù)測(cè)。我們觀測(cè)網(wǎng)絡(luò)中VGG-16網(wǎng)絡(luò)的預(yù)-幀類(lèi)概率，是在多個(gè)時(shí)間尺度上密集獲得的，并且聚合了非最大抑制，類(lèi)似于現(xiàn)有的工作。

由于大量的正的負(fù)樣本（false positives），相比于整個(gè)模型我們的w/o dpred獲得了更低的性能。我們的w/o dobs同樣更低效，因?yàn)榫鶆虿蓸記](méi)有提供足夠的分辨率來(lái)定位動(dòng)作邊界（圖3）。有趣的是，移除dobs相比于比移除dpred對(duì)模型的損害更大，這突出了觀測(cè)策略的重要性。如想象的一樣，移除我們的w/o dobs和w/o dpred的輸出進(jìn)一步降低了性能。我們的w/o loc在α=0.5時(shí)性能最差，甚至低于CNN的性能，這反映出了時(shí)間回歸的重要性。CNN減少相對(duì)差異，以及當(dāng)我們減少α?xí)r的翻轉(zhuǎn)，暗示出模型仍然檢測(cè)出了行動(dòng)大概的位置，但精確定位的影響。最終，有NMS的CNN相比于所有的消融模型（除了我們的w/o loc模型）達(dá)到了最低的性能，量化我們對(duì)于端對(duì)端框架的貢獻(xiàn)。使用稠密軌跡和的ImageNet 預(yù)訓(xùn)練CNN特征，它的性能同樣在除了更低的范圍內(nèi)。這表明，另外結(jié)合運(yùn)動(dòng)為基礎(chǔ)的特征，將進(jìn)一步提高我們模型的性能。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

表2：在IOU α=0.5時(shí)，THUMOS`14的Per-class breakdown（AP）。

作為額外的基線，我們?cè)贚STM的頂部執(zhí)行了NMS，一個(gè)標(biāo)準(zhǔn)的時(shí)間網(wǎng)絡(luò)，會(huì)產(chǎn)生幀級(jí)別的流暢性和一致性。盡管增加了更大的時(shí)間一致性，有NMS的LSTM相比于有NMS的CNN有著更低的性能。主要的原因可能是增加幀級(jí)別類(lèi)概率的時(shí)間流暢性（精準(zhǔn)定位時(shí)間邊界所需要的），對(duì)于行動(dòng)情況檢測(cè)任務(wù)來(lái)說(shuō)實(shí)際上是有害的，而不是有益的。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖4：THYMOS`14上的預(yù)測(cè)動(dòng)作情況實(shí)例。每一行顯示在檢測(cè)動(dòng)作的時(shí)間范圍內(nèi)，或只是在外面的采樣幀。褪色的幀顯示檢測(cè)外的位置并說(shuō)明了定位能力。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖5:THUMOS`14的學(xué)習(xí)觀測(cè)策略實(shí)例。上面顯示了擲標(biāo)槍的例子和底部顯示了潛水的例子。觀測(cè)到的幀的顏色為綠色并用幀索引標(biāo)記。紅色表示預(yù)測(cè)范圍，灰色表示正確的標(biāo)示。為了參考，我們還展示了使用在我們觀測(cè)網(wǎng)絡(luò)中來(lái)自于VGGNet的幀水平的CNN概率；高強(qiáng)度表示更高的概率，并提供對(duì)類(lèi)的幀級(jí)信號(hào)的洞察。虛線箭頭表示觀測(cè)序列，紅色箭頭指示發(fā)出預(yù)測(cè)的幀。

最終，我們實(shí)驗(yàn)了不同數(shù)量的觀測(cè)前視頻序列，如4，8和10.在該范圍中，檢測(cè)的性能沒(méi)有實(shí)質(zhì)性的不同。這是與其他使用在CNNs最大池化進(jìn)行動(dòng)作識(shí)別的工作一致，突出學(xué)習(xí)有效幀觀測(cè)政策的重要性。

預(yù)-類(lèi)分解（per-class breakdown).表2顯示了我們模型的預(yù)-類(lèi)AP分解，并且與THUMOS`14排行榜最好的性能進(jìn)行比較。我們的模型產(chǎn)生20個(gè)類(lèi)中的12個(gè)類(lèi)。值得注意的是，它顯示了一些數(shù)據(jù)集中最具挑戰(zhàn)性的類(lèi)表現(xiàn)出了很大的改善，如籃球，跳水，和接住飛盤(pán)。圖4顯示我們模型預(yù)檢測(cè)的實(shí)例，包括這個(gè)來(lái)自挑戰(zhàn)性類(lèi)的檢測(cè)。模型在行動(dòng)程度整體合理化的能力，確保了它可以推測(cè)時(shí)間邊界（甚至在幀是具挑戰(zhàn)性的時(shí)候）：例如，類(lèi)似姿勢(shì)和環(huán)境，或在第二個(gè)潛水的例子中場(chǎng)景突然變化。

觀測(cè)策略分析.圖5顯示了我們模型學(xué)習(xí)的觀測(cè)實(shí)例，以及伴隨的預(yù)測(cè)。為了參考，我們還展示用于我們觀測(cè)網(wǎng)絡(luò)中VGGNet的幀水平的CNN概率，以提供行動(dòng)幀水平信號(hào)的認(rèn)知。上面是一個(gè) 擲標(biāo)槍的例子，一旦人開(kāi)始奔跑，該模型就開(kāi)始進(jìn)行更頻繁的觀測(cè)。接近行動(dòng)的端邊界，它退一步以完善其假設(shè)，然后在移動(dòng)之前發(fā)出一個(gè)預(yù)測(cè)。下面潛水的例子是一個(gè)具有挑戰(zhàn)性的情況下，其中兩個(gè)動(dòng)作實(shí)例發(fā)生的非?？焖龠B續(xù)。而幀水平CNN的概率的強(qiáng)度超過(guò)序列，使得用標(biāo)準(zhǔn)滑動(dòng)窗口的方法來(lái)處理變得非常困難，我們的模型能夠分辨兩個(gè)單獨(dú)的實(shí)例。該模型再次采取步驟向后完善其預(yù)測(cè)，包括一次（幀93）運(yùn)動(dòng)非常模糊，使得它很難從其它的幀中辨別出來(lái)。然而，預(yù)測(cè)在某些方面比正確標(biāo)注要長(zhǎng)，并且向上觀測(cè)第二個(gè)情況的第一個(gè)幀（幀101），該模型立即發(fā)出的預(yù)測(cè)可媲美長(zhǎng)于第一個(gè)幀，但持續(xù)時(shí)間稍。這表明，該模型可能學(xué)習(xí)時(shí)間的先驗(yàn)，同時(shí)極大受益，在這種情況下它過(guò)于強(qiáng)大。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

圖6：ActivityNet上工作子集的學(xué)習(xí)觀測(cè)策略實(shí)例。行動(dòng)是組織箱。參考圖5圖形結(jié)構(gòu)和色彩方案的解釋。

4.3.ActivityNet數(shù)據(jù)集

ActivityNet動(dòng)作檢測(cè)數(shù)據(jù)集由849小時(shí)內(nèi)未修剪的68.8小時(shí)的時(shí)間注釋組成，無(wú)約束的視頻。每個(gè)視頻有1.41個(gè)動(dòng)作實(shí)例，且每一個(gè)類(lèi)有193個(gè)實(shí)例。表3和4分別顯示了每個(gè)類(lèi)和mAP在ActivityNet的子集“運(yùn)動(dòng)”和“工作，主要工作”的性能。并且超參數(shù)在訓(xùn)練集上進(jìn)行交叉驗(yàn)證。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

表3：IOU α=0.5時(shí)，ActivityNet Sports子集上的Per-class breakdown和mAP。

我們的模型優(yōu)于現(xiàn)存的工作，它的基礎(chǔ)是是通過(guò)大量的差數(shù)，結(jié)合密集軌跡，SIFT，和ImageNet-預(yù)訓(xùn)練CNN特征。它優(yōu)于Sports子集21類(lèi)中13類(lèi)，和Work子集15類(lèi)中10類(lèi)。在工作子集上的改進(jìn)是特別大的。這是部分歸因于工作活動(dòng)通常是不太明確的，并有較少的歧視性運(yùn)動(dòng)。圖6 Organizing Boxes行動(dòng)的訓(xùn)練實(shí)例中，在較弱的地方這是顯而易見(jiàn)的——更擴(kuò)散的幀水平CNN行動(dòng)概率。而這給依靠后處理的方法就造成了一個(gè)挑戰(zhàn)，我們的模型直接推理作用程度，確保它能夠產(chǎn)生強(qiáng)烈的預(yù)測(cè)。

計(jì)算機(jī)也可以看“視頻”，理解“視頻”

表4：IOU α=0.5時(shí)，ActivityNet Work子集上的Per-class breakdown和mAP。

5.結(jié)論

總之，我們已經(jīng)介紹了一個(gè)針對(duì)視頻中動(dòng)作檢測(cè)的終端到終端的方法，直接學(xué)習(xí)預(yù)測(cè)動(dòng)作的時(shí)間界限。我們的模型在THUMOS`14和ActivityNet行動(dòng)檢測(cè)數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能（只看一小部分的幀）。未來(lái)的工作方向是擴(kuò)展我們的框架，學(xué)習(xí)聯(lián)合時(shí)空觀測(cè)策略。

哈爾濱工業(yè)大學(xué)李衍杰副教授的點(diǎn)評(píng)：在計(jì)算機(jī)視覺(jué)研究領(lǐng)域，對(duì)歷時(shí)較長(zhǎng)的視頻進(jìn)行動(dòng)作檢測(cè)是一個(gè)頗具挑戰(zhàn)性的研究難題。這篇論文介紹了一種端對(duì)端的動(dòng)作檢測(cè)方法，該方法能夠推理出每個(gè)時(shí)刻的動(dòng)作檢測(cè)的范圍。動(dòng)作檢測(cè)是一個(gè)連續(xù)的反復(fù)的觀察細(xì)化過(guò)程。我們?nèi)祟?lèi)能夠通過(guò)觀察單個(gè)或多個(gè)幀序列，對(duì)動(dòng)作何時(shí)發(fā)生做出假設(shè)，從而略過(guò)一些幀迅速地縮小行動(dòng)檢測(cè)的范圍，決定應(yīng)該看哪些幀以及是否要改進(jìn)自己的假設(shè)來(lái)增加動(dòng)作檢測(cè)的定位精度，從而避免了窮舉式搜索?；谶@種直觀思想，本文模仿人的這種能力將一些幀序列作為輸入，在觀測(cè)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的基礎(chǔ)上，得到了每個(gè)時(shí)刻動(dòng)作檢測(cè)范圍，從而有助于提高動(dòng)作檢測(cè)的效率。在該方法中，將整個(gè)網(wǎng)絡(luò)分為觀測(cè)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)，觀測(cè)網(wǎng)絡(luò)使用了已有的VGG-16網(wǎng)絡(luò)，而遞歸網(wǎng)絡(luò)則模仿人的假設(shè)預(yù)測(cè)定位過(guò)程分別使用了BP反向傳播算法和REINFORCE算法來(lái)進(jìn)行學(xué)習(xí)訓(xùn)練，最終通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性。

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

如需本文作多了解，請(qǐng)?jiān)L問(wèn)原文鏈接細(xì)節(jié)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。