0
本文作者: 高婓 | 2016-08-08 15:56 |
聯(lián)合編譯: 高斐 章敏
我們將在文中介紹一種用于視頻中動(dòng)作檢測(cè)的端對(duì)端方法,該方法用于學(xué)習(xí)直接預(yù)測(cè)動(dòng)作的瞬時(shí)改變。我們認(rèn)為,動(dòng)作檢測(cè)是一個(gè)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行觀察并細(xì)化假設(shè)的過(guò)程:觀察視頻中每一個(gè)動(dòng)作變化瞬間,細(xì)化關(guān)于一個(gè)動(dòng)作將何時(shí)發(fā)生的所有假設(shè)。基于該觀點(diǎn),我們將提出的模型視為一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的代理人程序,該代理人程序與視頻進(jìn)行交流互動(dòng)。代理人程序觀察視頻幀序列,決定下一步觀察哪里,何時(shí)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行動(dòng)作預(yù)測(cè)。由于反向傳播算法在這種不可微的環(huán)境下不能得到充分利用,我們使用REINFORCE算法學(xué)習(xí)智能體的決策策略。我們的模型運(yùn)用THUMOS’14和ActivityNet數(shù)據(jù)集,僅僅觀測(cè)一小部分(2%或更少)視頻幀序列就獲得了state-of-the-art結(jié)果。
在計(jì)算機(jī)視覺(jué)研究領(lǐng)域,要對(duì)現(xiàn)實(shí)世界中歷時(shí)長(zhǎng)的視頻進(jìn)行動(dòng)作檢測(cè)是一個(gè)頗具挑戰(zhàn)性的科研難題。眾多算法必須不僅能夠推理得出一個(gè)動(dòng)作是否會(huì)在視頻中發(fā)生,也要能夠預(yù)測(cè)該動(dòng)作何時(shí)會(huì)發(fā)生?,F(xiàn)有的文獻(xiàn)[22,39,13,46]均采用構(gòu)建幀級(jí)別分類(lèi)器,在多個(gè)時(shí)間標(biāo)尺下,詳盡地在一個(gè)視頻中運(yùn)行這些分類(lèi)器,并且運(yùn)用后期處理方式,如時(shí)間先驗(yàn)和極大值抑制。然而,在精確度與計(jì)算效率方面,該間接動(dòng)作定位模型不甚令人滿意。
我們?cè)诒疚闹薪榻B一種端對(duì)端的動(dòng)作檢測(cè)方法,該方法能夠直接推理得出動(dòng)作的瞬時(shí)變化。我們的主要觀點(diǎn)為,動(dòng)作檢測(cè)是一個(gè)具有連續(xù)性和慣性的觀察細(xì)化過(guò)程。通過(guò)觀察單個(gè)或多個(gè)幀序列,能夠人為地對(duì)動(dòng)作何時(shí)發(fā)生做出假設(shè)。然后,我們可以重復(fù)觀察一些幀序列證實(shí)作出的假設(shè),快速確定動(dòng)作將要發(fā)生的位置(例如,圖1所示揮動(dòng)棒球棒這一動(dòng)作)。我們能夠有順序地決定將目光投向哪個(gè)方向,如何采用與已有算法相比較為簡(jiǎn)化的搜索方法,來(lái)細(xì)化動(dòng)作預(yù)測(cè)假設(shè),獲得精確的動(dòng)作位置信息。
圖1:動(dòng)作檢測(cè)是一個(gè)觀察與細(xì)化的過(guò)程。有效地選取幀觀察序列有助于我們快速確定何時(shí)揮動(dòng)棒球棒。
基于上述觀點(diǎn),我們提出一個(gè)單一連續(xù)性模型,該模型需要一個(gè)歷時(shí)較長(zhǎng)的視頻作為輸入信息,輸出檢測(cè)所得的動(dòng)作實(shí)例的瞬時(shí)變化。我們將提出的模型制定為一個(gè)代理人程序,該代理人程序可以學(xué)習(xí)策略,關(guān)于動(dòng)作實(shí)例形成有序的假設(shè),并對(duì)作出的假設(shè)進(jìn)行細(xì)化。在一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中運(yùn)用這一觀點(diǎn),我們采用反向傳播算法與REINFORCE算法[42]相結(jié)合的方法全面端對(duì)端訓(xùn)練所提出的模型。
我們的模型是從一些研究文獻(xiàn)中汲取靈感的,這些文獻(xiàn)運(yùn)用REINFORCE算法來(lái)學(xué)習(xí)對(duì)圖像分類(lèi)與加字幕的空間觀測(cè)策略[19,1,30,43 ]。然而,動(dòng)作檢測(cè)仍面臨另一個(gè)挑戰(zhàn),即如何處理一個(gè)結(jié)構(gòu)化檢測(cè)輸出結(jié)果的變量集合。為了解決這一難題,我們提出一個(gè)既能夠決定運(yùn)用哪一個(gè)幀觀測(cè)下一個(gè)潛在動(dòng)作,也能夠決定何時(shí)對(duì)動(dòng)作變化作出預(yù)測(cè)。此外,我們介紹了一種獎(jiǎng)勵(lì)機(jī)制,使得計(jì)算機(jī)能夠?qū)W習(xí)這一策略。就我們所知,這是首個(gè)學(xué)習(xí)視頻動(dòng)作檢測(cè)的端對(duì)端方法。
我們認(rèn)為,我們的模型具備有效推理動(dòng)作瞬時(shí)變化的能力,并且能夠運(yùn)用THUMOS’14和ActivityNe數(shù)據(jù)集獲得state-of-the-art性能。此外,我們的模型能夠?qū)W習(xí)決定使用哪一個(gè)幀進(jìn)行觀測(cè)或?qū)崟r(shí)觀測(cè),它也具備僅觀測(cè)一部分(2%或更少)幀序列,便可學(xué)習(xí)決策策略的能力。
視頻分析與活動(dòng)識(shí)別領(lǐng)域具有悠久的研究歷史[20,449,2,31,17,8,10,112,50]。我們參考Poppe[24]與Weinland等人[40]的研究對(duì)該領(lǐng)域進(jìn)行研究。這里我們將回顧近來(lái)有關(guān)瞬時(shí)動(dòng)作檢測(cè)的文獻(xiàn)。瞬時(shí)動(dòng)作檢測(cè) 該研究方向的典型研究成果當(dāng)屬Ke等人[14]。Rohrbach等人[27]與Ni等人[21]在一個(gè)固定攝像機(jī)廚房環(huán)境下,以手和物體為特征分別檢測(cè)嫻熟的烹飪動(dòng)作。與我們當(dāng)前研究更為相關(guān)的是無(wú)約束無(wú)修改設(shè)置的THUMOS’14動(dòng)作數(shù)據(jù)集。Oneata等[22],王等[39],Karaman等[13],及Yuan等[46]在滑動(dòng)窗口框架中使用密集軌跡,幀級(jí)別CNN特征,和/或聲音特征檢測(cè)瞬時(shí)動(dòng)作。Sun等[34]基于網(wǎng)絡(luò)圖像提高檢測(cè)性能。Pirsiacash與Ramanan[23]對(duì)復(fù)雜的動(dòng)作建立語(yǔ)法結(jié)構(gòu),并及時(shí)檢測(cè)子成分。
空間-時(shí)間動(dòng)作檢測(cè)方法也得到了發(fā)展。在“無(wú)約束”的網(wǎng)絡(luò)視頻環(huán)境下,發(fā)展這些方法需要有大量關(guān)于空間-時(shí)間動(dòng)作假說(shuō)的文獻(xiàn)[44,16,36,9,7,45,41]。動(dòng)作檢測(cè)更為寬泛的檢測(cè)場(chǎng)景分析也是一個(gè)活躍的研究領(lǐng)域。Shu等[32]在人群中進(jìn)行推理,Loy等[18]運(yùn)用多臺(tái)攝像機(jī)場(chǎng)景進(jìn)行推理,Kwak等[15]遵循基于二次編程的實(shí)例化原則進(jìn)行推理。這些研究存在一個(gè)共同點(diǎn),即在時(shí)間維度內(nèi)典型地運(yùn)用基于滑動(dòng)窗口的方法,在空間-時(shí)間動(dòng)作假說(shuō)或人類(lèi)軌跡的基礎(chǔ)上進(jìn)行推理。此外,這些研究是運(yùn)用經(jīng)過(guò)修剪或約束的視頻剪輯開(kāi)展來(lái)的。與之形成鮮明對(duì)比,我們運(yùn)用無(wú)修剪,無(wú)約束的視頻剪輯完成空間動(dòng)作檢測(cè)任務(wù),提供了一種有效的方法來(lái)確定使用那些幀序列進(jìn)行觀測(cè)。
端對(duì)端檢測(cè) 我們直接推理動(dòng)作的瞬時(shí)變化的研究目的與關(guān)于從整幅圖像到物體變化的物體檢測(cè)的研究工作具有相同的哲學(xué)意義[29,35,5,6,26,25]。相反,現(xiàn)有的動(dòng)作檢測(cè)方法主要運(yùn)用詳盡的滑動(dòng)窗口方法和后期處理程序得出動(dòng)作實(shí)例[22,39,13,46]。就我們所知,我們的研究工作是首個(gè)采用端對(duì)端框架學(xué)習(xí)瞬時(shí)動(dòng)作檢測(cè)的。
學(xué)習(xí)特定任務(wù)策略 我們從近期使用REINFORCE算法來(lái)學(xué)習(xí)特定任務(wù)策略的途徑中獲得研究靈感。Mnih等[19]學(xué)習(xí)圖像分類(lèi)的空間注意策略,Xu等[43]學(xué)習(xí)圖像字幕生成。在非視覺(jué)化任務(wù)中,Zaremba等[47]學(xué)習(xí)REINFORCE算法神經(jīng)圖靈機(jī)策略。我們采用的方法是建立在這些研究方向之上,運(yùn)用強(qiáng)化法學(xué)習(xí)處理動(dòng)作檢測(cè)任務(wù)的策略。
我們的研究目的是運(yùn)用一個(gè)長(zhǎng)的視頻序列,輸出任意一個(gè)指定動(dòng)作的實(shí)例。圖2所示為我們的模型結(jié)構(gòu)。我們將這個(gè)模型制定為一個(gè)REINFORCE算法代理人程序,該代理人程序與視頻在特定時(shí)間段內(nèi)進(jìn)行交流溝通。代理人程序接收一系列視頻幀序列V={v1,…,vT}作為輸入信息,能夠觀測(cè)固定比例的幀序列。該模型必須能夠有效地利用這些觀測(cè)結(jié)果,或幀觀測(cè)結(jié)果,來(lái)推理動(dòng)作的瞬時(shí)變化。
我們提出的模型由兩個(gè)主要成分構(gòu)成:一個(gè)觀測(cè)網(wǎng)絡(luò)(見(jiàn)3.1.1),一個(gè)遞歸網(wǎng)絡(luò)(見(jiàn)3.1.2)。觀測(cè)網(wǎng)絡(luò)為視頻幀的視覺(jué)表征編碼。遞歸網(wǎng)絡(luò)有序地加工這些觀測(cè)結(jié)果,并決定運(yùn)用哪一個(gè)幀序列觀測(cè)下一個(gè)動(dòng)作,何時(shí)對(duì)動(dòng)作變化作出預(yù)測(cè)。我們現(xiàn)在將更為詳細(xì)地描述這兩個(gè)組成成分。之后在3.2,我們將闡釋如何運(yùn)用端對(duì)端的方法,結(jié)合反向傳播算法與強(qiáng)化手段訓(xùn)練我們提出的模型。
如圖2所示,觀測(cè)網(wǎng)絡(luò)f0,用參數(shù)θ0表示,在每一個(gè)時(shí)間步長(zhǎng)中觀察單一的視頻幀。在該觀測(cè)網(wǎng)絡(luò)中,用特征向量On為幀編碼,將該特征向量作為遞歸網(wǎng)絡(luò)的輸入信息。
重要的是,On表示在視頻中何處進(jìn)行觀測(cè)及觀測(cè)什么的編碼信息。因而,觀測(cè)網(wǎng)絡(luò)的輸入信息由觀測(cè)的正常時(shí)間位置與相對(duì)應(yīng)的視頻幀構(gòu)成。
觀測(cè)網(wǎng)絡(luò)結(jié)構(gòu)受到文獻(xiàn)[19]中涉及到的空間觀測(cè)網(wǎng)絡(luò)啟發(fā)。Ln和vln被映射到一個(gè)隱蔽的空間內(nèi),然后,與一個(gè)全面的連接層相結(jié)合。在我們的實(shí)驗(yàn)中,我們從一個(gè)經(jīng)過(guò)優(yōu)化的VGG-16網(wǎng)絡(luò)中提取得到fc7特征。
遞歸網(wǎng)絡(luò)fh,用參數(shù)oh表示,是學(xué)習(xí)代理人程序的核心網(wǎng)絡(luò)結(jié)構(gòu)。正如可以在圖2中觀測(cè)到的,在每一個(gè)時(shí)間步長(zhǎng)n中,該網(wǎng)絡(luò)的輸入信息為一個(gè)觀測(cè)特征向量on。該網(wǎng)絡(luò)的隱蔽空間hn,on與先前隱蔽空間hn-1,為動(dòng)作實(shí)例構(gòu)建時(shí)間假說(shuō)。
在代理人程序推理的過(guò)程中,每一個(gè)時(shí)間步長(zhǎng)內(nèi)輸出三種信息:候選檢測(cè)結(jié)果dn,標(biāo)志是否產(chǎn)出預(yù)測(cè)結(jié)果dn的二進(jìn)制指示參數(shù)pn,及確定觀測(cè)下一個(gè)動(dòng)作的幀的時(shí)間位置ln+1。
圖2:該模型的輸入信息為一系列視頻幀序列,輸出信息為一系列動(dòng)作預(yù)測(cè)結(jié)果。
我們的最終研究目的是學(xué)習(xí)輸出一系列動(dòng)作檢測(cè)結(jié)果。為了實(shí)現(xiàn)這一目標(biāo),我們需要在代理人程序的遞歸網(wǎng)絡(luò)中的每一步訓(xùn)練這三種輸出信息:候選檢測(cè)結(jié)果dn,預(yù)測(cè)指示值pn,及下一個(gè)觀測(cè)位置ln+1。鑒于對(duì)長(zhǎng)視頻中瞬時(shí)動(dòng)作注釋的檢測(cè),訓(xùn)練這些輸出結(jié)果面臨著設(shè)計(jì)合適的損失與獎(jiǎng)勵(lì)函數(shù),處理不可微模型組成成分。我們運(yùn)用標(biāo)準(zhǔn)的反向傳播算法來(lái)訓(xùn)練dn,運(yùn)用強(qiáng)化手段來(lái)訓(xùn)練pn和ln+1。
運(yùn)用反向傳播算法訓(xùn)練候選檢測(cè)結(jié)果,以確保每一個(gè)候選檢測(cè)結(jié)果的正確性。由于每一個(gè)候選結(jié)果都代表代理人程序關(guān)于動(dòng)作作出的假設(shè),不論每一個(gè)候選結(jié)果最終是否得到輸出,我們都希望確保該結(jié)果最為正確。這便要求在訓(xùn)練過(guò)程中將每一個(gè)候選結(jié)果與一個(gè)ground truth實(shí)例相匹配。代理人程序應(yīng)當(dāng)在視頻中最接近當(dāng)前位置的地方對(duì)動(dòng)作實(shí)例作出假設(shè)。這有助于我們?cè)O(shè)計(jì)出一個(gè)簡(jiǎn)單卻有效的匹配函數(shù)。
與ground truth 相匹配 如果存在一個(gè)由遞歸網(wǎng)絡(luò)中N個(gè)時(shí)間步長(zhǎng)得出的候選檢測(cè)結(jié)果集合D={dn|n=1,…,N}和ground truth 動(dòng)作實(shí)例g1,…,M,那么每一個(gè)候選檢測(cè)結(jié)果都將于一個(gè)ground truth實(shí)例相匹配;如果M=0,那么沒(méi)有匹配結(jié)果。
我們定義匹配函數(shù)為
換句話講,如果在時(shí)間步長(zhǎng)n內(nèi),代理人程序的時(shí)間位置ln比任何一個(gè)ground truth實(shí)例都接近gm,候選結(jié)果dn與ground truth gm匹配。
損失函數(shù) 一旦候選檢測(cè)結(jié)果與ground truth實(shí)例得以匹配,我們運(yùn)用集合D來(lái)優(yōu)化一個(gè)多重任務(wù)分類(lèi)與定位損失函數(shù):
公式中的分類(lèi)術(shù)語(yǔ) 是一個(gè)關(guān)于檢測(cè)信度cn的標(biāo)準(zhǔn)交叉熵?fù)p失值,如果檢測(cè)結(jié)果dn與一個(gè)ground truth實(shí)例相匹配,那么信度接近1;否則,信度為0。
我們運(yùn)用反向傳播算法優(yōu)化該損失函數(shù)。
觀測(cè)定位與預(yù)測(cè)指數(shù)輸出結(jié)果是我們的模型中不可微的組成成分,無(wú)法用反向傳播算法訓(xùn)練這些輸出結(jié)果。然而,強(qiáng)化手段是一種強(qiáng)有力的方法,能夠?qū)崿F(xiàn)在不可微的環(huán)境下進(jìn)行學(xué)習(xí)。下文我們將簡(jiǎn)略描述這種強(qiáng)化手段。之后,我們介紹一種與強(qiáng)化手段相結(jié)合的獎(jiǎng)勵(lì)函數(shù),學(xué)習(xí)觀測(cè)與預(yù)測(cè)輸出序列的有效策略。
強(qiáng)化手段 存在Α,一個(gè)動(dòng)作序列空間,和一個(gè)Pθ(a),強(qiáng)化目標(biāo)可以表示為
在該公式中r(a)為分配給每一個(gè)可能動(dòng)作序列的獎(jiǎng)勵(lì),J(θ)為每一個(gè)可能動(dòng)作序列分布結(jié)果的預(yù)期獎(jiǎng)勵(lì)。我們希望學(xué)習(xí)網(wǎng)絡(luò)參數(shù)θ,該參數(shù)使每一個(gè)位置序列和預(yù)期指示輸出結(jié)果的預(yù)期獎(jiǎng)勵(lì)實(shí)現(xiàn)最大值。
目標(biāo)梯度為
由于可能動(dòng)作序列具有高維度空間,這將導(dǎo)致一個(gè)特殊的優(yōu)化問(wèn)題。強(qiáng)化手段通過(guò)使用蒙特卡洛樣本和近似梯度方程學(xué)習(xí)網(wǎng)絡(luò)參數(shù),以解決這一問(wèn)題。
由于一個(gè)代理人程序與周?chē)h(huán)境進(jìn)行交流溝通,在我們的視頻中,πθ為代理人程序的策略。在每一個(gè)時(shí)間步長(zhǎng)n內(nèi),an是該策略的當(dāng)前動(dòng)作,h1:n為包括當(dāng)前狀態(tài)在內(nèi)的過(guò)去狀態(tài)的歷史記錄,a1:n-1為過(guò)去動(dòng)作的歷史記錄。通過(guò)在其所處環(huán)境中,經(jīng)營(yíng)一個(gè)代理人程序的當(dāng)前策略,以獲得K互動(dòng)序列,最終計(jì)算得出近似梯度。
根據(jù)該近似梯度,強(qiáng)化手段學(xué)習(xí)模型參數(shù)。導(dǎo)致高未來(lái)獎(jiǎng)勵(lì)的動(dòng)作的概率在不斷增長(zhǎng),那些導(dǎo)致低獎(jiǎng)勵(lì)的概率將下降??梢赃\(yùn)用反向傳播算法對(duì)模型參數(shù)實(shí)施實(shí)時(shí)更新。
圖1:THYMOS`14上的行動(dòng)檢測(cè)結(jié)果。與THUMOS`14挑戰(zhàn)榜排行前3的性能進(jìn)行比較,并且展示了消融模型。mAP報(bào)道了不同的交叉聯(lián)合(intersection-over-union/IOU)閾值α
獎(jiǎng)勵(lì)函數(shù) 訓(xùn)練強(qiáng)化手段要求設(shè)計(jì)出一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)。我們的目標(biāo)是學(xué)習(xí)位置與預(yù)測(cè)指示輸出結(jié)果的策略,這些輸出結(jié)果將產(chǎn)生高回憶和高精確度的動(dòng)作檢測(cè)結(jié)果。因而,我們介紹一種能夠使真肯定檢測(cè)結(jié)果最大化,而使假肯定檢測(cè)結(jié)果最小化的獎(jiǎng)勵(lì)函數(shù):
所有的獎(jiǎng)勵(lì)都是在Nth(最后)時(shí)間步長(zhǎng)時(shí)提供的,且n<N時(shí)為0,因?yàn)槲覀兿胝业揭粋€(gè)可以共同產(chǎn)生高整體檢測(cè)性能的方法。M是正確標(biāo)注(ground truth)行為實(shí)例的數(shù)量,并且Np是代理發(fā)出預(yù)測(cè)的數(shù)量。N+是正的正樣本(positive predictions)預(yù)測(cè)數(shù)量,N-是最小正的負(fù)樣本(false positive)預(yù)測(cè)數(shù)量,并且R+和R-分別是每一個(gè)預(yù)測(cè)的正獎(jiǎng)勵(lì)和負(fù)獎(jiǎng)勵(lì)。如果一個(gè)預(yù)測(cè)與正確標(biāo)注的重疊比閾值大,且比其他所有的預(yù)測(cè)還高,那么該預(yù)測(cè)就是正確的。為了鼓勵(lì)代理人不過(guò)于保守,當(dāng)視頻包含正確標(biāo)注實(shí)例(M > 0),但該模型沒(méi)有發(fā)出任何預(yù)測(cè)(NP = 0)時(shí),我們提供一個(gè)負(fù)面的獎(jiǎng)勵(lì)Rp。
我們使用有REINFORACE的函數(shù)訓(xùn)練位置和預(yù)測(cè)指標(biāo)輸出,并學(xué)習(xí)觀測(cè)和排放政策(emission policies)以優(yōu)化行動(dòng)檢測(cè)。
我們?cè)赥HUMOS`14和ActivityNet兩個(gè)數(shù)據(jù)集評(píng)估了我們的模型。結(jié)果顯示,我們的端對(duì)端的方法確保了模型可以最大幅度的在兩個(gè)數(shù)據(jù)集產(chǎn)生最好的結(jié)果。此外,幀的學(xué)習(xí)策略即有效又高效;當(dāng)觀測(cè)到的視頻幀只有2%或更少的時(shí),模型達(dá)到了這些結(jié)果。
對(duì)于每一個(gè)行動(dòng)級(jí)別我們都學(xué)習(xí)了1-vs-all模型。在觀測(cè)網(wǎng)絡(luò)中,我們使用了VGG-16網(wǎng)絡(luò)優(yōu)調(diào)數(shù)據(jù)集,以便從觀測(cè)的視頻幀中提取視覺(jué)特征。FC7-layer特征被提取并嵌入幀的時(shí)間位置到1024維的觀測(cè)向量。
對(duì)于遞歸網(wǎng)絡(luò),我們使用了一個(gè)3層LSTM網(wǎng)絡(luò)(在每一個(gè)層都有1024個(gè)隱藏單元)視頻在THUMOS`14向下采樣到5fps,在ActivityNe向下采樣到1fps,并且在50幀的序列中進(jìn)行。代理被給予了對(duì)于每個(gè)序列固定數(shù)量的觀測(cè),我們實(shí)驗(yàn)中代表性的數(shù)量是6。在視頻序列中,所有的時(shí)間位置被歸一化成[0,1]。任何預(yù)測(cè)重疊或交叉序列的邊界都會(huì)被融合到一個(gè)簡(jiǎn)單的聯(lián)盟規(guī)則。我們學(xué)習(xí)256序列中極小的一部分,并且在優(yōu)化時(shí)使用RMSProp模擬預(yù)參數(shù)學(xué)習(xí)率(the perparameter learning rate)。其它的超參數(shù)通過(guò)交叉驗(yàn)證(cross-validation)來(lái)學(xué)習(xí)。序列的系數(shù)包含了每一個(gè)極小部分(mini-batch)的正實(shí)例,它是阻止模型過(guò)渡保守的一個(gè)非常重要的超參數(shù)。大概三分之一到一半的正實(shí)例被代表性的使用。
THUMOS`14的行動(dòng)檢測(cè)任務(wù)包括20類(lèi)運(yùn)動(dòng),且表1顯示了在這個(gè)數(shù)據(jù)集上的結(jié)果。因?yàn)樵撊蝿?wù)只包括數(shù)據(jù)集中101類(lèi)動(dòng)作的其中20類(lèi),我們第一次粗過(guò)濾了這些類(lèi)測(cè)試視頻的整個(gè)集,用視頻水平的平均值池化類(lèi)概率——每300幀計(jì)算一次(0.1fps)。我們報(bào)道了不同IOU閾值的αmAP,并與THUMOS`14挑戰(zhàn)榜排名前3的性能進(jìn)行了比較。所有這些方法計(jì)算密集的軌跡和/或時(shí)間窗口的CNN特征,并使用一個(gè)非最大抑制滑動(dòng)窗口的方法獲得預(yù)測(cè)。僅使用密集的軌跡,[使用時(shí)間窗口結(jié)合密集的軌跡和CNN特征,以及使用有著視頻水平CNN分類(lèi)預(yù)測(cè)的密集軌跡的時(shí)間窗口。
圖片3:將我們的w / odobs描述與所有的模型進(jìn)行比較。參考圖5中圖形結(jié)構(gòu)的說(shuō)明
和配色方案。每個(gè)模型的觀測(cè)幀用綠色顯示,預(yù)測(cè)程度用紅色顯示。允許模型選擇要觀測(cè)的幀,以確保行動(dòng)邊界上所需的分辨率。
我們的模型優(yōu)于所有在α值處現(xiàn)存的方法。隨著α的減少,相對(duì)利潤(rùn)率增加了,這表明我們的模型更頻繁地預(yù)測(cè)接近于正確標(biāo)注情況的行動(dòng),即使不精確定位的情況相。我們的模型使用它的學(xué)習(xí)觀測(cè)策略進(jìn)行到視頻幀的2%時(shí)就實(shí)現(xiàn)了該結(jié)果。
消融(Ablation)實(shí)驗(yàn).表1也顯示了消融實(shí)驗(yàn)的結(jié)果,分析不同模型組件的貢獻(xiàn)。消融模型如下:
·我們的w/o dpred移除預(yù)測(cè)指標(biāo)輸出。在每一個(gè)時(shí)間步長(zhǎng)的候選檢測(cè)都被發(fā)出,并與非極大值抑制合并。
·我們的w/o dobs移除了位置輸出指標(biāo)(下一個(gè)要觀測(cè)哪一個(gè)地方)。觀測(cè)不再是由均勻采樣相同總數(shù)的觀測(cè)決定。
·我們的w/o dobs w/o dpred移除了預(yù)測(cè)指標(biāo)和位置預(yù)測(cè)輸出
·我們的 w/o loc移除位置回歸。所有發(fā)射檢測(cè)都是訓(xùn)練集的中等長(zhǎng)度,并集中在目前觀測(cè)到的幀。
·有NMS的CNN移除了時(shí)間行動(dòng)邊界的直接預(yù)測(cè)。我們觀測(cè)網(wǎng)絡(luò)中VGG-16網(wǎng)絡(luò)的預(yù)-幀類(lèi)概率,是在多個(gè)時(shí)間尺度上密集獲得的,并且聚合了非最大抑制,類(lèi)似于現(xiàn)有的工作。
由于大量的正的負(fù)樣本(false positives),相比于整個(gè)模型我們的w/o dpred獲得了更低的性能。我們的w/o dobs同樣更低效,因?yàn)榫鶆虿蓸記](méi)有提供足夠的分辨率來(lái)定位動(dòng)作邊界(圖3)。有趣的是,移除dobs相比于比移除dpred對(duì)模型的損害更大,這突出了觀測(cè)策略的重要性。如想象的一樣,移除我們的w/o dobs和w/o dpred的輸出進(jìn)一步降低了性能。我們的w/o loc在α=0.5時(shí)性能最差,甚至低于CNN的性能,這反映出了時(shí)間回歸的重要性。CNN減少相對(duì)差異,以及當(dāng)我們減少α?xí)r的翻轉(zhuǎn),暗示出模型仍然檢測(cè)出了行動(dòng)大概的位置,但精確定位的影響。最終,有NMS的CNN相比于所有的消融模型(除了我們的w/o loc模型)達(dá)到了最低的性能,量化我們對(duì)于端對(duì)端框架的貢獻(xiàn)。使用稠密軌跡和的ImageNet 預(yù)訓(xùn)練CNN特征,它的性能同樣在除了更低的范圍內(nèi)。這表明,另外結(jié)合運(yùn)動(dòng)為基礎(chǔ)的特征,將進(jìn)一步提高我們模型的性能。
表2:在IOU α=0.5時(shí),THUMOS`14的Per-class breakdown(AP)。
作為額外的基線,我們?cè)贚STM的頂部執(zhí)行了NMS,一個(gè)標(biāo)準(zhǔn)的時(shí)間網(wǎng)絡(luò),會(huì)產(chǎn)生幀級(jí)別的流暢性和一致性。盡管增加了更大的時(shí)間一致性,有NMS的LSTM相比于有NMS的CNN有著更低的性能。主要的原因可能是增加幀級(jí)別類(lèi)概率的時(shí)間流暢性(精準(zhǔn)定位時(shí)間邊界所需要的),對(duì)于行動(dòng)情況檢測(cè)任務(wù)來(lái)說(shuō)實(shí)際上是有害的,而不是有益的。
圖4:THYMOS`14上的預(yù)測(cè)動(dòng)作情況實(shí)例。每一行顯示在檢測(cè)動(dòng)作的時(shí)間范圍內(nèi),或只是在外面的采樣幀。褪色的幀顯示檢測(cè)外的位置并說(shuō)明了定位能力。
圖5:THUMOS`14的學(xué)習(xí)觀測(cè)策略實(shí)例。上面顯示了擲標(biāo)槍的例子和底部顯示了潛水的例子。觀測(cè)到的幀的顏色為綠色并用幀索引標(biāo)記。紅色表示預(yù)測(cè)范圍,灰色表示正確的標(biāo)示。為了參考,我們還展示了使用在我們觀測(cè)網(wǎng)絡(luò)中來(lái)自于VGGNet的幀水平的CNN概率;高強(qiáng)度表示更高的概率,并提供對(duì)類(lèi)的幀級(jí)信號(hào)的洞察。虛線箭頭表示觀測(cè)序列,紅色箭頭指示發(fā)出預(yù)測(cè)的幀。
最終,我們實(shí)驗(yàn)了不同數(shù)量的觀測(cè)前視頻序列,如4,8和10.在該范圍中,檢測(cè)的性能沒(méi)有實(shí)質(zhì)性的不同。這是與其他使用在CNNs最大池化進(jìn)行動(dòng)作識(shí)別的工作一致,突出學(xué)習(xí)有效幀觀測(cè)政策的重要性。
預(yù)-類(lèi)分解(per-class breakdown).表2顯示了我們模型的預(yù)-類(lèi)AP分解,并且與THUMOS`14排行榜最好的性能進(jìn)行比較。我們的模型產(chǎn)生20個(gè)類(lèi)中的12個(gè)類(lèi)。值得注意的是,它顯示了一些數(shù)據(jù)集中最具挑戰(zhàn)性的類(lèi)表現(xiàn)出了很大的改善,如籃球,跳水,和接住飛盤(pán)。圖4顯示我們模型預(yù)檢測(cè)的實(shí)例,包括這個(gè)來(lái)自挑戰(zhàn)性類(lèi)的檢測(cè)。模型在行動(dòng)程度整體合理化的能力,確保了它可以推測(cè)時(shí)間邊界(甚至在幀是具挑戰(zhàn)性的時(shí)候):例如,類(lèi)似姿勢(shì)和環(huán)境,或在第二個(gè)潛水的例子中場(chǎng)景突然變化。
觀測(cè)策略分析.圖5顯示了我們模型學(xué)習(xí)的觀測(cè)實(shí)例,以及伴隨的預(yù)測(cè)。為了參考,我們還展示用于我們觀測(cè)網(wǎng)絡(luò)中VGGNet的幀水平的CNN概率,以提供行動(dòng)幀水平信號(hào)的認(rèn)知。上面是一個(gè) 擲標(biāo)槍的例子,一旦人開(kāi)始奔跑,該模型就開(kāi)始進(jìn)行更頻繁的觀測(cè)。接近行動(dòng)的端邊界,它退一步以完善其假設(shè),然后在移動(dòng)之前發(fā)出一個(gè)預(yù)測(cè)。下面潛水的例子是一個(gè)具有挑戰(zhàn)性的情況下,其中兩個(gè)動(dòng)作實(shí)例發(fā)生的非??焖龠B續(xù)。而幀水平CNN的概率的強(qiáng)度超過(guò)序列,使得用標(biāo)準(zhǔn)滑動(dòng)窗口的方法來(lái)處理變得非常困難,我們的模型能夠分辨兩個(gè)單獨(dú)的實(shí)例。該模型再次采取步驟向后完善其預(yù)測(cè),包括一次(幀93)運(yùn)動(dòng)非常模糊,使得它很難從其它的幀中辨別出來(lái)。然而,預(yù)測(cè)在某些方面比正確標(biāo)注要長(zhǎng),并且向上觀測(cè)第二個(gè)情況的第一個(gè)幀(幀101),該模型立即發(fā)出的預(yù)測(cè)可媲美長(zhǎng)于第一個(gè)幀,但持續(xù)時(shí)間稍。這表明,該模型可能學(xué)習(xí)時(shí)間的先驗(yàn),同時(shí)極大受益,在這種情況下它過(guò)于強(qiáng)大。
圖6:ActivityNet上工作子集的學(xué)習(xí)觀測(cè)策略實(shí)例。行動(dòng)是組織箱。參考圖5圖形結(jié)構(gòu)和色彩方案的解釋。
ActivityNet動(dòng)作檢測(cè)數(shù)據(jù)集由849小時(shí)內(nèi)未修剪的68.8小時(shí)的時(shí)間注釋組成,無(wú)約束的視頻。每個(gè)視頻有1.41個(gè)動(dòng)作實(shí)例,且每一個(gè)類(lèi)有193個(gè)實(shí)例。表3和4分別顯示了每個(gè)類(lèi)和mAP在ActivityNet的子集“運(yùn)動(dòng)”和“工作,主要工作”的性能。并且超參數(shù)在訓(xùn)練集上進(jìn)行交叉驗(yàn)證。
表3:IOU α=0.5時(shí),ActivityNet Sports子集上的Per-class breakdown和mAP。
我們的模型優(yōu)于現(xiàn)存的工作,它的基礎(chǔ)是是通過(guò)大量的差數(shù),結(jié)合密集軌跡,SIFT,和ImageNet-預(yù)訓(xùn)練CNN特征。它優(yōu)于Sports子集21類(lèi)中13類(lèi),和Work子集15類(lèi)中10類(lèi)。在工作子集上的改進(jìn)是特別大的。這是部分歸因于工作活動(dòng)通常是不太明確的,并有較少的歧視性運(yùn)動(dòng)。圖6 Organizing Boxes行動(dòng)的訓(xùn)練實(shí)例中,在較弱的地方這是顯而易見(jiàn)的——更擴(kuò)散的幀水平CNN行動(dòng)概率。而這給依靠后處理的方法就造成了一個(gè)挑戰(zhàn),我們的模型直接推理作用程度,確保它能夠產(chǎn)生強(qiáng)烈的預(yù)測(cè)。
表4:IOU α=0.5時(shí),ActivityNet Work子集上的Per-class breakdown和mAP。
總之,我們已經(jīng)介紹了一個(gè)針對(duì)視頻中動(dòng)作檢測(cè)的終端到終端的方法,直接學(xué)習(xí)預(yù)測(cè)動(dòng)作的時(shí)間界限。我們的模型在THUMOS`14和ActivityNet行動(dòng)檢測(cè)數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能(只看一小部分的幀)。未來(lái)的工作方向是擴(kuò)展我們的框架,學(xué)習(xí)聯(lián)合時(shí)空觀測(cè)策略。
哈爾濱工業(yè)大學(xué)李衍杰副教授的點(diǎn)評(píng):在計(jì)算機(jī)視覺(jué)研究領(lǐng)域,對(duì)歷時(shí)較長(zhǎng)的視頻進(jìn)行動(dòng)作檢測(cè)是一個(gè)頗具挑戰(zhàn)性的研究難題。這篇論文介紹了一種端對(duì)端的動(dòng)作檢測(cè)方法,該方法能夠推理出每個(gè)時(shí)刻的動(dòng)作檢測(cè)的范圍。動(dòng)作檢測(cè)是一個(gè)連續(xù)的反復(fù)的觀察細(xì)化過(guò)程。我們?nèi)祟?lèi)能夠通過(guò)觀察單個(gè)或多個(gè)幀序列,對(duì)動(dòng)作何時(shí)發(fā)生做出假設(shè),從而略過(guò)一些幀迅速地縮小行動(dòng)檢測(cè)的范圍,決定應(yīng)該看哪些幀以及是否要改進(jìn)自己的假設(shè)來(lái)增加動(dòng)作檢測(cè)的定位精度,從而避免了窮舉式搜索?;谶@種直觀思想,本文模仿人的這種能力將一些幀序列作為輸入,在觀測(cè)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的基礎(chǔ)上,得到了每個(gè)時(shí)刻動(dòng)作檢測(cè)范圍,從而有助于提高動(dòng)作檢測(cè)的效率。在該方法中,將整個(gè)網(wǎng)絡(luò)分為觀測(cè)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),觀測(cè)網(wǎng)絡(luò)使用了已有的VGG-16網(wǎng)絡(luò),而遞歸網(wǎng)絡(luò)則模仿人的假設(shè)預(yù)測(cè)定位過(guò)程分別使用了BP反向傳播算法和REINFORCE算法來(lái)進(jìn)行學(xué)習(xí)訓(xùn)練,最終通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性。
PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
如需本文作多了解,請(qǐng)?jiān)L問(wèn)原文鏈接細(xì)節(jié)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。