丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給高婓
發(fā)送

0

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

本文作者: 高婓 2016-08-08 15:56
導(dǎo)語:摘要我們將在文中介紹一種用于視頻中動(dòng)作檢測的端對端方法,該方法用于學(xué)習(xí)直接預(yù)測動(dòng)作的瞬時(shí)改變。我們認(rèn)為,動(dòng)作檢測是一個(gè)對運(yùn)動(dòng)目標(biāo)進(jìn)行觀察并細(xì)化假設(shè)的過程:觀察視

聯(lián)合編譯: 高斐  章敏

摘要

我們將在文中介紹一種用于視頻中動(dòng)作檢測的端對端方法,該方法用于學(xué)習(xí)直接預(yù)測動(dòng)作的瞬時(shí)改變。我們認(rèn)為,動(dòng)作檢測是一個(gè)對運(yùn)動(dòng)目標(biāo)進(jìn)行觀察并細(xì)化假設(shè)的過程:觀察視頻中每一個(gè)動(dòng)作變化瞬間,細(xì)化關(guān)于一個(gè)動(dòng)作將何時(shí)發(fā)生的所有假設(shè)?;谠撚^點(diǎn),我們將提出的模型視為一個(gè)基于遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的代理人程序,該代理人程序與視頻進(jìn)行交流互動(dòng)。代理人程序觀察視頻幀序列,決定下一步觀察哪里,何時(shí)對運(yùn)動(dòng)目標(biāo)進(jìn)行動(dòng)作預(yù)測。由于反向傳播算法在這種不可微的環(huán)境下不能得到充分利用,我們使用REINFORCE算法學(xué)習(xí)智能體的決策策略。我們的模型運(yùn)用THUMOS’14和ActivityNet數(shù)據(jù)集,僅僅觀測一小部分(2%或更少)視頻幀序列就獲得了state-of-the-art結(jié)果。

1 引言

在計(jì)算機(jī)視覺研究領(lǐng)域,要對現(xiàn)實(shí)世界中歷時(shí)長的視頻進(jìn)行動(dòng)作檢測是一個(gè)頗具挑戰(zhàn)性的科研難題。眾多算法必須不僅能夠推理得出一個(gè)動(dòng)作是否會(huì)在視頻中發(fā)生,也要能夠預(yù)測該動(dòng)作何時(shí)會(huì)發(fā)生。現(xiàn)有的文獻(xiàn)[22,39,13,46]均采用構(gòu)建幀級(jí)別分類器,在多個(gè)時(shí)間標(biāo)尺下,詳盡地在一個(gè)視頻中運(yùn)行這些分類器,并且運(yùn)用后期處理方式,如時(shí)間先驗(yàn)和極大值抑制。然而,在精確度與計(jì)算效率方面,該間接動(dòng)作定位模型不甚令人滿意。

我們在本文中介紹一種端對端的動(dòng)作檢測方法,該方法能夠直接推理得出動(dòng)作的瞬時(shí)變化。我們的主要觀點(diǎn)為,動(dòng)作檢測是一個(gè)具有連續(xù)性和慣性的觀察細(xì)化過程。通過觀察單個(gè)或多個(gè)幀序列,能夠人為地對動(dòng)作何時(shí)發(fā)生做出假設(shè)。然后,我們可以重復(fù)觀察一些幀序列證實(shí)作出的假設(shè),快速確定動(dòng)作將要發(fā)生的位置(例如,圖1所示揮動(dòng)棒球棒這一動(dòng)作)。我們能夠有順序地決定將目光投向哪個(gè)方向,如何采用與已有算法相比較為簡化的搜索方法,來細(xì)化動(dòng)作預(yù)測假設(shè),獲得精確的動(dòng)作位置信息。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


圖1:動(dòng)作檢測是一個(gè)觀察與細(xì)化的過程。有效地選取幀觀察序列有助于我們快速確定何時(shí)揮動(dòng)棒球棒。

基于上述觀點(diǎn),我們提出一個(gè)單一連續(xù)性模型,該模型需要一個(gè)歷時(shí)較長的視頻作為輸入信息,輸出檢測所得的動(dòng)作實(shí)例的瞬時(shí)變化。我們將提出的模型制定為一個(gè)代理人程序,該代理人程序可以學(xué)習(xí)策略,關(guān)于動(dòng)作實(shí)例形成有序的假設(shè),并對作出的假設(shè)進(jìn)行細(xì)化。在一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中運(yùn)用這一觀點(diǎn),我們采用反向傳播算法與REINFORCE算法[42]相結(jié)合的方法全面端對端訓(xùn)練所提出的模型。

我們的模型是從一些研究文獻(xiàn)中汲取靈感的,這些文獻(xiàn)運(yùn)用REINFORCE算法來學(xué)習(xí)對圖像分類與加字幕的空間觀測策略[19,1,30,43 ]。然而,動(dòng)作檢測仍面臨另一個(gè)挑戰(zhàn),即如何處理一個(gè)結(jié)構(gòu)化檢測輸出結(jié)果的變量集合。為了解決這一難題,我們提出一個(gè)既能夠決定運(yùn)用哪一個(gè)幀觀測下一個(gè)潛在動(dòng)作,也能夠決定何時(shí)對動(dòng)作變化作出預(yù)測。此外,我們介紹了一種獎(jiǎng)勵(lì)機(jī)制,使得計(jì)算機(jī)能夠?qū)W習(xí)這一策略。就我們所知,這是首個(gè)學(xué)習(xí)視頻動(dòng)作檢測的端對端方法。

我們認(rèn)為,我們的模型具備有效推理動(dòng)作瞬時(shí)變化的能力,并且能夠運(yùn)用THUMOS’14和ActivityNe數(shù)據(jù)集獲得state-of-the-art性能。此外,我們的模型能夠?qū)W習(xí)決定使用哪一個(gè)幀進(jìn)行觀測或?qū)崟r(shí)觀測,它也具備僅觀測一部分(2%或更少)幀序列,便可學(xué)習(xí)決策策略的能力。

2 相關(guān)研究文獻(xiàn)

視頻分析與活動(dòng)識(shí)別領(lǐng)域具有悠久的研究歷史[20,449,2,31,17,8,10,112,50]。我們參考Poppe[24]與Weinland等人[40]的研究對該領(lǐng)域進(jìn)行研究。這里我們將回顧近來有關(guān)瞬時(shí)動(dòng)作檢測的文獻(xiàn)。瞬時(shí)動(dòng)作檢測 該研究方向的典型研究成果當(dāng)屬Ke等人[14]。Rohrbach等人[27]與Ni等人[21]在一個(gè)固定攝像機(jī)廚房環(huán)境下,以手和物體為特征分別檢測嫻熟的烹飪動(dòng)作。與我們當(dāng)前研究更為相關(guān)的是無約束無修改設(shè)置的THUMOS’14動(dòng)作數(shù)據(jù)集。Oneata等[22],王等[39],Karaman等[13],及Yuan等[46]在滑動(dòng)窗口框架中使用密集軌跡,幀級(jí)別CNN特征,和/或聲音特征檢測瞬時(shí)動(dòng)作。Sun等[34]基于網(wǎng)絡(luò)圖像提高檢測性能。Pirsiacash與Ramanan[23]對復(fù)雜的動(dòng)作建立語法結(jié)構(gòu),并及時(shí)檢測子成分。

空間-時(shí)間動(dòng)作檢測方法也得到了發(fā)展。在“無約束”的網(wǎng)絡(luò)視頻環(huán)境下,發(fā)展這些方法需要有大量關(guān)于空間-時(shí)間動(dòng)作假說的文獻(xiàn)[44,16,36,9,7,45,41]。動(dòng)作檢測更為寬泛的檢測場景分析也是一個(gè)活躍的研究領(lǐng)域。Shu等[32]在人群中進(jìn)行推理,Loy等[18]運(yùn)用多臺(tái)攝像機(jī)場景進(jìn)行推理,Kwak等[15]遵循基于二次編程的實(shí)例化原則進(jìn)行推理。這些研究存在一個(gè)共同點(diǎn),即在時(shí)間維度內(nèi)典型地運(yùn)用基于滑動(dòng)窗口的方法,在空間-時(shí)間動(dòng)作假說或人類軌跡的基礎(chǔ)上進(jìn)行推理。此外,這些研究是運(yùn)用經(jīng)過修剪或約束的視頻剪輯開展來的。與之形成鮮明對比,我們運(yùn)用無修剪,無約束的視頻剪輯完成空間動(dòng)作檢測任務(wù),提供了一種有效的方法來確定使用那些幀序列進(jìn)行觀測。

端對端檢測 我們直接推理動(dòng)作的瞬時(shí)變化的研究目的與關(guān)于從整幅圖像到物體變化的物體檢測的研究工作具有相同的哲學(xué)意義[29,35,5,6,26,25]。相反,現(xiàn)有的動(dòng)作檢測方法主要運(yùn)用詳盡的滑動(dòng)窗口方法和后期處理程序得出動(dòng)作實(shí)例[22,39,13,46]。就我們所知,我們的研究工作是首個(gè)采用端對端框架學(xué)習(xí)瞬時(shí)動(dòng)作檢測的。

學(xué)習(xí)特定任務(wù)策略 我們從近期使用REINFORCE算法來學(xué)習(xí)特定任務(wù)策略的途徑中獲得研究靈感。Mnih等[19]學(xué)習(xí)圖像分類的空間注意策略,Xu等[43]學(xué)習(xí)圖像字幕生成。在非視覺化任務(wù)中,Zaremba等[47]學(xué)習(xí)REINFORCE算法神經(jīng)圖靈機(jī)策略。我們采用的方法是建立在這些研究方向之上,運(yùn)用強(qiáng)化法學(xué)習(xí)處理動(dòng)作檢測任務(wù)的策略。

3 研究方法

我們的研究目的是運(yùn)用一個(gè)長的視頻序列,輸出任意一個(gè)指定動(dòng)作的實(shí)例。圖2所示為我們的模型結(jié)構(gòu)。我們將這個(gè)模型制定為一個(gè)REINFORCE算法代理人程序,該代理人程序與視頻在特定時(shí)間段內(nèi)進(jìn)行交流溝通。代理人程序接收一系列視頻幀序列V={v1,…,vT}作為輸入信息,能夠觀測固定比例的幀序列。該模型必須能夠有效地利用這些觀測結(jié)果,或幀觀測結(jié)果,來推理動(dòng)作的瞬時(shí)變化。

3.1結(jié)構(gòu)

我們提出的模型由兩個(gè)主要成分構(gòu)成:一個(gè)觀測網(wǎng)絡(luò)(見3.1.1),一個(gè)遞歸網(wǎng)絡(luò)(見3.1.2)。觀測網(wǎng)絡(luò)為視頻幀的視覺表征編碼。遞歸網(wǎng)絡(luò)有序地加工這些觀測結(jié)果,并決定運(yùn)用哪一個(gè)幀序列觀測下一個(gè)動(dòng)作,何時(shí)對動(dòng)作變化作出預(yù)測。我們現(xiàn)在將更為詳細(xì)地描述這兩個(gè)組成成分。之后在3.2,我們將闡釋如何運(yùn)用端對端的方法,結(jié)合反向傳播算法與強(qiáng)化手段訓(xùn)練我們提出的模型。

3.1.1 觀測網(wǎng)絡(luò)

如圖2所示,觀測網(wǎng)絡(luò)f0,用參數(shù)θ0表示,在每一個(gè)時(shí)間步長中觀察單一的視頻幀。在該觀測網(wǎng)絡(luò)中,用特征向量On為幀編碼,將該特征向量作為遞歸網(wǎng)絡(luò)的輸入信息。

重要的是,On表示在視頻中何處進(jìn)行觀測及觀測什么的編碼信息。因而,觀測網(wǎng)絡(luò)的輸入信息由觀測的正常時(shí)間位置與相對應(yīng)的視頻幀構(gòu)成。

觀測網(wǎng)絡(luò)結(jié)構(gòu)受到文獻(xiàn)[19]中涉及到的空間觀測網(wǎng)絡(luò)啟發(fā)。Ln和vln被映射到一個(gè)隱蔽的空間內(nèi),然后,與一個(gè)全面的連接層相結(jié)合。在我們的實(shí)驗(yàn)中,我們從一個(gè)經(jīng)過優(yōu)化的VGG-16網(wǎng)絡(luò)中提取得到fc7特征。

3.1.2 遞歸網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)fh,用參數(shù)oh表示,是學(xué)習(xí)代理人程序的核心網(wǎng)絡(luò)結(jié)構(gòu)。正如可以在圖2中觀測到的,在每一個(gè)時(shí)間步長n中,該網(wǎng)絡(luò)的輸入信息為一個(gè)觀測特征向量on。該網(wǎng)絡(luò)的隱蔽空間hn,on與先前隱蔽空間hn-1,為動(dòng)作實(shí)例構(gòu)建時(shí)間假說。

在代理人程序推理的過程中,每一個(gè)時(shí)間步長內(nèi)輸出三種信息:候選檢測結(jié)果dn,標(biāo)志是否產(chǎn)出預(yù)測結(jié)果dn的二進(jìn)制指示參數(shù)pn,及確定觀測下一個(gè)動(dòng)作的幀的時(shí)間位置ln+1。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


圖2:該模型的輸入信息為一系列視頻幀序列,輸出信息為一系列動(dòng)作預(yù)測結(jié)果。

3.2 訓(xùn)練

我們的最終研究目的是學(xué)習(xí)輸出一系列動(dòng)作檢測結(jié)果。為了實(shí)現(xiàn)這一目標(biāo),我們需要在代理人程序的遞歸網(wǎng)絡(luò)中的每一步訓(xùn)練這三種輸出信息:候選檢測結(jié)果dn,預(yù)測指示值pn,及下一個(gè)觀測位置ln+1。鑒于對長視頻中瞬時(shí)動(dòng)作注釋的檢測,訓(xùn)練這些輸出結(jié)果面臨著設(shè)計(jì)合適的損失與獎(jiǎng)勵(lì)函數(shù),處理不可微模型組成成分。我們運(yùn)用標(biāo)準(zhǔn)的反向傳播算法來訓(xùn)練dn,運(yùn)用強(qiáng)化手段來訓(xùn)練pn和ln+1。

3.2.1 候選檢測結(jié)果

運(yùn)用反向傳播算法訓(xùn)練候選檢測結(jié)果,以確保每一個(gè)候選檢測結(jié)果的正確性。由于每一個(gè)候選結(jié)果都代表代理人程序關(guān)于動(dòng)作作出的假設(shè),不論每一個(gè)候選結(jié)果最終是否得到輸出,我們都希望確保該結(jié)果最為正確。這便要求在訓(xùn)練過程中將每一個(gè)候選結(jié)果與一個(gè)ground truth實(shí)例相匹配。代理人程序應(yīng)當(dāng)在視頻中最接近當(dāng)前位置的地方對動(dòng)作實(shí)例作出假設(shè)。這有助于我們設(shè)計(jì)出一個(gè)簡單卻有效的匹配函數(shù)。

與ground truth 相匹配 如果存在一個(gè)由遞歸網(wǎng)絡(luò)中N個(gè)時(shí)間步長得出的候選檢測結(jié)果集合D={dn|n=1,…,N}和ground truth 動(dòng)作實(shí)例g1,…,M,那么每一個(gè)候選檢測結(jié)果都將于一個(gè)ground truth實(shí)例相匹配;如果M=0,那么沒有匹配結(jié)果。

我們定義匹配函數(shù)為

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


換句話講,如果在時(shí)間步長n內(nèi),代理人程序的時(shí)間位置ln比任何一個(gè)ground truth實(shí)例都接近gm,候選結(jié)果dn與ground truth gm匹配。

損失函數(shù) 一旦候選檢測結(jié)果與ground truth實(shí)例得以匹配,我們運(yùn)用集合D來優(yōu)化一個(gè)多重任務(wù)分類與定位損失函數(shù):

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


公式中的分類術(shù)語    是一個(gè)關(guān)于檢測信度cn的標(biāo)準(zhǔn)交叉熵?fù)p失值,如果檢測結(jié)果dn與一個(gè)ground truth實(shí)例相匹配,那么信度接近1;否則,信度為0。

我們運(yùn)用反向傳播算法優(yōu)化該損失函數(shù)。

3.2.2 序列的觀測與輸出

觀測定位與預(yù)測指數(shù)輸出結(jié)果是我們的模型中不可微的組成成分,無法用反向傳播算法訓(xùn)練這些輸出結(jié)果。然而,強(qiáng)化手段是一種強(qiáng)有力的方法,能夠?qū)崿F(xiàn)在不可微的環(huán)境下進(jìn)行學(xué)習(xí)。下文我們將簡略描述這種強(qiáng)化手段。之后,我們介紹一種與強(qiáng)化手段相結(jié)合的獎(jiǎng)勵(lì)函數(shù),學(xué)習(xí)觀測與預(yù)測輸出序列的有效策略。

強(qiáng)化手段  存在Α,一個(gè)動(dòng)作序列空間,和一個(gè)Pθ(a),強(qiáng)化目標(biāo)可以表示為

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


在該公式中r(a)為分配給每一個(gè)可能動(dòng)作序列的獎(jiǎng)勵(lì),J(θ)為每一個(gè)可能動(dòng)作序列分布結(jié)果的預(yù)期獎(jiǎng)勵(lì)。我們希望學(xué)習(xí)網(wǎng)絡(luò)參數(shù)θ,該參數(shù)使每一個(gè)位置序列和預(yù)期指示輸出結(jié)果的預(yù)期獎(jiǎng)勵(lì)實(shí)現(xiàn)最大值。

目標(biāo)梯度為

計(jì)算機(jī)也可以看“視頻”,理解“視頻”


由于可能動(dòng)作序列具有高維度空間,這將導(dǎo)致一個(gè)特殊的優(yōu)化問題。強(qiáng)化手段通過使用蒙特卡洛樣本和近似梯度方程學(xué)習(xí)網(wǎng)絡(luò)參數(shù),以解決這一問題。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

由于一個(gè)代理人程序與周圍環(huán)境進(jìn)行交流溝通,在我們的視頻中,πθ為代理人程序的策略。在每一個(gè)時(shí)間步長n內(nèi),an是該策略的當(dāng)前動(dòng)作,h1:n為包括當(dāng)前狀態(tài)在內(nèi)的過去狀態(tài)的歷史記錄,a1:n-1為過去動(dòng)作的歷史記錄。通過在其所處環(huán)境中,經(jīng)營一個(gè)代理人程序的當(dāng)前策略,以獲得K互動(dòng)序列,最終計(jì)算得出近似梯度。

根據(jù)該近似梯度,強(qiáng)化手段學(xué)習(xí)模型參數(shù)。導(dǎo)致高未來獎(jiǎng)勵(lì)的動(dòng)作的概率在不斷增長,那些導(dǎo)致低獎(jiǎng)勵(lì)的概率將下降??梢赃\(yùn)用反向傳播算法對模型參數(shù)實(shí)施實(shí)時(shí)更新。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

圖1:THYMOS`14上的行動(dòng)檢測結(jié)果。與THUMOS`14挑戰(zhàn)榜排行前3的性能進(jìn)行比較,并且展示了消融模型。mAP報(bào)道了不同的交叉聯(lián)合(intersection-over-union/IOU)閾值α

獎(jiǎng)勵(lì)函數(shù) 訓(xùn)練強(qiáng)化手段要求設(shè)計(jì)出一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)。我們的目標(biāo)是學(xué)習(xí)位置與預(yù)測指示輸出結(jié)果的策略,這些輸出結(jié)果將產(chǎn)生高回憶和高精確度的動(dòng)作檢測結(jié)果。因而,我們介紹一種能夠使真肯定檢測結(jié)果最大化,而使假肯定檢測結(jié)果最小化的獎(jiǎng)勵(lì)函數(shù):

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

所有的獎(jiǎng)勵(lì)都是在Nth(最后)時(shí)間步長時(shí)提供的,且n<N時(shí)為0,因?yàn)槲覀兿胝业揭粋€(gè)可以共同產(chǎn)生高整體檢測性能的方法。M是正確標(biāo)注(ground truth)行為實(shí)例的數(shù)量,并且Np是代理發(fā)出預(yù)測的數(shù)量。N+是正的正樣本(positive predictions)預(yù)測數(shù)量,N-是最小正的負(fù)樣本(false positive)預(yù)測數(shù)量,并且R+和R-分別是每一個(gè)預(yù)測的正獎(jiǎng)勵(lì)和負(fù)獎(jiǎng)勵(lì)。如果一個(gè)預(yù)測與正確標(biāo)注的重疊比閾值大,且比其他所有的預(yù)測還高,那么該預(yù)測就是正確的。為了鼓勵(lì)代理人不過于保守,當(dāng)視頻包含正確標(biāo)注實(shí)例(M > 0),但該模型沒有發(fā)出任何預(yù)測(NP = 0)時(shí),我們提供一個(gè)負(fù)面的獎(jiǎng)勵(lì)Rp。

我們使用有REINFORACE的函數(shù)訓(xùn)練位置和預(yù)測指標(biāo)輸出,并學(xué)習(xí)觀測和排放政策(emission policies)以優(yōu)化行動(dòng)檢測。

4.實(shí)驗(yàn)

我們在THUMOS`14和ActivityNet兩個(gè)數(shù)據(jù)集評(píng)估了我們的模型。結(jié)果顯示,我們的端對端的方法確保了模型可以最大幅度的在兩個(gè)數(shù)據(jù)集產(chǎn)生最好的結(jié)果。此外,幀的學(xué)習(xí)策略即有效又高效;當(dāng)觀測到的視頻幀只有2%或更少的時(shí),模型達(dá)到了這些結(jié)果。

4.1實(shí)施細(xì)節(jié)

對于每一個(gè)行動(dòng)級(jí)別我們都學(xué)習(xí)了1-vs-all模型。在觀測網(wǎng)絡(luò)中,我們使用了VGG-16網(wǎng)絡(luò)優(yōu)調(diào)數(shù)據(jù)集,以便從觀測的視頻幀中提取視覺特征。FC7-layer特征被提取并嵌入幀的時(shí)間位置到1024維的觀測向量。

對于遞歸網(wǎng)絡(luò),我們使用了一個(gè)3層LSTM網(wǎng)絡(luò)(在每一個(gè)層都有1024個(gè)隱藏單元)視頻在THUMOS`14向下采樣到5fps,在ActivityNe向下采樣到1fps,并且在50幀的序列中進(jìn)行。代理被給予了對于每個(gè)序列固定數(shù)量的觀測,我們實(shí)驗(yàn)中代表性的數(shù)量是6。在視頻序列中,所有的時(shí)間位置被歸一化成[0,1]。任何預(yù)測重疊或交叉序列的邊界都會(huì)被融合到一個(gè)簡單的聯(lián)盟規(guī)則。我們學(xué)習(xí)256序列中極小的一部分,并且在優(yōu)化時(shí)使用RMSProp模擬預(yù)參數(shù)學(xué)習(xí)率(the perparameter learning rate)。其它的超參數(shù)通過交叉驗(yàn)證(cross-validation)來學(xué)習(xí)。序列的系數(shù)包含了每一個(gè)極小部分(mini-batch)的正實(shí)例,它是阻止模型過渡保守的一個(gè)非常重要的超參數(shù)。大概三分之一到一半的正實(shí)例被代表性的使用。

4.2.THUMOS`14數(shù)據(jù)集

THUMOS`14的行動(dòng)檢測任務(wù)包括20類運(yùn)動(dòng),且表1顯示了在這個(gè)數(shù)據(jù)集上的結(jié)果。因?yàn)樵撊蝿?wù)只包括數(shù)據(jù)集中101類動(dòng)作的其中20類,我們第一次粗過濾了這些類測試視頻的整個(gè)集,用視頻水平的平均值池化類概率——每300幀計(jì)算一次(0.1fps)。我們報(bào)道了不同IOU閾值的αmAP,并與THUMOS`14挑戰(zhàn)榜排名前3的性能進(jìn)行了比較。所有這些方法計(jì)算密集的軌跡和/或時(shí)間窗口的CNN特征,并使用一個(gè)非最大抑制滑動(dòng)窗口的方法獲得預(yù)測。僅使用密集的軌跡,[使用時(shí)間窗口結(jié)合密集的軌跡和CNN特征,以及使用有著視頻水平CNN分類預(yù)測的密集軌跡的時(shí)間窗口。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

圖片3:將我們的w / odobs描述與所有的模型進(jìn)行比較。參考圖5中圖形結(jié)構(gòu)的說明

和配色方案。每個(gè)模型的觀測幀用綠色顯示,預(yù)測程度用紅色顯示。允許模型選擇要觀測的幀,以確保行動(dòng)邊界上所需的分辨率。

我們的模型優(yōu)于所有在α值處現(xiàn)存的方法。隨著α的減少,相對利潤率增加了,這表明我們的模型更頻繁地預(yù)測接近于正確標(biāo)注情況的行動(dòng),即使不精確定位的情況相。我們的模型使用它的學(xué)習(xí)觀測策略進(jìn)行到視頻幀的2%時(shí)就實(shí)現(xiàn)了該結(jié)果。

消融(Ablation)實(shí)驗(yàn).表1也顯示了消融實(shí)驗(yàn)的結(jié)果,分析不同模型組件的貢獻(xiàn)。消融模型如下:

·我們的w/o dpred移除預(yù)測指標(biāo)輸出。在每一個(gè)時(shí)間步長的候選檢測都被發(fā)出,并與非極大值抑制合并。

·我們的w/o dobs移除了位置輸出指標(biāo)(下一個(gè)要觀測哪一個(gè)地方)。觀測不再是由均勻采樣相同總數(shù)的觀測決定。

·我們的w/o dobs w/o dpred移除了預(yù)測指標(biāo)和位置預(yù)測輸出

·我們的 w/o loc移除位置回歸。所有發(fā)射檢測都是訓(xùn)練集的中等長度,并集中在目前觀測到的幀。

·有NMSCNN移除了時(shí)間行動(dòng)邊界的直接預(yù)測。我們觀測網(wǎng)絡(luò)中VGG-16網(wǎng)絡(luò)的預(yù)-幀類概率,是在多個(gè)時(shí)間尺度上密集獲得的,并且聚合了非最大抑制,類似于現(xiàn)有的工作。

 由于大量的正的負(fù)樣本(false positives),相比于整個(gè)模型我們的w/o dpred獲得了更低的性能。我們的w/o dobs同樣更低效,因?yàn)榫鶆虿蓸記]有提供足夠的分辨率來定位動(dòng)作邊界(圖3)。有趣的是,移除dobs相比于比移除dpred對模型的損害更大,這突出了觀測策略的重要性。如想象的一樣,移除我們的w/o dobs和w/o dpred的輸出進(jìn)一步降低了性能。我們的w/o loc在α=0.5時(shí)性能最差,甚至低于CNN的性能,這反映出了時(shí)間回歸的重要性。CNN減少相對差異,以及當(dāng)我們減少α?xí)r的翻轉(zhuǎn),暗示出模型仍然檢測出了行動(dòng)大概的位置,但精確定位的影響。最終,有NMS的CNN相比于所有的消融模型(除了我們的w/o loc模型)達(dá)到了最低的性能,量化我們對于端對端框架的貢獻(xiàn)。使用稠密軌跡和的ImageNet 預(yù)訓(xùn)練CNN特征,它的性能同樣在除了更低的范圍內(nèi)。這表明,另外結(jié)合運(yùn)動(dòng)為基礎(chǔ)的特征,將進(jìn)一步提高我們模型的性能。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

表2:在IOU α=0.5時(shí),THUMOS`14的Per-class breakdown(AP)。

作為額外的基線,我們在LSTM的頂部執(zhí)行了NMS,一個(gè)標(biāo)準(zhǔn)的時(shí)間網(wǎng)絡(luò),會(huì)產(chǎn)生幀級(jí)別的流暢性和一致性。盡管增加了更大的時(shí)間一致性,有NMS的LSTM相比于有NMS的CNN有著更低的性能。主要的原因可能是增加幀級(jí)別類概率的時(shí)間流暢性(精準(zhǔn)定位時(shí)間邊界所需要的),對于行動(dòng)情況檢測任務(wù)來說實(shí)際上是有害的,而不是有益的。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

圖4:THYMOS`14上的預(yù)測動(dòng)作情況實(shí)例。每一行顯示在檢測動(dòng)作的時(shí)間范圍內(nèi),或只是在外面的采樣幀。褪色的幀顯示檢測外的位置并說明了定位能力。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

圖5:THUMOS`14的學(xué)習(xí)觀測策略實(shí)例。上面顯示了擲標(biāo)槍的例子和底部顯示了潛水的例子。觀測到的幀的顏色為綠色并用幀索引標(biāo)記。紅色表示預(yù)測范圍,灰色表示正確的標(biāo)示。為了參考,我們還展示了使用在我們觀測網(wǎng)絡(luò)中來自于VGGNet的幀水平的CNN概率;高強(qiáng)度表示更高的概率,并提供對類的幀級(jí)信號(hào)的洞察。虛線箭頭表示觀測序列,紅色箭頭指示發(fā)出預(yù)測的幀。

最終,我們實(shí)驗(yàn)了不同數(shù)量的觀測前視頻序列,如4,8和10.在該范圍中,檢測的性能沒有實(shí)質(zhì)性的不同。這是與其他使用在CNNs最大池化進(jìn)行動(dòng)作識(shí)別的工作一致,突出學(xué)習(xí)有效幀觀測政策的重要性。

預(yù)-類分解(per-class breakdown).表2顯示了我們模型的預(yù)-類AP分解,并且與THUMOS`14排行榜最好的性能進(jìn)行比較。我們的模型產(chǎn)生20個(gè)類中的12個(gè)類。值得注意的是,它顯示了一些數(shù)據(jù)集中最具挑戰(zhàn)性的類表現(xiàn)出了很大的改善,如籃球,跳水,和接住飛盤。圖4顯示我們模型預(yù)檢測的實(shí)例,包括這個(gè)來自挑戰(zhàn)性類的檢測。模型在行動(dòng)程度整體合理化的能力,確保了它可以推測時(shí)間邊界(甚至在幀是具挑戰(zhàn)性的時(shí)候):例如,類似姿勢和環(huán)境,或在第二個(gè)潛水的例子中場景突然變化。

觀測策略分析.圖5顯示了我們模型學(xué)習(xí)的觀測實(shí)例,以及伴隨的預(yù)測。為了參考,我們還展示用于我們觀測網(wǎng)絡(luò)中VGGNet的幀水平的CNN概率,以提供行動(dòng)幀水平信號(hào)的認(rèn)知。上面是一個(gè) 擲標(biāo)槍的例子,一旦人開始奔跑,該模型就開始進(jìn)行更頻繁的觀測。接近行動(dòng)的端邊界,它退一步以完善其假設(shè),然后在移動(dòng)之前發(fā)出一個(gè)預(yù)測。下面潛水的例子是一個(gè)具有挑戰(zhàn)性的情況下,其中兩個(gè)動(dòng)作實(shí)例發(fā)生的非??焖龠B續(xù)。而幀水平CNN的概率的強(qiáng)度超過序列,使得用標(biāo)準(zhǔn)滑動(dòng)窗口的方法來處理變得非常困難,我們的模型能夠分辨兩個(gè)單獨(dú)的實(shí)例。該模型再次采取步驟向后完善其預(yù)測,包括一次(幀93)運(yùn)動(dòng)非常模糊,使得它很難從其它的幀中辨別出來。然而,預(yù)測在某些方面比正確標(biāo)注要長,并且向上觀測第二個(gè)情況的第一個(gè)幀(幀101),該模型立即發(fā)出的預(yù)測可媲美長于第一個(gè)幀,但持續(xù)時(shí)間稍。這表明,該模型可能學(xué)習(xí)時(shí)間的先驗(yàn),同時(shí)極大受益,在這種情況下它過于強(qiáng)大。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

圖6:ActivityNet上工作子集的學(xué)習(xí)觀測策略實(shí)例。行動(dòng)是組織箱。參考圖5圖形結(jié)構(gòu)和色彩方案的解釋。

4.3.ActivityNet數(shù)據(jù)集

ActivityNet動(dòng)作檢測數(shù)據(jù)集由849小時(shí)內(nèi)未修剪的68.8小時(shí)的時(shí)間注釋組成,無約束的視頻。每個(gè)視頻有1.41個(gè)動(dòng)作實(shí)例,且每一個(gè)類有193個(gè)實(shí)例。表3和4分別顯示了每個(gè)類和mAP在ActivityNet的子集“運(yùn)動(dòng)”和“工作,主要工作”的性能。并且超參數(shù)在訓(xùn)練集上進(jìn)行交叉驗(yàn)證。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

表3:IOU α=0.5時(shí),ActivityNet Sports子集上的Per-class breakdown和mAP。

我們的模型優(yōu)于現(xiàn)存的工作,它的基礎(chǔ)是是通過大量的差數(shù),結(jié)合密集軌跡,SIFT,和ImageNet-預(yù)訓(xùn)練CNN特征。它優(yōu)于Sports子集21類中13類,和Work子集15類中10類。在工作子集上的改進(jìn)是特別大的。這是部分歸因于工作活動(dòng)通常是不太明確的,并有較少的歧視性運(yùn)動(dòng)。圖6 Organizing Boxes行動(dòng)的訓(xùn)練實(shí)例中,在較弱的地方這是顯而易見的——更擴(kuò)散的幀水平CNN行動(dòng)概率。而這給依靠后處理的方法就造成了一個(gè)挑戰(zhàn),我們的模型直接推理作用程度,確保它能夠產(chǎn)生強(qiáng)烈的預(yù)測。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

表4:IOU α=0.5時(shí),ActivityNet Work子集上的Per-class breakdown和mAP。

5.結(jié)論

總之,我們已經(jīng)介紹了一個(gè)針對視頻中動(dòng)作檢測的終端到終端的方法,直接學(xué)習(xí)預(yù)測動(dòng)作的時(shí)間界限。我們的模型在THUMOS`14和ActivityNet行動(dòng)檢測數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能(只看一小部分的幀)。未來的工作方向是擴(kuò)展我們的框架,學(xué)習(xí)聯(lián)合時(shí)空觀測策略。

哈爾濱工業(yè)大學(xué)李衍杰副教授的點(diǎn)評(píng):在計(jì)算機(jī)視覺研究領(lǐng)域,對歷時(shí)較長的視頻進(jìn)行動(dòng)作檢測是一個(gè)頗具挑戰(zhàn)性的研究難題。這篇論文介紹了一種端對端的動(dòng)作檢測方法,該方法能夠推理出每個(gè)時(shí)刻的動(dòng)作檢測的范圍。動(dòng)作檢測是一個(gè)連續(xù)的反復(fù)的觀察細(xì)化過程。我們?nèi)祟惸軌蛲ㄟ^觀察單個(gè)或多個(gè)幀序列,對動(dòng)作何時(shí)發(fā)生做出假設(shè),從而略過一些幀迅速地縮小行動(dòng)檢測的范圍,決定應(yīng)該看哪些幀以及是否要改進(jìn)自己的假設(shè)來增加動(dòng)作檢測的定位精度,從而避免了窮舉式搜索?;谶@種直觀思想,本文模仿人的這種能力將一些幀序列作為輸入,在觀測神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的基礎(chǔ)上,得到了每個(gè)時(shí)刻動(dòng)作檢測范圍,從而有助于提高動(dòng)作檢測的效率。在該方法中,將整個(gè)網(wǎng)絡(luò)分為觀測神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),觀測網(wǎng)絡(luò)使用了已有的VGG-16網(wǎng)絡(luò),而遞歸網(wǎng)絡(luò)則模仿人的假設(shè)預(yù)測定位過程分別使用了BP反向傳播算法和REINFORCE算法來進(jìn)行學(xué)習(xí)訓(xùn)練,最終通過實(shí)驗(yàn)驗(yàn)證了算法的有效性。

PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

如需本文作多了解,請?jiān)L問原文鏈接細(xì)節(jié)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

計(jì)算機(jī)也可以看“視頻”,理解“視頻”

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說