1
本文作者: 李尊 | 2016-06-28 13:06 |
本文聯(lián)合編譯 : 陳圳、Blake
多人視頻中活動和關(guān)鍵人物的檢測
多人活動識別是一個極具挑戰(zhàn)的任務(wù),雖然很多人在一個場景中出現(xiàn),但只有一小部分人的活動能被重點(diǎn)關(guān)注到。在本文中,我們建立了一種模式,此模式會檢測多人視頻中的活動并且會重點(diǎn)關(guān)注此活動中的關(guān)鍵人物。一般來說,我們在視頻中檢測人的行為會使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來表示這些人的行為軌跡特征。把了解到的瞬息變化的特征都按時間先后記錄下來。接下來,將檢測到的特征使用另一個遞歸神經(jīng)系統(tǒng)進(jìn)行行為檢測和分類。因為大多數(shù)多人視頻中的數(shù)據(jù)集都限制于少數(shù)的視頻中,我們收集了一個新的籃球比賽數(shù)據(jù)集包括257場籃球賽并根據(jù)11種活動行為分類帶有14k的注釋。這種模式在基于新數(shù)據(jù)的活動分類和檢測方面目前超過了世上的許多先進(jìn)技術(shù)。此外,我們將會展示注意機(jī)制能連續(xù)地定位相關(guān)人物。
1.介紹
盡管視頻識別和檢測從最近的大規(guī)模數(shù)據(jù)和模式引進(jìn)中受益匪淺。然而,卻局限于單人活動做基礎(chǔ)的活動。另一個同樣重要的問題是多人視頻中活動識別的問題。在我們的研究中,我們?yōu)檫@一特殊設(shè)定設(shè)計了一個新的模式和數(shù)據(jù)集。
圖1:在籃球比賽中關(guān)注錯誤的人會無法傳遞比賽信息,如第一行所示。但是在同樣的視頻,當(dāng)關(guān)注到正確的人之后,我們就能更容易辨別“2個成功點(diǎn)”:傳遞球的人和投籃的分的人。我們使用相同的直覺在活動識別中關(guān)鍵球員。
在體育比賽,市場,或是其他包括多人互動領(lǐng)域視頻拍攝。許多人都在做“事情”,但不是所有的人都在參與主要的活動。主要活動往往由少部分人承擔(dān)進(jìn)行。例如,一次“投籃”是由一個或是兩個人完成(如圖一)。此外,為確認(rèn)關(guān)鍵人物排除其他不先關(guān)人物也是很關(guān)鍵的。這是至關(guān)重要的一點(diǎn),也是區(qū)分單人視頻和多人視頻的關(guān)鍵點(diǎn)。
憑自己的本事辨認(rèn)出活動的關(guān)鍵人物是一個有興趣的任務(wù)。然而獲得此類解釋是非常昂貴的,所以在辨認(rèn)關(guān)鍵人物的訓(xùn)練中無需使用注釋的模式非常必要的。這也可以看做是對關(guān)鍵人物監(jiān)視薄弱的問題。在本文中,我們提議使用通過能關(guān)注關(guān)鍵人物子集的模式去分類活動。我們在做此事時,并未準(zhǔn)確告訴模式關(guān)鍵人物是誰?他在哪?
最近,一些論文提出使用“注意”模式從混合的輸入到輸出排列排列元素。例如,把句子從一種語言翻譯到另一種語言,再輸入時就關(guān)注句子中的不同單詞;生成一個映像說明,需注意映像中的不同部分;生成一個視頻說明,需注意視頻中的不同幀。
在我們的研究中,我們使用“注意”來決定哪些人是與實施動作聯(lián)系最緊密的,且“注意”能隨時變化。因此我們聯(lián)合時間和空間注意。注意到盡管人的檢測從一幀到另一幀都不相同,但他們能通過跨幀追蹤聯(lián)系起來。我將會展示如何使用神經(jīng)遞歸網(wǎng)絡(luò)(RNN)表示每一幀的信息;注意模式被用于訓(xùn)練在每一幀中選出最相關(guān)的追蹤。此模式除能辨認(rèn)相關(guān)人物,我們也將展示它較好的活動辨別能力。
為了能評估我們的的方法,我們需要大量的多人視頻解釋活動。最優(yōu)先的活動識別數(shù)據(jù)集是關(guān)于一個或是兩個人的。多人視頻多限于少量視頻。因此我們需自己收集相關(guān)數(shù)據(jù)集。我們建立一個籃球賽數(shù)據(jù)集,對所有的11不同活動包括257個視頻,每個時長1.5個小時,備注時間印記。這個數(shù)據(jù)集就備注的數(shù)量而言是可比擬THUMOS數(shù)據(jù)集的,但包括更多的多人視頻。
總結(jié)而言,本文所作成就如下。第一,我們引進(jìn)一個大規(guī)模的籃球數(shù)據(jù)集,且?guī)в?4K即時注釋。第二,我們將會展示我們的模式在分類剪輯視頻和在未剪輯視頻中的定位功能等方面超過先進(jìn)模式。第三,我們將會展示我們的模式能學(xué)習(xí)關(guān)注相關(guān)人物,盡管未被告知在訓(xùn)練集中哪個人物是相關(guān)的。
2. 相關(guān)工作
視頻中的行為識別。一般說來,有良好編程的特征在視頻分類和檢索等任務(wù)中十分有效。在標(biāo)準(zhǔn)視頻數(shù)據(jù)集中改良密集軌道(IDT)取得較好成效。在最過去幾年端對端深度網(wǎng)絡(luò)模式在各種網(wǎng)絡(luò)任務(wù)中表現(xiàn)很好。其他任務(wù)則致力于探索使用這些特征表現(xiàn)地更好。最近的研究使用神經(jīng)遞歸網(wǎng)絡(luò)(RNN)在活動識別和生成說明等方面取得較好成就。我們跟隨此研究線索關(guān)注到參與者。
另一條研究線在識別動作的同時確認(rèn)視頻中的有趣之處。Gkioxari et al. 和 Raptis et.al 會在視頻中自動識別時空管。Jain et al. 為行為定位加入超級像素。其他的研究如學(xué)著從帶有部分簡單注釋的和部分對準(zhǔn)的電影剪輯中定位相關(guān)人物。盡管這些模式執(zhí)行薄弱監(jiān)督的行為確定,他們在短視頻中將目標(biāo)鎖定在單人視頻,且在短視頻中的行為是圍繞這個人展開。在訓(xùn)練定位動作時,模式需要備注。
多人視頻分析?;顒幼R別模式需要界限明確的組別框架。這些模式利用參與者的分布框架去確認(rèn)小組活動。但是,這些方法卻受限于較小的數(shù)據(jù)集。
關(guān)注模式。Itti et al. 探索在映像中基于顯著性的關(guān)注模式,例如使用眼睛凝視數(shù)據(jù)作為一種學(xué)習(xí)注意的方法。Mnih et al.通過RNN關(guān)注影像領(lǐng)域的解決方法。“注意”同樣也被用于圖像分類和檢測。
Bahdanau et al. 展示了“基于注意的”RNN模式能為機(jī)器翻譯有效地排序輸入和輸出。緊接著Xu et al. and Yao et al.使用“注意”分別用于圖像說明和視頻說明。在所有的方法中,“注意”校對了輸入和輸出的一系列特征。但是我們使用“注意”在活動的不同階段辨認(rèn)出關(guān)鍵人物。
行為識別數(shù)據(jù)集。在視頻中的行為識別涉及到更復(fù)雜的數(shù)據(jù)集,從KTH,HMDB到更大的UCF101,TRECVID-MED和Sports-1M數(shù)據(jù)集。最近,THUMOS和ActivityNet同樣也提供了檢測設(shè)置,且對未剪輯視頻中的每一個行為作了即時注釋。在在特定的場景,MPII的烹飪和早餐中有條紋細(xì)膩的數(shù)據(jù)集。然而大多數(shù)數(shù)據(jù)集只關(guān)注一個人的活動,無需辨認(rèn)發(fā)出行為動作的人。另一方面,公開可獲得的多人活動數(shù)據(jù)集數(shù)量非常少。我們所作貢獻(xiàn)之一就是籃球賽數(shù)據(jù)集有頻繁的活動解釋。
圖2:我們在長視頻中詳細(xì)注明11個不同的籃球活動。如圖所示,我們通過AMT任務(wù)收集了時間印記和活動標(biāo)簽。
個人識別和追蹤。有相當(dāng)多的文獻(xiàn)都是關(guān)于個人識別和追蹤。也有特定的方法進(jìn)行個人識別和追蹤。我們只提及少部分重要方法。對于人類識別,我們使用基于CNN多語種檢測器。對于個人追蹤使用KLT追蹤器。但在此項研究中,我們并未嘗試識別辨別參與者。
表1:每一個活動涉及的視頻數(shù)和每一視頻涉及到的人數(shù)。其中人數(shù)是比現(xiàn)存的多人活動數(shù)據(jù)集
3. NCAA籃球數(shù)據(jù)集
對于收集多人活動視頻首選是團(tuán)隊比賽。在本文中,我們關(guān)注籃球比賽,我們的技術(shù)是通用的。我們使用從Youtube 選取的296場NCAA比賽數(shù)據(jù)集。這些比賽是在不同的場館和不同時間進(jìn)行的。我們只研究其中最新的257場比賽,因為舊的比賽規(guī)則與新的往往有所不同。視頻時長一般是1.5個小時。我們手動分類了11個活動類型(如表格一)。我們選擇5個典型的投籃,分別可以是成功的,失敗的或是偷偷的行為。
接下來我們會進(jìn)行一個Amazon Mechanical Turk任務(wù),在此任務(wù)中,注解者被要求在每一行為“終點(diǎn)”都標(biāo)上注解;“終點(diǎn)”一般都界限明顯(例如,求脫離球員的手或地面等其他地方,比如在框中)。為確定開始時間,我們假定每一個行為都有4秒長,因為很難讓評定機(jī)構(gòu)同意什么時候比賽開始了。這讓我們有足夠的時間去分類每一個行為,且能及時定位。
這個視頻被隨機(jī)剪成了212訓(xùn)練視頻,12確認(rèn)視頻和33測試視頻。我們把每一個視頻剪成4秒長的剪輯(使用注釋界限)并且為6pfs下采樣。我們會過濾掉不是人物的剪輯(如圖三所示)使用不同的分類器;這些包括球員的特寫,觀眾的拍攝和當(dāng)前的重放。提到的這些足以與THUMOS’15測試挑戰(zhàn)的大小進(jìn)行比較(150剪輯過的訓(xùn)練實例每一個有20種類,和6553未被剪輯的確定實例)。不同事件的注釋分布如表一。
除了標(biāo)注的事件標(biāo)簽和開始及結(jié)束的時間,我們收集了測試的850視頻剪輯,并要求標(biāo)注者標(biāo)示出球在每一幀中的位置及球員嘗試投籃的位置。
我們同樣也在測試視頻的9000多幀中,使用AMT去標(biāo)注球的彈跳。我們接著使用Multibox測試器是測試我們的視頻數(shù)據(jù)集。我們保證所有的檢測的正確性在每幀0.5以上;這導(dǎo)致了每一幀檢測6-8個人,如表一所示。
圖3:在我們的模式,每一個球員首先是由相應(yīng)的BLSTM網(wǎng)絡(luò)進(jìn)行追蹤。Pi-BLSTM網(wǎng)絡(luò)對應(yīng)不同的球員。BLSTM隱藏的狀態(tài)被“注意”模式用于辨認(rèn)每一階段的關(guān)鍵球員。BLSTM的不足之處顯示出“注意”的重要性,以及關(guān)鍵人物能隨時改變。BLSTM代表“雙向長時和短時記憶”。
4.我們的方法
團(tuán)體比賽中的所有活動都是由同一批球員在相同的場景中展開的。唯一的不同點(diǎn)在于動作是在給定的時間點(diǎn)由一小部分人完成的。例如,一個“偷偷摸摸的”行為是由一個球員嘗試傳球,而另一個卻偷走了球。為理解這一行為,關(guān)鍵在于只關(guān)注參與該行為的人。
4.1特征提取
每一幀是由1024維度特征構(gòu)成。此外,我們計算每個人的空間特征。類似地,對于RCNN目標(biāo)的檢測,出現(xiàn)的特征是由通過Inception7網(wǎng)絡(luò)不斷地裁剪不當(dāng)?shù)暮颓騿T重新控制的領(lǐng)域提取出,和空間對較低層次的集中反應(yīng)??臻g特征對應(yīng)32×32柱狀圖聯(lián)合空間金字塔去暗示球在大規(guī)模場景中的彈跳位置。盡管我們只使用靜止的CNN表示,但這些特征依然很容易用流信息擴(kuò)展。
4.2 行為分類
在每一幀t中給定ft和pti,我們的目標(biāo)是訓(xùn)練模式是將剪輯視頻分成11類。就如我們建立我們模式方法有副作用,我們同樣也能在每一幀中辨認(rèn)關(guān)鍵人物。
首先我們計算出每一幀的整體特征,源于雙向LSTM應(yīng)用于幀級別的特征,如圖三藍(lán)框所示。從前向和反向的LSTM成分BLSTM一系列隱藏的狀態(tài)能簡潔表示如下:
接下來我們使用單向的LSTM去表示行為瞬時狀態(tài)t:
At 是球員的特征,如下所描述的。從此處我們可以預(yù)測等級標(biāo)記,因為剪輯使用 wk|het,因為在此中的重量矢量與k相呼應(yīng),且k由wk暗示。我們計算方鉸鏈 損失如下:
在此公式中yk是1,但如果視頻屬于k級別,那就是-1。
4.3 注意力模型
和過去的注意力模型不一樣,我們需要在每個時間步上添加一系列不同的特性。在這個設(shè)置過程中有兩個關(guān)鍵問題。
第一, 雖然我們在每個幀都有進(jìn)行不同的檢測,但是它們也能通過一種對象追蹤來越過幀進(jìn)行連接。這個可能使球員的表現(xiàn)得更好。
第二, 球員的注意取決于球場上當(dāng)下的情況,同時需要根據(jù)球場上的情況作出調(diào)整。例如,如果完成一個“三分球”行為,這個球員把球投出去的行為就很重要。不過,在這個行為的最后可以通過判斷這個球員是否拿球來判斷投籃成功還是失敗。
考慮到這幾個因素,我們首先提出使用基于每個運(yùn)動追蹤來學(xué)習(xí)的BLSTM模型。我們也提出了一個簡單的無追蹤基準(zhǔn)模型。
追蹤注意模型
首先我們使用一個標(biāo)準(zhǔn)方法將同一個運(yùn)動員的檢測數(shù)據(jù)關(guān)聯(lián)到運(yùn)動追蹤中,通過使用KLT追蹤結(jié)合雙向圖像匹配來實現(xiàn)數(shù)據(jù)關(guān)聯(lián)。
在計算運(yùn)動員表現(xiàn)的時候可以將運(yùn)動追蹤運(yùn)用到臨近幀的環(huán)境融合中。通過一個分離的BLSTM我們能實現(xiàn)這一點(diǎn)。相應(yīng)公式如下:
在每個時間步我們都希望最相關(guān)的那個球員能在一瞬間被選中,實現(xiàn)方式如下:
無追蹤注意模型
通常在人多的場景下由于各種阻塞和快速運(yùn)動,想要追蹤人物是十分困難的。在這種情況下,使用無追蹤模型是比較好的。所以,我們提出了一種模型,它在每一個畫面下的檢測識別和其它畫面下的都是互相獨(dú)立的。它的特性如下:
5. 實驗評價
在這節(jié)中,我們提出了三種針對NCAA數(shù)據(jù)的分析實驗:
1. 活動分類 2.活動檢測 3.主動評價
5.1 實現(xiàn)過程
我們對所有LSTM和BLSTM RNNs使用一種隱藏256狀態(tài)維。所有的視頻片段都是4秒長和6fps。這些模型是通過一組20個GPU在一天內(nèi)10萬次迭代訓(xùn)練得來的,超參數(shù)是通過交叉驗證選取的。
5.2 活動分類
這節(jié)中,我們將各種方式分類視頻片段的能力分成了11個等級,它們分別是:
IDT、IDT player、C3D、LRCN、MIL、Only player、Avg. player、Attention no track、Attention with track
表2展示的是每個設(shè)定的平均精確度信息。我們可以看出使用本地和全局信息的模型比僅僅使用本地或者全局的模型表現(xiàn)要好。
表2
類型不同則表現(xiàn)也不一樣。特別要提到的是,因為我們所有的數(shù)據(jù)量太少,(所有的方法)在“灌籃失敗”這一類中表現(xiàn)都不好。然而,在“罰球”、“上籃”、“三分球”這幾類中表現(xiàn)不錯。
5.3 活動檢測
這節(jié)中,我們評估了這些方法在陌生視頻中分辨的能力。我們將一個4秒的畫面插入所有的籃球視頻中,想知道它是不是能分辨出來。我們在訓(xùn)練、測試和確認(rèn)中使用了同樣的設(shè)置。在所有的視頻中這個導(dǎo)致了90200負(fù)例。然而,因為計算限制我們沒能夠訓(xùn)練MIL模型。
檢測結(jié)果如表3所示,我們能夠看到注意力模型的表現(xiàn)比之前所有新方法都要好。
表3
5.4 注意力分析
我們已經(jīng)知道注意力能夠提升模型在分類以及檢測等任務(wù)上的表現(xiàn)。現(xiàn)在,我們來評價注意力模型在識別關(guān)鍵球員上準(zhǔn)確度如何(模型從未針對檢測關(guān)鍵球員進(jìn)行訓(xùn)練)。
為了評估這些模型,我們將畫面中離球最近的球員標(biāo)記為“投手”。我們使用這些注釋來評估我們的“注意”分?jǐn)?shù)能否足夠?qū)@些“投手”進(jìn)行正確分類。
對“投手”進(jìn)行分類的平均準(zhǔn)確度結(jié)果如圖4所示。這個結(jié)果表明無追蹤注意力模型在選取投手“罰球成敗”、“上籃成敗”、“灌籃成敗”這就類上相當(dāng)一致。這對找出投手的身份提供了更詳細(xì)的資料。
我們同樣將樣本視頻中的注意模型做了圖示,如圖4.,圖5展示了球場上球員運(yùn)動的熱量圖。
三分球-成功 灌籃-成功 罰球失敗
圖4
圖5
基于追蹤的模型在關(guān)注投手上的注意力選擇性不強(qiáng)。我們觀察到在不同畫面切換注意力到同一個球員身上比較勉強(qiáng)。這種誤差在整個視頻中都存在,如圖6所示。
圖6
本文中,我們介紹了一種在多人視頻中活動分類和檢測的注意力模型。除了識別活動之外,我們的模型還能在未訓(xùn)練的情況下識別出活動中的關(guān)鍵人物。我們的方法可以在任何多人設(shè)置下使用。不過,本文目的我們也介紹一種與之前所有方法都不同的,新的籃球視頻數(shù)據(jù)標(biāo)注方法。我們也評估了我們的模型在活動中識別“投手”的能力,還將我們的模型識別方法在空間位置中可視化出來。
文中圖片來自 Detecting events and key actors in multi-person videos
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。