0
本文作者: 楊文 | 2018-03-07 17:12 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評論按:互聯(lián)網(wǎng)上以視頻形式呈現(xiàn)的內(nèi)容在日益增多,對視頻內(nèi)容進(jìn)行高效及時的審核也變得越來越迫切。因此,視頻中的行為檢測技術(shù)也是當(dāng)下熱點研究任務(wù)之一。本文主要介紹的就是一種比傳統(tǒng)視頻行為檢測方法更加有效的視頻行為檢測模型。
在近期雷鋒網(wǎng) GAIR 大講堂舉辦的線上公開上,來自北京大學(xué)深圳研究生院信息工程學(xué)院二年級博士生黃靖佳介紹了他們團(tuán)隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應(yīng)調(diào)整檢測窗口大小及位置的方法,能對視頻進(jìn)行高效的檢測。視頻回放地址:http://www.mooc.ai/open/course/459
黃靖佳,北京大學(xué)深圳研究生院信息工程學(xué)院二年級博士生。2016 年畢業(yè)于華中科技大學(xué)計算機學(xué)院信息安全專業(yè),獲學(xué)士學(xué)位?,F(xiàn)研究方向為計算機視覺、行為檢測、增強學(xué)習(xí)等。
以下是 AI 科技評論對嘉賓分享的內(nèi)容回顧。
分享主題:AAAI 2018 論文解讀:基于強化學(xué)習(xí)的時間行為檢測自適應(yīng)模型
分享提綱:
行為檢測任務(wù)的介紹
SAP模型的介紹
實驗效果介紹
總結(jié)
分享內(nèi)容:
大家好,我的分享首先是介紹一下行為檢測的應(yīng)用背景,接下來介紹我們團(tuán)隊提出的 SAP 模型,以及模型在實驗數(shù)據(jù)集上的性能,最后是對本次分享的總結(jié)。
行為檢測任務(wù)的介紹
一般對于視頻目標(biāo)行為檢測任務(wù)的解決方法是:在一整段視頻中,對行為可能發(fā)生的時間段做一個定位,做完定位之后,把可能發(fā)生的行為送到分類器中做分類。這就是比較常用的「兩階段方法」。
但是這種方法在解決任務(wù)時存在兩個難點。
首先是對于一個沒有切割過的視頻,比如在圖中這個視頻中,所需要檢測的目標(biāo)是一個三級跳運動,三級跳在不同的情況下,根據(jù)人的不同,所持續(xù)的時間也是不同的。
第二個難點是,目標(biāo)時間出現(xiàn)的位置是在視頻中的任意時間點。
所以說用「兩階段方法」進(jìn)行目標(biāo)行為預(yù)測,會產(chǎn)生非常多不同尺度,不同位置 proposal。最簡單的方法是用不同尺度的滑動窗口,從前到后滑動,產(chǎn)生非常多的 proposal,然后再做分類。這種方法雖然行之有效,但時間復(fù)雜度和計算復(fù)雜度都相當(dāng)高,使得在完成這項任務(wù)時往往需要花費大量的計算資源。
SAP模型的介紹
為了避免這種低效的檢測方法,我們提出了一種可以自適應(yīng)調(diào)整檢測窗口大小及位置的方法,對視頻進(jìn)行高效的檢測。
我們最開始的想法是能不能僅使用一個滑動窗口,只需要從頭到尾滑動一遍就完成 proposal 產(chǎn)生過程呢?
這就必須要求窗口能不斷地自適應(yīng)地根據(jù)窗口所覆蓋的內(nèi)容,能夠不斷調(diào)節(jié)窗口的大小,最終的窗口大小能精確覆蓋目標(biāo)運動,從而得到檢測的窗口區(qū)間。
我們使用增強學(xué)習(xí)作為背后的模型支撐來完成這樣的循環(huán)過程,達(dá)到我們的目的。下面是 SAP 模型的框架圖。
關(guān)于 Temporal Pooling Layer
在原有的 C3D 模型中,要求輸入的視頻幀是固定的,一般是 16 幀或 8 幀。以 16 幀為例,當(dāng)視頻幀多于 16 幀,就需要對視頻幀下采樣,采樣成 16 幀,送到視頻中進(jìn)行處理,這樣在采樣過程中會丟失非常多細(xì)節(jié)信息,造成特征表達(dá)不準(zhǔn)確等問題。
而我們提出的 Temporal Pooling Layer 的輸入幀可以是任意長度。
我們在增強學(xué)習(xí)中的獎勵設(shè)置機制。在增強學(xué)習(xí)中,對于一個 agent,如果 agent 執(zhí)行了一個動作后,我們認(rèn)為是執(zhí)行正確的,就給一個獎勵;如果認(rèn)為是錯的,就給一個懲罰。
SAP 模型的訓(xùn)練過程,可到文末觀看嘉賓的視頻回放,或關(guān)注嘉賓的 GitHub 地址獲取相關(guān)代碼。
SAP 模型的測試
實驗過程
我們的實驗是在 THUMOS'14 數(shù)據(jù)集展開的,用它的 validation set 訓(xùn)練模型,在 test set 上進(jìn)行實驗評估。我們使用了是以下兩個衡量標(biāo)準(zhǔn)。第一個是 recall 值和平均 proposal 數(shù)量函數(shù)第二個是 recall 和 IoU。
proposal 做分類后的評判標(biāo)準(zhǔn)是:Average Precison 和 mAP
檢測性能的結(jié)果
上圖紅色圈注的部分比較的是不同的模型,在取相同的 proposal 數(shù)量,用同樣的分類器做分類,哪個模型的性能會更好。結(jié)果發(fā)現(xiàn),在只有 50 個 proposal 的時候,我們的方法表現(xiàn)的最好。
總結(jié)
首先,我們提出了 SAP 模型,能夠不斷自適應(yīng)調(diào)整當(dāng)前觀測窗口大小,從而使觀測窗口能夠更為精確覆蓋可能存在目標(biāo)運動的區(qū)域。
我們的方法是通過增強學(xué)習(xí)來驅(qū)動,讓 agent 通過增強學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)到調(diào)整策略,使它調(diào)整自身的位置和大小。
在 C3D 模型中,我們還提出了 temporal pooling layer,使得模型能夠處理不限于 16 幀的視頻片段,并且能夠獲得比均勻采樣所得到的特征表達(dá)更有效,更有利于做后面的視覺任務(wù)。
最后,我們在 THUMOS 14 數(shù)據(jù)集上驗證了我們的模型,得到了不錯的結(jié)果。
代碼相關(guān)資料GitHub地址:https://github.com/hjjpku/Action_Dection_DQN
雷鋒網(wǎng)GAIR大講堂視頻回放地址:http://www.mooc.ai/open/course/459
更多免費直播視頻,請關(guān)注微信公眾號:AI科技評論。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章