丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

本文作者: 楊文 2018-03-07 17:12 專題:AAAI 2018
導(dǎo)語:視頻行為檢測(cè)新方法

雷鋒網(wǎng) AI 科技評(píng)論按:互聯(lián)網(wǎng)上以視頻形式呈現(xiàn)的內(nèi)容在日益增多,對(duì)視頻內(nèi)容進(jìn)行高效及時(shí)的審核也變得越來越迫切。因此,視頻中的行為檢測(cè)技術(shù)也是當(dāng)下熱點(diǎn)研究任務(wù)之一。本文主要介紹的就是一種比傳統(tǒng)視頻行為檢測(cè)方法更加有效的視頻行為檢測(cè)模型。

在近期雷鋒網(wǎng) GAIR 大講堂舉辦的線上公開上,來自北京大學(xué)深圳研究生院信息工程學(xué)院二年級(jí)博士生黃靖佳介紹了他們團(tuán)隊(duì)在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應(yīng)調(diào)整檢測(cè)窗口大小及位置的方法,能對(duì)視頻進(jìn)行高效的檢測(cè)。視頻回放地址:http://www.mooc.ai/open/course/459

黃靖佳,北京大學(xué)深圳研究生院信息工程學(xué)院二年級(jí)博士生。2016 年畢業(yè)于華中科技大學(xué)計(jì)算機(jī)學(xué)院信息安全專業(yè),獲學(xué)士學(xué)位。現(xiàn)研究方向?yàn)橛?jì)算機(jī)視覺、行為檢測(cè)、增強(qiáng)學(xué)習(xí)等。

以下是 AI 科技評(píng)論對(duì)嘉賓分享的內(nèi)容回顧。

分享主題:AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

分享提綱:

  • 行為檢測(cè)任務(wù)的介紹

  • SAP模型的介紹

  • 實(shí)驗(yàn)效果介紹

  • 總結(jié)

分享內(nèi)容:

大家好,我的分享首先是介紹一下行為檢測(cè)的應(yīng)用背景,接下來介紹我們團(tuán)隊(duì)提出的 SAP 模型,以及模型在實(shí)驗(yàn)數(shù)據(jù)集上的性能,最后是對(duì)本次分享的總結(jié)。

行為檢測(cè)任務(wù)的介紹

一般對(duì)于視頻目標(biāo)行為檢測(cè)任務(wù)的解決方法是:在一整段視頻中,對(duì)行為可能發(fā)生的時(shí)間段做一個(gè)定位,做完定位之后,把可能發(fā)生的行為送到分類器中做分類。這就是比較常用的「兩階段方法」。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

但是這種方法在解決任務(wù)時(shí)存在兩個(gè)難點(diǎn)。

首先是對(duì)于一個(gè)沒有切割過的視頻,比如在圖中這個(gè)視頻中,所需要檢測(cè)的目標(biāo)是一個(gè)三級(jí)跳運(yùn)動(dòng),三級(jí)跳在不同的情況下,根據(jù)人的不同,所持續(xù)的時(shí)間也是不同的。

第二個(gè)難點(diǎn)是,目標(biāo)時(shí)間出現(xiàn)的位置是在視頻中的任意時(shí)間點(diǎn)。

所以說用「兩階段方法」進(jìn)行目標(biāo)行為預(yù)測(cè),會(huì)產(chǎn)生非常多不同尺度,不同位置 proposal。最簡(jiǎn)單的方法是用不同尺度的滑動(dòng)窗口,從前到后滑動(dòng),產(chǎn)生非常多的 proposal,然后再做分類。這種方法雖然行之有效,但時(shí)間復(fù)雜度和計(jì)算復(fù)雜度都相當(dāng)高,使得在完成這項(xiàng)任務(wù)時(shí)往往需要花費(fèi)大量的計(jì)算資源。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

SAP模型的介紹

為了避免這種低效的檢測(cè)方法,我們提出了一種可以自適應(yīng)調(diào)整檢測(cè)窗口大小及位置的方法,對(duì)視頻進(jìn)行高效的檢測(cè)。

我們最開始的想法是能不能僅使用一個(gè)滑動(dòng)窗口,只需要從頭到尾滑動(dòng)一遍就完成 proposal 產(chǎn)生過程呢?

這就必須要求窗口能不斷地自適應(yīng)地根據(jù)窗口所覆蓋的內(nèi)容,能夠不斷調(diào)節(jié)窗口的大小,最終的窗口大小能精確覆蓋目標(biāo)運(yùn)動(dòng),從而得到檢測(cè)的窗口區(qū)間。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

我們使用增強(qiáng)學(xué)習(xí)作為背后的模型支撐來完成這樣的循環(huán)過程,達(dá)到我們的目的。下面是 SAP 模型的框架圖。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

關(guān)于 Temporal Pooling Layer

在原有的 C3D 模型中,要求輸入的視頻幀是固定的,一般是 16 幀或 8 幀。以 16 幀為例,當(dāng)視頻幀多于 16 幀,就需要對(duì)視頻幀下采樣,采樣成 16 幀,送到視頻中進(jìn)行處理,這樣在采樣過程中會(huì)丟失非常多細(xì)節(jié)信息,造成特征表達(dá)不準(zhǔn)確等問題。

而我們提出的 Temporal Pooling Layer 的輸入幀可以是任意長(zhǎng)度。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

我們?cè)谠鰪?qiáng)學(xué)習(xí)中的獎(jiǎng)勵(lì)設(shè)置機(jī)制。在增強(qiáng)學(xué)習(xí)中,對(duì)于一個(gè) agent,如果 agent 執(zhí)行了一個(gè)動(dòng)作后,我們認(rèn)為是執(zhí)行正確的,就給一個(gè)獎(jiǎng)勵(lì);如果認(rèn)為是錯(cuò)的,就給一個(gè)懲罰。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

SAP 模型的訓(xùn)練過程,可到文末觀看嘉賓的視頻回放,或關(guān)注嘉賓的 GitHub 地址獲取相關(guān)代碼。AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

SAP 模型的測(cè)試

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

實(shí)驗(yàn)過程

我們的實(shí)驗(yàn)是在 THUMOS'14 數(shù)據(jù)集展開的,用它的 validation set 訓(xùn)練模型,在 test set 上進(jìn)行實(shí)驗(yàn)評(píng)估。我們使用了是以下兩個(gè)衡量標(biāo)準(zhǔn)。第一個(gè)是 recall 值和平均 proposal 數(shù)量函數(shù)第二個(gè)是 recall 和 IoU。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

proposal 做分類后的評(píng)判標(biāo)準(zhǔn)是:Average Precison 和 mAP

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

檢測(cè)性能的結(jié)果

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

上圖紅色圈注的部分比較的是不同的模型,在取相同的 proposal 數(shù)量,用同樣的分類器做分類,哪個(gè)模型的性能會(huì)更好。結(jié)果發(fā)現(xiàn),在只有 50 個(gè) proposal 的時(shí)候,我們的方法表現(xiàn)的最好。

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

總結(jié)

  • 首先,我們提出了 SAP 模型,能夠不斷自適應(yīng)調(diào)整當(dāng)前觀測(cè)窗口大小,從而使觀測(cè)窗口能夠更為精確覆蓋可能存在目標(biāo)運(yùn)動(dòng)的區(qū)域。

  • 我們的方法是通過增強(qiáng)學(xué)習(xí)來驅(qū)動(dòng),讓 agent 通過增強(qiáng)學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)到調(diào)整策略,使它調(diào)整自身的位置和大小。

  • 在 C3D 模型中,我們還提出了 temporal pooling layer,使得模型能夠處理不限于 16 幀的視頻片段,并且能夠獲得比均勻采樣所得到的特征表達(dá)更有效,更有利于做后面的視覺任務(wù)。

  • 最后,我們?cè)?THUMOS 14 數(shù)據(jù)集上驗(yàn)證了我們的模型,得到了不錯(cuò)的結(jié)果。

代碼相關(guān)資料GitHub地址:https://github.com/hjjpku/Action_Dection_DQN

雷鋒網(wǎng)GAIR大講堂視頻回放地址:http://www.mooc.ai/open/course/459

更多免費(fèi)直播視頻,請(qǐng)關(guān)注微信公眾號(hào):AI科技評(píng)論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

AAAI 2018 論文解讀:基于強(qiáng)化學(xué)習(xí)的時(shí)間行為檢測(cè)自適應(yīng)模型 | 分享總結(jié)

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說