丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給林天威SJTU
發(fā)送

0

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

本文作者: 林天威SJTU 2017-09-14 16:44 專(zhuān)題:ICCV 2017
導(dǎo)語(yǔ):這篇論文并沒(méi)有提出或改進(jìn)任何方法,而是通過(guò)各種小實(shí)驗(yàn),對(duì)目前視頻行為理解的各種數(shù)據(jù)庫(kù)和方法進(jìn)行了細(xì)致的討論和思考。

雷鋒網(wǎng)按:本文出自知乎專(zhuān)欄CV論文筆記及其它,作者林天威。

最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章?!癢hat Actions are Needed for Understanding Human Actions in Videos?” 一文應(yīng)該是我覺(jué)得最有趣的一篇文章。這篇論文并沒(méi)有提出或改進(jìn)任何方法,而是通過(guò)各種小實(shí)驗(yàn),對(duì)目前視頻行為理解的各種數(shù)據(jù)庫(kù)和方法進(jìn)行了細(xì)致的討論和思考。其中許多觀點(diǎn)和結(jié)論我覺(jué)得對(duì)于做視頻行為理解的研究人員是有不少啟發(fā)的。這篇筆記里我簡(jiǎn)單的進(jìn)行一些記錄,供自己和大家參考。感興趣的話還是推薦閱讀論文原文,從論文寫(xiě)作角度來(lái)看這是一篇寫(xiě)的非常好的論文。

背景介紹

該文主要對(duì)視頻行為理解中的行為分類(lèi)( Action Recognition) 和時(shí)序行為檢測(cè)( Temporal Action Detection) 兩個(gè)問(wèn)題進(jìn)行了討論,這兩個(gè)領(lǐng)域及相關(guān)工作的具體介紹可見(jiàn)我之前的文章【https://zhuanlan.zhihu.com/p/26460437】,【https://zhuanlan.zhihu.com/p/26603387】。簡(jiǎn)單來(lái)說(shuō),行為分類(lèi)是要給一段分割好的短視頻(通常只包含一段人類(lèi)動(dòng)作)進(jìn)行動(dòng)作種類(lèi)的分類(lèi),而時(shí)序行為檢測(cè)則主要針對(duì)較長(zhǎng)的未分割視頻,除了要對(duì)視頻中人類(lèi)行為的種類(lèi)進(jìn)行分類(lèi)外,還需要定位動(dòng)作的時(shí)序邊界。在這兩個(gè)方向中,該文則更注重對(duì)行為分類(lèi)問(wèn)題的討論。

深度學(xué)習(xí)(或者說(shuō)數(shù)據(jù)驅(qū)動(dòng)的方法)在各個(gè)領(lǐng)域的發(fā)展離不開(kāi)各個(gè)領(lǐng)域中數(shù)據(jù)庫(kù)的發(fā)展,視頻行為理解領(lǐng)域亦然。從最早的非常簡(jiǎn)單的KTH數(shù)據(jù)庫(kù),到包含各類(lèi)運(yùn)動(dòng),簡(jiǎn)單日常行為的UCF101, THUMOS, HMDB-51等數(shù)據(jù)庫(kù),再到這兩年類(lèi)別數(shù)量更大,視頻數(shù)目也更多的ActivityNet, Charades等數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的發(fā)展也一步一步推動(dòng)著視頻行為理解方法的發(fā)展。本文主要針對(duì)Charades數(shù)據(jù)庫(kù)進(jìn)行了分析,原因大概是因?yàn)樵摂?shù)據(jù)庫(kù)就是本文作者提出的。實(shí)際中,這兩年相關(guān)的論文在Charades數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)的似乎并不多見(jiàn)。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

本文的結(jié)構(gòu)主要是以幾個(gè)問(wèn)句為主,通過(guò)對(duì)疑問(wèn)進(jìn)行分析來(lái)將討論逐步推進(jìn),每個(gè)大問(wèn)題下還包含一些小問(wèn)題。本文主要的問(wèn)題/章節(jié)包括以下幾個(gè)。

  • What are the right questions to ask?

  • What are existing approaches learning?

  • Where should we look next?

這幾個(gè)問(wèn)題從現(xiàn)有數(shù)據(jù)庫(kù)及任務(wù)本身的分析,到算法的分析,最后到未來(lái)發(fā)展方向的展望,可以說(shuō)是層層遞進(jìn)。下面就開(kāi)始對(duì)各個(gè)部分進(jìn)行簡(jiǎn)單的介紹。

What are the right questions to ask?

這部分內(nèi)容對(duì)視頻行為理解任務(wù)本身進(jìn)行了一些基礎(chǔ)的探討,主要的出發(fā)點(diǎn)是研究人類(lèi)本身如何理解視頻中的人類(lèi)行為。主要包括兩個(gè)子問(wèn)題。

(1)  What are the right activity categories?

對(duì)于圖像中的物體,其語(yǔ)義的類(lèi)別通常是非常明確的,一般不存在混淆。然而,用動(dòng)詞來(lái)定義的人類(lèi)動(dòng)作其數(shù)目則要少很多,且常常存在一定的歧義性。舉例來(lái)說(shuō),“跑”,“跳” 這些動(dòng)作本身含有比較明確的定義,而 “拿“,”取“ 這些動(dòng)作則模糊的多,需要和名詞結(jié)合才能明確其意義,比如”拿衣服“,”取藥“等。因此,動(dòng)詞或是動(dòng)詞和名詞的組合構(gòu)成了一個(gè)動(dòng)作的最基本定義。

該文召集了一些志愿者,在Charades數(shù)據(jù)集上進(jìn)行了一些人類(lèi)學(xué)習(xí)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明人類(lèi)對(duì)于動(dòng)詞比起名詞更容易感到混淆。進(jìn)一步的實(shí)驗(yàn)也表明了單獨(dú)的動(dòng)詞不能夠?qū)?dòng)作進(jìn)行足夠清晰的描述。因此,動(dòng)詞和名詞的組合在對(duì)動(dòng)作的描述上是更加清晰的。

(2)  Do Activities have temporal extents?

對(duì)于圖像中的物體來(lái)說(shuō),其邊界通常是非常明確的,對(duì)應(yīng)的學(xué)習(xí)任務(wù)包括目標(biāo)檢測(cè)以及目標(biāo)分割。然而,人類(lèi)行為的時(shí)序邊界則常常是不夠明確的。

該文同樣進(jìn)行了一些人類(lèi)學(xué)習(xí)實(shí)驗(yàn),實(shí)驗(yàn)的內(nèi)容為讓人類(lèi)標(biāo)記者重新來(lái)對(duì)視頻中的行為邊界進(jìn)行標(biāo)定,并與數(shù)據(jù)庫(kù)的真值進(jìn)行比較。實(shí)驗(yàn)主要有以下幾點(diǎn)觀察:

  • 在Charades上,人類(lèi)平均只能達(dá)到72.5%的重疊率(IoU),在Multi-THUMOS數(shù)據(jù)集中,則只能達(dá)到58.7%。可見(jiàn)即便對(duì)于人類(lèi),視頻中行為的時(shí)序邊界也是比較模糊的。

  • 動(dòng)作的結(jié)束時(shí)間點(diǎn)比起開(kāi)始時(shí)間點(diǎn)存在更多混淆

  • 時(shí)間更長(zhǎng)的行為其邊界對(duì)于人類(lèi)來(lái)說(shuō)混淆更小。這表明時(shí)間較短的動(dòng)作需要更小心的標(biāo)注

  • 時(shí)序邊界的模糊性在各種動(dòng)作種類(lèi)中是廣泛存在的

那么關(guān)于時(shí)序邊界,可以進(jìn)一步的問(wèn)以下的問(wèn)題:

Can we evaluate temporal localization?

即在時(shí)序動(dòng)作邊界模糊的情況下,我們是否能夠來(lái)評(píng)估時(shí)序動(dòng)作定位(時(shí)序動(dòng)作檢測(cè))呢?略去實(shí)驗(yàn),該文給出的結(jié)論是:盡管時(shí)序邊界存在模糊性,目前的數(shù)據(jù)集還是允許我們對(duì)動(dòng)作的時(shí)序邊界進(jìn)行理解,學(xué)習(xí)以及評(píng)估的。

Should we evaluate temporal localization?

這是該部分的最后一個(gè)問(wèn)題,即時(shí)序動(dòng)作檢測(cè)/定位是否值得我們?nèi)プ觥T撐暮饬苛艘粋€(gè)假定的完美的行為分類(lèi)器,在行為檢測(cè)任務(wù)上進(jìn)行實(shí)驗(yàn),在Charades數(shù)據(jù)集上達(dá)到了為56.9%,大約五倍于該數(shù)據(jù)集上的state-of-the-art的精度。這部分作者講的很不清楚,此處作者應(yīng)該是用某種方法生成了時(shí)序動(dòng)作的proposal,再用完美分類(lèi)器對(duì)這些proposal進(jìn)行分類(lèi),從而實(shí)現(xiàn)檢測(cè)的效果。

基于這一點(diǎn),作者認(rèn)為對(duì)于較短的視頻,專(zhuān)注于行為分類(lèi)任務(wù)比起行為檢測(cè)任務(wù)能夠帶來(lái)更多的檢測(cè)精度提升。所以該文的后面部分主要對(duì)行為分類(lèi)任務(wù)進(jìn)行討論。注意此處作者的觀點(diǎn),是認(rèn)為在“短視頻”情況下(此處使用的是Charades數(shù)據(jù)集),提高分類(lèi)器的精度更容易帶來(lái)檢測(cè)精度的提高。但我認(rèn)為這個(gè)僅為該數(shù)據(jù)集的情況。對(duì)于其他一些數(shù)據(jù)集,如ActivityNet,其分類(lèi)精度已經(jīng)相當(dāng)高了(91%左右),此時(shí)比起繼續(xù)提高分類(lèi)器的精度,提高時(shí)序動(dòng)作邊界的定位質(zhì)量,能夠帶來(lái)更多檢測(cè)精度的提高。

What are existing approaches learning?

該部分則主要討論了現(xiàn)有的模型在學(xué)習(xí)行為分類(lèi)的過(guò)程中到底學(xué)到了什么。這部分采用了幾種目前比較主流的行為分類(lèi)算法,以Charades數(shù)據(jù)集為主進(jìn)行了實(shí)驗(yàn)分析。

(1)  Analyzing correct and incorrect detections

該文首先給出了一個(gè)例子,即Two-Stream方法在Charades數(shù)據(jù)集上的測(cè)試結(jié)果,第一行為正確的檢測(cè),后面幾行為不同的錯(cuò)誤檢測(cè)例子。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

從這張圖片中,我們可以對(duì)模型的缺陷進(jìn)行如下的分析

  • 模型需要學(xué)習(xí)區(qū)分相似的行為種類(lèi),具體討論見(jiàn)(2)

  • 模型需要發(fā)展時(shí)序理解的能力,具體討論見(jiàn)(3)

  • 模型需要理解人本身的存在,具體討論見(jiàn)(4)【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

該圖則表現(xiàn)了不同算法的預(yù)測(cè)結(jié)果的分析??梢钥闯鰧?duì)于動(dòng)詞和名詞,均存在顯著的混淆情況。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

該圖表現(xiàn)了不同的混淆程度對(duì)精度的影響。此處的復(fù)雜度,如動(dòng)詞復(fù)雜度指同一個(gè)動(dòng)詞,不同名詞組合的數(shù)量。數(shù)量越多表明混淆情況比較嚴(yán)重。大體上可以得出,混淆情況越高,所能達(dá)到的精度一般越低。

(2)  Training Data

該部分主要分析了訓(xùn)練數(shù)據(jù)以及動(dòng)作類(lèi)別的影響。在訓(xùn)練模型時(shí),使用更多的數(shù)據(jù)通常能獲得更好的效果,但具體而言如何增加數(shù)據(jù)才能有效的提高效果呢?本節(jié)對(duì)樣本數(shù)量較多與較少的動(dòng)作類(lèi)別分別進(jìn)行了分析

小樣本數(shù)量的動(dòng)作類(lèi)別

  • 作者發(fā)現(xiàn),對(duì)于大部分動(dòng)作種類(lèi)能夠獲益于增加訓(xùn)練數(shù)據(jù)數(shù)量,即便是其他種類(lèi)的樣本數(shù)量

  • 若將數(shù)據(jù)集中所有種類(lèi)的動(dòng)作的樣本數(shù)量限制到100,作者發(fā)現(xiàn)擁有更多相似動(dòng)作的動(dòng)作類(lèi)別會(huì)有更大的精度下降。這個(gè)觀察有一個(gè)重要的啟示,即不考慮動(dòng)作相似性的情況下,進(jìn)行樣本數(shù)量的平衡可能是無(wú)益的。

大樣本數(shù)量的動(dòng)作類(lèi)別

  • 大樣本數(shù)量的動(dòng)作可能更難學(xué)習(xí),因?yàn)闃颖緮?shù)量多,其類(lèi)內(nèi)的姿態(tài)多樣性會(huì)更大。此外,與其共享名詞(即有相同的交互對(duì)象,這點(diǎn)我認(rèn)為可能是該數(shù)據(jù)集特性)的動(dòng)作也更多,使其更易被混淆

  • 作者發(fā)現(xiàn),現(xiàn)在很多方法的精度提高,常常是以為在小樣本數(shù)目的動(dòng)作類(lèi)別上做的更好了,而非是大樣本數(shù)量的動(dòng)作種類(lèi)?;蛟S將大樣本數(shù)量的動(dòng)作進(jìn)行細(xì)分是不錯(cuò)的方法

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

(3)  Temporal reasoning

這部分主要討論時(shí)序上的動(dòng)作理解。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

從該圖可以看出,在分類(lèi)任務(wù)上,現(xiàn)在的方法能更好的處理時(shí)間較長(zhǎng)的動(dòng)作,較短的動(dòng)作因?yàn)闀r(shí)序信息較少所以更難。此外,作者認(rèn)為結(jié)合時(shí)序上的預(yù)測(cè)結(jié)果是non-trivial problem, 即一個(gè)有意義的問(wèn)題。實(shí)際上今年有不少工作都是通過(guò)時(shí)序結(jié)果的編碼來(lái)提高分類(lèi)的精度。

(4)  Person-based Reasoning

這一部分作者主要有幾點(diǎn)觀點(diǎn)/結(jié)論

  • 基于人的理解會(huì)有助于提高目前算法的精度

  • 人的姿態(tài)在人類(lèi)行為識(shí)別中起到很大的作用

Where should we look next?

最后一部分中,作者對(duì)可以提高的方向進(jìn)行了一些分析。主要的方式是提供一些額外的信息,觀察在擁有額外信息的情況下,模型能夠多大的提高。主要包括以下幾種。


  • 名詞,即已知交互物體

  • 動(dòng)詞,即已知?jiǎng)幼黝?lèi)型

  • 意圖,即對(duì)行為進(jìn)行聚類(lèi),幾種相似的行為作為一種意圖,或許可以認(rèn)為是一大類(lèi)吧

  • 時(shí)間,對(duì)于每幀視頻,其距離動(dòng)作開(kāi)始和結(jié)束時(shí)間的時(shí)序距離給出

  • 姿態(tài),將所有姿態(tài)聚類(lèi)成500類(lèi),提供姿態(tài)類(lèi)別信息

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

實(shí)驗(yàn)結(jié)果主要是對(duì)模型所應(yīng)該側(cè)重的發(fā)展方向起一定的啟示作用。

小結(jié)

在做視頻行為分析的研究工作時(shí),很多時(shí)候會(huì)忽略掉一些基礎(chǔ)的信息,而是埋頭于模型調(diào)參。而讀完這篇文章我最大的感受是,在解決一個(gè)具體問(wèn)題的時(shí)候,對(duì)問(wèn)題進(jìn)行細(xì)致的思考和分析非常重要,能夠使得自己在設(shè)計(jì)方法是更有針對(duì)性,也更有效率。上面的比較內(nèi)容比起原文很簡(jiǎn)略,若看完后有興趣還是非常推薦閱讀原文。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類(lèi)行為?

分享:
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)