丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給林天威SJTU
發(fā)送

0

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

本文作者: 林天威SJTU 2017-09-14 16:44 專題:ICCV 2017
導(dǎo)語:這篇論文并沒有提出或改進(jìn)任何方法,而是通過各種小實(shí)驗(yàn),對目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。

雷鋒網(wǎng)按:本文出自知乎專欄CV論文筆記及其它,作者林天威。

最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章?!癢hat Actions are Needed for Understanding Human Actions in Videos?” 一文應(yīng)該是我覺得最有趣的一篇文章。這篇論文并沒有提出或改進(jìn)任何方法,而是通過各種小實(shí)驗(yàn),對目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。其中許多觀點(diǎn)和結(jié)論我覺得對于做視頻行為理解的研究人員是有不少啟發(fā)的。這篇筆記里我簡單的進(jìn)行一些記錄,供自己和大家參考。感興趣的話還是推薦閱讀論文原文,從論文寫作角度來看這是一篇寫的非常好的論文。

背景介紹

該文主要對視頻行為理解中的行為分類( Action Recognition) 和時(shí)序行為檢測( Temporal Action Detection) 兩個問題進(jìn)行了討論,這兩個領(lǐng)域及相關(guān)工作的具體介紹可見我之前的文章【https://zhuanlan.zhihu.com/p/26460437】,【https://zhuanlan.zhihu.com/p/26603387】。簡單來說,行為分類是要給一段分割好的短視頻(通常只包含一段人類動作)進(jìn)行動作種類的分類,而時(shí)序行為檢測則主要針對較長的未分割視頻,除了要對視頻中人類行為的種類進(jìn)行分類外,還需要定位動作的時(shí)序邊界。在這兩個方向中,該文則更注重對行為分類問題的討論。

深度學(xué)習(xí)(或者說數(shù)據(jù)驅(qū)動的方法)在各個領(lǐng)域的發(fā)展離不開各個領(lǐng)域中數(shù)據(jù)庫的發(fā)展,視頻行為理解領(lǐng)域亦然。從最早的非常簡單的KTH數(shù)據(jù)庫,到包含各類運(yùn)動,簡單日常行為的UCF101, THUMOS, HMDB-51等數(shù)據(jù)庫,再到這兩年類別數(shù)量更大,視頻數(shù)目也更多的ActivityNet, Charades等數(shù)據(jù)庫,數(shù)據(jù)庫的發(fā)展也一步一步推動著視頻行為理解方法的發(fā)展。本文主要針對Charades數(shù)據(jù)庫進(jìn)行了分析,原因大概是因?yàn)樵摂?shù)據(jù)庫就是本文作者提出的。實(shí)際中,這兩年相關(guān)的論文在Charades數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)的似乎并不多見。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

本文的結(jié)構(gòu)主要是以幾個問句為主,通過對疑問進(jìn)行分析來將討論逐步推進(jìn),每個大問題下還包含一些小問題。本文主要的問題/章節(jié)包括以下幾個。

  • What are the right questions to ask?

  • What are existing approaches learning?

  • Where should we look next?

這幾個問題從現(xiàn)有數(shù)據(jù)庫及任務(wù)本身的分析,到算法的分析,最后到未來發(fā)展方向的展望,可以說是層層遞進(jìn)。下面就開始對各個部分進(jìn)行簡單的介紹。

What are the right questions to ask?

這部分內(nèi)容對視頻行為理解任務(wù)本身進(jìn)行了一些基礎(chǔ)的探討,主要的出發(fā)點(diǎn)是研究人類本身如何理解視頻中的人類行為。主要包括兩個子問題。

(1)  What are the right activity categories?

對于圖像中的物體,其語義的類別通常是非常明確的,一般不存在混淆。然而,用動詞來定義的人類動作其數(shù)目則要少很多,且常常存在一定的歧義性。舉例來說,“跑”,“跳” 這些動作本身含有比較明確的定義,而 “拿“,”取“ 這些動作則模糊的多,需要和名詞結(jié)合才能明確其意義,比如”拿衣服“,”取藥“等。因此,動詞或是動詞和名詞的組合構(gòu)成了一個動作的最基本定義。

該文召集了一些志愿者,在Charades數(shù)據(jù)集上進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明人類對于動詞比起名詞更容易感到混淆。進(jìn)一步的實(shí)驗(yàn)也表明了單獨(dú)的動詞不能夠?qū)幼鬟M(jìn)行足夠清晰的描述。因此,動詞和名詞的組合在對動作的描述上是更加清晰的。

(2)  Do Activities have temporal extents?

對于圖像中的物體來說,其邊界通常是非常明確的,對應(yīng)的學(xué)習(xí)任務(wù)包括目標(biāo)檢測以及目標(biāo)分割。然而,人類行為的時(shí)序邊界則常常是不夠明確的。

該文同樣進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn),實(shí)驗(yàn)的內(nèi)容為讓人類標(biāo)記者重新來對視頻中的行為邊界進(jìn)行標(biāo)定,并與數(shù)據(jù)庫的真值進(jìn)行比較。實(shí)驗(yàn)主要有以下幾點(diǎn)觀察:

  • 在Charades上,人類平均只能達(dá)到72.5%的重疊率(IoU),在Multi-THUMOS數(shù)據(jù)集中,則只能達(dá)到58.7%。可見即便對于人類,視頻中行為的時(shí)序邊界也是比較模糊的。

  • 動作的結(jié)束時(shí)間點(diǎn)比起開始時(shí)間點(diǎn)存在更多混淆

  • 時(shí)間更長的行為其邊界對于人類來說混淆更小。這表明時(shí)間較短的動作需要更小心的標(biāo)注

  • 時(shí)序邊界的模糊性在各種動作種類中是廣泛存在的

那么關(guān)于時(shí)序邊界,可以進(jìn)一步的問以下的問題:

Can we evaluate temporal localization?

即在時(shí)序動作邊界模糊的情況下,我們是否能夠來評估時(shí)序動作定位(時(shí)序動作檢測)呢?略去實(shí)驗(yàn),該文給出的結(jié)論是:盡管時(shí)序邊界存在模糊性,目前的數(shù)據(jù)集還是允許我們對動作的時(shí)序邊界進(jìn)行理解,學(xué)習(xí)以及評估的。

Should we evaluate temporal localization?

這是該部分的最后一個問題,即時(shí)序動作檢測/定位是否值得我們?nèi)プ?。該文衡量了一個假定的完美的行為分類器,在行為檢測任務(wù)上進(jìn)行實(shí)驗(yàn),在Charades數(shù)據(jù)集上達(dá)到了為56.9%,大約五倍于該數(shù)據(jù)集上的state-of-the-art的精度。這部分作者講的很不清楚,此處作者應(yīng)該是用某種方法生成了時(shí)序動作的proposal,再用完美分類器對這些proposal進(jìn)行分類,從而實(shí)現(xiàn)檢測的效果。

基于這一點(diǎn),作者認(rèn)為對于較短的視頻,專注于行為分類任務(wù)比起行為檢測任務(wù)能夠帶來更多的檢測精度提升。所以該文的后面部分主要對行為分類任務(wù)進(jìn)行討論。注意此處作者的觀點(diǎn),是認(rèn)為在“短視頻”情況下(此處使用的是Charades數(shù)據(jù)集),提高分類器的精度更容易帶來檢測精度的提高。但我認(rèn)為這個僅為該數(shù)據(jù)集的情況。對于其他一些數(shù)據(jù)集,如ActivityNet,其分類精度已經(jīng)相當(dāng)高了(91%左右),此時(shí)比起繼續(xù)提高分類器的精度,提高時(shí)序動作邊界的定位質(zhì)量,能夠帶來更多檢測精度的提高。

What are existing approaches learning?

該部分則主要討論了現(xiàn)有的模型在學(xué)習(xí)行為分類的過程中到底學(xué)到了什么。這部分采用了幾種目前比較主流的行為分類算法,以Charades數(shù)據(jù)集為主進(jìn)行了實(shí)驗(yàn)分析。

(1)  Analyzing correct and incorrect detections

該文首先給出了一個例子,即Two-Stream方法在Charades數(shù)據(jù)集上的測試結(jié)果,第一行為正確的檢測,后面幾行為不同的錯誤檢測例子。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

從這張圖片中,我們可以對模型的缺陷進(jìn)行如下的分析

  • 模型需要學(xué)習(xí)區(qū)分相似的行為種類,具體討論見(2)

  • 模型需要發(fā)展時(shí)序理解的能力,具體討論見(3)

  • 模型需要理解人本身的存在,具體討論見(4)【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

該圖則表現(xiàn)了不同算法的預(yù)測結(jié)果的分析??梢钥闯鰧τ趧釉~和名詞,均存在顯著的混淆情況。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

該圖表現(xiàn)了不同的混淆程度對精度的影響。此處的復(fù)雜度,如動詞復(fù)雜度指同一個動詞,不同名詞組合的數(shù)量。數(shù)量越多表明混淆情況比較嚴(yán)重。大體上可以得出,混淆情況越高,所能達(dá)到的精度一般越低。

(2)  Training Data

該部分主要分析了訓(xùn)練數(shù)據(jù)以及動作類別的影響。在訓(xùn)練模型時(shí),使用更多的數(shù)據(jù)通常能獲得更好的效果,但具體而言如何增加數(shù)據(jù)才能有效的提高效果呢?本節(jié)對樣本數(shù)量較多與較少的動作類別分別進(jìn)行了分析

小樣本數(shù)量的動作類別

  • 作者發(fā)現(xiàn),對于大部分動作種類能夠獲益于增加訓(xùn)練數(shù)據(jù)數(shù)量,即便是其他種類的樣本數(shù)量

  • 若將數(shù)據(jù)集中所有種類的動作的樣本數(shù)量限制到100,作者發(fā)現(xiàn)擁有更多相似動作的動作類別會有更大的精度下降。這個觀察有一個重要的啟示,即不考慮動作相似性的情況下,進(jìn)行樣本數(shù)量的平衡可能是無益的。

大樣本數(shù)量的動作類別

  • 大樣本數(shù)量的動作可能更難學(xué)習(xí),因?yàn)闃颖緮?shù)量多,其類內(nèi)的姿態(tài)多樣性會更大。此外,與其共享名詞(即有相同的交互對象,這點(diǎn)我認(rèn)為可能是該數(shù)據(jù)集特性)的動作也更多,使其更易被混淆

  • 作者發(fā)現(xiàn),現(xiàn)在很多方法的精度提高,常常是以為在小樣本數(shù)目的動作類別上做的更好了,而非是大樣本數(shù)量的動作種類。或許將大樣本數(shù)量的動作進(jìn)行細(xì)分是不錯的方法

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

(3)  Temporal reasoning

這部分主要討論時(shí)序上的動作理解。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

從該圖可以看出,在分類任務(wù)上,現(xiàn)在的方法能更好的處理時(shí)間較長的動作,較短的動作因?yàn)闀r(shí)序信息較少所以更難。此外,作者認(rèn)為結(jié)合時(shí)序上的預(yù)測結(jié)果是non-trivial problem, 即一個有意義的問題。實(shí)際上今年有不少工作都是通過時(shí)序結(jié)果的編碼來提高分類的精度。

(4)  Person-based Reasoning

這一部分作者主要有幾點(diǎn)觀點(diǎn)/結(jié)論

  • 基于人的理解會有助于提高目前算法的精度

  • 人的姿態(tài)在人類行為識別中起到很大的作用

Where should we look next?

最后一部分中,作者對可以提高的方向進(jìn)行了一些分析。主要的方式是提供一些額外的信息,觀察在擁有額外信息的情況下,模型能夠多大的提高。主要包括以下幾種。


  • 名詞,即已知交互物體

  • 動詞,即已知動作類型

  • 意圖,即對行為進(jìn)行聚類,幾種相似的行為作為一種意圖,或許可以認(rèn)為是一大類吧

  • 時(shí)間,對于每幀視頻,其距離動作開始和結(jié)束時(shí)間的時(shí)序距離給出

  • 姿態(tài),將所有姿態(tài)聚類成500類,提供姿態(tài)類別信息

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

實(shí)驗(yàn)結(jié)果主要是對模型所應(yīng)該側(cè)重的發(fā)展方向起一定的啟示作用。

小結(jié)

在做視頻行為分析的研究工作時(shí),很多時(shí)候會忽略掉一些基礎(chǔ)的信息,而是埋頭于模型調(diào)參。而讀完這篇文章我最大的感受是,在解決一個具體問題的時(shí)候,對問題進(jìn)行細(xì)致的思考和分析非常重要,能夠使得自己在設(shè)計(jì)方法是更有針對性,也更有效率。上面的比較內(nèi)容比起原文很簡略,若看完后有興趣還是非常推薦閱讀原文。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說