谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

本文作者：林少宏

編輯：郭奕欣

2017-10-24 17:59

導(dǎo)語(yǔ)：目前識(shí)別視頻中人類的動(dòng)作仍存在較大的挑戰(zhàn)，為加速該研究進(jìn)展，谷歌發(fā)布了精確標(biāo)注多人動(dòng)作的視頻數(shù)據(jù)集。

雷鋒網(wǎng)AI科技評(píng)論按：在計(jì)算機(jī)視覺(jué)研究中，識(shí)別視頻中人的動(dòng)作是一個(gè)基礎(chǔ)研究問(wèn)題。個(gè)人視頻搜索和發(fā)現(xiàn)、運(yùn)動(dòng)分析和手勢(shì)交流等應(yīng)用中，都會(huì)用到這項(xiàng)至關(guān)重要的技術(shù)。盡管過(guò)去的幾年里在圖像中分類和識(shí)別物體的技術(shù)上，我們已經(jīng)取得了令人振奮的突破，但識(shí)別人類的動(dòng)作仍然是一個(gè)巨大的挑戰(zhàn)。從本質(zhì)上來(lái)說(shuō)，視頻中人的行為更難被明確定義，而物體的定義更為明確。所以構(gòu)建精細(xì)動(dòng)作標(biāo)記的視頻數(shù)據(jù)集非常困難。目前雖然有許多基準(zhǔn)數(shù)據(jù)集，比如UCF101、ActivityNet和DeepMind Kinetics，采用基于圖像分類的標(biāo)簽方案，為數(shù)據(jù)集中的每個(gè)視頻或視頻片段分配一個(gè)標(biāo)簽，但不存在面向復(fù)雜場(chǎng)景的視數(shù)據(jù)集，比如同一時(shí)刻多人不同動(dòng)作的場(chǎng)景。

為了進(jìn)一步研究識(shí)別人類動(dòng)作的技術(shù)，雷鋒網(wǎng)AI科技評(píng)論了解到，谷歌發(fā)布了AVA (Atomic Visual Actions)數(shù)據(jù)庫(kù)，意思是“原子視覺(jué)動(dòng)作”，這一新數(shù)據(jù)集為擴(kuò)展視頻序列中的每個(gè)人打上了多個(gè)動(dòng)作標(biāo)簽。 AVA數(shù)據(jù)集由YouTube公開(kāi)視頻的URL組成，這些視頻被80個(gè)原子動(dòng)作標(biāo)注，例如走路，踢東西，握手等，所有動(dòng)作都具有時(shí)空定位，產(chǎn)生5.76萬(wàn)個(gè)的視頻片段，9.6萬(wàn)個(gè)人類動(dòng)作，以及21萬(wàn)個(gè)的動(dòng)作標(biāo)簽。

您可以訪問(wèn)AVA網(wǎng)站，來(lái)探索數(shù)據(jù)集和下載標(biāo)注，您也可以閱讀谷歌發(fā)表于arXiv上的論文，了解該數(shù)據(jù)集的設(shè)計(jì)和開(kāi)發(fā)。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

圖1. AVA網(wǎng)站截圖

與其他動(dòng)作標(biāo)簽數(shù)據(jù)集相比，AVA具有以下主要特點(diǎn)：

基于人的標(biāo)簽：每個(gè)動(dòng)作標(biāo)簽都與人相關(guān)聯(lián)，而不是與整段視頻或剪輯關(guān)聯(lián)。常見(jiàn)的場(chǎng)景是同一場(chǎng)景中有多個(gè)人在執(zhí)行不同動(dòng)作，為這些動(dòng)作分配不同的標(biāo)簽。
基于原子視覺(jué)動(dòng)作：谷歌將動(dòng)作標(biāo)簽限制在精細(xì)的時(shí)間尺度（3秒），在這個(gè)尺度上動(dòng)作都是物理動(dòng)作，并具有清晰的視覺(jué)特征。
基于真實(shí)視頻資料：谷歌把電影作為AVA的數(shù)據(jù)來(lái)源，包括不同國(guó)家、不同流派的電影。因此，數(shù)據(jù)源覆蓋了大部分人類行為。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

圖2. 3秒視頻片段中間幀中的紅色邊框標(biāo)注(為清晰起見(jiàn)，每個(gè)示例僅顯示一個(gè)邊界框)

為了創(chuàng)建AVA，谷歌首先從YouTube收集了大量多樣化的視頻內(nèi)容，內(nèi)容集中在是電影和電視這兩個(gè)類別，視頻里有不同國(guó)籍的專業(yè)演員。每個(gè)視頻分析其中15分鐘的剪輯片段，并這個(gè)片段均勻分割成300個(gè)不重疊小片段，每一段3秒鐘，這種采樣策略保留了動(dòng)作序列的時(shí)間順序。

接下來(lái)，在每個(gè)3秒片段的中間幀，手動(dòng)標(biāo)記邊框里的人。打標(biāo)者從預(yù)定義的80個(gè)原子動(dòng)作詞匯中，選擇適當(dāng)數(shù)量的標(biāo)簽來(lái)描述人物的行為動(dòng)作。這些行為分為三組：姿態(tài)/移動(dòng)動(dòng)作、人和物體的交互、人與人的交互。因?yàn)閷?duì)所有人的動(dòng)作都進(jìn)行了全面打標(biāo)，因此AVA的標(biāo)簽頻率是呈現(xiàn)長(zhǎng)尾分布的，如下圖所示。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

圖3. AVA的原子動(dòng)作標(biāo)簽頻次分布圖（x 軸所示標(biāo)簽只是詞匯表的一部分）

由于AVA的獨(dú)特設(shè)計(jì)，我們可以從中能夠得出一些有趣的統(tǒng)計(jì)信息，而這些信息從其他現(xiàn)有數(shù)據(jù)集中是統(tǒng)計(jì)不出來(lái)的。例如，數(shù)據(jù)集中多數(shù)人具有兩個(gè)以上的動(dòng)作標(biāo)簽，那么我們可以找出不同行為標(biāo)簽共現(xiàn)模式（co-occurrence pattern）。下圖展示了AVA中最有可能并發(fā)的動(dòng)作對(duì)及其同時(shí)出現(xiàn)的頻率分值，例如人們經(jīng)常在唱歌時(shí)玩樂(lè)器，和小孩玩耍的時(shí)抱起他，親吻時(shí)擁抱。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

圖4. AVA中統(tǒng)計(jì)得出共現(xiàn)頻率分值最高的動(dòng)作對(duì)

為了評(píng)估AVA數(shù)據(jù)集在人類行為識(shí)別系統(tǒng)中的有效性，谷歌設(shè)計(jì)了一個(gè)現(xiàn)有的基線深度學(xué)習(xí)模型，該模型在較小的JHMDB數(shù)據(jù)集上獲得了很好的績(jī)效。由于視頻變焦、背景雜亂、攝影角度和外貌變化等問(wèn)題，該模型實(shí)現(xiàn)了較為不錯(cuò)的表現(xiàn)，正確識(shí)別AVA中動(dòng)作的平均準(zhǔn)確率達(dá)到18.4％，這表明AVA數(shù)據(jù)集可用于開(kāi)發(fā)和評(píng)估新的動(dòng)作識(shí)別架構(gòu)和算法。

谷歌希望AVA的發(fā)布能加速人類動(dòng)作識(shí)別系統(tǒng)的發(fā)展?；诰哂芯?xì)時(shí)空粒度的標(biāo)簽，對(duì)個(gè)人復(fù)雜活動(dòng)進(jìn)行建模將變?yōu)楝F(xiàn)實(shí)。谷歌將繼續(xù)擴(kuò)充和改進(jìn)AVA，并渴望聽(tīng)取來(lái)自社區(qū)的反饋，幫助校正AVA數(shù)據(jù)集未來(lái)的發(fā)展方向。請(qǐng)加入AVA Mail List（https://groups.google.com/forum/#!forum/ava-dataset-users），即可獲得數(shù)據(jù)集更新，并向谷歌發(fā)送電子郵件反饋建議。

via Announcing AVA: A Finely Labeled Video Dataset for Human Action Understanding，雷鋒網(wǎng)AI科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

林少宏

知情人士

發(fā)私信

當(dāng)月熱門文章

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作

谷歌發(fā)布AVA數(shù)據(jù)庫(kù)：5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段，助力識(shí)別人類動(dòng)作