丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給林少宏
發(fā)送

0

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

本文作者: 林少宏 編輯:郭奕欣 2017-10-24 17:59
導(dǎo)語(yǔ):目前識(shí)別視頻中人類的動(dòng)作仍存在較大的挑戰(zhàn),為加速該研究進(jìn)展,谷歌發(fā)布了精確標(biāo)注多人動(dòng)作的視頻數(shù)據(jù)集。

雷鋒網(wǎng)AI科技評(píng)論按:在計(jì)算機(jī)視覺(jué)研究中,識(shí)別視頻中人的動(dòng)作是一個(gè)基礎(chǔ)研究問(wèn)題。個(gè)人視頻搜索和發(fā)現(xiàn)、運(yùn)動(dòng)分析和手勢(shì)交流等應(yīng)用中,都會(huì)用到這項(xiàng)至關(guān)重要的技術(shù)。盡管過(guò)去的幾年里在圖像中分類和識(shí)別物體的技術(shù)上,我們已經(jīng)取得了令人振奮的突破,但識(shí)別人類的動(dòng)作仍然是一個(gè)巨大的挑戰(zhàn)。從本質(zhì)上來(lái)說(shuō),視頻中人的行為更難被明確定義,而物體的定義更為明確。所以構(gòu)建精細(xì)動(dòng)作標(biāo)記的視頻數(shù)據(jù)集非常困難。目前雖然有許多基準(zhǔn)數(shù)據(jù)集,比如UCF101、ActivityNet和DeepMind Kinetics,采用基于圖像分類的標(biāo)簽方案,為數(shù)據(jù)集中的每個(gè)視頻或視頻片段分配一個(gè)標(biāo)簽,但不存在面向復(fù)雜場(chǎng)景的視數(shù)據(jù)集,比如同一時(shí)刻多人不同動(dòng)作的場(chǎng)景。 

為了進(jìn)一步研究識(shí)別人類動(dòng)作的技術(shù),雷鋒網(wǎng)AI科技評(píng)論了解到,谷歌發(fā)布了AVA (Atomic Visual Actions)數(shù)據(jù)庫(kù),意思是“原子視覺(jué)動(dòng)作”,這一新數(shù)據(jù)集為擴(kuò)展視頻序列中的每個(gè)人打上了多個(gè)動(dòng)作標(biāo)簽。 AVA數(shù)據(jù)集由YouTube公開(kāi)視頻的URL組成,這些視頻被80個(gè)原子動(dòng)作標(biāo)注,例如走路,踢東西,握手等,所有動(dòng)作都具有時(shí)空定位,產(chǎn)生5.76萬(wàn)個(gè)的視頻片段,9.6萬(wàn)個(gè)人類動(dòng)作,以及21萬(wàn)個(gè)的動(dòng)作標(biāo)簽。 

您可以訪問(wèn)AVA網(wǎng)站,來(lái)探索數(shù)據(jù)集和下載標(biāo)注,您也可以閱讀谷歌發(fā)表于arXiv上的論文,了解該數(shù)據(jù)集的設(shè)計(jì)和開(kāi)發(fā)。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

圖1. AVA網(wǎng)站截圖

與其他動(dòng)作標(biāo)簽數(shù)據(jù)集相比,AVA具有以下主要特點(diǎn):

  • 基于人的標(biāo)簽:每個(gè)動(dòng)作標(biāo)簽都與人相關(guān)聯(lián),而不是與整段視頻或剪輯關(guān)聯(lián)。常見(jiàn)的場(chǎng)景是同一場(chǎng)景中有多個(gè)人在執(zhí)行不同動(dòng)作,為這些動(dòng)作分配不同的標(biāo)簽。

  • 基于原子視覺(jué)動(dòng)作:谷歌將動(dòng)作標(biāo)簽限制在精細(xì)的時(shí)間尺度(3秒),在這個(gè)尺度上動(dòng)作都是物理動(dòng)作,并具有清晰的視覺(jué)特征。

  • 基于真實(shí)視頻資料:谷歌把電影作為AVA的數(shù)據(jù)來(lái)源,包括不同國(guó)家、不同流派的電影。因此,數(shù)據(jù)源覆蓋了大部分人類行為。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

圖2.  3秒視頻片段中間幀中的紅色邊框標(biāo)注(為清晰起見(jiàn),每個(gè)示例僅顯示一個(gè)邊界框)

為了創(chuàng)建AVA,谷歌首先從YouTube收集了大量多樣化的視頻內(nèi)容,內(nèi)容集中在是電影和電視這兩個(gè)類別,視頻里有不同國(guó)籍的專業(yè)演員。每個(gè)視頻分析其中15分鐘的剪輯片段,并這個(gè)片段均勻分割成300個(gè)不重疊小片段,每一段3秒鐘,這種采樣策略保留了動(dòng)作序列的時(shí)間順序。

接下來(lái),在每個(gè)3秒片段的中間幀,手動(dòng)標(biāo)記邊框里的人。打標(biāo)者從預(yù)定義的80個(gè)原子動(dòng)作詞匯中,選擇適當(dāng)數(shù)量的標(biāo)簽來(lái)描述人物的行為動(dòng)作。這些行為分為三組:姿態(tài)/移動(dòng)動(dòng)作、人和物體的交互、人與人的交互。因?yàn)閷?duì)所有人的動(dòng)作都進(jìn)行了全面打標(biāo),因此AVA的標(biāo)簽頻率是呈現(xiàn)長(zhǎng)尾分布的,如下圖所示。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

圖3. AVA的原子動(dòng)作標(biāo)簽頻次分布圖(x 軸所示標(biāo)簽只是詞匯表的一部分)

由于AVA的獨(dú)特設(shè)計(jì),我們可以從中能夠得出一些有趣的統(tǒng)計(jì)信息,而這些信息從其他現(xiàn)有數(shù)據(jù)集中是統(tǒng)計(jì)不出來(lái)的。例如,數(shù)據(jù)集中多數(shù)人具有兩個(gè)以上的動(dòng)作標(biāo)簽,那么我們可以找出不同行為標(biāo)簽共現(xiàn)模式(co-occurrence pattern)。下圖展示了AVA中最有可能并發(fā)的動(dòng)作對(duì)及其同時(shí)出現(xiàn)的頻率分值,例如人們經(jīng)常在唱歌時(shí)玩樂(lè)器,和小孩玩耍的時(shí)抱起他,親吻時(shí)擁抱。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

圖4. AVA中統(tǒng)計(jì)得出共現(xiàn)頻率分值最高的動(dòng)作對(duì)

為了評(píng)估AVA數(shù)據(jù)集在人類行為識(shí)別系統(tǒng)中的有效性,谷歌設(shè)計(jì)了一個(gè)現(xiàn)有的基線深度學(xué)習(xí)模型,該模型在較小的JHMDB數(shù)據(jù)集上獲得了很好的績(jī)效。由于視頻變焦、背景雜亂、攝影角度和外貌變化等問(wèn)題,該模型實(shí)現(xiàn)了較為不錯(cuò)的表現(xiàn),正確識(shí)別AVA中動(dòng)作的平均準(zhǔn)確率達(dá)到18.4%,這表明AVA數(shù)據(jù)集可用于開(kāi)發(fā)和評(píng)估新的動(dòng)作識(shí)別架構(gòu)和算法。

谷歌希望AVA的發(fā)布能加速人類動(dòng)作識(shí)別系統(tǒng)的發(fā)展?;诰哂芯?xì)時(shí)空粒度的標(biāo)簽,對(duì)個(gè)人復(fù)雜活動(dòng)進(jìn)行建模將變?yōu)楝F(xiàn)實(shí)。谷歌將繼續(xù)擴(kuò)充和改進(jìn)AVA,并渴望聽(tīng)取來(lái)自社區(qū)的反饋,幫助校正AVA數(shù)據(jù)集未來(lái)的發(fā)展方向。請(qǐng)加入AVA Mail List(https://groups.google.com/forum/#!forum/ava-dataset-users),即可獲得數(shù)據(jù)集更新,并向谷歌發(fā)送電子郵件反饋建議。

via Announcing AVA: A Finely Labeled Video Dataset for Human Action Understanding,雷鋒網(wǎng)AI科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

谷歌發(fā)布AVA數(shù)據(jù)庫(kù):5萬(wàn)個(gè)精細(xì)標(biāo)注視頻片段,助力識(shí)別人類動(dòng)作

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)