2
本文作者: 劉子榆 | 2016-09-29 16:56 |
編者按:本文發(fā)布于谷歌博客,原文題目《Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research》
YouTube 的全球用戶已經(jīng)超過十億,每秒鐘上傳的視頻長度以小時(shí)計(jì)。視頻語料庫存日益增長,就需要一個(gè)推薦系統(tǒng)及時(shí)、準(zhǔn)確地將用戶感興趣的視頻不斷推薦給用戶。
近年來,機(jī)器學(xué)習(xí)和機(jī)器感知領(lǐng)域發(fā)生了許多突破,這都是在大型標(biāo)注數(shù)據(jù)集的幫助下才得以發(fā)生的,比如全球最大的圖像識(shí)別數(shù)據(jù)庫 ImageNet,其包含了分成了數(shù)千個(gè)類型、數(shù)百萬張有標(biāo)注的圖像。這些圖像識(shí)別數(shù)據(jù)庫的可用性增加了圖像理解領(lǐng)域的研究,比如對(duì)靜態(tài)圖像中的物體進(jìn)行檢測(cè)和分類。
近日,谷歌在博客中宣布,該公司發(fā)布一個(gè)大型視頻數(shù)據(jù)集 YouTube-8M 。其中包含了 800 萬個(gè) YouTube 視頻的 URL,代表 50 萬小時(shí)長度的視頻,并帶有視頻標(biāo)注。這些標(biāo)注來自一個(gè)多樣化的、包含了 4800 個(gè)知識(shí)圖譜實(shí)體(Knowledge Graph entity)的集合。
與之前已有的視頻數(shù)據(jù)集相比,YouTube-8M 的規(guī)模和多樣性都得到了顯著的提升。先前最大的視頻數(shù)據(jù)集 Sports-1M ,包含了大約 100 萬段 YouTube 視頻和 500 個(gè)體育領(lǐng)域的分類。
創(chuàng)建一個(gè)大規(guī)模的標(biāo)注視頻數(shù)據(jù)集,需要解決兩個(gè)關(guān)鍵性問題:
視頻標(biāo)注的時(shí)間遠(yuǎn)遠(yuǎn)高于圖像標(biāo)注。(在人工標(biāo)注的情況下)
2. 處理和存儲(chǔ)視頻的計(jì)算成本很高。
為了解決第一個(gè)問題,谷歌使用了 YouTube 及其視頻標(biāo)注系統(tǒng)(video annotation system)。該系統(tǒng)能為所有公開的 YouTube 視頻快速確定相關(guān)性高的知識(shí)圖譜主題。這些標(biāo)注是由機(jī)器生成,整合了來自數(shù)百萬位用戶的強(qiáng)大用戶參與信號(hào)(user engagement signals)以及視頻元數(shù)據(jù)的內(nèi)容分析。由此,標(biāo)注的質(zhì)量非常高,可以達(dá)到視頻分析研究和制定標(biāo)準(zhǔn)的目的。
如何保證這個(gè)視頻數(shù)據(jù)集的穩(wěn)定性和高質(zhì)量? 谷歌使用了超過 1000 條評(píng)論的公眾視頻,而且創(chuàng)建了一個(gè)多樣化的實(shí)體詞匯集。這些內(nèi)容都是可視化的,且出現(xiàn)頻率很高。
從下圖我們可以看出該數(shù)量集的規(guī)模及多樣性:
數(shù)據(jù)瀏覽器在頂層垂直類別的視頻分布
數(shù)據(jù)瀏覽器允許瀏覽和搜索整個(gè)知識(shí)圖譜的實(shí)體詞匯集,它們被分成了包含了對(duì)應(yīng)視頻的 24 個(gè)頂層的垂直類別。
一個(gè)標(biāo)注了實(shí)體(Guitar)的數(shù)據(jù)集視頻的子集。
在解決第二個(gè)問題時(shí),谷歌必須應(yīng)對(duì)這些視頻時(shí)所面臨的存儲(chǔ)和計(jì)算資源的壓力。為了配合 YouTube 8M 的規(guī)模,進(jìn)行視頻理解一般情況夏需要 PB 級(jí)存儲(chǔ)以及相當(dāng)于一個(gè) CPU 工作幾十年的處理能力。
為了讓還沒擁有如此高計(jì)算水平資源的研究人員和學(xué)生都能共享這個(gè)強(qiáng)大的數(shù)據(jù)集,谷歌使用了一種深度學(xué)習(xí)模型,對(duì)視頻進(jìn)行了預(yù)處理,提取出了幀層面的特征(frame-level features)。這些特征是按 1 幀每秒的時(shí)間分辨率,從 19 億個(gè)視頻幀中提取的。
在這之后,這些視頻會(huì)進(jìn)一步被壓縮為可裝入單個(gè)商品級(jí)硬盤的大?。ㄉ儆?1.5 TB)。這使得用戶可以在單個(gè) GPU 上,用不到一天的時(shí)間就能全部下載該數(shù)據(jù)集。
谷歌在博客中表示,該數(shù)據(jù)集能極大地加速視頻理解,因?yàn)樗茏屟芯空吆蛯W(xué)生無需使用大數(shù)據(jù)和大機(jī)器就能進(jìn)行前所未有規(guī)模的研究。
一直以來,YouTube 的推薦系統(tǒng)是業(yè)內(nèi)最為復(fù)雜、使用最為頻繁的系統(tǒng)之一。谷歌希望 YouTube 8M 將能激勵(lì)在視頻建模架構(gòu)和表征學(xué)習(xí)上的新研究,尤其是能對(duì)有效處理噪聲或不完整標(biāo)簽、遷移學(xué)習(xí)(transfer learning)和領(lǐng)域適應(yīng)(domain adaptation)等領(lǐng)域做出貢獻(xiàn)。
Via googleblog
推薦閱讀:
深度、卷積、和遞歸三種模型中,哪個(gè)將是人類行為識(shí)別方面的佼佼者?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。