谷歌發(fā)布視頻界的 ImageNet ，這可能是史上最大的數(shù)據(jù)集了

本文作者：劉子榆

2016-09-29 16:56

導語：谷歌發(fā)布了迄今為止最大規(guī)模的視頻數(shù)據(jù)集 YouTube-8M ，包含 800 萬個 URL，50 萬小時的視頻。

編者按：本文發(fā)布于谷歌博客，原文題目《Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research》

YouTube 的全球用戶已經(jīng)超過十億，每秒鐘上傳的視頻長度以小時計。視頻語料庫存日益增長，就需要一個推薦系統(tǒng)及時、準確地將用戶感興趣的視頻不斷推薦給用戶。

近年來，機器學習和機器感知領域發(fā)生了許多突破，這都是在大型標注數(shù)據(jù)集的幫助下才得以發(fā)生的，比如全球最大的圖像識別數(shù)據(jù)庫 ImageNet，其包含了分成了數(shù)千個類型、數(shù)百萬張有標注的圖像。這些圖像識別數(shù)據(jù)庫的可用性增加了圖像理解領域的研究，比如對靜態(tài)圖像中的物體進行檢測和分類。

近日，谷歌在博客中宣布，該公司發(fā)布一個大型視頻數(shù)據(jù)集 YouTube-8M 。其中包含了 800 萬個 YouTube 視頻的 URL，代表 50 萬小時長度的視頻，并帶有視頻標注。這些標注來自一個多樣化的、包含了 4800 個知識圖譜實體（Knowledge Graph entity）的集合。

與之前已有的視頻數(shù)據(jù)集相比，YouTube-8M 的規(guī)模和多樣性都得到了顯著的提升。先前最大的視頻數(shù)據(jù)集 Sports-1M ，包含了大約 100 萬段 YouTube 視頻和 500 個體育領域的分類。

創(chuàng)建一個大規(guī)模的標注視頻數(shù)據(jù)集，需要解決兩個關鍵性問題：

視頻標注的時間遠遠高于圖像標注。（在人工標注的情況下）

2. 處理和存儲視頻的計算成本很高。

為了解決第一個問題，谷歌使用了 YouTube 及其視頻標注系統(tǒng)（video annotation system）。該系統(tǒng)能為所有公開的 YouTube 視頻快速確定相關性高的知識圖譜主題。這些標注是由機器生成，整合了來自數(shù)百萬位用戶的強大用戶參與信號（user engagement signals）以及視頻元數(shù)據(jù)的內容分析。由此，標注的質量非常高，可以達到視頻分析研究和制定標準的目的。

如何保證這個視頻數(shù)據(jù)集的穩(wěn)定性和高質量？谷歌使用了超過 1000 條評論的公眾視頻，而且創(chuàng)建了一個多樣化的實體詞匯集。這些內容都是可視化的，且出現(xiàn)頻率很高。

從下圖我們可以看出該數(shù)量集的規(guī)模及多樣性：

谷歌發(fā)布視頻界的 ImageNet ，這可能是史上最大的數(shù)據(jù)集了

數(shù)據(jù)瀏覽器在頂層垂直類別的視頻分布

數(shù)據(jù)瀏覽器允許瀏覽和搜索整個知識圖譜的實體詞匯集，它們被分成了包含了對應視頻的 24 個頂層的垂直類別。

谷歌發(fā)布視頻界的 ImageNet ，這可能是史上最大的數(shù)據(jù)集了

一個標注了實體（Guitar）的數(shù)據(jù)集視頻的子集。

在解決第二個問題時，谷歌必須應對這些視頻時所面臨的存儲和計算資源的壓力。為了配合 YouTube 8M 的規(guī)模，進行視頻理解一般情況夏需要 PB 級存儲以及相當于一個 CPU 工作幾十年的處理能力。

為了讓還沒擁有如此高計算水平資源的研究人員和學生都能共享這個強大的數(shù)據(jù)集，谷歌使用了一種深度學習模型，對視頻進行了預處理，提取出了幀層面的特征（frame-level features）。這些特征是按 1 幀每秒的時間分辨率，從 19 億個視頻幀中提取的。

在這之后，這些視頻會進一步被壓縮為可裝入單個商品級硬盤的大?。ㄉ儆?1.5 TB）。這使得用戶可以在單個 GPU 上，用不到一天的時間就能全部下載該數(shù)據(jù)集。

谷歌在博客中表示，該數(shù)據(jù)集能極大地加速視頻理解，因為它能讓研究者和學生無需使用大數(shù)據(jù)和大機器就能進行前所未有規(guī)模的研究。

一直以來，YouTube 的推薦系統(tǒng)是業(yè)內最為復雜、使用最為頻繁的系統(tǒng)之一。谷歌希望 YouTube 8M 將能激勵在視頻建模架構和表征學習上的新研究，尤其是能對有效處理噪聲或不完整標簽、遷移學習（transfer learning）和領域適應（domain adaptation）等領域做出貢獻。

Via googleblog

谷歌發(fā)布視頻界的 ImageNet ，這可能是史上最大的數(shù)據(jù)集了

谷歌發(fā)布視頻界的 ImageNet ，這可能是史上最大的數(shù)據(jù)集了