亞馬遜發(fā)布 Web 視頻分類新框架：1/100 數(shù)據(jù)量，精度趕超最優(yōu)模型

本文作者：楊鯉萍

2020-04-06 14:06

導語：解決訓練視頻分類算法時，高昂數(shù)據(jù)費用問題

雷鋒網(wǎng) AI 源創(chuàng)評論按：近日，亞?遜、??智能初創(chuàng)公司 SenseTime 與?港中??學的研究?員，共同開發(fā)出了?個利? Web 數(shù)據(jù)的新框架——OmniSource，該框架在視頻識別領域創(chuàng)造了新記錄。

通過解決圖像、短視頻和?時間未剪輯視頻等數(shù)據(jù)格式之間的不兼容，并采?數(shù)據(jù)平衡等方法，OmniSource 能夠?最先進的模型更準確地對視頻進?分類，但其使?的數(shù)據(jù)卻少了 100 倍。

亞馬遜發(fā)布 Web 視頻分類新框架：1/100 數(shù)據(jù)量，精度趕超最優(yōu)模型

OmniSource 工作原理

研究?員指出，通常收集訓練視頻分類算法所需的數(shù)據(jù)既昂貴?費時，因為視頻通常包含?個或多個主題的多個鏡頭，因此分類時必須完整觀看它們，然后?動將其剪切成?段，再仔細添加標注。

亞馬遜發(fā)布 Web 視頻分類新框架：1/100 數(shù)據(jù)量，精度趕超最優(yōu)模型

OmniSource 的體系結構圖

而 OmniSource 是以集成的?式利用各種來源（搜索引擎，社交媒體）的各種形式 Web 數(shù)據(jù)，例如：圖像、剪輯視頻和未剪輯視頻。然后，AI 系統(tǒng)過濾掉低質量的數(shù)據(jù)樣本，并對那些通過其集合的數(shù)據(jù)樣本（平均為 70% 至 80%）進行標記，對每個樣本進行轉換以使其適?于?標任務，同時提高分類模型訓練的魯棒性。

在給定識別任務后，OmniSource 會獲取所有分類中每個類名的關鍵字，并從上述來源中抓取 Web 數(shù)據(jù)，并?動刪除重復數(shù)據(jù)。而對于靜態(tài)圖像，要預先準備這些圖像，用于聯(lián)合訓練期間使?，它會通過利?移動攝像機使它們?成「偽」視頻。

在聯(lián)合訓練階段，?旦將數(shù)據(jù)過濾并轉換為與?標數(shù)據(jù)集相同的格式，OmniSource 就會權衡 Web 和?標語料庫，然后采?跨數(shù)據(jù)集混合方法，將其中包含的示例對及其標簽?于訓練。

更少的數(shù)據(jù)，更高的精度

在聯(lián)合訓練這個階段，據(jù)研究?員報告稱，當用 OmniSource 從頭訓練視頻識別模型時，盡管微調效果不佳，但交叉數(shù)據(jù)混合所取得的效果很好。

而在測試中，團隊使?了三個?標數(shù)據(jù)集：

Kinematics-400，其中包含 400 個分類，每個分類包含 400 個 10 分鐘的視頻；
YouTube-car，其中包含數(shù)千個視頻，展示了 196 種不同類型的汽?；
UCF101，包含 100 個剪輯片段和 101 個類別的視頻識別數(shù)據(jù)集；

亞馬遜發(fā)布 Web 視頻分類新框架：1/100 數(shù)據(jù)量，精度趕超最優(yōu)模型

Web 數(shù)據(jù)集分布。(a)-(c) 顯示了三個 Web 數(shù)據(jù)集在過濾前后，各個類別數(shù)據(jù)分布中被可視化。（d）給出了 GG-K400 過濾出的圖像（青色框）和剩余圖像（藍色框）的樣本。雖然成功過濾出了很多不合適的數(shù)據(jù)，但這使得各類別的數(shù)據(jù)分布更加不均

關于網(wǎng)站資源，研究人員從 Google 圖像搜索中收集了 200 萬張圖像，從 Instagram 收集了 150 萬圖像和 500,000 個視頻，以及從 YouTube 收集了 17,000 多個視頻。結合?標數(shù)據(jù)集，所有這些都被輸?到一些視頻分類模型中。

據(jù)報告顯示，在沒有進行訓練時，只有 350 萬張圖像和 80 萬分鐘的視頻可以從互聯(lián)?上爬取而得，結果不及先前工作的 2％。而在 Kinetics-400 數(shù)據(jù)集上，經過訓練的模型則顯示出?少 3.0％的準確性提，精度?達 83.6％。同時，該框架下從零開始訓練的最佳模型在 Kinetics-400 數(shù)據(jù)集上，達到了 80.4％的準確度。

可擴展的視頻識別技術

OmniSource 論?的作者表示，與最先進的技術相?，該框架可以通過更簡單（也更輕巧）的主?設計以及更?的輸?量來實現(xiàn)可持平甚至更好的性能。OmniSource 利?了特定于任務的數(shù)據(jù)集，并且數(shù)據(jù)效率更?，與以前的?法相?，它??減少了所需的數(shù)據(jù)量。此外，框架可推?到各種視頻任務中，例如：視頻識別和細粒度分類等。

亞馬遜發(fā)布 Web 視頻分類新框架：1/100 數(shù)據(jù)量，精度趕超最優(yōu)模型

圖?來源：Reuters / Thomas Peter

未來，OmniSource 或許還可以應?于私?和公共場所的安全攝像機中?；蛘撸梢詾橹T如 Facebook 之類的社交網(wǎng)站，提供視頻審核算法所需的設計信息與技術。

原文地址：
https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/
OmniSource 論文地址：
https://arxiv.org/pdf/2003.13042.pdf

雷鋒網(wǎng) AI 源創(chuàng)評論雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。