丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

2

PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

本文作者: 叢末 2018-11-28 14:21
導語:一篇冠軍團隊的技術分享總結(jié)文~

隊伍介紹

隊名:CASIA-AIRIA。

隊員:史磊(博士在讀),程科(博士在讀)。

指導教師:張一帆副研究員。

單位:中國科學院自動化研究所,中國科學院自動化研究所南京人工智能芯片創(chuàng)新研究院。

競賽介紹 [1]

今年 5 月,美圖公司聯(lián)合中國模式識別與計算機視覺學術會議(PRCV2018)共同舉辦的 PRCV2018「美圖短視頻實時分類挑戰(zhàn)賽」正式開賽。來自中科院自動化所、中科院自動化所南京人工智能芯片創(chuàng)研院的史磊、程科在張一帆副研究員的指導下獲得了 PRCV2018「美圖短視頻實時分類挑戰(zhàn)賽」冠軍。不同于以往只關注分類精度的比賽,本競賽綜合考察「算法準確率」和「實時分類」兩個方面,將運行時間作為重要指標參與評估,將促進視頻分類算法在工業(yè)界的應用。以下是冠軍團隊對本次挑戰(zhàn)賽的技術分享總結(jié):

  • 數(shù)據(jù)集介紹

本次競賽使用的短視頻數(shù)據(jù)集(MTSVRC 數(shù)據(jù)集)一共有 100,000 個視頻,其中訓練集有 50,000 個視頻,驗證集和測試集分別有 25,000 個視頻。視頻主要以短視頻為主,長度約為 5 - 15s。數(shù)據(jù)集包含 50 個分類,視頻類別包括舞蹈、唱歌、手工、健身等熱門短視頻類型,除了包含與人相關的一些行為類別,還有一些風景,寵物等類別。圖片 1 展示了一些數(shù)據(jù)樣例:

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 1 數(shù)據(jù)樣例

由于這些數(shù)據(jù)的主要來源為手機拍攝的日常視頻,視頻的大小,形狀以及拍攝條件(例如光照,景深)等都不統(tǒng)一,造成了很大的類間差異與類內(nèi)差異。同時,由于后期處理,視頻經(jīng)常會有一些特效和與類別無關的文字,也增加了視頻識別的難度。圖片 2 展示了一些困難樣例,這些樣例對模型的設計帶來了很大的挑戰(zhàn)。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 2 困難樣例

  • 評測方法

由于競賽同時考慮時間和精度,所以以往的分類誤差不足以評測模型性能。圖片 3 展示了此次競賽所用的評測方法。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 3 評測方法

其中橙色的三角形是官方提供的基準時間和誤差,只有優(yōu)于基準方法的成績才被視為有效成績,而其他成績(黑色三角)則被視為無效成績。時間和誤差會根據(jù)基準成績歸一化到 0-1 之間。在有效成績中,會找出最小誤差和最短時間的兩個成績(綠色三角形和紅色三角形),然后最小誤差和最短時間會組成一個參考點(藍色圓圈)。最終所有的有效成績都會和參考點計算距離,距離最短的方法視為優(yōu)勝。從評測方法分析,時間和精度都是很重要的因素。而時間和精度往往是矛盾的,所以必須進行一定的取舍。

視頻解碼

因為時間是一個很重要的因素,而視頻解碼又是一個很費時間的過程,所以如何設計解碼模塊是本次競賽中的一個關鍵。我們采用了多線程軟解提取關鍵幀的方法。

主流的視頻編碼方式中,每個視頻主要包含三種圖片幀,分別叫做:Intra-coded frame(I 幀),Predictive frame(P 幀)和 Bi-Predictive frame(B 幀)。其中 I 幀是一張完整的圖片。P 幀記錄了與之前的幀的差別,所以在解碼 P 幀時必須要參考之前的圖片幀。而 B 幀不僅需要參考之前的圖片幀,還需要參考之后的圖片幀才能完整解碼。圖片 4 闡明了這三個概念 [2]。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 4 I 幀,P 幀與 B 幀

顯而易見,P 幀和 B 幀的解碼是相對較慢的,而直接解碼 I 幀則可以獲得更快的速度。同時,由于我們需要解碼不止一幀,所以我們采用了多線程的方式,每一個線程負責解碼一個關鍵幀。整個解碼過程使用 FFmpeg 實現(xiàn)。

模型設計

解決了解碼問題后,接下來的問題在于如何用所得的多幀來進行分類。

  • 主流方法

目前主流的視頻分類的方法有三大類:基于 LSTM 的方法,基于 3D 卷積的方法和基于雙流的方法。圖片 5 展示了這三種框架的大體結(jié)構(gòu) [3]。

  • 基于 LSTM 的方法將視頻的每一幀用卷積網(wǎng)絡提取出每一幀的特征,然后將每一個特征作為一個時間點,依次輸入到 LSTM 中。由于 LSTM 并不限制序列的長度,所以這種方法可以處理任意長度的視頻。但同時,因為 LSTM 本身有梯度消失和爆炸的問題,往往難以訓練出令人滿意的效果。而且,由于 LSTM 需要一幀一幀得進行輸入,所以速度也比不上其他的方法。

  • 基于 3D 卷積的方法將原始的 2D 卷積核擴展到 3D。類似于 2D 卷積在空間維度的作用方式,它可以在時間維度自底向上地提取特征?;?3D 卷積的方法往往能得到不錯的分類精度。但是,由于卷積核由 2D 擴展到了 3D,其參數(shù)量也成倍得增加了,所以網(wǎng)絡的速度也會相應下降。

  • 基于雙流網(wǎng)絡的方法會將網(wǎng)絡分成兩支。其中一支使用 2D 卷積網(wǎng)絡來對稀疏采樣的圖片幀進行分類,另一支會提取采樣點周圍幀的光流場信息,然后使用一個光流網(wǎng)絡來對其進行分類。兩支網(wǎng)絡的結(jié)果會進行融合從而得到最終的類標。基于雙流的方法可以很好地利用已有的 2D 卷積網(wǎng)絡來進行預訓練,同時光流又可以建模運動信息,所以精度往往也很高。但是由于光流的提取過程很慢,所以整體上制約了這一方法的速度。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 5 主流的視頻分類的方法

綜上所述,主流的方法都不太適用于短視頻實時分類的任務,所以我們特別設計了一個適用于短視頻實時分類的框架。

  • 我們的方法

圖片 4 展示了我們的解決方案的整體框架:給定一個視頻,我們首先會從中稀疏采樣固定數(shù)量的圖片幀,然后將這些幀組成一個 batch,送入到一個 BaseNet 中。這個 BaseNet 是在已有的 2D 卷積網(wǎng)絡基礎上優(yōu)化改進得到的,具有較強的特征提取能力。BaseNet 輸出的高層的特征往往具有很強的語義信息,但是卻沒有時間上的融合。所以我們特別設計了一個基于幀間注意力機制的融合模型,將 BaseNet 提取的不同幀的特征作為一個輸入送入融合模型中,最終由融合模型得到預測的結(jié)果。由于融合模型比較小,推理速度很快,而且參數(shù)量較少,也比較容易訓練。整個模型在 mxnet 上進行構(gòu)建和訓練?;谶@樣的設計,我們的模型可以得到很快的推理速度,同時又不會損失太多精度。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 6 整體框架

模型壓縮

當有了訓練好的模型后,為了進一步提高速度,模型壓縮是必不可少的。因為計算平臺是 GPU,所以我們使用了兩種比較適用于 GPU 的方法:剪枝和量化。

  • 模型剪枝

由于需要在 GPU 上運算,這里我們主要考慮在通道維度的剪枝。假設卷積的參數(shù)是具有稀疏性的,我們剪掉其中一些不重要的參數(shù),網(wǎng)絡仍然可以達到之前的精度。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 7 剪枝

剪枝過程分為兩步:首先,我們會基于 LASSO 回歸來找到每一層中最具代表性的通道,然后將沒用的通道去掉,再使用平方差損失微調(diào)剪枝后的網(wǎng)絡來最小化重構(gòu)誤差。這樣的操作會對每一層分別進行,經(jīng)過幾輪迭代后便可以達到不錯的壓縮效果,同時還可以保證精度不會損失太多。

  • 模型量化

由于比賽提供的 GPU 是支持 int8 計算的,所以我們考慮將原來的基于 float32 數(shù)據(jù)類型訓練的模型轉(zhuǎn)換為 int8 的數(shù)據(jù)形式進行推斷,也就是量化操作。這里我們采用的比較簡單的線性量化,也是 TensorRt 中使用的方法 [4]。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 8 線性量化

假設每個張量的數(shù)據(jù)符合均勻分布,那么其中的每一個元素就可以表示為一個 int8 數(shù)和一個 float32 的比例因子相乘的結(jié)果。比例因子是對于整個數(shù)組共享的。這樣在張量間進行相乘運算時就可以先進行 int8 的計算,最后再統(tǒng)一乘上比例因子,從而加快運算。那么接下來的問題在于如何確定比例因子,比例因子的作用是將原始張量的數(shù)值范圍映射到-127 到 127(int8 的數(shù)值范圍)。由于大多數(shù)情況數(shù)據(jù)并不是完全的均勻分布,所以直接映射會造成精度損失。

 PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

圖片 9 基于閾值的線性映射

為了解決這個問題,TensorRt 中會對每一層的數(shù)據(jù)分布進行統(tǒng)計,然后根據(jù)得到的分布確定一個閾值(如圖片 9)。在映射的過程中,閾值之外的數(shù)會被統(tǒng)一映射到-127 和 127 之 間,閾值之內(nèi)的數(shù)據(jù)會假設為一個均勻分布然后進行映射。這樣就可以保證在加快速度的同時也不至于有較大的精度損失。

總結(jié)

我們的解決方案可以歸納為三個部分:視頻解碼部分,我們采用了多線程提取 I 幀的方式。模型設計部分,我們采用了稀疏采樣與幀間注意力融合的方法。模型壓縮部分,我們采用了通道剪枝和量化的方法。最終我們的解決方案在測試集上的速度為平均每個視頻 58.9ms,精度為 87.9%。

參考文獻

[1] 「AI Challenge | Introduction.」[Online]. Available: https://challenge.ai.meitu.com/mtsvrc2018/introduction.html. [Accessed: 21-Nov-2018].

[2] 「視訊壓縮圖像類型,」維基百科,自由的百科全書. 08-Jul-2018.

[3] J. Carreira and A. Zisserman,「Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset,」in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[4] S. Migacz,「8-bit Inference with TensorRT.」[Online]. Available: http://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf.雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

PRCV2018 美圖短視頻實時分類挑戰(zhàn)賽第一名解決方案介紹

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說