0
雷鋒網(wǎng) AI 研習(xí)社按,在電視綜藝節(jié)目的攝制過程中,常常會出現(xiàn)十幾、二十多臺攝像機(jī)同時(shí)拍攝的情況,比如多臺攝像機(jī)跟拍一個(gè)藝人。這樣的一次跟拍耗時(shí)長,素材多,因此也給視頻的后期和剪輯帶來了非常多的不便,對于視頻剪輯人員來說也頗為枯燥和繁瑣。
這些視頻素材一般會經(jīng)歷兩個(gè)剪輯過程:首先初剪所有的視頻素材,去掉明顯不可用的鏡頭,然后再精剪。但不論哪個(gè)過程,都需要導(dǎo)演和剪輯師在剪輯過程中時(shí)刻判斷哪些片段是需要留下來的,哪些片段能產(chǎn)生良好的觀賞效果。雖然視頻剪輯師們在識別「精彩鏡頭」方面有著豐富的經(jīng)驗(yàn),但當(dāng)素材量很大或者需要在同一時(shí)刻的數(shù)個(gè)鏡頭里做出選擇時(shí),他們?nèi)孕枰ㄙM(fèi)不少精力。
針對上述的行業(yè)痛點(diǎn),12 月 28 日,百度和科賽網(wǎng)聯(lián)合發(fā)起的「PaddlePaddle AI 大賽」正式開賽。本次大賽聚焦于電視綜藝行業(yè),百度 BROAD 數(shù)據(jù)集提供了來自愛奇藝的 1500 條總共 1200 小時(shí)電視綜藝視頻。參賽選手們要利用百度 PaddlePaddle 分布式深度學(xué)習(xí)平臺及 BROAD 公開數(shù)據(jù)集,通過訓(xùn)練學(xué)習(xí)視頻幀的圖片特征序列,輸出實(shí)際可用的影視行業(yè)預(yù)測精彩片段時(shí)間戳的算法模型,進(jìn)而對任意一個(gè)未被標(biāo)注精彩片段的長視頻,輸出其中精彩片段的時(shí)間戳,從而減輕視頻剪輯師的工作壓力。
經(jīng)過 3 個(gè)月的角逐,來自上海交通大學(xué)自動(dòng)化系計(jì)算機(jī)視覺實(shí)驗(yàn)室的在讀研究生林天威在其導(dǎo)師趙旭老師的指導(dǎo)下獲得了本次 PaddlePaddle AI 開發(fā)者大賽冠軍,并受邀在百度 AI 開發(fā)者實(shí)戰(zhàn)營上發(fā)表演講。實(shí)際上,林天威已經(jīng)是視頻分析和理解領(lǐng)域的「老手」,在去年CVPR舉辦的ActivityNet Large Scale ActivityRecognition Challenge 上,林天威就獲得了未修剪視頻序列時(shí)序動(dòng)作提名(TemporalAction Proposal)和時(shí)序動(dòng)作定位(Temporal Action Localization)兩項(xiàng)任務(wù)的冠軍。
理解視頻中人的動(dòng)作和行為是計(jì)算機(jī)視覺領(lǐng)域里非常具有挑戰(zhàn)性的問題,擁有很大的應(yīng)用潛力。能夠在兩次視頻分析挑戰(zhàn)賽中奪得冠軍,林天威在視頻分析和處理方面有哪些獨(dú)到的經(jīng)驗(yàn)?雷鋒網(wǎng) AI 研習(xí)社借此機(jī)會采訪了林天威,向各位 AI 開發(fā)者分享他的學(xué)習(xí)和比賽經(jīng)歷。
以下是雷鋒網(wǎng) AI 研習(xí)社采訪內(nèi)容:
請問你參加這次百度 PaddlePaddle AI 挑戰(zhàn)賽的初衷是什么?
我讀研以來一直在做時(shí)序動(dòng)作檢測領(lǐng)域的研究,百度提出的 BROAD 數(shù)據(jù)集正好也是做時(shí)序檢測任務(wù)的,所以我主要想通過 BROAD 數(shù)據(jù)集和這次競賽來檢測一下時(shí)序動(dòng)作檢測領(lǐng)域算法在實(shí)際問題與場景的應(yīng)用中能獲得怎樣的效果。
對于本次比賽而言,你覺得你的方案有哪些創(chuàng)新之處能讓你保持第一的成績?
此次競賽我直接使用了我近期投稿在 ECCV 的論文中的算法,其主要的創(chuàng)新之處是采用了由局部到整體(local to global)的算法框架,能夠獲得比較高質(zhì)量的時(shí)序片段邊界。由于該算法在 BROAD 數(shù)據(jù)集上直接跑的效果很好,所以競賽中沒有做模型融合,也沒有添加額外的 trick。
比賽第一階段使用的是已抽取的 10% 的視頻訓(xùn)練集,而第二階段使用的是全量視頻數(shù)據(jù)訓(xùn)練集,這樣的變化給你的訓(xùn)練帶來怎樣挑戰(zhàn)?
訓(xùn)練時(shí)間以及訓(xùn)練時(shí)需要的內(nèi)存更大一些,其余無影響。
視頻幀的特征包括兩部分,一個(gè)是圖像的特征,一個(gè)是語音的特征,但本次比賽視頻幀特征序列只從圖像抽取特征,你覺得本次比賽的結(jié)果能否解決實(shí)際視頻分析中的問題?
實(shí)際上復(fù)賽中可以使用語音的特征。對于精彩片段檢測問題,由于定義和標(biāo)注比較明確,所以此次競賽中大家的算法能獲得比較好的檢測效果,我覺得可以用于實(shí)際場景中。
本次分析綜藝視頻的技術(shù)和經(jīng)驗(yàn)?zāi)芊駪?yīng)用于其他行業(yè)?比如安防?
此次競賽其實(shí)是「時(shí)序動(dòng)作檢測」任務(wù),我認(rèn)為相關(guān)算法不太適合安防場景,因?yàn)榘卜缊鼍巴ǔP枰?)在線處理 2)同時(shí)定位圖像中的目標(biāo)位置。相對來說,時(shí)序動(dòng)作檢測算法更適合與這次競賽類似的網(wǎng)絡(luò)娛樂視頻的分析、檢測和推薦任務(wù)。
你曾經(jīng)參加過 ActivityNet 視頻行為分類比賽并獲得了兩項(xiàng)任務(wù)的冠軍,那么參加 ActivityNet 比賽的經(jīng)驗(yàn)對此次 PaddlePaddle AI 挑戰(zhàn)賽有哪些借鑒之處?
實(shí)際上兩者的任務(wù)非常相似(時(shí)序檢測),BROAD 數(shù)據(jù)集的標(biāo)注、測評代碼也基本參考了 ActivityNet 中的設(shè)計(jì)。在 ActivityNet 和 PaddlePaddle AI 競賽中,獲得高質(zhì)量結(jié)果都有兩個(gè)要點(diǎn):(1) 時(shí)序檢測片段需要有精確的邊界;(2)時(shí)序檢測片段的置信度要準(zhǔn)確,從而獲得良好的排序。
本次挑戰(zhàn)賽用到了百度 BROAD 的視頻數(shù)據(jù)集,你覺得該數(shù)據(jù)集和你以前接觸過的 ActivityNet、Kinetics、UCF-101、Moments in Time 等視頻數(shù)據(jù)集相比有哪些特點(diǎn)?開發(fā)者在使用BROAD 的視頻數(shù)據(jù)集訓(xùn)練模型時(shí)需要注意哪些事情?
BROAD 數(shù)據(jù)集的標(biāo)注分布其實(shí)和 THUMOS-2014 比較像,但是包含的視頻數(shù)量要多一些。BROAD 數(shù)據(jù)集的優(yōu)點(diǎn)是提供了質(zhì)量不錯(cuò)的特征,缺點(diǎn)則是類別和場景比較單一,若作為學(xué)術(shù)場景中使用我覺得多樣性有些不足。
如果在用 BROAD 的視頻數(shù)據(jù)集訓(xùn)練模型時(shí),需要注意的點(diǎn)可能有:由于特征文件比較大,所以可以先對特征降采樣(比如五分之一),再運(yùn)行后面的算法。
你在 ActivityNet 比賽里獲得兩項(xiàng)任務(wù)的冠軍,同時(shí)在 PaddlePaddleAI 挑戰(zhàn)賽里一直保持著第一的好成績,你有什么好的比賽經(jīng)驗(yàn)或者建議可以分享給其他的開發(fā)者嗎?
我參加的這兩次競賽實(shí)際上都算是學(xué)術(shù)性比較強(qiáng)的競賽,而且我一直研究這個(gè)方向,所以對視頻分析比較熟悉。我的建議是,如果是學(xué)術(shù)類的競賽,還是要多看相關(guān)領(lǐng)域的論文;此外,在開始設(shè)計(jì)模型前,最好先對數(shù)據(jù)集本身的分布情況做一個(gè)詳盡的分析。
通過這次比賽,你覺得百度的 PaddlePaddle 深度學(xué)習(xí)框架和其他的深度學(xué)習(xí)框架相比有什么特點(diǎn)?
本次比賽中開放使用的版本(paddlepaddle0.10)我覺得可能比較適合生產(chǎn)場景部署吧,作為學(xué)術(shù)研究的話靈活性比較差。后續(xù)的 fluid 接口在這方面應(yīng)該會好一些。
目前你還在上海交大讀研究生,畢業(yè)后你有怎樣的打算?準(zhǔn)備往哪個(gè)方向發(fā)展?
畢業(yè)后計(jì)劃開始工作,個(gè)人希望進(jìn)入安防或其他視頻分析相關(guān)的方向發(fā)展。
想查閱上文所提到的論文以及獲取更多視頻分析經(jīng)驗(yàn),請?jiān)L問林天威知乎和個(gè)人主頁:
知乎:
https://www.zhihu.com/people/wzmsltw/activities
個(gè)人主頁:
https://wzmsltw.github.io/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。