丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

本文作者: 楊鯉萍 2019-10-09 14:51
導(dǎo)語: EDVR 方案增強(qiáng)版

雷鋒網(wǎng) AI 開發(fā)者:近日,持續(xù) 3 個多月的阿里 2019 優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽終于落下了帷幕,最終,來自中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室的研三學(xué)生陳嘉樂、單超煒,通過對當(dāng)下最先進(jìn) EDVR 方案的視頻感知能力、時序信息及特征表達(dá)三大內(nèi)容進(jìn)行優(yōu)化與改進(jìn),一舉奪得桂冠;并向我們公開了詳細(xì)的冠軍方案解讀,雷鋒網(wǎng) AI 開發(fā)者將其整理編輯如下。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

大賽背景簡介

視頻增強(qiáng)和超分是計(jì)算機(jī)視覺領(lǐng)域的核心算法之一,目的是恢復(fù)降質(zhì)視頻本身的內(nèi)容,提高視頻的清晰度。該技術(shù)在工業(yè)界有著重要的實(shí)用意義,并對于早期膠片視頻的質(zhì)量和清晰度的提升有著重大的意義。

本次大賽「阿里巴巴優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽」由優(yōu)酷主辦,面向全社會開放,參賽隊(duì)伍包括:個人、高等院校、科研單位、企業(yè)、創(chuàng)客團(tuán)隊(duì)等共計(jì) 1514 支,賽程分為初賽、復(fù)賽、決賽三個階段,設(shè)置獎金池為 230000 元。

大賽提供了業(yè)界最大、最具廣泛性的數(shù)據(jù)集,包括不同內(nèi)容品類,不同噪聲模型、不同難度等,參賽選手需要通過訓(xùn)練樣本對視頻增強(qiáng)和超分模型進(jìn)行建模,對測試集中的低分辨率視頻樣本預(yù)測高分辨率視頻,提交結(jié)果評分將進(jìn)行實(shí)時更新。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

冠軍團(tuán)隊(duì)資料

本次獲得大賽冠軍的團(tuán)隊(duì)來自中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室(Intelligent Media Computing Lab, IMCL)。

  • 團(tuán)隊(duì)成員包括:陳嘉樂,中國科學(xué)技術(shù)大學(xué)研三學(xué)生,主要的研究方向是強(qiáng)化學(xué)習(xí)和視覺計(jì)算,在本次比賽中主導(dǎo)算法設(shè)計(jì)、模型訓(xùn)練調(diào)試的工作;單超煒,中國科學(xué)技術(shù)大學(xué)研三學(xué)生,主要研究方向是圖像處理和增強(qiáng),負(fù)責(zé)算法設(shè)計(jì)和模型訓(xùn)練。

  • 團(tuán)隊(duì)指導(dǎo)老師包括:中國科學(xué)技術(shù)大學(xué)教授陳志波、中國科學(xué)技術(shù)大學(xué)博士劉森以及微軟亞研院高級研究員譚旭。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

圖像、視頻超分辨研究現(xiàn)狀

根據(jù)數(shù)據(jù)類型分類,目前的超分辨工作分為圖像超分和視頻超分。

圖像超分

圖像超分領(lǐng)域隨著卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,不斷有新的網(wǎng)絡(luò)結(jié)構(gòu)取得更優(yōu)的性能,以下 6 種結(jié)構(gòu)是目前圖像超分領(lǐng)域所使用的方法:

  • 殘差結(jié)構(gòu) 目前超分領(lǐng)域普遍認(rèn)為更深的網(wǎng)絡(luò)能夠帶來更優(yōu)性能,但更深的網(wǎng)絡(luò)也帶來訓(xùn)練困難的問題,殘差結(jié)構(gòu)能夠緩解該問題,例如:EDSR;

  • 多分支結(jié)構(gòu) 從增加網(wǎng)絡(luò)的寬度來提升性能,也是一種增強(qiáng)特征表達(dá)的方式,例如:REDNet;

    (以上兩種結(jié)構(gòu)都會帶來巨大的參數(shù)量)

  • 循環(huán)結(jié)構(gòu) 利用共享網(wǎng)絡(luò)參數(shù)、循環(huán)遞歸的方式,在減少網(wǎng)絡(luò)參數(shù)的情況下提升性能,例如:DRCN;

  • 漸進(jìn)式結(jié)構(gòu) 把超分辯設(shè)計(jì)成多個階段的網(wǎng)絡(luò)結(jié)構(gòu),利用逐步增加分辨率的方式,提高超分性能,例如:SCN;

  • 注意力機(jī)制 提高特征的表達(dá)能力,從而提高性能,例如:RCAN、DRLN;

  • 對抗模型 利用 GAN 的思想生成更符合人眼視覺評價的高分辨率圖片,例如:SRGAN、EnhanceNet、ESRGAN.

視頻超分

視頻超分與圖像超分的區(qū)別主要有兩點(diǎn),包括:

  • 視頻幀對齊 因?yàn)橐曨l中存在各種運(yùn)動信息,所以存在參考幀和目標(biāo)幀的偏差,但超分辯一般需要利用鄰幀跟參考幀做對齊;

  • 視頻幀融合 視頻中存在運(yùn)動模糊和場景切換的問題,如何有效融合視頻幀,去除干擾信息,對最終的結(jié)果也有影響。

而在這兩方面,視頻超分的主要結(jié)構(gòu)有以下幾個類型:

  • 三維卷積 直接利用 3D 卷積捕捉時域特征的功能,直接做幀間融合;

  • 循環(huán)結(jié)構(gòu) 可用于提取幀間關(guān)系,融合目標(biāo)幀和參考幀的信息,例如: LSTM 的結(jié)構(gòu)來做幀間融合;

  • 濾波器預(yù)測 利用融合后的幀間信息預(yù)測濾波器參數(shù),再通過濾波的方式做超分辯,獲得自適應(yīng)的濾波效果;

根據(jù)對圖像、視頻超分辨相關(guān)特性的分析,本次網(wǎng)絡(luò)結(jié)構(gòu)中,我們選擇了將商湯的 EDVR 方案作為建?;A(chǔ)。該方案提出將對齊和融合兩個操作分開處理,可增加模型的可解釋性。最終,整個視頻處理流程分為對齊,融合,重建三個部分。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

EDVR 視頻超分辨核心

詳細(xì)方案分析

目前,EDVR 主要存在三點(diǎn)問題,即感知能力不夠強(qiáng),時序特征不充分,特征表達(dá)不高效。針對這幾個問題,我們分別作了對應(yīng)的優(yōu)化如下。

增強(qiáng)感知能力

EDVR 在做幀間對齊這個任務(wù)上提出一個高效的模塊——多尺度的可變卷積模塊。

可變卷積能夠自適應(yīng)學(xué)習(xí) feature map 中最相關(guān)的特征點(diǎn),即學(xué)習(xí)一個 offset,然后通過 offset 來利用相關(guān)點(diǎn)做卷積操作;利用多尺度的結(jié)構(gòu)提升了可變卷積的對齊能力,多尺度的網(wǎng)絡(luò)結(jié)構(gòu)在各個尺度下完成視頻幀對齊,然后利用不同尺度下的對齊信息來提高對齊操作的感受野;這個模塊的性能提升大概在 0.3db 左右。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

增強(qiáng)感知能力——多尺度的可變卷積模塊

第二個優(yōu)化是利用何愷明提出的 Non local neural network。

這個結(jié)構(gòu)借鑒了 NLP 領(lǐng)域的 self-attention 機(jī)制。例如:輸入是 TCHW 這樣一個維度,然后通過矩陣相乘得到一個全局關(guān)系矩陣 THWxTHW,得到 feature map 中每個點(diǎn)和其他點(diǎn)的相關(guān)性,從而讓網(wǎng)絡(luò)結(jié)構(gòu)近乎有全局感受野。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

增強(qiáng)感知能力——3D Non local 

但該結(jié)構(gòu)有一個缺點(diǎn),特別是在視頻特征上,全局關(guān)系矩陣的維度很高,維度大小為(THW)^2。從而導(dǎo)致參數(shù)量劇增,使得這個結(jié)構(gòu)無法承受所有的 3D non local 參數(shù)量。

因此,我們利用了一種 separate non local 的形式來解決這個問題,分別在空間維度、通道維度、時間維度做了 self-attention,減少所需參數(shù)量,并增大感受野。在實(shí)驗(yàn)過程中,這個模塊帶來了將近 0.3db 的性能增益。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

增強(qiáng)感知能力——separate non local

時序特征不充分優(yōu)化

在 EDVR 做視頻幀融合的時候,提出了一種叫 Temporal and Spatial Attention,具體做法是所有幀跟中間幀去優(yōu)化一個 attention map,但這忽略了鄰幀之間的信息。

雖然在前面已經(jīng)做過對齊,但這個過程很難做到完全準(zhǔn)確,所以幀之間仍然具有一定的時域信息。

因此我們在這部分利用一個 3D 卷積來捕獲幀間信息,這個部分取得了 0.1db 的增益。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

時序特征不充分優(yōu)化——融合模塊

提高特征表達(dá)效率

EDVR 的重建模塊由 40 層的 resblock 堆疊而成,盡管深層網(wǎng)絡(luò)結(jié)構(gòu)增加了跳接結(jié)構(gòu),但依然難以保證訓(xùn)練的高效性,所以我們利用了一種 channel attention 的機(jī)制來處理這個問題。

channel attention 為 feature map 的每一個通道分配一個權(quán)重,從而讓網(wǎng)絡(luò)去關(guān)注特征中對超分更有信息量的部分。具體做法是利用 average pooling 和全連接結(jié)構(gòu)來學(xué)習(xí)這個通道權(quán)重,再乘回原來的 feature map。這一優(yōu)化使得該方法的性能提高了 0.23db。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

提高特征表達(dá)效率——channel attention

實(shí)驗(yàn)結(jié)果

我們在前 800 個視頻上訓(xùn)練,在 800-849 這些視頻上抽幀測試,結(jié)果如下圖所示。其中 base 是指該網(wǎng)絡(luò)使用了 20 層的重建模塊,large 是使用了 40 層的重建模塊。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

Base 模型下各個模塊的性能增益分析

結(jié)果顯示,separate non local 模塊在參數(shù)量和 flops 增加不大的情況下,性能提升了近 0.3db;3D 卷積模塊帶來了 0.1db 的性能增益,channel attention 模塊帶來了 0.23db 的性能增益,所有模塊合計(jì)共獲得 0.4db 的性能增益。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

Large 模型下各個模塊的性能增益分析

上圖則顯示了 large 模型下的實(shí)驗(yàn)結(jié)果??梢钥吹剑琫dvr large model 性能是 35.75db,而當(dāng)我們使用一個 20 層的 base model 就能夠超過該 large model 的性能,并且參數(shù)量和 flops 都消耗更少。

如果把模型再加到大模型,最終模型可得到 35.97db 的 PSNR,這與原始 EDVR base model 比較,提高了 0.1db 的性能增益,但同時模型的參數(shù)量和 flops 將會大幅度增加。這部分的增益性價比不高,也表明了我們的結(jié)構(gòu)更有利于在有限參數(shù)下獲得更好的性能。

而在可視化上,我們的結(jié)構(gòu)和 EDVR 的對比,該網(wǎng)絡(luò)在一些文字的細(xì)節(jié)恢復(fù)上效果更好。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

可視化實(shí)驗(yàn)結(jié)果對比

方案總結(jié)

我們的方法主要有三個創(chuàng)新點(diǎn):

  • 利用 separate non local 提高了網(wǎng)絡(luò)感受野,增強(qiáng)了感知能力,最終實(shí)現(xiàn)利用小模型獲得大模型的性能,提高性能的同時也降低了訓(xùn)練難度;

  • 利用 3D 卷積的方式捕獲幀間信息,提高了特征時序信息的完整度;

  • 利用 channel attention 提高了特征的表達(dá)能力效率的同時,增大了模型的性能增益;

目前,該方法的優(yōu)點(diǎn)是在相同性能下,模型使用的網(wǎng)絡(luò)參數(shù)更少,訓(xùn)練更簡單;缺點(diǎn)則是由于模型未能去掉 EDVR 中的可變卷積,這一結(jié)構(gòu)存在訓(xùn)練不穩(wěn)定性的問題,這也是我們未來進(jìn)一步優(yōu)化的方向。另外,目前這一模型依然會存在泛化能力問題,如何在退化模型未知的情況下獲得更好的超分效果,這可能是未來超分領(lǐng)域一個值得深入研究的問題。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

雷鋒網(wǎng) AI 開發(fā)者

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中科大研三學(xué)子巧改 EDVR 方案,摘下優(yōu)酷視頻增強(qiáng)和超分挑戰(zhàn)賽桂冠!冠軍方案全解讀

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說