0
本文作者: 楊鯉萍 | 2019-10-09 14:51 |
雷鋒網(wǎng) AI 開發(fā)者:近日,持續(xù) 3 個多月的阿里 2019 優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽終于落下了帷幕,最終,來自中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室的研三學(xué)生陳嘉樂、單超煒,通過對當(dāng)下最先進(jìn) EDVR 方案的視頻感知能力、時序信息及特征表達(dá)三大內(nèi)容進(jìn)行優(yōu)化與改進(jìn),一舉奪得桂冠;并向我們公開了詳細(xì)的冠軍方案解讀,雷鋒網(wǎng) AI 開發(fā)者將其整理編輯如下。
視頻增強(qiáng)和超分是計(jì)算機(jī)視覺領(lǐng)域的核心算法之一,目的是恢復(fù)降質(zhì)視頻本身的內(nèi)容,提高視頻的清晰度。該技術(shù)在工業(yè)界有著重要的實(shí)用意義,并對于早期膠片視頻的質(zhì)量和清晰度的提升有著重大的意義。
本次大賽「阿里巴巴優(yōu)酷視頻增強(qiáng)和超分辨率挑戰(zhàn)賽」由優(yōu)酷主辦,面向全社會開放,參賽隊(duì)伍包括:個人、高等院校、科研單位、企業(yè)、創(chuàng)客團(tuán)隊(duì)等共計(jì) 1514 支,賽程分為初賽、復(fù)賽、決賽三個階段,設(shè)置獎金池為 230000 元。
大賽提供了業(yè)界最大、最具廣泛性的數(shù)據(jù)集,包括不同內(nèi)容品類,不同噪聲模型、不同難度等,參賽選手需要通過訓(xùn)練樣本對視頻增強(qiáng)和超分模型進(jìn)行建模,對測試集中的低分辨率視頻樣本預(yù)測高分辨率視頻,提交結(jié)果評分將進(jìn)行實(shí)時更新。
本次獲得大賽冠軍的團(tuán)隊(duì)來自中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室(Intelligent Media Computing Lab, IMCL)。
團(tuán)隊(duì)成員包括:陳嘉樂,中國科學(xué)技術(shù)大學(xué)研三學(xué)生,主要的研究方向是強(qiáng)化學(xué)習(xí)和視覺計(jì)算,在本次比賽中主導(dǎo)算法設(shè)計(jì)、模型訓(xùn)練調(diào)試的工作;單超煒,中國科學(xué)技術(shù)大學(xué)研三學(xué)生,主要研究方向是圖像處理和增強(qiáng),負(fù)責(zé)算法設(shè)計(jì)和模型訓(xùn)練。
團(tuán)隊(duì)指導(dǎo)老師包括:中國科學(xué)技術(shù)大學(xué)教授陳志波、中國科學(xué)技術(shù)大學(xué)博士劉森以及微軟亞研院高級研究員譚旭。
根據(jù)數(shù)據(jù)類型分類,目前的超分辨工作分為圖像超分和視頻超分。
圖像超分
圖像超分領(lǐng)域隨著卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,不斷有新的網(wǎng)絡(luò)結(jié)構(gòu)取得更優(yōu)的性能,以下 6 種結(jié)構(gòu)是目前圖像超分領(lǐng)域所使用的方法:
殘差結(jié)構(gòu) 目前超分領(lǐng)域普遍認(rèn)為更深的網(wǎng)絡(luò)能夠帶來更優(yōu)性能,但更深的網(wǎng)絡(luò)也帶來訓(xùn)練困難的問題,殘差結(jié)構(gòu)能夠緩解該問題,例如:EDSR;
多分支結(jié)構(gòu) 從增加網(wǎng)絡(luò)的寬度來提升性能,也是一種增強(qiáng)特征表達(dá)的方式,例如:REDNet;
(以上兩種結(jié)構(gòu)都會帶來巨大的參數(shù)量)
循環(huán)結(jié)構(gòu) 利用共享網(wǎng)絡(luò)參數(shù)、循環(huán)遞歸的方式,在減少網(wǎng)絡(luò)參數(shù)的情況下提升性能,例如:DRCN;
漸進(jìn)式結(jié)構(gòu) 把超分辯設(shè)計(jì)成多個階段的網(wǎng)絡(luò)結(jié)構(gòu),利用逐步增加分辨率的方式,提高超分性能,例如:SCN;
注意力機(jī)制 提高特征的表達(dá)能力,從而提高性能,例如:RCAN、DRLN;
對抗模型 利用 GAN 的思想生成更符合人眼視覺評價的高分辨率圖片,例如:SRGAN、EnhanceNet、ESRGAN.
視頻超分
視頻超分與圖像超分的區(qū)別主要有兩點(diǎn),包括:
視頻幀對齊 因?yàn)橐曨l中存在各種運(yùn)動信息,所以存在參考幀和目標(biāo)幀的偏差,但超分辯一般需要利用鄰幀跟參考幀做對齊;
視頻幀融合 視頻中存在運(yùn)動模糊和場景切換的問題,如何有效融合視頻幀,去除干擾信息,對最終的結(jié)果也有影響。
而在這兩方面,視頻超分的主要結(jié)構(gòu)有以下幾個類型:
三維卷積 直接利用 3D 卷積捕捉時域特征的功能,直接做幀間融合;
循環(huán)結(jié)構(gòu) 可用于提取幀間關(guān)系,融合目標(biāo)幀和參考幀的信息,例如: LSTM 的結(jié)構(gòu)來做幀間融合;
濾波器預(yù)測 利用融合后的幀間信息預(yù)測濾波器參數(shù),再通過濾波的方式做超分辯,獲得自適應(yīng)的濾波效果;
根據(jù)對圖像、視頻超分辨相關(guān)特性的分析,本次網(wǎng)絡(luò)結(jié)構(gòu)中,我們選擇了將商湯的 EDVR 方案作為建?;A(chǔ)。該方案提出將對齊和融合兩個操作分開處理,可增加模型的可解釋性。最終,整個視頻處理流程分為對齊,融合,重建三個部分。
EDVR 視頻超分辨核心
目前,EDVR 主要存在三點(diǎn)問題,即感知能力不夠強(qiáng),時序特征不充分,特征表達(dá)不高效。針對這幾個問題,我們分別作了對應(yīng)的優(yōu)化如下。
增強(qiáng)感知能力
EDVR 在做幀間對齊這個任務(wù)上提出一個高效的模塊——多尺度的可變卷積模塊。
可變卷積能夠自適應(yīng)學(xué)習(xí) feature map 中最相關(guān)的特征點(diǎn),即學(xué)習(xí)一個 offset,然后通過 offset 來利用相關(guān)點(diǎn)做卷積操作;利用多尺度的結(jié)構(gòu)提升了可變卷積的對齊能力,多尺度的網(wǎng)絡(luò)結(jié)構(gòu)在各個尺度下完成視頻幀對齊,然后利用不同尺度下的對齊信息來提高對齊操作的感受野;這個模塊的性能提升大概在 0.3db 左右。
增強(qiáng)感知能力——多尺度的可變卷積模塊
第二個優(yōu)化是利用何愷明提出的 Non local neural network。
這個結(jié)構(gòu)借鑒了 NLP 領(lǐng)域的 self-attention 機(jī)制。例如:輸入是 TCHW 這樣一個維度,然后通過矩陣相乘得到一個全局關(guān)系矩陣 THWxTHW,得到 feature map 中每個點(diǎn)和其他點(diǎn)的相關(guān)性,從而讓網(wǎng)絡(luò)結(jié)構(gòu)近乎有全局感受野。
增強(qiáng)感知能力——3D Non local
但該結(jié)構(gòu)有一個缺點(diǎn),特別是在視頻特征上,全局關(guān)系矩陣的維度很高,維度大小為(THW)^2。從而導(dǎo)致參數(shù)量劇增,使得這個結(jié)構(gòu)無法承受所有的 3D non local 參數(shù)量。
因此,我們利用了一種 separate non local 的形式來解決這個問題,分別在空間維度、通道維度、時間維度做了 self-attention,減少所需參數(shù)量,并增大感受野。在實(shí)驗(yàn)過程中,這個模塊帶來了將近 0.3db 的性能增益。
增強(qiáng)感知能力——separate non local
時序特征不充分優(yōu)化
在 EDVR 做視頻幀融合的時候,提出了一種叫 Temporal and Spatial Attention,具體做法是所有幀跟中間幀去優(yōu)化一個 attention map,但這忽略了鄰幀之間的信息。
雖然在前面已經(jīng)做過對齊,但這個過程很難做到完全準(zhǔn)確,所以幀之間仍然具有一定的時域信息。
因此我們在這部分利用一個 3D 卷積來捕獲幀間信息,這個部分取得了 0.1db 的增益。
時序特征不充分優(yōu)化——融合模塊
提高特征表達(dá)效率
EDVR 的重建模塊由 40 層的 resblock 堆疊而成,盡管深層網(wǎng)絡(luò)結(jié)構(gòu)增加了跳接結(jié)構(gòu),但依然難以保證訓(xùn)練的高效性,所以我們利用了一種 channel attention 的機(jī)制來處理這個問題。
channel attention 為 feature map 的每一個通道分配一個權(quán)重,從而讓網(wǎng)絡(luò)去關(guān)注特征中對超分更有信息量的部分。具體做法是利用 average pooling 和全連接結(jié)構(gòu)來學(xué)習(xí)這個通道權(quán)重,再乘回原來的 feature map。這一優(yōu)化使得該方法的性能提高了 0.23db。
提高特征表達(dá)效率——channel attention
我們在前 800 個視頻上訓(xùn)練,在 800-849 這些視頻上抽幀測試,結(jié)果如下圖所示。其中 base 是指該網(wǎng)絡(luò)使用了 20 層的重建模塊,large 是使用了 40 層的重建模塊。
Base 模型下各個模塊的性能增益分析
結(jié)果顯示,separate non local 模塊在參數(shù)量和 flops 增加不大的情況下,性能提升了近 0.3db;3D 卷積模塊帶來了 0.1db 的性能增益,channel attention 模塊帶來了 0.23db 的性能增益,所有模塊合計(jì)共獲得 0.4db 的性能增益。
Large 模型下各個模塊的性能增益分析
上圖則顯示了 large 模型下的實(shí)驗(yàn)結(jié)果??梢钥吹剑琫dvr large model 性能是 35.75db,而當(dāng)我們使用一個 20 層的 base model 就能夠超過該 large model 的性能,并且參數(shù)量和 flops 都消耗更少。
如果把模型再加到大模型,最終模型可得到 35.97db 的 PSNR,這與原始 EDVR base model 比較,提高了 0.1db 的性能增益,但同時模型的參數(shù)量和 flops 將會大幅度增加。這部分的增益性價比不高,也表明了我們的結(jié)構(gòu)更有利于在有限參數(shù)下獲得更好的性能。
而在可視化上,我們的結(jié)構(gòu)和 EDVR 的對比,該網(wǎng)絡(luò)在一些文字的細(xì)節(jié)恢復(fù)上效果更好。
可視化實(shí)驗(yàn)結(jié)果對比
我們的方法主要有三個創(chuàng)新點(diǎn):
利用 separate non local 提高了網(wǎng)絡(luò)感受野,增強(qiáng)了感知能力,最終實(shí)現(xiàn)利用小模型獲得大模型的性能,提高性能的同時也降低了訓(xùn)練難度;
利用 3D 卷積的方式捕獲幀間信息,提高了特征時序信息的完整度;
利用 channel attention 提高了特征的表達(dá)能力效率的同時,增大了模型的性能增益;
目前,該方法的優(yōu)點(diǎn)是在相同性能下,模型使用的網(wǎng)絡(luò)參數(shù)更少,訓(xùn)練更簡單;缺點(diǎn)則是由于模型未能去掉 EDVR 中的可變卷積,這一結(jié)構(gòu)存在訓(xùn)練不穩(wěn)定性的問題,這也是我們未來進(jìn)一步優(yōu)化的方向。另外,目前這一模型依然會存在泛化能力問題,如何在退化模型未知的情況下獲得更好的超分效果,這可能是未來超分領(lǐng)域一個值得深入研究的問題。
雷鋒網(wǎng) AI 開發(fā)者
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。