0
雷鋒網(wǎng) AI 開發(fā)者:近日,持續(xù) 3 個多月的阿里 2019 優(yōu)酷視頻增強和超分辨率挑戰(zhàn)賽終于落下了帷幕,最終,來自中國科學技術(shù)大學智能媒體計算實驗室的研三學生陳嘉樂、單超煒,通過對當下最先進 EDVR 方案的視頻感知能力、時序信息及特征表達三大內(nèi)容進行優(yōu)化與改進,一舉奪得桂冠;并向我們公開了詳細的冠軍方案解讀,雷鋒網(wǎng) AI 開發(fā)者將其整理編輯如下。
視頻增強和超分是計算機視覺領(lǐng)域的核心算法之一,目的是恢復降質(zhì)視頻本身的內(nèi)容,提高視頻的清晰度。該技術(shù)在工業(yè)界有著重要的實用意義,并對于早期膠片視頻的質(zhì)量和清晰度的提升有著重大的意義。
本次大賽「阿里巴巴優(yōu)酷視頻增強和超分辨率挑戰(zhàn)賽」由優(yōu)酷主辦,面向全社會開放,參賽隊伍包括:個人、高等院校、科研單位、企業(yè)、創(chuàng)客團隊等共計 1514 支,賽程分為初賽、復賽、決賽三個階段,設(shè)置獎金池為 230000 元。
大賽提供了業(yè)界最大、最具廣泛性的數(shù)據(jù)集,包括不同內(nèi)容品類,不同噪聲模型、不同難度等,參賽選手需要通過訓練樣本對視頻增強和超分模型進行建模,對測試集中的低分辨率視頻樣本預測高分辨率視頻,提交結(jié)果評分將進行實時更新。
本次獲得大賽冠軍的團隊來自中國科學技術(shù)大學智能媒體計算實驗室(Intelligent Media Computing Lab, IMCL)。
團隊成員包括:陳嘉樂,中國科學技術(shù)大學研三學生,主要的研究方向是強化學習和視覺計算,在本次比賽中主導算法設(shè)計、模型訓練調(diào)試的工作;單超煒,中國科學技術(shù)大學研三學生,主要研究方向是圖像處理和增強,負責算法設(shè)計和模型訓練。
團隊指導老師包括:中國科學技術(shù)大學教授陳志波、中國科學技術(shù)大學博士劉森以及微軟亞研院高級研究員譚旭。
根據(jù)數(shù)據(jù)類型分類,目前的超分辨工作分為圖像超分和視頻超分。
圖像超分
圖像超分領(lǐng)域隨著卷積神經(jīng)網(wǎng)絡的應用,不斷有新的網(wǎng)絡結(jié)構(gòu)取得更優(yōu)的性能,以下 6 種結(jié)構(gòu)是目前圖像超分領(lǐng)域所使用的方法:
殘差結(jié)構(gòu) 目前超分領(lǐng)域普遍認為更深的網(wǎng)絡能夠帶來更優(yōu)性能,但更深的網(wǎng)絡也帶來訓練困難的問題,殘差結(jié)構(gòu)能夠緩解該問題,例如:EDSR;
多分支結(jié)構(gòu) 從增加網(wǎng)絡的寬度來提升性能,也是一種增強特征表達的方式,例如:REDNet;
(以上兩種結(jié)構(gòu)都會帶來巨大的參數(shù)量)
循環(huán)結(jié)構(gòu) 利用共享網(wǎng)絡參數(shù)、循環(huán)遞歸的方式,在減少網(wǎng)絡參數(shù)的情況下提升性能,例如:DRCN;
漸進式結(jié)構(gòu) 把超分辯設(shè)計成多個階段的網(wǎng)絡結(jié)構(gòu),利用逐步增加分辨率的方式,提高超分性能,例如:SCN;
注意力機制 提高特征的表達能力,從而提高性能,例如:RCAN、DRLN;
對抗模型 利用 GAN 的思想生成更符合人眼視覺評價的高分辨率圖片,例如:SRGAN、EnhanceNet、ESRGAN.
視頻超分
視頻超分與圖像超分的區(qū)別主要有兩點,包括:
視頻幀對齊 因為視頻中存在各種運動信息,所以存在參考幀和目標幀的偏差,但超分辯一般需要利用鄰幀跟參考幀做對齊;
視頻幀融合 視頻中存在運動模糊和場景切換的問題,如何有效融合視頻幀,去除干擾信息,對最終的結(jié)果也有影響。
而在這兩方面,視頻超分的主要結(jié)構(gòu)有以下幾個類型:
三維卷積 直接利用 3D 卷積捕捉時域特征的功能,直接做幀間融合;
循環(huán)結(jié)構(gòu) 可用于提取幀間關(guān)系,融合目標幀和參考幀的信息,例如: LSTM 的結(jié)構(gòu)來做幀間融合;
濾波器預測 利用融合后的幀間信息預測濾波器參數(shù),再通過濾波的方式做超分辯,獲得自適應的濾波效果;
根據(jù)對圖像、視頻超分辨相關(guān)特性的分析,本次網(wǎng)絡結(jié)構(gòu)中,我們選擇了將商湯的 EDVR 方案作為建?;A(chǔ)。該方案提出將對齊和融合兩個操作分開處理,可增加模型的可解釋性。最終,整個視頻處理流程分為對齊,融合,重建三個部分。
EDVR 視頻超分辨核心
目前,EDVR 主要存在三點問題,即感知能力不夠強,時序特征不充分,特征表達不高效。針對這幾個問題,我們分別作了對應的優(yōu)化如下。
增強感知能力
EDVR 在做幀間對齊這個任務上提出一個高效的模塊——多尺度的可變卷積模塊。
可變卷積能夠自適應學習 feature map 中最相關(guān)的特征點,即學習一個 offset,然后通過 offset 來利用相關(guān)點做卷積操作;利用多尺度的結(jié)構(gòu)提升了可變卷積的對齊能力,多尺度的網(wǎng)絡結(jié)構(gòu)在各個尺度下完成視頻幀對齊,然后利用不同尺度下的對齊信息來提高對齊操作的感受野;這個模塊的性能提升大概在 0.3db 左右。
增強感知能力——多尺度的可變卷積模塊
第二個優(yōu)化是利用何愷明提出的 Non local neural network。
這個結(jié)構(gòu)借鑒了 NLP 領(lǐng)域的 self-attention 機制。例如:輸入是 TCHW 這樣一個維度,然后通過矩陣相乘得到一個全局關(guān)系矩陣 THWxTHW,得到 feature map 中每個點和其他點的相關(guān)性,從而讓網(wǎng)絡結(jié)構(gòu)近乎有全局感受野。
增強感知能力——3D Non local
但該結(jié)構(gòu)有一個缺點,特別是在視頻特征上,全局關(guān)系矩陣的維度很高,維度大小為(THW)^2。從而導致參數(shù)量劇增,使得這個結(jié)構(gòu)無法承受所有的 3D non local 參數(shù)量。
因此,我們利用了一種 separate non local 的形式來解決這個問題,分別在空間維度、通道維度、時間維度做了 self-attention,減少所需參數(shù)量,并增大感受野。在實驗過程中,這個模塊帶來了將近 0.3db 的性能增益。
增強感知能力——separate non local
時序特征不充分優(yōu)化
在 EDVR 做視頻幀融合的時候,提出了一種叫 Temporal and Spatial Attention,具體做法是所有幀跟中間幀去優(yōu)化一個 attention map,但這忽略了鄰幀之間的信息。
雖然在前面已經(jīng)做過對齊,但這個過程很難做到完全準確,所以幀之間仍然具有一定的時域信息。
因此我們在這部分利用一個 3D 卷積來捕獲幀間信息,這個部分取得了 0.1db 的增益。
時序特征不充分優(yōu)化——融合模塊
提高特征表達效率
EDVR 的重建模塊由 40 層的 resblock 堆疊而成,盡管深層網(wǎng)絡結(jié)構(gòu)增加了跳接結(jié)構(gòu),但依然難以保證訓練的高效性,所以我們利用了一種 channel attention 的機制來處理這個問題。
channel attention 為 feature map 的每一個通道分配一個權(quán)重,從而讓網(wǎng)絡去關(guān)注特征中對超分更有信息量的部分。具體做法是利用 average pooling 和全連接結(jié)構(gòu)來學習這個通道權(quán)重,再乘回原來的 feature map。這一優(yōu)化使得該方法的性能提高了 0.23db。
提高特征表達效率——channel attention
我們在前 800 個視頻上訓練,在 800-849 這些視頻上抽幀測試,結(jié)果如下圖所示。其中 base 是指該網(wǎng)絡使用了 20 層的重建模塊,large 是使用了 40 層的重建模塊。
Base 模型下各個模塊的性能增益分析
結(jié)果顯示,separate non local 模塊在參數(shù)量和 flops 增加不大的情況下,性能提升了近 0.3db;3D 卷積模塊帶來了 0.1db 的性能增益,channel attention 模塊帶來了 0.23db 的性能增益,所有模塊合計共獲得 0.4db 的性能增益。
Large 模型下各個模塊的性能增益分析
上圖則顯示了 large 模型下的實驗結(jié)果。可以看到,edvr large model 性能是 35.75db,而當我們使用一個 20 層的 base model 就能夠超過該 large model 的性能,并且參數(shù)量和 flops 都消耗更少。
如果把模型再加到大模型,最終模型可得到 35.97db 的 PSNR,這與原始 EDVR base model 比較,提高了 0.1db 的性能增益,但同時模型的參數(shù)量和 flops 將會大幅度增加。這部分的增益性價比不高,也表明了我們的結(jié)構(gòu)更有利于在有限參數(shù)下獲得更好的性能。
而在可視化上,我們的結(jié)構(gòu)和 EDVR 的對比,該網(wǎng)絡在一些文字的細節(jié)恢復上效果更好。
可視化實驗結(jié)果對比
我們的方法主要有三個創(chuàng)新點:
利用 separate non local 提高了網(wǎng)絡感受野,增強了感知能力,最終實現(xiàn)利用小模型獲得大模型的性能,提高性能的同時也降低了訓練難度;
利用 3D 卷積的方式捕獲幀間信息,提高了特征時序信息的完整度;
利用 channel attention 提高了特征的表達能力效率的同時,增大了模型的性能增益;
目前,該方法的優(yōu)點是在相同性能下,模型使用的網(wǎng)絡參數(shù)更少,訓練更簡單;缺點則是由于模型未能去掉 EDVR 中的可變卷積,這一結(jié)構(gòu)存在訓練不穩(wěn)定性的問題,這也是我們未來進一步優(yōu)化的方向。另外,目前這一模型依然會存在泛化能力問題,如何在退化模型未知的情況下獲得更好的超分效果,這可能是未來超分領(lǐng)域一個值得深入研究的問題。
雷鋒網(wǎng) AI 開發(fā)者
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。