0
本文作者: 楊鯉萍 | 2019-12-24 11:10 | 專題:首屆“全國人工智能大賽” |
雷鋒網(wǎng)按:截至當(dāng)前,首屆「全國人工智能大賽」已經(jīng)步入了復(fù)賽階段。在初賽的「AI+4K HDR」賽項(xiàng)中,大賽評(píng)委采用了視頻評(píng)價(jià)的行業(yè)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo) PSNR、SSIM、VMAF 等進(jìn)行了綜合打分;最終在 1.5 K 次有效提交中,選出了前 100 支晉級(jí)隊(duì)伍。
其中,由一名在讀研究生和一名算法工程師組成的團(tuán)隊(duì)「Webbzhou」,榮獲了初賽中「AI+4K HDR」賽項(xiàng)季軍。賽后,雷鋒網(wǎng)針對(duì)晉級(jí)作品中的算法、預(yù)處理、后處理、工程設(shè)計(jì)等創(chuàng)新思路與該團(tuán)隊(duì)負(fù)責(zé)人進(jìn)行了探討,并將這些有益于開發(fā)者實(shí)踐操作的內(nèi)容整理如下。
「AI+4K HDR」賽項(xiàng)官網(wǎng):
https://www.kesci.com/home/competition/5d84728ab1468c002ca1825a
雷鋒網(wǎng):可以向我們簡單介紹一下你們的團(tuán)隊(duì)嗎?在本次大賽中,團(tuán)隊(duì)內(nèi)的分工是怎樣的呢?
Webbzhou:我們的團(tuán)隊(duì)共有 2 名成員,一名是福州大學(xué)物信學(xué)院在讀研究生,而另一名是福建帝視信息科技有限公司的算法工程師。在這次大賽中,我們既有各自的分工,也有共同的合作;分工內(nèi)容主要體現(xiàn)在兩部分,其中一人負(fù)責(zé)數(shù)據(jù)處理,另一人負(fù)責(zé)算法設(shè)計(jì);合作部分則是共同完成算法的實(shí)現(xiàn)。
雷鋒網(wǎng):是什么原因使你們組成了「混搭」團(tuán)隊(duì),來參加「全國人工智能大賽」呢?
Webbzhou:從比賽規(guī)??梢钥闯?,該比賽是目前國內(nèi)最頂級(jí)的人工智能賽事之一。因此,一方面,我們希望能夠通過參加此次比賽結(jié)識(shí)該領(lǐng)域中志同道合的朋友;另一方面,在參賽過程中還能進(jìn)一步了解到該領(lǐng)域的前沿實(shí)況,并且在實(shí)踐中充分鍛煉自身的能力。
雷鋒網(wǎng):既然選擇了這樣的組隊(duì)方式,那團(tuán)隊(duì)在本次競賽中是否有更強(qiáng)的優(yōu)勢呢?
Webbzhou:正是憑借福州大學(xué)和福建帝視信息科技有限公司這樣一種校企聯(lián)合、產(chǎn)學(xué)結(jié)合的方式,我們團(tuán)隊(duì)在本次參賽中獲得了技術(shù)和創(chuàng)新上的巨大優(yōu)勢。
在這樣的條件下,借助學(xué)校研究資源,我們則能夠獲得豐富的理論基礎(chǔ);而借助公司平臺(tái),我們能夠了解相關(guān)行業(yè)技術(shù)的最新發(fā)展動(dòng)向以及實(shí)踐經(jīng)驗(yàn)。這在整個(gè)參賽過程中,都為團(tuán)隊(duì)提供了一定的優(yōu)勢。
雷鋒網(wǎng):在整個(gè)賽題籌備過程中,團(tuán)隊(duì)都做了哪些準(zhǔn)備工作呢?
Webbzhou:我們研究方向主要是圖像/視頻增強(qiáng)與超分,因此我們?cè)谫惽伴喿x大量的圖像/視頻處理文獻(xiàn),而正是這些文獻(xiàn)給了我們之后的很多思路和靈感。
而在拿到數(shù)據(jù)后,我們對(duì)數(shù)據(jù)進(jìn)行了抽幀、切分、清洗。然后再經(jīng)過方案設(shè)計(jì)、討論,到具體的實(shí)驗(yàn)設(shè)計(jì)與分析。最終,充分考慮到權(quán)衡資源和指標(biāo)/主觀效果的問題之后,我們做出了選擇 SISR 方案的決定。
雷鋒網(wǎng):針對(duì) AI+4K HDR 賽項(xiàng),團(tuán)隊(duì)是如何解讀該賽題的呢?
Webbzhou:從 AI+4K HDR 的題面來看,它包含了三個(gè)關(guān)鍵詞,這三個(gè)關(guān)鍵詞一一對(duì)應(yīng)于
AI 計(jì)算機(jī)視覺近年來憑借深度學(xué)習(xí)的發(fā)展已遍地開花,在畫質(zhì)增強(qiáng)技術(shù)方面有了極大的進(jìn)展,如 RCAN/ESRGAN/EDVR 等針對(duì)圖像視頻的超分模型一次次刷新指標(biāo)的天花板。
4K 目前的視頻規(guī)格已經(jīng)從高清轉(zhuǎn)向了 4K。4K 視頻的拍攝、存儲(chǔ)、傳輸?shù)拇鷥r(jià)都是十分高昂的,如果能在終端將高清甚至是標(biāo)清的視頻以無損畫質(zhì)的技術(shù)轉(zhuǎn)為 4K,那意味著可以在編碼傳輸過程中節(jié)省大量的帶寬成本,因此超分具有巨大的潛在商業(yè)價(jià)值。
HDR 而 HDR 可以提供更多的動(dòng)態(tài)范圍和圖像細(xì)節(jié),因此近年來 SDR 2 HDR 也成為高畫質(zhì)視頻圖像中必不可少的一個(gè)技術(shù)環(huán)節(jié)。
因此綜上所述,結(jié)合當(dāng)下亟需解決的問題而言,我們對(duì)賽題的解讀則是利用 AI 畫質(zhì)增強(qiáng)技術(shù),將標(biāo)高清 SDR 視頻盡可能無損地轉(zhuǎn)換到 4K HDR 視頻。
雷鋒網(wǎng):面對(duì)當(dāng)前的 AI+4K HDR 形勢,你們認(rèn)為可以從哪些方面實(shí)現(xiàn)改進(jìn)與突破呢?
Webbzhou:從目前看來,NAS(網(wǎng)絡(luò)結(jié)構(gòu)搜索)可能會(huì)是今后發(fā)展?jié)摿^大的一方向,它可以通過定向搜索提高網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)性能并降低功耗,加快 AI+4K HDR 的服務(wù)端乃至終端的部署。
另外,有監(jiān)督向半監(jiān)督或無監(jiān)督方向的轉(zhuǎn)變也可能會(huì)是之后的發(fā)展趨勢。這樣的改變能夠?qū)⒄鎸?shí)場景低清數(shù)據(jù)分布轉(zhuǎn)向非成對(duì)的高清數(shù)據(jù)分布,不僅可直接利用互聯(lián)網(wǎng)海量真實(shí)數(shù)據(jù)且不引入人為退化方法的干擾,而且還可以使真實(shí)場景落地算法具有更強(qiáng)的多樣性、魯棒性。
雷鋒網(wǎng):針對(duì)該賽道的比賽,團(tuán)隊(duì)的在實(shí)際設(shè)計(jì)中都做了哪些嘗試?
Webbzhou:鑒于初賽的主要任務(wù)是去噪和超分,我們嘗試了兩種方案。包括:先去噪后超分,去噪和超分 end-to-end 聯(lián)合訓(xùn)練。
但最后的實(shí)驗(yàn)表明,兩者所達(dá)到的效果差距不大。因此,我們最終選用了更簡單便捷的 end-to-end 方案。
雷鋒網(wǎng):在作品的設(shè)計(jì)與后處理方面,你們的核心思路是什么呢?
Webbzhou:初賽中,我們所面臨的主要問題在于數(shù)據(jù)量過大、抽取的視頻幀較多,尤其是在讀取 4K 的圖片時(shí),會(huì)占用大量 IO,同時(shí)也會(huì)影響到解碼的速度。
因此我們將抽取到的幀進(jìn)行了數(shù)據(jù)切分。我們將這些數(shù)據(jù)切成了很多小塊,這樣處理之后能夠大大加速訓(xùn)練時(shí)的讀取時(shí)間。
同時(shí),考慮到計(jì)算資源和精度問題,我們采用了 SISR 的方法來進(jìn)行處理。當(dāng)然,平衡主觀質(zhì)量和評(píng)價(jià)指標(biāo)也是一大問題,在實(shí)際操作中,我們則是通過大量的實(shí)驗(yàn),最終采用了主觀質(zhì)量和評(píng)價(jià)指標(biāo)一致良好的數(shù)據(jù)方案。
雷鋒網(wǎng):除了 AI+4K HDR 相關(guān)技術(shù),參賽作品中還用到了哪些值得其它團(tuán)隊(duì)借鑒的技術(shù)嗎?
Webbzhou:初賽階段,我們主要采用傳統(tǒng) CV 和 AI 結(jié)合的方案,這樣的方案能夠提高 AI 的可解釋性,更便于理解。
而在訓(xùn)練網(wǎng)絡(luò)過程中,我們采用到了一些常用的技巧,比如:驗(yàn)證集評(píng)估指標(biāo)及輸出可視化,監(jiān)視訓(xùn)練過程讓訓(xùn)練朝著我們的目標(biāo)方向前,經(jīng)過調(diào)優(yōu)的初始化及優(yōu)化策略等方法。
雷鋒網(wǎng):在你看來,團(tuán)隊(duì)的獲獎(jiǎng)作品都有哪些創(chuàng)新點(diǎn)呢?
Webbzhou:初賽階段我們采用對(duì) SISR 中的 RIRB 及 RRDB 模型進(jìn)行了相應(yīng)的優(yōu)化,在計(jì)算力一定的情況下,提升了評(píng)價(jià)指標(biāo)。同時(shí),針對(duì)賽題的評(píng)價(jià)指標(biāo),我們修正了現(xiàn)有的 loss 使得效果明顯提升。
而從算法優(yōu)化來看,我們主要的創(chuàng)新是在 loss 設(shè)計(jì)部分。在整個(gè)比賽過程中,我們一直都認(rèn)為解決好一個(gè)問題的關(guān)鍵在于抓住問題的本質(zhì);而這 loss 部分恰好就是一個(gè)好的優(yōu)化目標(biāo)。這一目標(biāo)最終所體現(xiàn)在作品中的效果,甚至比采用好的優(yōu)化算法要更為關(guān)鍵。
雷鋒網(wǎng):如果參賽選手要想在賽事中取得優(yōu)秀的成績,有哪些要點(diǎn)值得選手們參考呢?
Webbzhou:我們認(rèn)為首先要善于發(fā)現(xiàn)問題和解決問題。初賽中,我們通過抽樣觀看視頻,發(fā)現(xiàn)數(shù)據(jù)中很多干擾的數(shù)據(jù),因此我們對(duì)數(shù)據(jù)進(jìn)行了清洗。其次,作為參賽選手,需要有對(duì)實(shí)驗(yàn)結(jié)果認(rèn)真分析和思考總結(jié)的能力,要善于從大量文獻(xiàn)中找到可行解并進(jìn)行優(yōu)化。
雷鋒網(wǎng):在比賽中是否有目前遇到無法解決的問題?你認(rèn)為目前突破該技術(shù)難點(diǎn)的關(guān)鍵在哪呢?
Webbzhou:對(duì)于超分任務(wù),低清圖的高頻信息損失比較嚴(yán)重。我們認(rèn)為在主觀效果提升方面,GAN 進(jìn)行適量調(diào)整可能是一個(gè)突破口。
雷鋒網(wǎng):能否結(jié)合團(tuán)隊(duì)每位成員的參賽經(jīng)歷和我們談?wù)剠⒓颖荣悓?duì)于個(gè)人成長有哪些幫助?你認(rèn)為這一比賽對(duì)開發(fā)者最大的鍛煉體現(xiàn)在哪里?
Webbzhou:在初賽過程中,雖然命題只包含降噪和超分任務(wù),但視頻退化比學(xué)術(shù)領(lǐng)域研究甚至實(shí)際生活的內(nèi)容要復(fù)雜很多,它涉及到了更多噪聲的融合,因此這給了我們一個(gè)很好的鍛煉機(jī)會(huì),讓我們能夠接觸到更加復(fù)雜的場景問題,豐富了我們的閱歷。
在這個(gè)過程中,我們?cè)诜治鰡栴}和解決問題方面有了很大的進(jìn)步,也能更好的將理論轉(zhuǎn)化為實(shí)踐輸出,而且在團(tuán)隊(duì)合作上,也有了更好的交流溝通能力。除此之外,大賽也幫助我們更精準(zhǔn)的發(fā)現(xiàn)自身不足,使得我們?cè)诮窈蟮膶W(xué)習(xí)和工作中,能夠更有效的提高自身的能力。
更多信息,關(guān)注大賽官網(wǎng):
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。