2
本文作者: 陳鳴鳩 | 編輯:郭奕欣 | 2017-04-25 09:44 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網(wǎng)AI科技評論的編輯們也將從法國帶來一線報道。近期,雷鋒網(wǎng)也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。
圖像超分辨率 (Super-Resolution, SR) 是一個不確定的逆向問題,相同的一張下采樣(Downsampled)圖像,進過圖像超分辨率處理后,得出與原圖相似的高分辨率圖像卻往往是不止一張,而是有很多張。當前大多數(shù)的單一圖像進行超分辨率處理的方法是運用經(jīng)驗風險最小化 (Empirical Risk Minimisation, ERM) 原則,這時候一般情況下會出現(xiàn)單像素大小的均方誤差 (Mean Squared Error, MSE) 損失。
但是,采用經(jīng)驗風險最小化原則處理得出的圖像,像素之間的過度往往過度平滑,從而造成圖像模糊,整體效果看起來與原圖差別較大。比使用經(jīng)驗風險最小化原則更理想的方法,是使用最大后驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下,得到高像素圖像的可能性更高,因此得出的圖像往往更接近原圖。
Twitter 及哥本哈根的研究人員在獲得ICLR 2017 oral paper的《Amortised MAP Inference for Image Super-Resolution》中表示,在超分辨率處理過程中,直接對低像素圖像進行最大后驗概率估值是非常重要的,就像如果想要確保樣圖圖像先驗,就需要先構(gòu)建一個模型一樣地重要。想要進行攤銷最大后驗概率推斷,從而直接計算出最大后驗概率估值,本文在這一步引入的新方法是使用卷積神經(jīng)網(wǎng)絡(luò)。而為了確保網(wǎng)絡(luò)輸入低分辨率圖像后,能始終如一地輸出相應的高分辨率圖像,研究人員創(chuàng)造性地引入了新型神經(jīng)網(wǎng)絡(luò)架構(gòu),在這個網(wǎng)絡(luò)里,有效解決超分辨率的方法是,向仿射子空間進行投影。使用新型架構(gòu)的結(jié)果顯示,攤銷最大后驗概率推理,能減少到兩個分布之間的最小化交叉熵,這個結(jié)果與生成模型經(jīng)過訓練后得到的結(jié)果相類似。如何對結(jié)果進行優(yōu)化,論文里提出了三種方法:
(1)生成式對抗網(wǎng)絡(luò) (GAN)
(2)去噪指導超分辨率,從去噪過程中反向推導去噪的梯度估值,從而訓練網(wǎng)絡(luò)
(3)基線法,該方法使用最大似然訓練圖像先驗
實驗表明,使用真實圖像數(shù)據(jù),基于生成式對抗網(wǎng)絡(luò)得到的圖像最接近原圖。最后,在變分自動編碼器的舉例中,成功建立了生成式對抗網(wǎng)絡(luò)和攤銷變異推斷之間的聯(lián)系。
論文結(jié)果展示:
四組經(jīng)過超像素處理的青草質(zhì)感對比圖
頂行中 x 為輸入模型的低分辨率圖像, y 為高分辨率原圖;剩余頂行各欄為模型根據(jù)相應算法輸出的圖像。 底行為頂行相應圖像的局部放大圖。從局部放大圖可知, AffGAN 得出的圖像比 AffMSE 得出的圖像效果更銳利更清晰。 請注意,AffDAE 和 AffLL 都只能得出非常模糊的圖像。圖中第三列是未經(jīng)仿射投影訓練的模型輸出的圖像,這個模型采用基線法,例圖已經(jīng)是該模型得出最佳上采樣效果的圖像。
四組經(jīng)過超像素處理的明星肖像
x 為輸入模型的低分辨率圖像, y 為高分辨率原圖,其余為各算法的輸出圖像。 AffGAN 和 SoftGAN 輸出的圖像都比 MSE 輸出的圖像更銳利更清晰。 與 SoftGAN 輸出的圖像相比,AffGAN 輸出的圖像稍微銳利一些,高頻噪聲(噪點)卻更多。
原圖采集自 ImageNET ,四組分辨率從32×32到128×128不等的圖像 ,使用 AffGAN 進行超分辨率處理,輸出圖像如上圖所示。
最上面一行是輸出圖像,中間一行是原圖,最下面一行是輸入模型的圖像??傮w來看, AffGAN 輸出的圖像比較接近原圖,但和原圖的區(qū)別還是顯而易見的。有趣的是,第三列中,蛇身幾乎和水融為一體,這顯然是不合理的,但考慮到低分辨率輸入圖像,輸出圖像已經(jīng)逼真了很多。
評價:所有審評者都認為,這是一篇高質(zhì)量、值得刊登出來的原創(chuàng)論文
決定:口頭報告 (Oral)
評論1:這是一篇非常好的論文。論文里有許多新穎的想法,文筆非常好,很好地執(zhí)行了設(shè)計的實驗,也得出了優(yōu)異的實驗結(jié)果。
在第3-3.1節(jié)中的分析,看到把 DAE 應用于3.3節(jié)的內(nèi)容,據(jù)我所知這個做法是非常新穎的,很有科研價值。圖1(第1節(jié))所表達的內(nèi)容非常明確。5.6節(jié)提到爭議非常有趣,如果認真探究這些爭議,很有可能引出新的研究方向,關(guān)于“生成可信樣本 (producing plausible samples) ”問題,如果能得出確切的數(shù)學,意義是非常重大的,然而現(xiàn)在這個問題還遠未解決。
次要評論/問題:
·請問是否與分段化或者結(jié)構(gòu)化預測中使用的架構(gòu)進行過比較?因為利用反向 KL 來訓練條件單峰分布,使用平均場 CRF 這個方法時,您自然而然地需要選擇一種模式,這種模式得出的圖像,就像您之前得出的圖像那樣銳利。例如連續(xù)變量這樣的問題,可以像 pixel CNN 那樣通過離散化來改善。另一個優(yōu)點是,這些架構(gòu)非常穩(wěn)定,可以用比論文里面還要大的模型進行訓練。
·第3頁第二項 employs 應用單數(shù) employ (此處在原文已改正)。
評論2:新穎的方法論
打分結(jié)果:8:入選論文的 Top 50%,毫無疑問獲得入選
評論內(nèi)容:這篇論文提出了一個解決超分辨率問題的新框架 ——攤銷最大后驗概率推斷,并且為了確保輸入低分辨率圖像能穩(wěn)定輸出相應的高分辨率圖像,研究人員創(chuàng)新性地加入了一個預先學習的仿射投影層。此外,論文還提出了三種解決交叉熵最小化問題的方法??偟膩碚f,這是一篇很棒的論文,然而我還是有以下幾個問題:
1.提議的攤銷最大后驗概率推理,與以往的超分辨率解決方法都不同。結(jié)合生成式對抗網(wǎng)絡(luò) ,該框架可以獲得接近原圖的優(yōu)異圖像結(jié)果。和另一種基于生成式對抗網(wǎng)絡(luò)的超分辨率解決方法——基于生成式對抗網(wǎng)絡(luò),圖像逼真的單一圖像超分辨率——相比,這種新方法對解決圖像超分辨率問題的最先進技術(shù)的貢獻是什么?
2.使用仿射投影架構(gòu),該模型不需要使用任何高分辨率和低分辨率圖像組進行訓練。然而這個架構(gòu)的限制是,當訓練仿射投影層時,仍然需要相應的高分辨率和低分辨率圖像組,這是否意味著只是把這個訓練過程轉(zhuǎn)化為對仿射投影的訓練?
3.論文展示了對多種源圖像進行超分辨處理后的圖像,包括使用 ImageNet 圖像,以及其他來源圖像。為了方便與以前方法得出的圖像進行比較,是否可以提供利用超分辨率常規(guī)測試數(shù)據(jù)集5、常規(guī)測試數(shù)據(jù)集14或者 BSD100 而得出的圖像?
4.可以看到本文示例的輸出圖像的分辨率限制在128×128,然而進行超分辨率處理的圖像,任意大小都有,這時新框架能否在更大尺寸的圖像上出色表現(xiàn)呢?
5.正常的生成式對抗網(wǎng)絡(luò)有一個噪聲項,當學習一個分布時,噪聲項能更清晰地展現(xiàn)學習情況。有嘗試過使用噪音矢量嗎?
總體而言,本文為解決超分辨率問題提供了一個具有扎實理論分析的新框架。雖然論文里的想法很新穎,研究人員也探索了很多方法,但仍然遺漏了某些問題的必要性,還需要進行更多實驗。這項工作將大大地啟發(fā)同領(lǐng)域的其他研究人員。
評審1:
打分結(jié)果:9:入選論文的 Top15%,強烈建議該論文入選
評審情況:為遲遲未進行評審獻上真誠的歉意。
這篇論文認為將超分辨率問題看作攤銷最大后驗概率估值。為了確保低分辨率圖像輸入能穩(wěn)定輸出相應高分辨率圖像,研究人員提出了投影方案,并且通過實驗驗證,得出的圖像結(jié)果確實比其他方法更佳。還進一步測試為了解決方程9中產(chǎn)生的交叉熵問題而提出的三種解決方法。
總結(jié):這是一篇非常好的論文,文筆很好,問題的呈現(xiàn)和解決思路都表達得很清晰,實驗結(jié)果也足夠多。從文章可以看出,所用的 toy example 經(jīng)過精心挑選,而且應用范圍很接近現(xiàn)實生活。根據(jù)我的理解,3.2、3.3、3.4節(jié)對超分辨率領(lǐng)域做出了新穎的貢獻,但某些生成式對抗網(wǎng)絡(luò)的訓練變體,已經(jīng)在其他地方出現(xiàn)過(另見討論)。這篇論文基于生成式對抗網(wǎng)絡(luò)模型的訓練,得到了最具視覺吸引力的成果,這個發(fā)現(xiàn)表明了在這一領(lǐng)域,未來還可以取得進一步研究成果。我認為本文將與在未來超分辨率領(lǐng)域取得的進展息息相關(guān)。
此前應該再次通讀手稿,論文存在少許需要修改的拼寫錯誤。
評審2:有趣的論文
打分結(jié)果:7:好論文,入選
評審情況:本文提出了攤銷最大后驗概率估值方法來解決超分辨率問題。正是為了解決這個問題,論文通過學習神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)中學習向仿射子空間進行投射,來保證輸入低分辨率圖像能穩(wěn)定輸出相應的高分辨率圖像,從中提出了以下幾種解決方法:生成式對抗網(wǎng)絡(luò),噪聲輔助優(yōu)化和密度輔助優(yōu)化。
在幾個數(shù)據(jù)集上得到的結(jié)果很好地證明這個方法是可行的。
雖然我覺得論文還可以繼續(xù)打磨,文中展示的問題也還可以表述地更加透徹,但我現(xiàn)在就非常喜歡這篇論文了??凑撐臅r,有時候很難跟得上文章的思維,而且考慮到某些問題的復雜性,如果把問題剖析得更簡單一點,論文會更加完美。另外,我非常樂意看到更多關(guān)于結(jié)果和網(wǎng)絡(luò)的分析 -——它們學到了什么功能?
評審3:Instance noise
評論內(nèi)容:Salimans等人2016年在論文(https://github.com/openai/improved-gan)中,關(guān)于改進生成式對抗網(wǎng)絡(luò)的補充部分,盡管描述地非常模糊,但他們也在輸入端的鑒頻器中加入了高斯噪聲。而這篇論文提供了更多關(guān)于 Instance noise 為什么也能影響輸出圖像質(zhì)量的理論,我認為這是一個實實在在的貢獻。
更多資訊請關(guān)注雷鋒網(wǎng)。
via openreview, 雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章