Twitter在超分辨率技術(shù)上取得新進(jìn)展，能還原打碼圖片｜ICLR 2017

本文作者：陳鳴鳩

編輯：郭奕欣

2017-04-25 09:44

專題：ICLR 2017

導(dǎo)語：以往超分辨率技術(shù)處理低像素圖像的效果不如人意，采用新技術(shù)還原低像素圖像，效果更清晰更銳利。

雷鋒網(wǎng)AI科技評論按：ICLR 2017 于4月24-26日在法國土倫舉行，雷鋒網(wǎng)AI科技評論的編輯們也將從法國帶來一線報道。近期，雷鋒網(wǎng)也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道，敬請期待。

圖像超分辨率 (Super-Resolution, SR) 是一個不確定的逆向問題，相同的一張下采樣（Downsampled）圖像，進(jìn)過圖像超分辨率處理后，得出與原圖相似的高分辨率圖像卻往往是不止一張，而是有很多張。當(dāng)前大多數(shù)的單一圖像進(jìn)行超分辨率處理的方法是運用經(jīng)驗風(fēng)險最小化 (Empirical Risk Minimisation, ERM) 原則，這時候一般情況下會出現(xiàn)單像素大小的均方誤差 (Mean Squared Error, MSE) 損失。

但是，采用經(jīng)驗風(fēng)險最小化原則處理得出的圖像，像素之間的過度往往過度平滑，從而造成圖像模糊，整體效果看起來與原圖差別較大。比使用經(jīng)驗風(fēng)險最小化原則更理想的方法，是使用最大后驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下，得到高像素圖像的可能性更高，因此得出的圖像往往更接近原圖。

Twitter 及哥本哈根的研究人員在獲得ICLR 2017 oral paper的《Amortised MAP Inference for Image Super-Resolution》中表示，在超分辨率處理過程中，直接對低像素圖像進(jìn)行最大后驗概率估值是非常重要的，就像如果想要確保樣圖圖像先驗，就需要先構(gòu)建一個模型一樣地重要。想要進(jìn)行攤銷最大后驗概率推斷，從而直接計算出最大后驗概率估值，本文在這一步引入的新方法是使用卷積神經(jīng)網(wǎng)絡(luò)。而為了確保網(wǎng)絡(luò)輸入低分辨率圖像后，能始終如一地輸出相應(yīng)的高分辨率圖像，研究人員創(chuàng)造性地引入了新型神經(jīng)網(wǎng)絡(luò)架構(gòu)，在這個網(wǎng)絡(luò)里，有效解決超分辨率的方法是，向仿射子空間進(jìn)行投影。使用新型架構(gòu)的結(jié)果顯示，攤銷最大后驗概率推理，能減少到兩個分布之間的最小化交叉熵，這個結(jié)果與生成模型經(jīng)過訓(xùn)練后得到的結(jié)果相類似。如何對結(jié)果進(jìn)行優(yōu)化，論文里提出了三種方法：

（1）生成式對抗網(wǎng)絡(luò) (GAN)

（2）去噪指導(dǎo)超分辨率，從去噪過程中反向推導(dǎo)去噪的梯度估值，從而訓(xùn)練網(wǎng)絡(luò)

（3）基線法，該方法使用最大似然訓(xùn)練圖像先驗

實驗表明，使用真實圖像數(shù)據(jù)，基于生成式對抗網(wǎng)絡(luò)得到的圖像最接近原圖。最后，在變分自動編碼器的舉例中，成功建立了生成式對抗網(wǎng)絡(luò)和攤銷變異推斷之間的聯(lián)系。

論文結(jié)果展示：

Twitter在超分辨率技術(shù)上取得新進(jìn)展，能還原打碼圖片｜ICLR 2017

四組經(jīng)過超像素處理的青草質(zhì)感對比圖

頂行中 x 為輸入模型的低分辨率圖像， y 為高分辨率原圖；剩余頂行各欄為模型根據(jù)相應(yīng)算法輸出的圖像。底行為頂行相應(yīng)圖像的局部放大圖。從局部放大圖可知， AffGAN 得出的圖像比 AffMSE 得出的圖像效果更銳利更清晰。請注意，AffDAE 和 AffLL 都只能得出非常模糊的圖像。圖中第三列是未經(jīng)仿射投影訓(xùn)練的模型輸出的圖像，這個模型采用基線法，例圖已經(jīng)是該模型得出最佳上采樣效果的圖像。

Twitter在超分辨率技術(shù)上取得新進(jìn)展，能還原打碼圖片｜ICLR 2017

四組經(jīng)過超像素處理的明星肖像

x 為輸入模型的低分辨率圖像， y 為高分辨率原圖，其余為各算法的輸出圖像。 AffGAN 和 SoftGAN 輸出的圖像都比 MSE 輸出的圖像更銳利更清晰。與 SoftGAN 輸出的圖像相比，AffGAN 輸出的圖像稍微銳利一些，高頻噪聲（噪點）卻更多。

Twitter在超分辨率技術(shù)上取得新進(jìn)展，能還原打碼圖片｜ICLR 2017

原圖采集自 ImageNET ，四組分辨率從32×32到128×128不等的圖像，使用 AffGAN 進(jìn)行超分辨率處理，輸出圖像如上圖所示。

最上面一行是輸出圖像，中間一行是原圖，最下面一行是輸入模型的圖像。總體來看， AffGAN 輸出的圖像比較接近原圖，但和原圖的區(qū)別還是顯而易見的。有趣的是，第三列中，蛇身幾乎和水融為一體，這顯然是不合理的，但考慮到低分辨率輸入圖像，輸出圖像已經(jīng)逼真了很多。

ICLR 委員會最終決定

評價：所有審評者都認(rèn)為，這是一篇高質(zhì)量、值得刊登出來的原創(chuàng)論文

決定：口頭報告 (Oral)

在第3-3.1節(jié)中的分析，看到把 DAE 應(yīng)用于3.3節(jié)的內(nèi)容，據(jù)我所知這個做法是非常新穎的，很有科研價值。圖1（第1節(jié)）所表達(dá)的內(nèi)容非常明確。5.6節(jié)提到爭議非常有趣，如果認(rèn)真探究這些爭議，很有可能引出新的研究方向，關(guān)于“生成可信樣本 (producing plausible samples) ”問題，如果能得出確切的數(shù)學(xué)，意義是非常重大的，然而現(xiàn)在這個問題還遠(yuǎn)未解決。

次要評論/問題：

·請問是否與分段化或者結(jié)構(gòu)化預(yù)測中使用的架構(gòu)進(jìn)行過比較？因為利用反向 KL 來訓(xùn)練條件單峰分布，使用平均場 CRF 這個方法時，您自然而然地需要選擇一種模式，這種模式得出的圖像，就像您之前得出的圖像那樣銳利。例如連續(xù)變量這樣的問題，可以像 pixel CNN 那樣通過離散化來改善。另一個優(yōu)點是，這些架構(gòu)非常穩(wěn)定，可以用比論文里面還要大的模型進(jìn)行訓(xùn)練。

·第3頁第二項 employs 應(yīng)用單數(shù) employ （此處在原文已改正）。

評論2：新穎的方法論

打分結(jié)果：8：入選論文的 Top 50％，毫無疑問獲得入選

評論內(nèi)容：這篇論文提出了一個解決超分辨率問題的新框架 ——攤銷最大后驗概率推斷，并且為了確保輸入低分辨率圖像能穩(wěn)定輸出相應(yīng)的高分辨率圖像，研究人員創(chuàng)新性地加入了一個預(yù)先學(xué)習(xí)的仿射投影層。此外，論文還提出了三種解決交叉熵最小化問題的方法?？偟膩碚f，這是一篇很棒的論文，然而我還是有以下幾個問題：

1.提議的攤銷最大后驗概率推理，與以往的超分辨率解決方法都不同。結(jié)合生成式對抗網(wǎng)絡(luò) ，該框架可以獲得接近原圖的優(yōu)異圖像結(jié)果。和另一種基于生成式對抗網(wǎng)絡(luò)的超分辨率解決方法——基于生成式對抗網(wǎng)絡(luò)，圖像逼真的單一圖像超分辨率——相比，這種新方法對解決圖像超分辨率問題的最先進(jìn)技術(shù)的貢獻(xiàn)是什么？

2.使用仿射投影架構(gòu)，該模型不需要使用任何高分辨率和低分辨率圖像組進(jìn)行訓(xùn)練。然而這個架構(gòu)的限制是，當(dāng)訓(xùn)練仿射投影層時，仍然需要相應(yīng)的高分辨率和低分辨率圖像組，這是否意味著只是把這個訓(xùn)練過程轉(zhuǎn)化為對仿射投影的訓(xùn)練？

3.論文展示了對多種源圖像進(jìn)行超分辨處理后的圖像，包括使用 ImageNet 圖像，以及其他來源圖像。為了方便與以前方法得出的圖像進(jìn)行比較，是否可以提供利用超分辨率常規(guī)測試數(shù)據(jù)集5、常規(guī)測試數(shù)據(jù)集14或者 BSD100 而得出的圖像？

4.可以看到本文示例的輸出圖像的分辨率限制在128×128，然而進(jìn)行超分辨率處理的圖像，任意大小都有，這時新框架能否在更大尺寸的圖像上出色表現(xiàn)呢？

5.正常的生成式對抗網(wǎng)絡(luò)有一個噪聲項，當(dāng)學(xué)習(xí)一個分布時，噪聲項能更清晰地展現(xiàn)學(xué)習(xí)情況。有嘗試過使用噪音矢量嗎？

總體而言，本文為解決超分辨率問題提供了一個具有扎實理論分析的新框架。雖然論文里的想法很新穎，研究人員也探索了很多方法，但仍然遺漏了某些問題的必要性，還需要進(jìn)行更多實驗。這項工作將大大地啟發(fā)同領(lǐng)域的其他研究人員。

評審

評審1：

打分結(jié)果：9：入選論文的 Top15％，強(qiáng)烈建議該論文入選

評審情況：為遲遲未進(jìn)行評審獻(xiàn)上真誠的歉意。

這篇論文認(rèn)為將超分辨率問題看作攤銷最大后驗概率估值。為了確保低分辨率圖像輸入能穩(wěn)定輸出相應(yīng)高分辨率圖像，研究人員提出了投影方案，并且通過實驗驗證，得出的圖像結(jié)果確實比其他方法更佳。還進(jìn)一步測試為了解決方程9中產(chǎn)生的交叉熵問題而提出的三種解決方法。

總結(jié)：這是一篇非常好的論文，文筆很好，問題的呈現(xiàn)和解決思路都表達(dá)得很清晰，實驗結(jié)果也足夠多。從文章可以看出，所用的 toy example 經(jīng)過精心挑選，而且應(yīng)用范圍很接近現(xiàn)實生活。根據(jù)我的理解，3.2、3.3、3.4節(jié)對超分辨率領(lǐng)域做出了新穎的貢獻(xiàn)，但某些生成式對抗網(wǎng)絡(luò)的訓(xùn)練變體，已經(jīng)在其他地方出現(xiàn)過（另見討論）。這篇論文基于生成式對抗網(wǎng)絡(luò)模型的訓(xùn)練，得到了最具視覺吸引力的成果，這個發(fā)現(xiàn)表明了在這一領(lǐng)域，未來還可以取得進(jìn)一步研究成果。我認(rèn)為本文將與在未來超分辨率領(lǐng)域取得的進(jìn)展息息相關(guān)。

此前應(yīng)該再次通讀手稿，論文存在少許需要修改的拼寫錯誤。

評審2：有趣的論文

打分結(jié)果：7：好論文，入選

評審情況：本文提出了攤銷最大后驗概率估值方法來解決超分辨率問題。正是為了解決這個問題，論文通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，在網(wǎng)絡(luò)中學(xué)習(xí)向仿射子空間進(jìn)行投射，來保證輸入低分辨率圖像能穩(wěn)定輸出相應(yīng)的高分辨率圖像，從中提出了以下幾種解決方法：生成式對抗網(wǎng)絡(luò)，噪聲輔助優(yōu)化和密度輔助優(yōu)化。

在幾個數(shù)據(jù)集上得到的結(jié)果很好地證明這個方法是可行的。

雖然我覺得論文還可以繼續(xù)打磨，文中展示的問題也還可以表述地更加透徹，但我現(xiàn)在就非常喜歡這篇論文了?？凑撐臅r，有時候很難跟得上文章的思維，而且考慮到某些問題的復(fù)雜性，如果把問題剖析得更簡單一點，論文會更加完美。另外，我非常樂意看到更多關(guān)于結(jié)果和網(wǎng)絡(luò)的分析 -——它們學(xué)到了什么功能？

評審3：Instance noise

評論內(nèi)容：Salimans等人2016年在論文（https://github.com/openai/improved-gan）中，關(guān)于改進(jìn)生成式對抗網(wǎng)絡(luò)的補(bǔ)充部分，盡管描述地非常模糊，但他們也在輸入端的鑒頻器中加入了高斯噪聲。而這篇論文提供了更多關(guān)于 Instance noise 為什么也能影響輸出圖像質(zhì)量的理論，我認(rèn)為這是一個實實在在的貢獻(xiàn)。

更多資訊請關(guān)注雷鋒網(wǎng)。

via openreview, 雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。