工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

本文作者：溫曉樺

2017-04-25 16:09

專題：ICLR 2017

導(dǎo)語：會議第一天，主題演講廳座無虛席，全天下來由來自UC伯克利、紐約大學(xué)等的研究團(tuán)隊共進(jìn)行了7場演講；其余時間為Poster Session論文展示交流環(huán)節(jié)。

雷鋒網(wǎng)【AI科技評論】報道，法國當(dāng)?shù)貢r間4月24日，「International Conference on Learning Representations」(國際學(xué)習(xí)表征會議 ICLR )正式在土倫開幕。Yann LeCun 在開場致辭時指出，今年超過 1100 人報名參加了此次會議，比去年多了一倍。

會議第一天，主題演講廳座無虛席，全天下來由來自UC伯克利、紐約大學(xué)等的研究團(tuán)隊共進(jìn)行了7場演講；其余時間為Poster Session論文展示交流環(huán)節(jié)。據(jù)雷鋒網(wǎng)【AI科技評論】了解，總體來說，本屆ICLR是一個GAN撐起半邊天的研究趨勢。

從現(xiàn)場演講氛圍可以看出，ICLR給業(yè)界研究者提供了非常輕松也自由激烈的交流平臺。究竟為何，接下來請與雷鋒網(wǎng)【AI科技評論】一起分享今天的主題報告演講的精華內(nèi)容：

計算機(jī)視覺研究討論占比最大

“視覺質(zhì)感visual texture”的表征學(xué)習(xí)

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

神經(jīng)元群體如何提取/代表視覺信息？
其原理如何匹配以及優(yōu)化我們的視覺環(huán)境？
這些表征如何加強(qiáng)或限制知覺？
我們可以從這些表征中獲取到什么樣的新的原理來應(yīng)用到工程成像或視覺系統(tǒng)？

會議第一名Invited Talk嘉賓，是來自霍華德休斯醫(yī)學(xué)研究所、紐約大學(xué)神經(jīng)學(xué)、數(shù)學(xué)、心理學(xué)系的教授，IEEE fellow Eero Simoncelli。圍繞上述幾點議題，Eero Simoncelli教授提出“視覺質(zhì)感visual texture”的表征學(xué)習(xí)概念和方法。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

Eero Simoncelli構(gòu)建了包含視覺世界屬性、視覺任務(wù)要求，以及生物表現(xiàn)制約的視覺計算模型。他指出，結(jié)合了生物屬性的淺層次模型比預(yù)期中的更強(qiáng)大。此外，合成的方式提供了更強(qiáng)大的表征紋理展示，它可以用于驗證不變性、驗證度量屬性等。

全面超越JPEG 2000的端到端優(yōu)化圖像壓縮

數(shù)據(jù)壓縮是一種基礎(chǔ)工程問題，在數(shù)據(jù)存儲和有限容量信道傳輸中有重要的應(yīng)用。圖像作為一種信息載體，數(shù)據(jù)量巨大，因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上，來自紐約大學(xué)的Johannes Balle 等研究者提出了一種端到端優(yōu)化的圖像壓縮方法，論文題為“End-to-End Optimized Image Compression”。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

根據(jù)論文展示，這種方法包含了三個過程，分別是：非線性分析變換，均勻量化器，以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數(shù)的三個連續(xù)階段中構(gòu)建的。通過一組測試圖像，該方法的表現(xiàn)通常比標(biāo)準(zhǔn)JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是，在所有比特率的所有圖像中，該方法都實現(xiàn)了顯著的視覺上質(zhì)量的提升，這點也被客觀的質(zhì)量評測方法MS-SSIM證明。

超分辨率技術(shù)還原打碼圖片

這篇名為“Amortised MAP Inference for Image Super-resolution”的口頭展示論文，是 Twitter 倫敦實驗室與丹麥哥本哈根大學(xué)的研究成果。

論文摘要指出，圖像超分辨率 (Super-Resolution, SR) 是一個不確定的逆向問題，相同的一張下采樣（Downsampled）圖像，進(jìn)過圖像超分辨率處理后，得出與原圖相似的高分辨率圖像卻往往是不止一張，而是有很多張。當(dāng)前大多數(shù)的單一圖像進(jìn)行超分辨率處理的方法是運用經(jīng)驗風(fēng)險最小化 (Empirical Risk Minimisation, ERM) 原則，這時候一般情況下會出現(xiàn)單像素大小的均方誤差 (Mean Squared Error, MSE) 損失。

但是，采用經(jīng)驗風(fēng)險最小化原則處理得出的圖像，像素之間的過度往往過度平滑，從而造成圖像模糊，整體效果看起來與原圖差別較大。比使用經(jīng)驗風(fēng)險最小化原則更理想的方法，是使用最大后驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下，得到高像素圖像的可能性更高，因此得出的圖像往往更接近原圖。

因此論文表示，在超分辨率處理過程中，直接對低像素圖像進(jìn)行最大后驗概率估值是非常重要的，就像如果想要確保樣圖圖像先驗，就需要先構(gòu)建一個模型一樣地重要。想要進(jìn)行攤銷最大后驗概率推斷，從而直接計算出最大后驗概率估值，本文在這一步引入的新方法是使用卷積神經(jīng)網(wǎng)絡(luò)。

而為了確保網(wǎng)絡(luò)輸入低分辨率圖像后，能始終如一地輸出相應(yīng)的高分辨率圖像，研究人員創(chuàng)造性地引入了新型神經(jīng)網(wǎng)絡(luò)架構(gòu)，在這個網(wǎng)絡(luò)里，有效解決超分辨率的方法是，向仿射子空間進(jìn)行投影。使用新型架構(gòu)的結(jié)果顯示，攤銷最大后驗概率推理，能減少到兩個分布之間的最小化交叉熵，這個結(jié)果與生成模型經(jīng)過訓(xùn)練后得到的結(jié)果相類似。如何對結(jié)果進(jìn)行優(yōu)化，論文里提出了三種方法：

（1）生成式對抗網(wǎng)絡(luò) (GAN)
（2）去噪指導(dǎo)超分辨率，從去噪過程中反向推導(dǎo)去噪的梯度估值，從而訓(xùn)練網(wǎng)絡(luò)
（3）基線法，該方法使用最大似然訓(xùn)練圖像先驗

“我們實驗表明，使用真實圖像數(shù)據(jù)，基于生成式對抗網(wǎng)絡(luò)得到的圖像最接近原圖。最后，在變分自動編碼器的舉例中，成功建立了生成式對抗網(wǎng)絡(luò)和攤銷變異推斷之間的聯(lián)系?！?/p>

泛化——一個理解深度學(xué)習(xí)需要重新思考的問題：最佳論文演講現(xiàn)場被challenge

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

首先本屆ICLR獲得最佳論文的是題為“Understanding deep learning requires rethinking generalization”，該論文由Chiyuan Zhang（麻省理工學(xué)院），Benjamin Recht（加利福尼亞大學(xué)伯克利分校），Samy Bengio、Moritz Hardt（谷歌大腦）和Oriol Vinyals（谷歌深度學(xué)習(xí)）共同完成。

論文摘要介紹稱，有些成功運作的人工神經(jīng)網(wǎng)絡(luò)，盡管體量巨大，但它們在訓(xùn)練和測試性能兩個階段表現(xiàn)出來的結(jié)果卻只存在微小差異。過去大家認(rèn)為這種微小誤差，要么是由于模型譜系自身的特性，要么是由在訓(xùn)練期間使用的正則化技術(shù)所致。

而經(jīng)過大量系統(tǒng)實驗，該論文團(tuán)隊展示了這種傳統(tǒng)觀點是不確切的。具體來說，其實驗證明了用隨機(jī)梯度方法訓(xùn)練的、用于圖像分類的最先進(jìn)的卷積網(wǎng)絡(luò)很容易擬合訓(xùn)練數(shù)據(jù)的隨機(jī)標(biāo)記。這種現(xiàn)象本質(zhì)上不受顯式正則化影響，即使用完全非結(jié)構(gòu)化隨機(jī)噪聲來替換真實圖像也是如此。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

“我們通過一個理論結(jié)構(gòu)證實了實驗結(jié)果。理論結(jié)構(gòu)表明，只要參數(shù)數(shù)量超過實際中通常存在的數(shù)據(jù)點，簡單兩層深度神經(jīng)網(wǎng)絡(luò)（simple depth two neural networks）就能夠產(chǎn)生完美的有限樣本表達(dá)性。通過與傳統(tǒng)模型的比較解釋了我們的實驗結(jié)果?！?/p>

當(dāng)然，現(xiàn)場也不乏其他研究方向的技術(shù)天才，演講者在展示完論文后的提問環(huán)節(jié)中就被challenge了——提問者表示：“那你們這個證明其實很簡單??！”——所有人都等待著演講者的回應(yīng)。

“是很好的問題。但說到簡單，這樣的問題給你們來解決也沒有更好的方法了啊！”

掌聲雷動。

而在同一天的展示中，還有一個討論泛化問題的口頭論文展示，就是（On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima）。隨機(jī)梯度下降法（SGD）及其變體是許多深度學(xué)習(xí)任務(wù)選擇的算法，這些方法以小批量訓(xùn)練采樣數(shù)據(jù)方式操作，例如（32 - 512 ），以計算梯度的近似值。但在這個訓(xùn)練過程中，大的 batch size 會導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降，該論文通過實驗證明其原因是收斂到了sharp minima，并提出了一些解決方案。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

生成對抗網(wǎng)絡(luò)的創(chuàng)造性訓(xùn)練方法

“Towards Principled Methods for Training Generative Adversarial Networks”，來自Martin Arjovsky, Leon Bottou。

該論文是前段時間火熱的 “WGAN 的前作”。2017年2月，一篇新鮮出爐的arXiv論文《Wassertein GAN》在Reddit的Machine Learning頻道火了，而這篇《Wassertein GAN》的理論來源正是前作《Towards Principled Methods for Training Generative Adversarial Networks》。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

自從2014年Ian Goodfellow提出以來，GAN就存在著訓(xùn)練困難、生成器和判別器的loss無法指示訓(xùn)練進(jìn)程、生成樣本缺乏多樣性等問題。從那時起，很多論文都在嘗試解決，但是效果不盡人意，比如最有名的一個改進(jìn)DCGAN依靠的是對判別器和生成器的架構(gòu)進(jìn)行實驗枚舉，最終找到一組比較好的網(wǎng)絡(luò)架構(gòu)設(shè)置，但是實際上是治標(biāo)不治本，沒有徹底解決問題。而Wasserstein GAN成功地做到了以下爆炸性的幾點：

徹底解決GAN訓(xùn)練不穩(wěn)定的問題，不再需要小心平衡生成器和判別器的訓(xùn)練程度
基本解決了collapse mode的問題，確保了生成樣本的多樣性
訓(xùn)練過程中終于有一個像交叉熵、準(zhǔn)確率這樣的數(shù)值來指示訓(xùn)練的進(jìn)程，這個數(shù)值越小代表GAN訓(xùn)練得越好，代表生成器產(chǎn)生的圖像質(zhì)量越高。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017

以上一切好處體現(xiàn)在不需要精心設(shè)計的網(wǎng)絡(luò)架構(gòu)，最簡單的多層全連接網(wǎng)絡(luò)就可以做到。而上述優(yōu)化的理論來源，正是作者在本次大會論文，即前作《Towards Principled Methods for Training Generative Adversarial Networks》里面推的一堆公式定理，從理論上分析了原始GAN的問題所在，從而針對性地給出了改進(jìn)要點。

因此，難怪前來參會的工業(yè)界人士表示，ICLR 2017雖然沒有看到什么太出乎意料的研究，但卻收獲了許多能夠改進(jìn)當(dāng)前模型訓(xùn)練等工程問題的理論和方法。

工業(yè)界：這是最接地氣的一屆ICLR | ICLR 2017