0
本文作者: 溫曉樺 | 2017-04-25 16:09 | 專題:ICLR 2017 |
雷鋒網(wǎng)【AI科技評論】報道,法國當?shù)貢r間4月24日,「International Conference on Learning Representations」(國際學習表征會議 ICLR )正式在土倫開幕。Yann LeCun 在開場致辭時指出,今年超過 1100 人報名參加了此次會議,比去年多了一倍。
會議第一天,主題演講廳座無虛席,全天下來由來自UC伯克利、紐約大學等的研究團隊共進行了7場演講;其余時間為Poster Session論文展示交流環(huán)節(jié)。據(jù)雷鋒網(wǎng)【AI科技評論】了解,總體來說,本屆ICLR是一個GAN撐起半邊天的研究趨勢。
從現(xiàn)場演講氛圍可以看出,ICLR給業(yè)界研究者提供了非常輕松也自由激烈的交流平臺。究竟為何,接下來請與雷鋒網(wǎng)【AI科技評論】一起分享今天的主題報告演講的精華內(nèi)容:
神經(jīng)元群體如何提取/代表視覺信息?
其原理如何匹配以及優(yōu)化我們的視覺環(huán)境?
這些表征如何加強或限制知覺?
我們可以從這些表征中獲取到什么樣的新的原理來應用到工程成像或視覺系統(tǒng)?
會議第一名Invited Talk嘉賓,是來自霍華德休斯醫(yī)學研究所、紐約大學神經(jīng)學、數(shù)學、心理學系的教授,IEEE fellow Eero Simoncelli。圍繞上述幾點議題,Eero Simoncelli教授提出“視覺質感visual texture”的表征學習概念和方法。
Eero Simoncelli構建了包含視覺世界屬性、視覺任務要求,以及生物表現(xiàn)制約的視覺計算模型。他指出,結合了生物屬性的淺層次模型比預期中的更強大。此外,合成的方式提供了更強大的表征紋理展示,它可以用于驗證不變性、驗證度量屬性等。
數(shù)據(jù)壓縮是一種基礎工程問題,在數(shù)據(jù)存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數(shù)據(jù)量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優(yōu)化的圖像壓縮方法,論文題為“End-to-End Optimized Image Compression”。
根據(jù)論文展示,這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數(shù)的三個連續(xù)階段中構建的。通過一組測試圖像,該方法的表現(xiàn)通常比標準JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有圖像中,該方法都實現(xiàn)了顯著的視覺上質量的提升,這點也被客觀的質量評測方法MS-SSIM證明。
這篇名為“Amortised MAP Inference for Image Super-resolution”的口頭展示論文,是 Twitter 倫敦實驗室與丹麥哥本哈根大學的研究成果。
論文摘要指出,圖像超分辨率 (Super-Resolution, SR) 是一個不確定的逆向問題,相同的一張下采樣(Downsampled)圖像,進過圖像超分辨率處理后,得出與原圖相似的高分辨率圖像卻往往是不止一張,而是有很多張。當前大多數(shù)的單一圖像進行超分辨率處理的方法是運用經(jīng)驗風險最小化 (Empirical Risk Minimisation, ERM) 原則,這時候一般情況下會出現(xiàn)單像素大小的均方誤差 (Mean Squared Error, MSE) 損失。
但是,采用經(jīng)驗風險最小化原則處理得出的圖像,像素之間的過度往往過度平滑,從而造成圖像模糊,整體效果看起來與原圖差別較大。比使用經(jīng)驗風險最小化原則更理想的方法,是使用最大后驗概率( Maximum a Posteriori, MAP) 推斷。在圖像先驗的前提下,得到高像素圖像的可能性更高,因此得出的圖像往往更接近原圖。
因此論文表示,在超分辨率處理過程中,直接對低像素圖像進行最大后驗概率估值是非常重要的,就像如果想要確保樣圖圖像先驗,就需要先構建一個模型一樣地重要。想要進行攤銷最大后驗概率推斷,從而直接計算出最大后驗概率估值,本文在這一步引入的新方法是使用卷積神經(jīng)網(wǎng)絡。
而為了確保網(wǎng)絡輸入低分辨率圖像后,能始終如一地輸出相應的高分辨率圖像,研究人員創(chuàng)造性地引入了新型神經(jīng)網(wǎng)絡架構,在這個網(wǎng)絡里,有效解決超分辨率的方法是,向仿射子空間進行投影。使用新型架構的結果顯示,攤銷最大后驗概率推理,能減少到兩個分布之間的最小化交叉熵,這個結果與生成模型經(jīng)過訓練后得到的結果相類似。如何對結果進行優(yōu)化,論文里提出了三種方法:
(1)生成式對抗網(wǎng)絡 (GAN)
(2)去噪指導超分辨率,從去噪過程中反向推導去噪的梯度估值,從而訓練網(wǎng)絡
(3)基線法,該方法使用最大似然訓練圖像先驗
“我們實驗表明,使用真實圖像數(shù)據(jù),基于生成式對抗網(wǎng)絡得到的圖像最接近原圖。最后,在變分自動編碼器的舉例中,成功建立了生成式對抗網(wǎng)絡和攤銷變異推斷之間的聯(lián)系?!?/p>
首先本屆ICLR獲得最佳論文的是題為“Understanding deep learning requires rethinking generalization”,該論文由Chiyuan Zhang(麻省理工學院),Benjamin Recht(加利福尼亞大學伯克利分校),Samy Bengio、Moritz Hardt(谷歌大腦)和Oriol Vinyals(谷歌深度學習)共同完成。
論文摘要介紹稱,有些成功運作的人工神經(jīng)網(wǎng)絡,盡管體量巨大,但它們在訓練和測試性能兩個階段表現(xiàn)出來的結果卻只存在微小差異。過去大家認為這種微小誤差,要么是由于模型譜系自身的特性,要么是由在訓練期間使用的正則化技術所致。
而經(jīng)過大量系統(tǒng)實驗,該論文團隊展示了這種傳統(tǒng)觀點是不確切的。具體來說,其實驗證明了用隨機梯度方法訓練的、用于圖像分類的最先進的卷積網(wǎng)絡很容易擬合訓練數(shù)據(jù)的隨機標記。這種現(xiàn)象本質上不受顯式正則化影響,即使用完全非結構化隨機噪聲來替換真實圖像也是如此。
“我們通過一個理論結構證實了實驗結果。理論結構表明,只要參數(shù)數(shù)量超過實際中通常存在的數(shù)據(jù)點,簡單兩層深度神經(jīng)網(wǎng)絡(simple depth two neural networks)就能夠產(chǎn)生完美的有限樣本表達性。通過與傳統(tǒng)模型的比較解釋了我們的實驗結果。”
當然,現(xiàn)場也不乏其他研究方向的技術天才,演講者在展示完論文后的提問環(huán)節(jié)中就被challenge了——提問者表示:“那你們這個證明其實很簡單?。 薄腥硕嫉却葜v者的回應。
“是很好的問題。但說到簡單,這樣的問題給你們來解決也沒有更好的方法了啊!”
掌聲雷動。
而在同一天的展示中,還有一個討論泛化問題的口頭論文展示,就是(On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima)。隨機梯度下降法(SGD)及其變體是許多深度學習任務選擇的算法,這些方法以小批量訓練采樣數(shù)據(jù)方式操作,例如(32 - 512 ),以計算梯度的近似值。但在這個訓練過程中,大的 batch size 會導致網(wǎng)絡模型泛化能力下降,該論文通過實驗證明其原因是收斂到了sharp minima,并提出了一些解決方案。
“Towards Principled Methods for Training Generative Adversarial Networks”,來自Martin Arjovsky, Leon Bottou。
該論文是前段時間火熱的 “WGAN 的前作”。2017年2月,一篇新鮮出爐的arXiv論文《Wassertein GAN》在Reddit的Machine Learning頻道火了,而這篇《Wassertein GAN》的理論來源正是前作《Towards Principled Methods for Training Generative Adversarial Networks》。
自從2014年Ian Goodfellow提出以來,GAN就存在著訓練困難、生成器和判別器的loss無法指示訓練進程、生成樣本缺乏多樣性等問題。從那時起,很多論文都在嘗試解決,但是效果不盡人意,比如最有名的一個改進DCGAN依靠的是對判別器和生成器的架構進行實驗枚舉,最終找到一組比較好的網(wǎng)絡架構設置,但是實際上是治標不治本,沒有徹底解決問題。而Wasserstein GAN成功地做到了以下爆炸性的幾點:
徹底解決GAN訓練不穩(wěn)定的問題,不再需要小心平衡生成器和判別器的訓練程度
基本解決了collapse mode的問題,確保了生成樣本的多樣性
訓練過程中終于有一個像交叉熵、準確率這樣的數(shù)值來指示訓練的進程,這個數(shù)值越小代表GAN訓練得越好,代表生成器產(chǎn)生的圖像質量越高。
以上一切好處體現(xiàn)在不需要精心設計的網(wǎng)絡架構,最簡單的多層全連接網(wǎng)絡就可以做到。而上述優(yōu)化的理論來源,正是作者在本次大會論文,即前作《Towards Principled Methods for Training Generative Adversarial Networks》里面推的一堆公式定理,從理論上分析了原始GAN的問題所在,從而針對性地給出了改進要點。
因此,難怪前來參會的工業(yè)界人士表示,ICLR 2017雖然沒有看到什么太出乎意料的研究, 但卻收獲了許多能夠改進當前模型訓練等工程問題的理論和方法。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章