0
雷鋒網(wǎng) AI 科技評論按:神經(jīng)網(wǎng)絡(luò)的優(yōu)化本質(zhì)上是一個非凸問題,而簡單的基于梯度的算法在實踐中似乎總是能夠解決這類問題。這種現(xiàn)象是深度學(xué)習(xí)的核心支柱之一,而目前有許多理論科學(xué)家家正試圖解開這個謎:為什么基于梯度的方法能夠在深度學(xué)習(xí)的優(yōu)化中行之有效。
一篇來自 offconvex.org 博客的文章對最近一些試圖解決這個問題的工作進行了綜述,并且在最后討論了作者本人與 Sanjeev Arora,Noah Golowich 以及 Wei Hu 等人一起撰寫的新論文(https://arxiv.org/pdf/1810.02281.pdf)。在這篇論文中,他們針對深度線性神經(jīng)網(wǎng)絡(luò)中的梯度下降問題,提出了一種能夠保證以線性速率收斂到全局最小值的方法。關(guān)于深度學(xué)習(xí)應(yīng)用的論文多如牛毛,而關(guān)于基礎(chǔ)工作原理的文章彌足珍貴。雷鋒網(wǎng) AI 科技評論全文編譯如下。
許多關(guān)于深度學(xué)習(xí)優(yōu)化的論文都隱含著這樣一種假設(shè),即通過建立損失函數(shù)圖像的曲面(landscape)的幾何特性(特別是在臨界點,也就是梯度開始消失的點),可以嚴(yán)謹(jǐn)?shù)乩斫膺@種優(yōu)化方法。例如,通過與凝聚態(tài)物理中的球形自旋玻璃模型進行類比,Choromanska 等人在 2015 年提出了一個現(xiàn)已在深度學(xué)習(xí)領(lǐng)域廣為人知的觀點:
函數(shù)曲面猜想(Landscape Conjecture):
在神經(jīng)網(wǎng)絡(luò)優(yōu)化問題中,次優(yōu)臨界點的 Hessian(二階導(dǎo)矩陣)的特征值很可能存在負數(shù)。換而言之,幾乎沒有糟糕的局部最小值(讓梯度下降算法誤認為局部最小值是全局最小值的點),而且?guī)缀跛械陌包c都是嚴(yán)格的。
該猜想的對于各種包括淺層(2 層)模型在內(nèi)的簡單問題的損失函數(shù)圖像的曲面的強形式已經(jīng)得到了證明,這樣的問題包括矩陣感知(https://papers.nips.cc/paper/6271-global-optimality-of-local-search-for-low-rank-matrix-recovery.pdf )、矩陣補全(https://papers.nips.cc/paper/6048-matrix-completion-has-no-spurious-local-minimum.pdf )、正交張量分解(http://proceedings.mlr.press/v40/Ge15.pdf )、相位反演(https://arxiv.org/pdf/1602.06664.pdf )以及帶二次激活的神經(jīng)網(wǎng)絡(luò)(http://proceedings.mlr.press/v80/du18a/du18a.pdf )等。目前已經(jīng)有一些工作針對當(dāng)函數(shù)曲面猜想成立時如何實現(xiàn)梯度下降收斂到全局最小值進行了一些研究。例如,Rong Ge(http://www.offconvex.org/2016/03/22/saddlepoints/ )、Ben Recht(http://www.offconvex.org/2016/03/24/saddles-again/ )、Chi Jin 和 Michael Jordan(http://www.offconvex.org/2017/07/19/saddle-efficiency/ )等人的博客中有一些在這類工作方面非常棒的介紹文章。他們介紹了梯度下降可以如何通過逃離所有嚴(yán)格的鞍點來達到二階局部最小值(Hessian 為正半定的臨界點),以及當(dāng)將我們對算法添加擾動時這個過程將如何起作用。請注意,在函數(shù)曲面猜想下,即當(dāng)沒有糟糕的局部最小值、也沒有非嚴(yán)格鞍點時,二階局部最小值也就是全局最小值。
然而,出于很多原因,函數(shù)曲面方法(和函數(shù)曲面猜想)顯然不能像這樣被應(yīng)用到深度(三層或更多層)的網(wǎng)絡(luò)上。首先,深度網(wǎng)絡(luò)通常會引入非嚴(yán)格鞍點(例如,在所有權(quán)重都為零的點,詳情請參閱 Kawaguchi 等人在2016 發(fā)表的論文「Deep Learning without Poor Local Minima」:https://papers.nips.cc/paper/6112-deep-learning-without-poor-local-minima.pdf )。其次,函數(shù)曲面方法的觀點很大程度上忽視了算法層面上的因素,而在實踐中算法層面的因素對深度網(wǎng)絡(luò)的收斂有很大的影響——比如初始化方法的類型(http://proceedings.mlr.press/v28/sutskever13.html )或批量歸一化(http://proceedings.mlr.press/v37/ioffe15.pdf )。最后,正如我在之前的文章(http://www.offconvex.org/2018/03/02/acceleration-overparameterization/ )中談到的,基于 Sanjeev Arora和 Elad Hazan(http://proceedings.mlr.press/v80/arora18a/arora18a.pdf )的工作,為經(jīng)典線性模型添加(冗余)線性層有時可以加速基于梯度的優(yōu)化過程,這樣做盡管會為之前的凸優(yōu)化問題引入一定的非凸性,但是不會增強模型的表現(xiàn)能力。任何只依賴于臨界點屬性的函數(shù)曲面分析都難以解釋這樣的現(xiàn)象,因為通過這樣的方法,沒有什么比優(yōu)化一個具有全局最小值的臨界點的凸目標(biāo)函數(shù)更簡單的了。
函數(shù)曲面方法在分析深度學(xué)習(xí)中的優(yōu)化問題時的局限性說明它可能忽略了太多重要的細節(jié)。也許,與其思考「函數(shù)曲面方法是否是一種優(yōu)雅的方法?」不如把問題轉(zhuǎn)向「由特定的初始化方法得到的特定優(yōu)化器的軌跡有怎樣的行為?」
盡管基于軌跡的方法似乎比函數(shù)曲面分析更加復(fù)雜,但是這種方法已經(jīng)取得了顯著的進展。最近的一些論文(如 Brutzkus and Globerson 2017(http://proceedings.mlr.press/v70/brutzkus17a/brutzkus17a.pdf );Li and Yuan 2017(https://papers.nips.cc/paper/6662-convergence-analysis-of-two-layer-neural-networks-with-relu-activation.pdf )、Zhong et al. 2017(http://proceedings.mlr.press/v70/zhong17a/zhong17a.pdf );Tian 2017(http://proceedings.mlr.press/v70/tian17a/tian17a.pdf );Brutzkus et al. 2018(https://openreview.net/pdf?id=rJ33wwxRb );Li et al. 2018(http://proceedings.mlr.press/v75/li18a/li18a.pdf );Du et al. 2018(https://arxiv.org/pdf/1806.00900.pdf );Liao et al. 2018(http://romaincouillet.hebfree.org/docs/conf/nips_GDD.pdf ))已經(jīng)采用了這種策略,成功地分析了不同類型的淺層模型。此外,基于軌跡的分析也正開始涉足函數(shù)曲面方法之外的領(lǐng)域,他們已經(jīng)針對線性神經(jīng)網(wǎng)絡(luò)的情況,成功地實現(xiàn)了在任意深度下使用梯度下降方法收斂到全局最小值。
線性神經(jīng)網(wǎng)絡(luò)是帶有(或不帶有)線性激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò)。具體而言,一個輸入維度為d0、輸出維度為dN、隱層維度為 d1,d2,...,dN-1,深度為 N 的線性網(wǎng)絡(luò)是一個從 Rd_0 到 Rd_N的線性映射,它被參數(shù)化為
其中
可以被看作第j層的權(quán)值矩陣。盡管這樣的表示方法看起來沒有什么特別,但線性神經(jīng)網(wǎng)絡(luò)優(yōu)化過程的復(fù)雜度卻讓人有些驚訝,它們會導(dǎo)致具有多個最小值和鞍點的非凸訓(xùn)練問題。用于線性神經(jīng)網(wǎng)絡(luò)的基于梯度的算法被人們認為是一種深度學(xué)習(xí)中的優(yōu)化問題理論上的替代品,近一段時間,它們在線性神經(jīng)網(wǎng)絡(luò)上的應(yīng)用受到了極大的關(guān)注。
據(jù)我所知,Saxe et al.2014(https://arxiv.org/pdf/1312.6120.pdf )的工作首次對深度(三層或更多層)的線性網(wǎng)絡(luò)進行了基于軌跡的分析,在白化后的數(shù)據(jù)上處理最小化 L2 損失的梯度流(學(xué)習(xí)率極小的梯度下降)。盡管這個分析有很重要的貢獻,但卻并未正式實現(xiàn)收斂到全局最小值,也沒有考慮計算復(fù)雜度方面的因素(收斂所需的迭代次數(shù))。近期研究 Bartlett et al. 2018(http://proceedings.mlr.press/v80/bartlett18a.html )的研究在解決這些問題的工作上取得了進展,通過將基于軌跡的分析用于線性殘差網(wǎng)絡(luò)的特定環(huán)境的梯度下降,即在所有層中統(tǒng)一寬度(d0=d1=d2=...=dN)及初始化方式(對于任意的 j,有 Wj=I)的線性網(wǎng)絡(luò)??紤]到不同的數(shù)據(jù)-標(biāo)簽分布(他們將其歸納為「targets」),Bartlett 等人展示了可證明的梯度下降以線性速率收斂到全局最小值的情況——損失函數(shù)值在經(jīng)過O(log1/ε)次迭代后與最優(yōu)值的差小于ε(大于 0)。
在本文作者與 Sanjeev Arora、Noah Golowich 以及 Wei Hu 合作撰寫的一篇新論文(https://arxiv.org/pdf/1810.02281.pdf )中,我們在發(fā)揮基于軌跡的方法的功效方面又向前邁進了一步。具體而言,我們分析了任意不包含「瓶頸層」的線性神經(jīng)網(wǎng)絡(luò)梯度下降的軌跡,瓶頸層的隱藏維度不小于輸入和輸出維度之間的最小值(對于任意的 j,有 dj≥min{d0,dN});我們還證明了以線性速率到全局最小值的收斂性。我們指出了初始化方法需要滿足下面兩個條件:(1)近似平衡度:對于任意的 j,有 WTj+1Wj+1≈WjWjT;(2)缺失邊界:初始損失小于任意秩缺虧缺解的損失。我們證明這兩個條件都是必要條件,不滿足其中任意一個都可能導(dǎo)致軌跡不收斂。在線性殘差網(wǎng)絡(luò)的特例中,初始化時的近似平衡度很容易滿足,而且對于通過以零為中心的微小隨機擾動進行初始化的常見設(shè)定也同樣成立。后者也會導(dǎo)致出現(xiàn)具有正概率的缺失邊界。對于 dN=1 的情況(即標(biāo)量回歸),我們提供了一個能同時滿足這兩個條件的隨機初始化方案,因此能在恒定概率下以線性速率收斂到全局最小值。
我們的分析的關(guān)鍵在于觀察「如果權(quán)重被初始化到了近似平衡的狀態(tài),它們是否會在梯度下降的整個迭代中一直這樣保持」。換句話說,優(yōu)化方法所采取的軌跡遵循下面的特性:
也就是說,在整個時間軸上,所有的層(近似地)都有相同的奇異值集合,每一層的左奇異向量(近似地)與下一層的右奇異向量相同。我們說明了這種規(guī)律性意味著梯度下降的穩(wěn)定地運行下去,從而證明,即使在損失函數(shù)圖像整體上來說十分復(fù)雜時(包括許多非嚴(yán)格鞍點),它可能在優(yōu)化器所采取的特定軌跡周圍表現(xiàn)得尤為良好。
通過函數(shù)圖像方法解決深度學(xué)習(xí)中優(yōu)化問題,即分析與訓(xùn)練使用的算法無關(guān)的目標(biāo)函數(shù)的幾何性質(zhì),從概念上來說十分吸引人。但是這一策略存在固有的局限性,主要是因為它要求整個目標(biāo)函數(shù)都要很優(yōu)雅,這似乎是一個過于嚴(yán)格的要求。替代函數(shù)圖像的一種方法是考慮優(yōu)化器及其初始化方法,并且僅僅沿著所得到的軌跡關(guān)注其函數(shù)圖像。這種替代方法正得到越來越多的關(guān)注。函數(shù)圖像分析目前僅限于淺層(兩層)模型,而基于軌跡的方法最近已經(jīng)可以處理任意深度的模型,證明了梯度下降能以線性速率收斂到全局最小值。但是,由于基于軌跡的分析方法僅僅在線性神經(jīng)網(wǎng)絡(luò)上取得了成功,仍有還有很多工作有待完成。在我看來,基于軌跡的方法也將成為我們正式理解深度非線性網(wǎng)絡(luò)的基于梯度的優(yōu)化方法的關(guān)鍵。
via offconvex,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。