0
本文作者: 楊曉凡 | 2017-09-25 11:34 |
雷鋒網(wǎng) AI 科技評論按:谷歌大腦近期放出了一篇論文「Neural Optimizer Search with Reinforcement Learning」(強化學習的神經(jīng)網(wǎng)絡優(yōu)化器搜索),用強化學習的方法為神經(jīng)網(wǎng)絡(尤其是深度學習)找到最佳的優(yōu)化算法/權重更新規(guī)則。論文并沒有重新制造輪子,但也取得了不錯的效果,而且也引起了一定的關注。雷鋒網(wǎng) AI 科技評論把論文內(nèi)容簡介如下。
要成功訓練一個深度學習模型,選擇一個適當?shù)膬?yōu)化方法是非常重要的。雖然隨機梯度下降法(SGD)通??梢砸簧鲜志桶l(fā)揮出不錯的效果,不過 Adam 和 Adagrad 這樣更先進的方法可以運行得更快,尤其是在訓練非常深的網(wǎng)絡時。然而,為深度學習設計優(yōu)化方法是一件非常困難的事情,因為優(yōu)化問題的本質(zhì)是非凸問題。
在這篇論文中,谷歌大腦的研究員們討論了一種方案,它可以自動設計優(yōu)化方法中的權重更新規(guī)則,尤其是對于深度學習架構。這個方案的重點是使用了一個RNN結構的控制器,這個控制器可以給優(yōu)化器生成權重更新方程。這個RNN結構的控制器是通過強化學習的方式訓練的,一個具體的網(wǎng)絡結構用它生成的更新規(guī)則進行同樣次數(shù)的訓練后,可以把模型準確率最大化。這個過程如下圖。
訓練神經(jīng)網(wǎng)絡很慢、很困難,之前有許多人設計了各種各樣的方法。近期的優(yōu)化方法結合了隨機方法和批量方法的特點,比如用mini-batch,跟SGD類似,但是實現(xiàn)了更多的啟發(fā)式方法來估計二階對角信息,就和無黑塞方法(Hessian-free)或者L-BFGS類似。這樣吸收了兩種方法優(yōu)點的方案通常在實際問題中有更快的收斂速度,比如 Adam 就是一個深度學習中常用的優(yōu)化器,實現(xiàn)了簡單的啟發(fā)式方法來估計梯度的均值和變化幅度,從而能夠在訓練中更加穩(wěn)定地更新權重。
之前的許多權重更新規(guī)則都借鑒了凸函數(shù)分析中的想法,雖然神經(jīng)網(wǎng)絡中的優(yōu)化問題是非凸的。近期通過非單調(diào)學習速率的啟發(fā)式方法得到的經(jīng)驗結果表明,在神經(jīng)網(wǎng)絡的訓練方面我們?nèi)匀恢跎?,還有許多非凸優(yōu)化的方法可以用來改進訓練過程。
谷歌大腦的研究員們的研究目標是在人們已經(jīng)熟悉的領域內(nèi)為神經(jīng)網(wǎng)絡訓練找到更好的更新規(guī)則。換句話說,他們沒打算靠自己重新建立一套全新的更新規(guī)則,而是用機器學習算法在現(xiàn)有的更新規(guī)則中找到比較好用的。最近也有研究人員提出類似的方法,用模型學習生成更新數(shù)值。這里的關鍵區(qū)別是,谷歌大腦的這項研究是為權重更新生成數(shù)學形式的方程,而不是直接生成數(shù)值。生成一個方程的主要好處是可以輕松地遷移到更大的任務中,而無需為新的優(yōu)化問題額外訓練別的神經(jīng)網(wǎng)絡。而且,雖然他們設計這個方法的目的不是為了優(yōu)化更新規(guī)則的內(nèi)存占用的,不過還是能夠在得到與 Adam 或者 RMSProp 等同的更新規(guī)則的情況下占用更少的內(nèi)存。
論文中的方法受到了近期用強化學習做模型探索的研究的啟發(fā),尤其是在神經(jīng)網(wǎng)絡結構搜索上,其中用了一個 RNN 生成神經(jīng)網(wǎng)絡架構的設置文本。除了把這些關鍵思想用在不同的應用中,論文中的方法還展現(xiàn)出了一種全新的模式,把原有的輸入以靈活得多的方法組合起來,從而讓搜索新型的優(yōu)化器變得可能。
根據(jù)論文中的實驗結果,在用 CIFAR-10 訓練一個小型的卷積網(wǎng)絡中,他們的方法比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 找到了許多條更好的更新規(guī)則,而且這些生成的更新公式中很多都可以輕松地遷移到新的模型架構或者數(shù)據(jù)集中使用。比如,在小型卷積網(wǎng)絡訓練中發(fā)現(xiàn)的權重更新規(guī)則在Wide ResNet 的訓練中取得了比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 更好的結果。 對于 ImageNet 數(shù)據(jù)集,他們新找到的更新規(guī)則在目前最先進的移動設備級別模型的 top-1 和 top-5 正確率基礎上繼續(xù)提升了最高 0.4%。同樣的更新規(guī)則在谷歌的神經(jīng)機器翻譯系統(tǒng)上也取得了不錯的成果,在WMT 2014 英文到德文的翻譯任務中最高能帶來0.7BLEU的提升。
更多詳細內(nèi)容參見原論文:https://arxiv.org/abs/1709.07417 。雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。