丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給不靈叔
發(fā)送

2

拋棄Learning Rate Decay吧!

本文作者: 不靈叔 2018-01-24 09:47
導(dǎo)語:祝大家煉丹愉快!

雷鋒網(wǎng)AI科技評(píng)論按:本文為浙江大學(xué)吳騫為雷鋒網(wǎng) AI 科技評(píng)論撰寫的獨(dú)家稿件,未經(jīng)雷鋒網(wǎng)許可不得轉(zhuǎn)載。  

論文題目: DON’T DECAY THE LEARNING RATE, INCREASE THE BATCH SIZE 

論文地址:https://arxiv.org/abs/1711.00489 

真的是生命不息,打臉不止。前幾天剛剛總結(jié)了常見的 learning rate decay 方法,最近又看到這篇正在投 ICLR2018 的盲審,求我現(xiàn)在的心理陰影的面積。。。 

拋棄Learning Rate Decay吧!

然后上 arxiv 一查,哦,Google 爸爸的,干貨滿滿,簡(jiǎn)直不容反駁。。。 

拋棄Learning Rate Decay吧!

先點(diǎn)題: 

 不用衰減學(xué)習(xí)率啦,只要增大 Batch Size 就可以啦!

摘要:  

  • 實(shí)際上作者在衰減學(xué)習(xí)率的時(shí)候同時(shí)也降低了SGD中隨機(jī)波動(dòng)拋棄Learning Rate Decay吧!的值;衰減學(xué)習(xí)率類似于模擬退火;

  • 不同于衰減學(xué)習(xí)率,作者提出了在增加 Batch Size 的同時(shí)保持學(xué)習(xí)率的策略,既可以保證不掉點(diǎn),還可以減少參數(shù)更新的次數(shù);  

  • 作者還可以即增加學(xué)習(xí)率又增大 Batch Size,如此可以基本保持test中不掉點(diǎn)又進(jìn)一步減少參數(shù)更新次數(shù);  

  • 作者對(duì)比了自己的模型和另一篇著名論文(Accurate, large minibatch SGD: Training imagenet in 1 hour)中的模型,Batch Size:65536 - 8192;正確率:77% - 76%;參數(shù)更新次數(shù):2500 - 14000; 

隨即梯度下降法與曲線優(yōu)化

傳統(tǒng)的學(xué)習(xí)率遵循以下兩個(gè)約束: 

 拋棄Learning Rate Decay吧!(1)

拋棄Learning Rate Decay吧! (2)

直觀來看,公式1約束最小值優(yōu)化的參數(shù)一定存在,公式2保證了衰減學(xué)習(xí)率有助于快速收斂至最小值處,而不是由于噪聲在震蕩。  

然而以上結(jié)論是給予 Batch Size 不變推導(dǎo)出的。作者基于前作(A BAYESIAN PERSPECTIVE ON GENERALIZATION AND STOCHASTIC GRADIENT DESCENT)推導(dǎo)出另一個(gè)解釋優(yōu)化過程的模型,并指出可以通過找到某個(gè)最優(yōu)化的隨機(jī)波動(dòng)值拋棄Learning Rate Decay吧!  (其中拋棄Learning Rate Decay吧!為學(xué)習(xí)率 , 拋棄Learning Rate Decay吧!為訓(xùn)練數(shù)據(jù)集大小,  拋棄Learning Rate Decay吧!為 Batch Size 大小),使得模型達(dá)到最優(yōu)值。

模擬退火法和泛化能力下降

廣泛的研究結(jié)果指出小 Batch Size 訓(xùn)練的模型在 test 中的泛化能力比大 Batch Size 的要好。前作中還得出了固定學(xué)習(xí)率下的最大 Batch Size 優(yōu)化值 拋棄Learning Rate Decay吧!,并驗(yàn)證了拋棄Learning Rate Decay吧!與隨機(jī)噪聲值拋棄Learning Rate Decay吧!有關(guān)。

研究者認(rèn)為小 Batch 中的隨機(jī)誤差有助于 SGD 的收斂,尤其是在非凸曲線優(yōu)化問題上。噪聲可以幫助 SGD 收斂至所謂平滑最小值(flat minima)而不是尖銳最小值(sharp minima)以保證 test 的泛化特性。

作者發(fā)現(xiàn)大部分研究者在訓(xùn)練過程中都使用了「early stop 」的方法(當(dāng)驗(yàn)證集的點(diǎn)數(shù)不再增高時(shí)停止訓(xùn)練),因此作者實(shí)際上有意的阻止了網(wǎng)絡(luò)到達(dá)最小值。衰減學(xué)習(xí)率的成功是經(jīng)驗(yàn)式的。具體過程可以類比于模擬退火法中,較大的初始噪音有助于探索更大范圍內(nèi)的參數(shù)空間而不是很快地陷入局部最優(yōu)值;一旦作者找到了可能的最優(yōu)區(qū)域后開始減少噪聲來 finetune 到最優(yōu)值。

而這也能解釋為什么近來越來越多的研究者開始使用 cosine 式衰減學(xué)習(xí)率或階梯形的衰減——物理退火法中,緩慢衰減溫度是系統(tǒng)收斂到某些銳利的全局最小值;而離散地降低溫度則有利于收斂到不是最低但足夠魯棒的區(qū)域。

有效的學(xué)習(xí)率和累積變量

許多研究者開始使用帶 momentum 的 SGD 下降法,其噪聲值與原始 SGD 稍有不同:

 拋棄Learning Rate Decay吧!(3)  

當(dāng)拋棄Learning Rate Decay吧!時(shí)該噪聲將退化為原始 SGD 噪聲。對(duì)比兩種 SGD 可以得出帶 momentum 的 SGD 方拋棄Learning Rate Decay吧!法的有效學(xué)習(xí)率應(yīng)為  。

對(duì)比原始 SGD,作者可以推導(dǎo):成比例的放大拋棄Learning Rate Decay吧!可以保持模型性能。然而,作者發(fā)現(xiàn)若成比例的縮放學(xué)習(xí)率拋棄Learning Rate Decay吧!和 Batch Size 表現(xiàn)良好,但是若按照拋棄Learning Rate Decay吧!倍縮放 Batch Size 和沖量系數(shù)拋棄Learning Rate Decay吧!的話則會(huì)導(dǎo)致 test 性能下降。這是因?yàn)闆_量式的更新在時(shí)間上是累積的,因此當(dāng)拋棄Learning Rate Decay吧!設(shè)置較大時(shí)需要額外的訓(xùn)練次數(shù)才能保證模型處于相同水平,原文的補(bǔ)充材料中有較詳細(xì)的分析,此處不作解釋。  

隨著沖量系數(shù)拋棄Learning Rate Decay吧!的增大,還會(huì)增加網(wǎng)絡(luò)忘記舊的梯度的時(shí)間(該時(shí)間和拋棄Learning Rate Decay吧!成正比),一旦時(shí)間跨度達(dá)到幾個(gè) epoch 以上時(shí),損失空間將會(huì)變得不利調(diào)整從而阻礙訓(xùn)練。這種情況在學(xué)習(xí)率衰減的時(shí)候尤其明顯。這也是為什么有些論文推薦在初始的若干 epoch 時(shí)提升學(xué)習(xí)率。然而,在作者的大 Batch Size 實(shí)驗(yàn)中,這種做法卻會(huì)帶來系統(tǒng)不穩(wěn)定性。  

實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)中使用的網(wǎng)絡(luò)是「16-4」寬型殘差網(wǎng)絡(luò)結(jié)構(gòu)(wide ResNet architecture),使用了 ghost batch norm 方法來保證平均梯度與 Batch Size 不相關(guān)。

實(shí)驗(yàn)中使用的對(duì)比策略是階梯形的,學(xué)習(xí)率階梯形下降,對(duì)應(yīng)的,Batch Size 階梯形上升。

拋棄Learning Rate Decay吧!

圖中,藍(lán)線代表常見的保持 Batch Size,逐步衰減學(xué)習(xí)率的方法;紅線代表與之相反的,保持學(xué)習(xí)率,相應(yīng)的上升 Batch Size 的策略;綠線模擬真實(shí)條件下,上升 Batch Size 達(dá)到顯存上限的時(shí)候,再開始下降學(xué)習(xí)率的策略。

該實(shí)驗(yàn)可以驗(yàn)證兩個(gè)問題:

學(xué)習(xí)率下降是否是必須的——若是則三條曲線應(yīng)不同;

是否是因?yàn)殡S機(jī)噪聲的變化導(dǎo)致結(jié)果不同——若是則三條曲線相同;

實(shí)驗(yàn)結(jié)果如下(a)所示,并驗(yàn)證了隨機(jī)噪聲與訓(xùn)練曲線的相關(guān)性。

拋棄Learning Rate Decay吧!

實(shí)驗(yàn)結(jié)果(b)進(jìn)一步顯示增大 Batch Size 的好處,觀察損失值與參數(shù)更新次數(shù)的關(guān)系,顯然,增大 Batch Size 的方法中參數(shù)更新的次數(shù)遠(yuǎn)少于衰減學(xué)習(xí)率的策略。

下圖是兩種不同的梯度下降策略的 test 結(jié)果,顯然效果相差不大。

拋棄Learning Rate Decay吧!

增大學(xué)習(xí)率策略

作者準(zhǔn)備了四組實(shí)驗(yàn):  

  • Original training schedule:初始學(xué)習(xí)率設(shè)為 0.1,momentum 為 0.9,Batch Size 為 128,采用衰減學(xué)習(xí)率策略,每階段減少 5 倍;  

  • Increasing batch size:初始學(xué)習(xí)率設(shè)為 0.1,momentum 為 0.9,Batch Size 為 128,采用增大 Batch Size 策略,每階段增加 5 倍; 

  • Increased initial learning rate:初始學(xué)習(xí)率設(shè)為 0.5,momentum 為 0.9,Batch Size 為 640,采用增大 Batch Size 策略,每階段增加 5 倍;  

  • Increased momentum coefficient:初始學(xué)習(xí)率設(shè)為 0.5,momentum 為 0.98,Batch Size 為 3200,采用增大 Batch Size 策略,每階段增加 5 倍; 

當(dāng) Batch Size 增加到最大值拋棄Learning Rate Decay吧!后即不再增加,以保證拋棄Learning Rate Decay吧!,并相應(yīng)的開始減少學(xué)習(xí)率。 

結(jié)果如下所示,結(jié)論與上文相同,方法4的結(jié)果稍差也在章節(jié)有效的學(xué)習(xí)率和累積變量中有所解釋。 

訓(xùn)練 IMAGENET 只用更新 2500 次參數(shù)

論文 Accurate, large minibatch SGD: Training imagenet in 1 hour 中的參數(shù)與試驗(yàn)參數(shù)設(shè)置和結(jié)果對(duì)比如下: 

拋棄Learning Rate Decay吧!

 上述論文中的 Batch Size 已經(jīng)達(dá)到了保持網(wǎng)絡(luò)穩(wěn)定的最大值,為了進(jìn)一步擴(kuò)大 Batch Size 可以適當(dāng)增大 momentum 的值。最終,作者的網(wǎng)絡(luò)達(dá)到了顯存的上限拋棄Learning Rate Decay吧!并保證了拋棄Learning Rate Decay吧! 。其參數(shù)設(shè)置與結(jié)果如下所示,可以看到準(zhǔn)確率下降不大但是有效減少了參數(shù)的更新次數(shù)。 

拋棄Learning Rate Decay吧!

 增大 Batch Size 就可以不用衰減學(xué)習(xí)率了,emmm,聽起來很有道理,但是總感覺哪里不對(duì)...

拋棄Learning Rate Decay吧!

 最后,祝大家煉丹愉快!      

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

拋棄Learning Rate Decay吧!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說