0
本文作者: 雪莉?休斯敦 | 編輯:郭奕欣 | 2017-04-25 10:23 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網(wǎng)AI科技評論的編輯們也于法國帶來一線報(bào)道。在這個深度學(xué)習(xí)會議舉辦之際,雷鋒網(wǎng)也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請期待。
由西北大學(xué)(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發(fā)表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,當(dāng)選 ICLR 2017的oral paper。文章描述了在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,大的 batch size(如,超過512)會導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降的問題,并通過實(shí)驗(yàn)證明其原因是泛化誤差和尖銳收斂,并提出了一些解決方案。
很多深度學(xué)習(xí)過程中都在算法上應(yīng)用了隨機(jī)梯度下降的方法或隨機(jī)梯度下降的衍生方法。但是這種方法一般適用于小批量(樣本數(shù)量在32-512之間)的計(jì)算。觀察數(shù)據(jù)顯示,當(dāng)大批量計(jì)算時(樣品數(shù)量超過512),如果用泛化能力作為標(biāo)準(zhǔn)的話,模型的計(jì)算質(zhì)量就會下降。Intel與西北大學(xué)研究的這篇文章,就這個問題進(jìn)行了討論,并提出了大量的證據(jù)證明大批量的方法會傾向于將模型和函數(shù)歸一化,從而導(dǎo)致尖銳收斂,并最終生成了比較差的泛化效果。
論文分析了在小批量情況下結(jié)果不同的原因,并提出這種不同來自于在梯度預(yù)測時內(nèi)部噪聲的差異。如下圖片,在這個案例中,隨機(jī)的選擇一組小批量(SB)和大批量(LB)的最小值,可以發(fā)現(xiàn),LB極小值比SB極小值更加尖銳。因此,泛化能力則更低一些。同時,論文還就減小泛化間隙的問題提出了在大批量計(jì)算中適用的幾種策略,開放性的預(yù)留了未來的討論點(diǎn),包括在大批量計(jì)算中可進(jìn)行的尖銳收斂和可能的優(yōu)化方案。
論文鏈接:https://openreview.net/pdf?id=H1oyRlYgg
原文鏈接:https://openreview.net/forum?id=H1oyRlYgg¬eId=H1oyRlYgg
對這篇論文的評論普遍非常正面,這說明了這篇論文映射了一個在工程應(yīng)用領(lǐng)域普遍存在的問題。我相信整個研究環(huán)境會通過閱讀這篇論文得到一些建設(shè)性的解決問題的新思路。
決定:接受(Oral)
評分:8分,Top 50%,明確接受
評論:這是一篇很有趣的文章,就為什么大批量訓(xùn)練效果變差的原因進(jìn)行了分析,這對整個深度學(xué)習(xí)的社區(qū)有著重要的意義。
評論:我想這篇文章明確了一點(diǎn),大批量計(jì)算時,泛化效果就會變差。并通過對比分析大批量和小批量的失真函數(shù)進(jìn)行了很好的闡釋。
評分:10分,Top 5%,這是一篇研討會文章
評分:6分,剛好及格
評價:我覺得這篇文章還不錯,很有趣也很有用,但是如果增加更多的論證,比如增加一些高斯噪聲梯度的分析。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章