丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給雪莉?休斯敦
發(fā)送

0

大批量深度學(xué)習(xí)為何泛化效果差?西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

本文作者: 雪莉?休斯敦 編輯:郭奕欣 2017-04-25 10:23 專題:ICLR 2017
導(dǎo)語:大量的證據(jù)證明,大批量的方法會傾向于將模型和函數(shù)歸一化,從而導(dǎo)致尖銳收斂,并最終生成了比較差的泛化效果。

雷鋒網(wǎng)AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網(wǎng)AI科技評論的編輯們也于法國帶來一線報(bào)道。在這個深度學(xué)習(xí)會議舉辦之際,雷鋒網(wǎng)也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請期待。

大批量深度學(xué)習(xí)為何泛化效果差?西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

由西北大學(xué)(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發(fā)表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,當(dāng)選 ICLR 2017的oral paper。文章描述了在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,大的 batch size(如,超過512)會導(dǎo)致網(wǎng)絡(luò)模型泛化能力下降的問題,并通過實(shí)驗(yàn)證明其原因是泛化誤差和尖銳收斂,并提出了一些解決方案。

很多深度學(xué)習(xí)過程中都在算法上應(yīng)用了隨機(jī)梯度下降的方法或隨機(jī)梯度下降的衍生方法。但是這種方法一般適用于小批量(樣本數(shù)量在32-512之間)的計(jì)算。觀察數(shù)據(jù)顯示,當(dāng)大批量計(jì)算時(樣品數(shù)量超過512),如果用泛化能力作為標(biāo)準(zhǔn)的話,模型的計(jì)算質(zhì)量就會下降。Intel與西北大學(xué)研究的這篇文章,就這個問題進(jìn)行了討論,并提出了大量的證據(jù)證明大批量的方法會傾向于將模型和函數(shù)歸一化,從而導(dǎo)致尖銳收斂,并最終生成了比較差的泛化效果。

論文分析了在小批量情況下結(jié)果不同的原因,并提出這種不同來自于在梯度預(yù)測時內(nèi)部噪聲的差異。如下圖片,在這個案例中,隨機(jī)的選擇一組小批量(SB)和大批量(LB)的最小值,可以發(fā)現(xiàn),LB極小值比SB極小值更加尖銳。因此,泛化能力則更低一些。同時,論文還就減小泛化間隙的問題提出了在大批量計(jì)算中適用的幾種策略,開放性的預(yù)留了未來的討論點(diǎn),包括在大批量計(jì)算中可進(jìn)行的尖銳收斂和可能的優(yōu)化方案。

大批量深度學(xué)習(xí)為何泛化效果差?西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

論文鏈接:https://openreview.net/pdf?id=H1oyRlYgg

原文鏈接:https://openreview.net/forum?id=H1oyRlYgg&noteId=H1oyRlYgg 

ICLR評論:

ICLR委員會最終決定:

對這篇論文的評論普遍非常正面,這說明了這篇論文映射了一個在工程應(yīng)用領(lǐng)域普遍存在的問題。我相信整個研究環(huán)境會通過閱讀這篇論文得到一些建設(shè)性的解決問題的新思路。

決定:接受(Oral)

大批量訓(xùn)練的分析

評分:8分,Top 50%,明確接受

評論:這是一篇很有趣的文章,就為什么大批量訓(xùn)練效果變差的原因進(jìn)行了分析,這對整個深度學(xué)習(xí)的社區(qū)有著重要的意義。

很好的文章

評論:我想這篇文章明確了一點(diǎn),大批量計(jì)算時,泛化效果就會變差。并通過對比分析大批量和小批量的失真函數(shù)進(jìn)行了很好的闡釋。

文章不夠新穎但是實(shí)驗(yàn)數(shù)據(jù)非常有價值

評分:10分,Top 5%,這是一篇研討會文章

很好的文章:

評分:6分,剛好及格

評價:我覺得這篇文章還不錯,很有趣也很有用,但是如果增加更多的論證,比如增加一些高斯噪聲梯度的分析。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大批量深度學(xué)習(xí)為何泛化效果差?西北大學(xué)聯(lián)合英特爾給出了答案 | ICLR 2017

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說