丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

本文作者: AI研習(xí)社-譯站 2021-01-15 11:42
導(dǎo)語(yǔ):和我平時(shí)的帖子不同,我寫(xiě)的東西完全有可能是錯(cuò)的。

譯者:AI研習(xí)社(Born alone°

雙語(yǔ)原文鏈接:NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER


免責(zé)聲明:這篇文章和我平時(shí)的有些不同。事實(shí)上,我不會(huì)證明任何東西,我只是簡(jiǎn)單地解釋一下我關(guān)于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的一些猜想。和我平時(shí)的帖子不同,我寫(xiě)的東西完全有可能是錯(cuò)的。  

我已經(jīng)從實(shí)踐和經(jīng)驗(yàn)的角度研究在線和隨機(jī)優(yōu)化有一段時(shí)間了。所以,當(dāng)Adam (Kingma and Ba, 2015)被提出時(shí),我已經(jīng)在這個(gè)領(lǐng)域了。 

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

這篇論文還可以,但算不上突破,就今天的標(biāo)準(zhǔn)而言更是如此。事實(shí)上,這個(gè)理論是薄弱的:對(duì)于一種應(yīng)該處理非凸函數(shù)隨機(jī)優(yōu)化的算法給出了 regret guarantee。這些實(shí)驗(yàn)也很弱:在這些日子里,同樣的實(shí)驗(yàn)肯定會(huì)遭到拒絕。晚些時(shí)候人們還在證明中發(fā)現(xiàn)了一個(gè)錯(cuò)誤以及該算法不收斂于某些一維隨機(jī)凸函數(shù)的事實(shí)。盡管如此,現(xiàn)在 Adam 被認(rèn)為是優(yōu)化算法之王。讓我明確一點(diǎn):眾所周知, Adam 不會(huì)總實(shí)現(xiàn)最佳性能, 但大多數(shù)時(shí)候,人們認(rèn)為可以利用 Adam 的默認(rèn)參數(shù)在處理某個(gè)深度學(xué)習(xí)問(wèn)題上實(shí)現(xiàn)至少次優(yōu)的性能。換句話(huà)說(shuō),Adam 現(xiàn)在被認(rèn)為是深度學(xué)習(xí)的默認(rèn)優(yōu)化器。那么,Adam 背后成功的秘密是什么? 

多年來(lái),人們發(fā)表了大量的論文試圖解釋 Adam 和它的表現(xiàn),太多了,不能一一列舉。從“適應(yīng)學(xué)習(xí)率”(適應(yīng)到什么?沒(méi)有人確切地知道……)到動(dòng)量,到幾乎標(biāo)度不變性 ,它的神秘配方的每一個(gè)方面都被檢查過(guò)。然而,這些分析都沒(méi)有給我們關(guān)于其性能的最終答案。很明顯,這些成分中的大多數(shù)對(duì)任何函數(shù)的優(yōu)化過(guò)程都是有益的,但仍然不清楚為什么這個(gè)確切的組合而不是另一個(gè)組合使它成為最好的算法?;旌衔锏钠胶馐侨绱说奈⒚钜灾劣谛拚皇諗繂?wèn)題所需的小更改被認(rèn)為比 Adam 表現(xiàn)稍差。

Adam 的名聲也伴隨著強(qiáng)烈的情感:閱讀 r/MachineLearning on Reddit 上的帖子就足以看出人們對(duì)捍衛(wèi)他們最喜歡的優(yōu)化器的熱情。這種熱情你可以在宗教、體育和政治中看到。 

然而,這一切的可能性有多大?我是說(shuō),Adam 是最佳優(yōu)化算法的可能性有多大?幾年前,在一個(gè)如此年輕的領(lǐng)域,我們達(dá)到深度學(xué)習(xí)優(yōu)化的頂峰的可能性有多大?它的驚人表現(xiàn)還有其他的解釋嗎?  

我有一個(gè)假設(shè),但在解釋之前,我們必須簡(jiǎn)單談?wù)勆疃葘W(xué)習(xí)社區(qū)。

在談話(huà)中,Olivier Bousquet 將深度學(xué)習(xí)社區(qū)描述為一個(gè)巨人 genetic algorithm:這個(gè)社區(qū)的研究人員正在以一種半隨機(jī)的方式探索各種算法和架構(gòu)的空間。在大型實(shí)驗(yàn)中一直有效的東西被保留,無(wú)效的被丟棄。請(qǐng)注意,這個(gè)過(guò)程似乎與論文的接受和拒絕無(wú)關(guān):這個(gè)社區(qū)是如此的龐大和活躍,關(guān)于被拒絕論文的好想法仍然會(huì)被保存下來(lái),并在幾個(gè)月內(nèi)轉(zhuǎn)化為最佳實(shí)踐,參見(jiàn)舉例  (Loshchilov and Hutter, 2019)。類(lèi)似地,發(fā)表的論文中的觀點(diǎn)被成百上千的人復(fù)制,他們無(wú)情地丟棄那些不會(huì)復(fù)制的東西。這個(gè)過(guò)程創(chuàng)造了許多啟發(fā)式,在實(shí)驗(yàn)中始終產(chǎn)生良好的結(jié)果,這里的重點(diǎn)是“始終如一”。事實(shí)上,盡管是一種基于非凸公式的方法,深度學(xué)習(xí)方法的性能證明是非常可靠的。(需要注意的是,深度學(xué)習(xí)社區(qū)對(duì)“名人”也有很大的偏好,所以并不是所有的想法都能得到同等程度的關(guān)注……)

那么,這個(gè)巨大的遺傳算法和亞當(dāng)之間有什么聯(lián)系?嗯,仔細(xì)觀察深度學(xué)習(xí)社區(qū)的創(chuàng)建過(guò)程,我注意到一個(gè)模式:通常人們嘗試新的架構(gòu),保持優(yōu)化算法不變,大多數(shù)時(shí)候選擇的算法是 Adam。如上所述,這是因?yàn)?Adam是默認(rèn)的優(yōu)化器。

所以,我的假設(shè)是:Adam 是一個(gè)非常好的神經(jīng)網(wǎng)絡(luò)架構(gòu)的優(yōu)化算法,我們幾年前就有了,人們不斷地發(fā)展新的架構(gòu),讓 Adam 在上面工作。因此,我們可能不會(huì)看到許多 Adam 不工作的架構(gòu),因?yàn)檫@些想法被過(guò)早地拋棄了!這樣的想法需要同時(shí)設(shè)計(jì)一個(gè)新的架構(gòu)和一個(gè)新的優(yōu)化器,這將是一個(gè)非常困難的任務(wù)。換句話(huà)說(shuō),社區(qū)只進(jìn)化了一組參數(shù)(架構(gòu)、初始化策略、超參數(shù)搜索算法等),大部分時(shí)間優(yōu)化器都固定在 Adam 身上。  

現(xiàn)在,我相信很多人不會(huì)相信這個(gè)假設(shè),我相信他們會(huì)列出各種具體的問(wèn)題,在這些問(wèn)題中 Adam 不是最好的算法,在這些問(wèn)題中  隨機(jī)梯度下降 動(dòng)量是最好的,以此類(lèi)推。然而,我想指出兩件事:1)我并不是在這里描述自然規(guī)律,而是簡(jiǎn)單地描述社區(qū)的一種趨勢(shì),它可能會(huì)影響某些架構(gòu)和優(yōu)化器的共同進(jìn)化;事實(shí)上,我有一些證據(jù)來(lái)支持這一說(shuō)法。

如果我說(shuō)的是真的,我們可以預(yù)期 Adam 在深度神經(jīng)網(wǎng)絡(luò)方面會(huì)非常出色而在其他方面則會(huì)非常差。這確實(shí)發(fā)生了!例如,眾所周知,Adam在非深度神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單凸和非凸問(wèn)題上表現(xiàn)很差,參見(jiàn)下面的實(shí)驗(yàn)(Vaswani et al., 2019):

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

似乎當(dāng)我們遠(yuǎn)離深度神經(jīng)網(wǎng)絡(luò)的特定設(shè)置,以及它們對(duì)初始化的特定選擇、特定權(quán)重的比例、特定的損失函數(shù)等,Adam 就失去了它的自適應(yīng)能力,它神奇的默認(rèn)學(xué)習(xí)率必須再次調(diào)整。請(qǐng)注意,您總是可以將線性預(yù)測(cè)器寫(xiě)成單層神經(jīng)網(wǎng)絡(luò),但 Adam 在這種情況下也不太好用。因此,在深度學(xué)習(xí)中,所有特定的架構(gòu)選擇可能已經(jīng)進(jìn)化到讓 Adam 工作得越來(lái)越好,而上述簡(jiǎn)單的問(wèn)題并沒(méi)有任何讓 Adam 發(fā)光的好特性。

總的來(lái)說(shuō),Adam 可能是最好的優(yōu)化器,因?yàn)樯疃葘W(xué)習(xí)社區(qū)可能只在架構(gòu)/優(yōu)化器的聯(lián)合搜索空間中探索一小塊區(qū)域。如果這是真的,對(duì)于一個(gè)脫離凸方法的社區(qū)來(lái)說(shuō),這將是一個(gè)諷刺,因?yàn)樗麄冎魂P(guān)注可能的機(jī)器學(xué)習(xí)算法的一個(gè)狹窄區(qū)域,它就像  Yann LeCun “寫(xiě)道:“在路燈下尋找丟失的車(chē)鑰匙,卻發(fā)現(xiàn)鑰匙丟在了別的地方?!?nbsp;

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

AI研習(xí)社是AI學(xué)術(shù)青年和AI開(kāi)發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開(kāi)發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

「新奇」假設(shè)!Adam 或許不是最佳的深度學(xué)習(xí)優(yōu)化器

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)