丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

本文作者: 我在思考中 2021-10-13 17:37
導(dǎo)語(yǔ):無(wú)限寬神經(jīng)網(wǎng)絡(luò)與內(nèi)核機(jī)的等價(jià)性,揭開(kāi)了深度學(xué)習(xí)黑匣子的一角。
深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中
無(wú)限寬神經(jīng)網(wǎng)絡(luò)與內(nèi)核機(jī)的等價(jià)性,揭開(kāi)了深度學(xué)習(xí)黑匣子的一角。

編譯 杏花

編輯 | 青暮

在機(jī)器學(xué)習(xí)領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)逐年擴(kuò)大規(guī)模,并取得了巨大成功,但同時(shí)它也制造了一個(gè)概念性難題。

當(dāng)一個(gè)名為 AlexNet網(wǎng)絡(luò)在2012年贏得年度圖像識(shí)別比賽時(shí),大約有6,000萬(wàn)個(gè)參數(shù)。這些參數(shù)在訓(xùn)練過(guò)程中進(jìn)行了微調(diào),使AlexNet能夠識(shí)別出以前從未見(jiàn)過(guò)的圖像。兩年后,一個(gè)名為 VGG 的網(wǎng)絡(luò)以超過(guò) 1.3 億個(gè)參數(shù)贏得了全場(chǎng)喝彩。如今,一些人工神經(jīng)網(wǎng)絡(luò)(或ANN)甚至達(dá)到了數(shù)十億個(gè)參數(shù)。

這些龐大的網(wǎng)絡(luò),在圖像分類、語(yǔ)音識(shí)別和文本翻譯等任務(wù)上取得了驚人的表現(xiàn),已經(jīng)開(kāi)始主導(dǎo)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域。然而,這些網(wǎng)絡(luò)仍然是神秘的,其驚人的力量背后的原因仍然難以捉摸。

但一些研究人員表明,這些強(qiáng)大網(wǎng)絡(luò)的理想化版本(比如無(wú)限寬)在數(shù)學(xué)上等同于更古老、更簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,即內(nèi)核機(jī)(kernel machines)。如果這種等價(jià)性可以擴(kuò)展到理想化的神經(jīng)網(wǎng)絡(luò)之外,就可以解釋實(shí)際的人工神經(jīng)網(wǎng)絡(luò)為何能取得驚人的效果。

人工神經(jīng)網(wǎng)絡(luò)的一部分神秘之處在于,它們似乎顛覆了傳統(tǒng)的機(jī)器學(xué)習(xí)理論,而這些理論嚴(yán)重依賴統(tǒng)計(jì)學(xué)和概率論的觀點(diǎn)。在通常的思維方式中,機(jī)器學(xué)習(xí)模型,包括神經(jīng)網(wǎng)絡(luò),通過(guò)學(xué)習(xí)樣本數(shù)據(jù)中的模式來(lái)預(yù)測(cè)新數(shù)據(jù)——特別是當(dāng)它們擁有正確數(shù)量的參數(shù)時(shí),表現(xiàn)最佳。

如果參數(shù)太少,學(xué)習(xí)模型可能會(huì)過(guò)于簡(jiǎn)單,無(wú)法捕捉訓(xùn)練數(shù)據(jù)的所有細(xì)微差別。若參數(shù)太多,模型則會(huì)變得過(guò)于復(fù)雜,在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模式的粒度太細(xì),以至于在要求對(duì)新數(shù)據(jù)進(jìn)行分類時(shí)無(wú)法泛化,這種現(xiàn)象稱為過(guò)擬合。“這是在以某種方式很好地?cái)M合數(shù)據(jù)和根本不擬合之間的平衡,我們需要找到一個(gè)居中點(diǎn)?!?/span>加州大學(xué)圣地亞哥分校(University of California, San Diego)機(jī)器學(xué)習(xí)研究員Mikhail Belkin如是說(shuō)。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

眾所周知,像VGG這樣的深度神經(jīng)網(wǎng)絡(luò)參數(shù)太多,應(yīng)該會(huì)過(guò)擬合,但事實(shí)并非如此。且恰恰相反,這類網(wǎng)絡(luò)對(duì)新數(shù)據(jù)的泛化能力驚人的好——直到最近,還沒(méi)人知道其中的原因。

這并不是因?yàn)槿狈@方面的探索。例如,于今年8月去世的耶路撒冷希伯來(lái)大學(xué)計(jì)算機(jī)科學(xué)家和神經(jīng)科學(xué)家Naftali Tishby認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)首先擬合訓(xùn)練數(shù)據(jù),然后(通過(guò)信息瓶頸)丟棄無(wú)關(guān)信息,這有助于它們泛化。但其他人認(rèn)為,這并不適用于所有類型的深度神經(jīng)網(wǎng)絡(luò),這個(gè)想法仍然存在爭(zhēng)議。

現(xiàn)在,內(nèi)核機(jī)和理想化神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)等價(jià)性為這些過(guò)度參數(shù)化的網(wǎng)絡(luò)效果如此好的原因和過(guò)程提供了線索。內(nèi)核機(jī)是一種算法,它通過(guò)將數(shù)據(jù)投射到極高的維度中來(lái)尋找數(shù)據(jù)中的模式。也就是說(shuō),通過(guò)研究理想化神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上易于處理的內(nèi)核機(jī)等價(jià)對(duì)應(yīng)物,研究人員正在了解為什么深度網(wǎng)絡(luò)盡管具有令人震驚的復(fù)雜性,但在訓(xùn)練過(guò)程中會(huì)收斂到可以很好地泛化到未見(jiàn)過(guò)的數(shù)據(jù)的解決方案。

“神經(jīng)網(wǎng)絡(luò)有點(diǎn)像Rube Goldberg機(jī)器。你不知道其中哪一部分真正重要?!?Belkin說(shuō)?!拔艺J(rèn)為將[它們]簡(jiǎn)化為內(nèi)核方法(因?yàn)閮?nèi)核方法沒(méi)有這么復(fù)雜),在某種程度上允許我們打開(kāi)這個(gè)黑箱?!?/span>



1

尋找線性分隔符

內(nèi)核方法或內(nèi)核機(jī),依賴于具有悠久歷史的數(shù)學(xué)領(lǐng)域。這要追溯到19世紀(jì)德國(guó)數(shù)學(xué)家卡爾·弗里德里希·高斯(Carl Friedrich Gauss),他提出了同名的高斯核函數(shù),這一函數(shù)將變量x映射到一個(gè)熟悉的鐘形曲線的函數(shù)。20世紀(jì)初,英國(guó)數(shù)學(xué)家James Mercer用核函數(shù)來(lái)解積分方程,核函數(shù)的現(xiàn)代用法開(kāi)始興起。到了20世紀(jì)60年代,核函數(shù)被用于機(jī)器學(xué)習(xí),以處理不適合簡(jiǎn)單分類技術(shù)的數(shù)據(jù)。

理解內(nèi)核方法需要從機(jī)器學(xué)習(xí)中被稱為線性分類器的算法開(kāi)始。假設(shè)貓和狗只能使用二維數(shù)據(jù)進(jìn)行分類,這意味著你需要兩個(gè)特征(比如鼻子的大小,我們可以在 x 軸上繪制,而耳朵的大小可以在y軸上表示)來(lái)區(qū)分兩種類型的動(dòng)物。根據(jù)x-y平面上繪制標(biāo)記的數(shù)據(jù),貓應(yīng)該在一個(gè)集群中,而狗在另一個(gè)集群。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

然后我們可以使用標(biāo)記的數(shù)據(jù)訓(xùn)練線性分類器,找出一條將兩個(gè)集群分開(kāi)的直線。這涉及找到表示線的方程的系數(shù)。現(xiàn)在,給定新的未標(biāo)記數(shù)據(jù),通過(guò)看這些數(shù)據(jù)落在線的哪一側(cè),很容易將其歸類為狗或貓。

然而,愛(ài)狗人士和愛(ài)貓人士會(huì)對(duì)這種過(guò)于簡(jiǎn)單化的做法感到震驚。許多類型的貓和狗的鼻子和耳朵的實(shí)際數(shù)據(jù)幾乎肯定不能被線性分隔符分割。在這種情況下,當(dāng)數(shù)據(jù)是線性不可分的,可以將其轉(zhuǎn)換或投影到更高維的空間中。(一種簡(jiǎn)單的方法是將兩個(gè)特征的值相乘,從而創(chuàng)建出第三個(gè)特征:也許將狗與貓區(qū)分開(kāi)來(lái)的鼻子和耳朵的大小之間存在某種相關(guān)性。)

更普遍地說(shuō),在高維空間中查看數(shù)據(jù)更容易找到線性分隔符,當(dāng)空間具有三個(gè)以上的維度時(shí),該線性分隔符被稱為超平面。當(dāng)這個(gè)超平面被投影回較低維度時(shí),它將呈現(xiàn)出帶有曲線和擺動(dòng)的非線性函數(shù)的形狀,將原始低維數(shù)據(jù)分成兩個(gè)集群。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

然而,當(dāng)我們處理真實(shí)數(shù)據(jù)時(shí),在高維中找到超平面的系數(shù)通常是計(jì)算效率低下的,有時(shí)甚至是不可能找到的。但內(nèi)核機(jī)不存在這種情況。




2

真理的內(nèi)核

內(nèi)核機(jī)的強(qiáng)大之處在于它們能完成這兩件事。首先,內(nèi)核機(jī)將低維數(shù)據(jù)集中的每個(gè)點(diǎn)映射到更高維數(shù)據(jù)集中的一個(gè)點(diǎn)。這個(gè)超空間的維度可能是無(wú)限的,取決于映射,這可能會(huì)帶來(lái)一個(gè)問(wèn)題:找到分離超平面的系數(shù)涉及到計(jì)算每一對(duì)高維特征的內(nèi)積,當(dāng)數(shù)據(jù)被投射到無(wú)限維時(shí),這就變得很困難。

其次,給定兩個(gè)低維數(shù)據(jù)點(diǎn),內(nèi)核機(jī)可以使用核函數(shù)輸出一個(gè)數(shù)字,這個(gè)數(shù)字等于相應(yīng)的高維特征的內(nèi)積。關(guān)鍵是,該算法可以使用這種技巧來(lái)找到超平面的系數(shù),而無(wú)需真正進(jìn)入高維空間。

加州大學(xué)伯克利分校名譽(yù)教授Bernhard Boser說(shuō),“內(nèi)核技巧的偉大之處在于,所有計(jì)算都發(fā)生在低維空間”,而不是可能的無(wú)限維空間。

Boser和他的同事Isabelle Guyon以及Vladimir Vapnik在20世紀(jì)80年代末和90年代初發(fā)明了一類稱為支持向量機(jī) (SVM) 的內(nèi)核機(jī),當(dāng)時(shí)他們都在新澤西州霍爾姆德?tīng)柕呢悹枌?shí)驗(yàn)室(Bell Labs)。雖然從20世紀(jì)60年代開(kāi)始,各種類型的內(nèi)核機(jī)已經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域取得了顯著的成就,但正是隨著SVM的發(fā)明,它們才登上了舞臺(tái)的中心。事實(shí)證明,SVM 非常強(qiáng)大。到21世紀(jì)初,它們被廣泛應(yīng)用于生物信息學(xué)(例如,用于發(fā)現(xiàn)不同蛋白質(zhì)序列之間的相似性并預(yù)測(cè)蛋白質(zhì)的功能)、機(jī)器視覺(jué)和手寫(xiě)識(shí)別等領(lǐng)域。

SVM繼續(xù)主導(dǎo)機(jī)器學(xué)習(xí)領(lǐng)域,直到 2012 年AlexNet 的到來(lái),標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)發(fā)展成熟。隨著機(jī)器學(xué)習(xí)社區(qū)轉(zhuǎn)向ANN,SVM陷入困境,但它們(以及一般的內(nèi)核機(jī))仍然是強(qiáng)大的模型,有很多東西值得我們學(xué)習(xí)。例如,他們可以做的不僅僅是使用內(nèi)核技巧來(lái)找到一個(gè)分離超平面。

“如果你有一個(gè)強(qiáng)大的內(nèi)核,那么你就可以將數(shù)據(jù)映射到一個(gè)無(wú)限維且非常強(qiáng)大的內(nèi)核空間,”谷歌研究大腦團(tuán)隊(duì)的研究科學(xué)家張志遠(yuǎn)(Chiyuan Zhang)說(shuō)道?!霸谶@個(gè)強(qiáng)大的隱藏空間中,你總能找到一個(gè)線性分隔符來(lái)分隔數(shù)據(jù),而且有無(wú)限多種可能的解決方案?!?/span>

但是,內(nèi)核理論不是讓你僅僅選擇一個(gè)任意的線性分隔符,而是通過(guò)限制搜索的解決方案的空間,選擇一個(gè)可能的最佳分隔符(對(duì)于某些“最佳”的定義而言)。類似于減少模型中的參數(shù)數(shù)量以防止其過(guò)擬合,這一過(guò)程稱為正則化。張志遠(yuǎn)想知道深度神經(jīng)網(wǎng)絡(luò)是否也在做類似的事情。

深度神經(jīng)網(wǎng)絡(luò)由多層人工神經(jīng)元組成。它們有一個(gè)輸入層、一個(gè)輸出層和至少一個(gè)夾在它們之間的隱藏層。隱藏層越多,網(wǎng)絡(luò)就越深。網(wǎng)絡(luò)的參數(shù)代表了這些神經(jīng)元之間連接的強(qiáng)度。例如,訓(xùn)練一個(gè)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別,需要反復(fù)向它展示之前分類過(guò)的圖像,并確定其參數(shù)值,以幫助它正確地描述這些圖像。經(jīng)過(guò)訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)成為了一個(gè)將輸入(比如圖像)轉(zhuǎn)換為輸出(標(biāo)簽或類別)的模型。

2017年,張志遠(yuǎn)和同事對(duì)AlexNet和VGG等網(wǎng)絡(luò)進(jìn)行了一系列實(shí)證測(cè)試,以查看用于訓(xùn)練這些ANN的算法是否以某種方式有效地減少了可調(diào)參數(shù)的數(shù)量,從而產(chǎn)生了一種隱式正則化形式。換句話說(shuō),訓(xùn)練機(jī)制是否使這些網(wǎng)絡(luò)無(wú)法過(guò)擬合?

張志遠(yuǎn)團(tuán)隊(duì)發(fā)現(xiàn)事實(shí)并非如此。使用巧妙操縱的數(shù)據(jù)集,張教授的團(tuán)隊(duì)證明了AlexNet和其他類似的人工神經(jīng)網(wǎng)絡(luò)確實(shí)會(huì)過(guò)擬合,而不是泛化。但是,當(dāng)給定未更改的數(shù)據(jù)時(shí),使用相同算法訓(xùn)練的相同網(wǎng)絡(luò)并沒(méi)有過(guò)擬合——相反,它們泛化得很好。這種隱式正則化不可能是答案。張志遠(yuǎn)說(shuō),這一發(fā)現(xiàn)要求“更好地解釋描述深度神經(jīng)網(wǎng)絡(luò)中的泛化特征”。



3

無(wú)限的神經(jīng)元

與此同時(shí),研究表明,較寬的神經(jīng)網(wǎng)絡(luò)在泛化方面通常與較窄的神經(jīng)網(wǎng)絡(luò)表現(xiàn)一樣好,甚至更好。對(duì)某些人來(lái)說(shuō),這暗示著或許可以通過(guò)采用物理學(xué)中的策略來(lái)理解人工神經(jīng)網(wǎng)絡(luò),“研究極限情況有時(shí)可以簡(jiǎn)化問(wèn)題。”谷歌研究大腦團(tuán)隊(duì)的研究科學(xué)家Yasaman Bahri說(shuō)。為了解決這種情況,物理學(xué)家經(jīng)常通過(guò)考慮極端情況來(lái)簡(jiǎn)化問(wèn)題。例如,當(dāng)系統(tǒng)中的粒子數(shù)趨于無(wú)窮時(shí)會(huì)發(fā)生什么?Bahri說(shuō):“在這些限制條件下,統(tǒng)計(jì)效應(yīng)會(huì)變得更容易處理?!?/span>從數(shù)學(xué)上講,如果神經(jīng)網(wǎng)絡(luò)層的寬度——即單層神經(jīng)元的數(shù)量——是無(wú)限的,那么神經(jīng)網(wǎng)絡(luò)會(huì)發(fā)生什么?

1994年,現(xiàn)為多倫多大學(xué)名譽(yù)教授的Radford Neal提出了一個(gè)關(guān)于具有單個(gè)隱藏層的無(wú)限寬網(wǎng)絡(luò)的確切問(wèn)題。他指出,如果這個(gè)網(wǎng)絡(luò)的權(quán)重被重新設(shè)置或初始化,具有某些統(tǒng)計(jì)性質(zhì),那么在初始化時(shí)(在任何訓(xùn)練之前),這樣的網(wǎng)絡(luò)在數(shù)學(xué)上等價(jià)于一個(gè)眾所周知的核函數(shù),稱為高斯過(guò)程。20多年后,在2017年,包括Bahri在內(nèi)的兩個(gè)研究小組表明,具有許多隱藏層的無(wú)限寬理想化深度神經(jīng)網(wǎng)絡(luò)也是如此。

這背后的含義是驚人的。通常情況下,即使在訓(xùn)練了深度網(wǎng)絡(luò)之后,也不能使用解析數(shù)學(xué)表達(dá)式來(lái)對(duì)未見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。你只需要運(yùn)行深度網(wǎng)絡(luò),看看它說(shuō)了什么——它就像一個(gè)黑匣子。但在理想化的場(chǎng)景中,初始化時(shí)網(wǎng)絡(luò)等價(jià)于高斯過(guò)程。這時(shí)你可以拋棄神經(jīng)網(wǎng)絡(luò),只訓(xùn)練有數(shù)學(xué)表達(dá)式的內(nèi)核機(jī)器。

“一旦你把它映射到高斯過(guò)程中……你就可以通過(guò)分析計(jì)算預(yù)測(cè)應(yīng)該是什么,”Bahri說(shuō)。

這已經(jīng)是個(gè)里程碑式的發(fā)現(xiàn),但它并沒(méi)有從數(shù)學(xué)上描述在實(shí)踐中最常見(jiàn)的訓(xùn)練形式所發(fā)生的情況。在后一種情況下,尚不清楚該解決方案如何能夠很好地泛化。



4

開(kāi)始梯度下降

部分謎團(tuán)集中在如何訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)上,這涉及一種稱為梯度下降的算法?!跋陆怠币辉~指的是,在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)穿越了一個(gè)復(fù)雜的、高維的、布滿山丘和山谷的景觀,景觀中的每個(gè)位置都代表了網(wǎng)絡(luò)對(duì)給定的一組參數(shù)值所造成的誤差。最終,一旦參數(shù)得到適當(dāng)調(diào)整,人工神經(jīng)網(wǎng)絡(luò)就會(huì)到達(dá)一個(gè)稱為全局最小值的區(qū)域,這意味著它將盡可能準(zhǔn)確地對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類。訓(xùn)練網(wǎng)絡(luò)本質(zhì)上是一個(gè)優(yōu)化問(wèn)題,即尋找全局最小值,訓(xùn)練后的網(wǎng)絡(luò)表示將輸入映射到輸出的幾乎最優(yōu)函數(shù)。這是一個(gè)難以分析的復(fù)雜過(guò)程。

西雅圖華盛頓大學(xué)的機(jī)器學(xué)習(xí)專家Simon Du說(shuō):“如果你應(yīng)用一些廣泛使用的算法,如梯度下降,(人工神經(jīng)網(wǎng)絡(luò))可以收斂到全局最小值,現(xiàn)有的理論無(wú)法保證這一點(diǎn)?!?到2018年底,我們開(kāi)始明白其中的原因。

同樣,正如重大科學(xué)進(jìn)步常表現(xiàn)的那樣,基于對(duì)無(wú)限寬網(wǎng)絡(luò)的數(shù)學(xué)分析,以及它們與更容易理解的內(nèi)核機(jī)器之間的關(guān)系,多個(gè)研究小組同時(shí)得出了一個(gè)可能的答案。在Simon Du的團(tuán)隊(duì)和其他人發(fā)表論文的時(shí)候,一位名叫Arthur Jacot的年輕瑞士研究生在該領(lǐng)域的旗艦會(huì)議NeurIPS 2018上展示了他的團(tuán)隊(duì)的成果。

雖然各團(tuán)隊(duì)在細(xì)節(jié)和工作框架上有所不同,但本質(zhì)是一致的,即無(wú)限寬的深度神經(jīng)網(wǎng)絡(luò),其權(quán)值是根據(jù)特定的統(tǒng)計(jì)屬性初始化的,不僅在初始化時(shí),而且在整個(gè)訓(xùn)練過(guò)程中都與核函數(shù)完全相同。關(guān)于權(quán)重的一個(gè)關(guān)鍵假設(shè)是,它們?cè)谟?xùn)練過(guò)程中單個(gè)變化很小(盡管無(wú)限數(shù)量的小變化的凈影響是顯著的)。Jacot和他在瑞士洛桑聯(lián)邦理工學(xué)院的同事證明了一個(gè)無(wú)限寬的深度神經(jīng)網(wǎng)絡(luò)總是等同于一個(gè)在訓(xùn)練期間不會(huì)改變的內(nèi)核,它甚至不依賴于訓(xùn)練數(shù)據(jù)。核函數(shù)只依賴于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),如連接的深度和類型?;谒囊恍缀翁匦裕搱F(tuán)隊(duì)將其內(nèi)核命名為神經(jīng)正切。

“我們知道,至少在某些情況下,神經(jīng)網(wǎng)絡(luò)可以像內(nèi)核方法一樣運(yùn)行,”雅科特說(shuō)?!斑@是嘗試真正比較這些方法以試圖了解差異的第一步?!?/span>



5

所有的人工神經(jīng)網(wǎng)絡(luò)

這個(gè)結(jié)果最重要的發(fā)現(xiàn)是,它解釋了為什么深度神經(jīng)網(wǎng)絡(luò),至少在這種理想情況下,會(huì)收斂到一個(gè)好的解。當(dāng)我們?cè)趨?shù)空間中查看人工神經(jīng)網(wǎng)絡(luò)時(shí),即從其參數(shù)和復(fù)雜的損失景觀來(lái)看,這種收斂性很難在數(shù)學(xué)上證明。但由于理想的深度網(wǎng)絡(luò)相當(dāng)于一個(gè)內(nèi)核機(jī),我們可以使用訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練深度網(wǎng)絡(luò)或內(nèi)核機(jī),最終都會(huì)找到一個(gè)近似最優(yōu)的函數(shù),將輸入轉(zhuǎn)換為輸出。

在訓(xùn)練過(guò)程中,無(wú)限寬神經(jīng)網(wǎng)絡(luò)所代表的函數(shù)的演化與內(nèi)核機(jī)所代表的函數(shù)的演化相匹配。當(dāng)我們看到函數(shù)空間時(shí),神經(jīng)網(wǎng)絡(luò)和它的等效內(nèi)核機(jī)都在某個(gè)超維空間中滾下一個(gè)簡(jiǎn)單的碗狀景觀。很容易證明梯度下降會(huì)讓你到達(dá)碗的底部——全局最小值。至少對(duì)于這種理想化的場(chǎng)景,“你可以證明全局收斂,”Du說(shuō)?!斑@就是為什么學(xué)習(xí)理論社區(qū)的人們這么興奮?!?/span>

并不是每個(gè)人都相信核函數(shù)和神經(jīng)網(wǎng)絡(luò)之間的這種等價(jià)性適用于實(shí)際的神經(jīng)網(wǎng)絡(luò)——這些神經(jīng)網(wǎng)絡(luò)的寬度是有限的,并且其參數(shù)在訓(xùn)練過(guò)程中會(huì)發(fā)生巨大變化。“我認(rèn)為還需要把一些地方聯(lián)系起來(lái),”張志遠(yuǎn)說(shuō)。此外,還有心理方面的原因:神經(jīng)網(wǎng)絡(luò)本身就很神秘,將它們簡(jiǎn)化為內(nèi)核機(jī)讓張感到失望?!拔矣悬c(diǎn)希望這不是最終答案,因?yàn)閺呐f理論可用的意義上來(lái)說(shuō),它會(huì)讓事情變得不那么有趣?!?/span>

但其他人卻很興奮。例如,Belkin認(rèn)為,即使內(nèi)核方法是舊理論,它們?nèi)匀粵](méi)有被完全理解。他的團(tuán)隊(duì)根據(jù)經(jīng)驗(yàn)表明,內(nèi)核方法不會(huì)過(guò)擬合,并且在不需要任何正則化的情況下可以很好地泛化到測(cè)試數(shù)據(jù),這與神經(jīng)網(wǎng)絡(luò)類似,且與我們對(duì)傳統(tǒng)學(xué)習(xí)理論的預(yù)期相反。“如果我們了解了內(nèi)核方法的發(fā)展,那么我認(rèn)為這確實(shí)為我們提供了打開(kāi)神經(jīng)網(wǎng)絡(luò)這個(gè)神秘盒子的鑰匙,”Belkin如是說(shuō)。

研究人員不僅對(duì)核函數(shù)有更牢固的數(shù)學(xué)掌握,從而更容易將它們作為模擬物來(lái)理解神經(jīng)網(wǎng)絡(luò),而且從經(jīng)驗(yàn)上講,核函數(shù)也比神經(jīng)網(wǎng)絡(luò)更容易使用。核函數(shù)遠(yuǎn)沒(méi)有那么復(fù)雜,它們不需要隨機(jī)初始化參數(shù),而且它們的性能更具有可重復(fù)性。研究人員已經(jīng)開(kāi)始研究現(xiàn)實(shí)網(wǎng)絡(luò)和核函數(shù)之間的聯(lián)系,并對(duì)他們?cè)谶@一新理解上能走多遠(yuǎn)感到興奮。

“如果我們建立了絕對(duì)、完全的等價(jià),那么我認(rèn)為它將在某種程度上改變整個(gè)游戲。”Belkin說(shuō)。

原文鏈接:

https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

深度學(xué)習(xí)為何泛化的那么好?秘密或許隱藏在內(nèi)核機(jī)中

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)