0
本文作者: 我在思考中 | 2021-11-15 10:19 |
編輯 | 青暮
長(zhǎng)期以來(lái),探尋神經(jīng)網(wǎng)絡(luò)泛化性能的量化方法一直是深度學(xué)習(xí)研究的核心目標(biāo)。
盡管深度學(xué)習(xí)在許多任務(wù)上取得了巨大的成功,但是從根本上說(shuō),我們還無(wú)法很好地解釋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的函數(shù)為什么可以很好地泛化到未曾見(jiàn)過(guò)的數(shù)據(jù)上。
從傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)理論的直覺(jué)出發(fā),過(guò)參數(shù)化的神經(jīng)網(wǎng)絡(luò)難以獲得如此好的泛化效果,我們也很難得到有用的泛化界。
因此,研究人員試圖尋找一種新的方法來(lái)解釋神經(jīng)網(wǎng)絡(luò)的泛化能力。
近日,加州大學(xué)伯克利分校的研究者于 Arxiv 上在線發(fā)表了一篇題為「NEURAL TANGENT KERNEL EIGENVALUES ACCURATELY PREDICT GENERALIZATION」的論文,指出「神經(jīng)正切核」的特征值可以準(zhǔn)確地預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的泛化性能。
「神經(jīng)正切核」是近年來(lái)神經(jīng)網(wǎng)絡(luò)優(yōu)化理論研究的熱點(diǎn)概念,研究表明:通過(guò)梯度下降以無(wú)窮小的步長(zhǎng)(也稱為梯度流)訓(xùn)練的經(jīng)過(guò)適當(dāng)隨機(jī)初始化的足夠?qū)挼纳窠?jīng)網(wǎng)絡(luò),等效于使用稱為神經(jīng)正切核(NTK)的核回歸預(yù)測(cè)器。
在本文中,作者指出:通過(guò)研究神經(jīng)網(wǎng)絡(luò)的神經(jīng)正切核的特征系統(tǒng),我們可以預(yù)測(cè)該神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)任意函數(shù)時(shí)的泛化性能。具體而言,作者提出的理論不僅可以準(zhǔn)確地預(yù)測(cè)測(cè)試的均方誤差,還可以預(yù)測(cè)學(xué)習(xí)到的函數(shù)的所有一階和二階統(tǒng)計(jì)量。
此外,通過(guò)使用量化給定目標(biāo)函數(shù)的「可學(xué)習(xí)性」的度量標(biāo)準(zhǔn),本文作者提出了一種加強(qiáng)版的「沒(méi)有免費(fèi)午餐定理」,該定理指出,對(duì)于寬的神經(jīng)網(wǎng)絡(luò)而言:提升其對(duì)于給定目標(biāo)函數(shù)的泛化性能,必定會(huì)弱化其對(duì)于正交函數(shù)的泛化性能。
最后,作者將本文提出的理論與寬度有限(寬度僅為 20)的網(wǎng)絡(luò)進(jìn)行對(duì)比,發(fā)現(xiàn)本文提出的理論在這些寬度較小的網(wǎng)絡(luò)中也成立,這表明它不僅適用于標(biāo)準(zhǔn)的 NTK,事實(shí)上也能正確預(yù)測(cè)真實(shí)神經(jīng)網(wǎng)絡(luò)的泛化性能。
論文地址:https://arxiv.org/pdf/2110.03922.pdf
作者首先將上述問(wèn)題形式化定義為:從第一性原理出發(fā),對(duì)于特定的目標(biāo)函數(shù),我們是否高效地預(yù)測(cè)給定的神經(jīng)網(wǎng)絡(luò)架構(gòu)利用有限的個(gè)訓(xùn)練樣本學(xué)習(xí)到的函數(shù)的泛化性能?
該理論不僅可以解釋為什么神經(jīng)網(wǎng)絡(luò)在某些函數(shù)上可以很好地泛化,而且還可以預(yù)測(cè)出給定的網(wǎng)絡(luò)架構(gòu)適合哪些函數(shù),讓我們可以從第一性原理出發(fā)為給定的問(wèn)題挑選最合適的架構(gòu)。
為此,本文作者進(jìn)行了一系列近似,他們首先將真實(shí)的網(wǎng)絡(luò)近似為理想化的寬度無(wú)限的網(wǎng)絡(luò),這與核回歸是等價(jià)的。接著,作者針對(duì)核回歸的泛化推導(dǎo)出了新的近似結(jié)果。這些近似的方程能夠準(zhǔn)確預(yù)測(cè)出原始網(wǎng)絡(luò)的泛化性能。
本文的研究建立在無(wú)限寬網(wǎng)絡(luò)理論的基礎(chǔ)之上。該理論表明,隨著網(wǎng)絡(luò)寬度趨于無(wú)窮大,根據(jù)類似于中心極限定理的結(jié)果,常用的神經(jīng)網(wǎng)絡(luò)會(huì)有非常簡(jiǎn)單的解析形式。特別是,采用均方誤差(MSE)損失的梯度下降訓(xùn)練的足夠?qū)挼木W(wǎng)絡(luò)等價(jià)于 NTK 核回歸模型。利用這一結(jié)論,研究者們研究者們通過(guò)對(duì)核回歸的泛化性能分析將相同的結(jié)論推廣至了有限寬的網(wǎng)絡(luò)。
Bordelon 等人于 2020 年發(fā)表的 ICML 論文「Spectrum dependent learning curves in kernel regression and wide neural networks」指出,當(dāng)使用 NTK 作為核時(shí),其表達(dá)式可以精準(zhǔn)地預(yù)測(cè)學(xué)習(xí)任意函數(shù)的神經(jīng)網(wǎng)絡(luò)的 MSE。我們可以認(rèn)為,當(dāng)樣本被添加到訓(xùn)練集中時(shí),網(wǎng)絡(luò)會(huì)在越來(lái)越大的輸入空間中泛化得很好。這個(gè)可學(xué)習(xí)函數(shù)的子空間的自然基即為 NTK 的特征基,我們根據(jù)其特征值的降序來(lái)學(xué)習(xí)特征函數(shù)。
具體而言,本文作者首先形式化定義了目標(biāo)函數(shù)的可學(xué)習(xí)性,該指標(biāo)具備 MSE 所不具備的一些理想特性。接著,作者使用可學(xué)習(xí)性來(lái)證明了一個(gè)加強(qiáng)版的「沒(méi)有免費(fèi)午餐定理」,該定理描述了核對(duì)正交基下所有函數(shù)的歸納偏置的折中。該定理表明,較高的 NTK 本征模更容易學(xué)習(xí),且這些本征模之間在給定的訓(xùn)練集大小下的學(xué)習(xí)能力存在零和競(jìng)爭(zhēng)。作者進(jìn)一步證明,對(duì)于任何的核或較寬的網(wǎng)絡(luò),這一折中必然會(huì)使某些函數(shù)的泛化性能差于預(yù)期。
令A(yù)為n階方陣,若存在數(shù)λ和非零向量x,使得Ax=λx,則λ稱為A的特征值,x為A對(duì)應(yīng)于特征值λ的特征向量。
圖 1:特征值與特征向量的定義
圖 2:特征值與特征向量的幾何意義
一個(gè)前饋神經(jīng)網(wǎng)絡(luò)可以代表下面的函數(shù):
其中,θ是一個(gè)參數(shù)向量。令訓(xùn)練樣本為x,目標(biāo)值為y,測(cè)試數(shù)據(jù)點(diǎn)為x',假設(shè)我們以較小的學(xué)習(xí)率η執(zhí)行一步梯度下降,MSE 損失為。則參數(shù)會(huì)以如下所示的方式更新:
我們希望知道對(duì)于測(cè)試點(diǎn)而言,參數(shù)更新的變化有多大。為此,令θ線性變化,我們得到:
其中,我們將神經(jīng)正切核 K 定義為:
值得注意的是,隨著網(wǎng)絡(luò)寬度區(qū)域無(wú)窮大,修正項(xiàng)可以忽略不計(jì),且
在任意的隨機(jī)初始化后,在訓(xùn)練的任何時(shí)刻都是相同的,這極大簡(jiǎn)化了對(duì)網(wǎng)絡(luò)訓(xùn)練的分析??梢宰C明,在對(duì)任意數(shù)據(jù)集上利用 MSE 損失進(jìn)行無(wú)限時(shí)長(zhǎng)的訓(xùn)練后,網(wǎng)絡(luò)學(xué)習(xí)到的函數(shù)可以歸納如下:
為了推導(dǎo)核回歸的泛化性,我們將問(wèn)題簡(jiǎn)化,僅僅觀察核的特征基上的學(xué)習(xí)問(wèn)題。我們將核看做線性操作,其特征值/向量對(duì)滿足:
直觀地說(shuō),核是一個(gè)相似函數(shù),我們可以將它的高特征值特征函數(shù)解釋為「相似」點(diǎn)到相似值的映射。在這里,我們的分析重點(diǎn)在于對(duì)泛化性的度量,我們將其稱之為「可學(xué)習(xí)性」,它量化了標(biāo)函數(shù)和預(yù)測(cè)函數(shù)的對(duì)齊程度:
我們將初始化的神經(jīng)網(wǎng)絡(luò)f和學(xué)習(xí)目標(biāo)函數(shù)f^分別用特征向量展開(kāi):
并以內(nèi)積的形式提出可學(xué)習(xí)性的表達(dá)式:
這樣就可以計(jì)算f和f^之間的接近(可學(xué)習(xí))程度。
作者還推導(dǎo)出了學(xué)習(xí)到的函數(shù)的所有一階和二階統(tǒng)計(jì)量的表達(dá)式,包括恢復(fù)之前的 MSE 表達(dá)式。如圖 3 所示,這些表達(dá)式不僅對(duì)于核回歸是相當(dāng)準(zhǔn)確的,而且也可以精準(zhǔn)預(yù)測(cè)有限寬度的網(wǎng)絡(luò)。
圖 3:為四種訓(xùn)練集大小不同的布爾函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的泛化性能度量。無(wú)論是對(duì) MSE 還是可學(xué)習(xí)性而言,理論預(yù)測(cè)結(jié)果(曲線)與真實(shí)性能(點(diǎn))都能夠很好地匹配。
除了對(duì)泛化性能的近似,本文作者還針對(duì)核回歸問(wèn)題提出了一種加強(qiáng)版的「沒(méi)有免費(fèi)午餐定理」。經(jīng)典的「沒(méi)有免費(fèi)午餐定理」的結(jié)論是:由于對(duì)所有可能函數(shù)的相互補(bǔ)償,最優(yōu)化算法的性能是等價(jià)的。
圖 4:經(jīng)典的沒(méi)有免費(fèi)午餐定理(來(lái)源:《機(jī)器學(xué)習(xí)》,周志華)
簡(jiǎn)單地說(shuō),如果某種學(xué)習(xí)算法在某些方面比另一種學(xué)習(xí)算法更優(yōu),則肯定會(huì)在其它某些方面弱于另一種學(xué)習(xí)算法。具體而言,沒(méi)有免費(fèi)午餐定理表明:
1)對(duì)所有可能的的目標(biāo)函數(shù)求平均,得到的所有學(xué)習(xí)算法的「非訓(xùn)練集誤差」的期望值相同;
2)對(duì)任意固定的訓(xùn)練集,對(duì)所有的目標(biāo)函數(shù)求平均,得到的所有學(xué)習(xí)算法的「非訓(xùn)練集誤差」的期望值也相同;
3)對(duì)所有的先驗(yàn)知識(shí)求平均,得到的所有學(xué)習(xí)算法的「非訓(xùn)練集誤差」的期望值也相同;
4)對(duì)任意固定的訓(xùn)練集,對(duì)所有的先驗(yàn)知識(shí)求平均,得到的所有學(xué)習(xí)算法的的「非訓(xùn)練集誤差」的期望值也相同。
對(duì)于核回歸問(wèn)題而言,所有可能的目標(biāo)函數(shù)的期望滿足:
所有核特征函數(shù)的可學(xué)習(xí)性與訓(xùn)練集大小正相關(guān)。
圖 5:可學(xué)習(xí)性的特征函數(shù)之和始終為訓(xùn)練集的大小。
如圖 5 所示,堆疊起來(lái)的柱狀圖顯式了一個(gè)在十點(diǎn)域上的十個(gè)特征函數(shù)的隨機(jī) D 可學(xué)習(xí)性。堆疊起來(lái)的數(shù)據(jù)柱顯示了十個(gè)特征函數(shù)的 D-可學(xué)習(xí)性,他們都來(lái)自相同的訓(xùn)練集 D,其中數(shù)據(jù)點(diǎn)個(gè)數(shù)為 3,我們將它們按照特征值的降序從上到下排列。每一組數(shù)據(jù)柱都代表了一種不同的網(wǎng)絡(luò)架構(gòu)。對(duì)于每個(gè)網(wǎng)絡(luò)架構(gòu)而言,每個(gè)數(shù)據(jù)柱的高度都近似等于 n。在圖(A)中,對(duì)于每種學(xué)習(xí)情況而言,左側(cè)的 NTK 回歸的 D-可學(xué)習(xí)性之和恰好為 n,而右側(cè)代表有限寬度網(wǎng)絡(luò)的柱與左側(cè)也十分接近。
在本文中,作者通過(guò)一系列實(shí)驗(yàn)證明了對(duì)有限寬度網(wǎng)絡(luò)和 NTK 回顧IDE所有理論預(yù)測(cè)。在實(shí)驗(yàn)過(guò)程中,所有的實(shí)驗(yàn)架構(gòu)為帶有 4 個(gè)隱藏層的全連接網(wǎng)絡(luò),使用的激活函數(shù)為 ReLU,網(wǎng)絡(luò)寬度為 500。由于使用了全連接網(wǎng)絡(luò),因此其核為旋轉(zhuǎn)不變性 NTK。實(shí)驗(yàn)使用了三個(gè)不同的輸入空間x(離散的單位元、超立方體、超球面)。對(duì)于每個(gè)輸入空間而言,x的特征模會(huì)被劃分到k∈N的退化子集中,其中 k 越大則空間中的變化越快。在所有情況下,隨著k的增大,特征值會(huì)減小,這與人們普遍認(rèn)為的神經(jīng)網(wǎng)絡(luò)傾向于緩慢變化函數(shù)的「頻譜偏置」(Spectral bias)是一致的。
神經(jīng)核的譜分析結(jié)果
圖 6:神經(jīng)核的譜分析使我們可以準(zhǔn)確地預(yù)測(cè)學(xué)習(xí)和泛化的關(guān)鍵度量指標(biāo)。
圖 6 中的圖表展示了帶有四個(gè)隱藏層、激活函數(shù)為 ReLU 的網(wǎng)絡(luò)學(xué)習(xí)函數(shù)的泛化性能,其中訓(xùn)練數(shù)據(jù)點(diǎn)的個(gè)數(shù)為 n。理論預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果完美契合。
(A-F)經(jīng)過(guò)完整 batch 的梯度下降訓(xùn)練后,模型學(xué)到的數(shù)據(jù)插值圖。隨著 n 增大,模型學(xué)到的函數(shù)越來(lái)越接近真實(shí)函數(shù)。本文提出的理論正確地預(yù)測(cè)出:k=2 時(shí)學(xué)習(xí)的速率比 k=7 時(shí)更快,這是因?yàn)?k=2 時(shí)的特征值更大。
(G,J)為目標(biāo)函數(shù)和學(xué)習(xí)函數(shù)之間的 MSE,它是關(guān)于 n 的函數(shù)。圖中的點(diǎn)代表均值,誤差條代表對(duì)稱的 1σ方差。曲線展示出了兩盒的一致性,它們正確地預(yù)測(cè)了 k=2 時(shí) MSE 下降地更快。
(H,K)為偽本征模的傅里葉系數(shù),
。由于 k=2 時(shí)的特征值更大,此時(shí)的傅里葉系數(shù)小于 k=7 時(shí)的情況。在這兩種模式下,當(dāng)
被充分學(xué)習(xí)時(shí),傅里葉系數(shù)都會(huì)趨向于 0。實(shí)驗(yàn)結(jié)果表明理論預(yù)測(cè)的 1
與實(shí)驗(yàn)數(shù)據(jù)完美契合。
(I,L)可學(xué)習(xí)性:對(duì)于目標(biāo)函數(shù)和學(xué)習(xí)到的函數(shù)對(duì)齊程度的度量。隨著 n 增大,在[0,1]的區(qū)間內(nèi)單調(diào)遞增。由于 k=2 時(shí)的特征值更大,其可學(xué)習(xí)性也更高。
預(yù)測(cè)可學(xué)習(xí)性
圖 7:理論預(yù)測(cè)值與任意特征函數(shù)在多種輸入空間上的真實(shí)的可學(xué)習(xí)性緊密匹配。每張圖展示了關(guān)于訓(xùn)練集大小 n 的特征函數(shù)的可學(xué)習(xí)性。NTK 回歸和通過(guò)梯度下降訓(xùn)練的有限寬度網(wǎng)絡(luò)的理論曲線完美匹配。誤差條反映了1
由于數(shù)據(jù)集的隨機(jī)選擇造成的方差。(A)單位圓上正弦特征函數(shù)的可學(xué)習(xí)性。作者將單位圓離散化為 M=2^8 個(gè)輸入點(diǎn),訓(xùn)練集包含所有的輸入點(diǎn),可以完美地預(yù)測(cè)所有的函數(shù)。(B)8d 超立方體頂點(diǎn)的子集對(duì)等函數(shù)的可學(xué)習(xí)性。k值較高的特征函數(shù)擁有較小的特征值,其學(xué)習(xí)速率較慢。當(dāng) n =2^8 時(shí),所有函數(shù)的預(yù)測(cè)結(jié)果都很完美。虛線表示 L-n/m 時(shí)的情況,所有函數(shù)的可學(xué)習(xí)性都與一個(gè)隨機(jī)模型相關(guān)。(C)超球諧函數(shù)的可學(xué)習(xí)性。具有較高 k 的特征函數(shù)有較小的特征值,學(xué)習(xí)速率較慢,在連續(xù)的輸入空間中,可學(xué)習(xí)性沒(méi)有嚴(yán)格達(dá)到 1。
可學(xué)習(xí)性的統(tǒng)一形式
圖 8:本征模的可學(xué)習(xí)性 vs. 特征值的統(tǒng)一函數(shù)形式。
非均方誤差曲線
圖 9:本文提出的理論可以正確預(yù)測(cè),對(duì)于特征值較小的特征函數(shù)。
MSE會(huì)隨著數(shù)據(jù)點(diǎn)被加入到較小的訓(xùn)練集中而增大。(A-C)在給定的 n 個(gè)訓(xùn)練點(diǎn)的 3 個(gè)不同域上分別學(xué)習(xí) 4 個(gè)不同特征模時(shí),NTK 回歸和有限網(wǎng)絡(luò)的泛化 MSE。理論曲線與實(shí)驗(yàn)數(shù)據(jù)非常吻合。
寬度有限網(wǎng)絡(luò)下的情況
圖 10:即使是對(duì)于寬度非常窄的網(wǎng)絡(luò),本文理論上對(duì)可學(xué)習(xí)性的預(yù)測(cè)仍然十分準(zhǔn)確。
上圖顯式了 8d 超立方體上的四個(gè)特征模式的可學(xué)習(xí)性和訓(xùn)練集大小的關(guān)系,作者使用了一個(gè)包含 4 個(gè)隱藏層的網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),其網(wǎng)絡(luò)寬度可變,激活函數(shù)為 ReLU。所有圖表中的理論曲線都相同,虛線表示了樸素的、泛化性能極差的模型的可學(xué)習(xí)性。(A)嚴(yán)格的 NTK 回歸下的可學(xué)習(xí)性(B-F)有限寬度網(wǎng)絡(luò)的可學(xué)習(xí)性。隨著寬度的減小,平均的可學(xué)習(xí)性微弱增大, 1σ誤差增大。盡管如此,即使在寬度僅僅為 20 時(shí),平均學(xué)習(xí)率也與理論預(yù)測(cè)值十分契合。
在reddit上,有人指出,這種量化計(jì)算的前提是要學(xué)習(xí)的函數(shù)f^是已知的,“但如何應(yīng)用于學(xué)習(xí)函數(shù)完全未知的情況呢?”
對(duì)此,一作回應(yīng)道:沒(méi)錯(cuò),我們的理論假設(shè)知道完整的目標(biāo)學(xué)習(xí)函數(shù) f^,而在實(shí)踐中我們只能看到一個(gè)訓(xùn)練集。
“但從折中的角度來(lái)使用該理論也是可行的。假設(shè)我們知道目標(biāo)學(xué)習(xí)函數(shù)屬于少數(shù)可能函數(shù)之一。 該理論原則上包含足夠的信息來(lái)優(yōu)化內(nèi)核,因此它在所有可能函數(shù)上都具有很高的平均性能。 當(dāng)然,目標(biāo)學(xué)習(xí)函數(shù)永遠(yuǎn)不會(huì)只是少數(shù)幾個(gè)離散選項(xiàng)中的一個(gè)。但是如果擁有一些關(guān)于目標(biāo)學(xué)習(xí)函數(shù)的先驗(yàn)——例如,自然圖像可能服從某些統(tǒng)計(jì)。另外,或許也可以從數(shù)據(jù)-數(shù)據(jù)內(nèi)核矩陣中獲得足夠的信息來(lái)使用該理論,我們以后可能會(huì)探索這個(gè)方向!”
在本文中,作者提出了一種神經(jīng)網(wǎng)絡(luò)泛化的第一性原理,該理論能有效、準(zhǔn)確地預(yù)測(cè)許多泛化性能指標(biāo)。這一理論為神經(jīng)網(wǎng)絡(luò)的歸納偏置提供了新的視角,并為理解它們的學(xué)習(xí)行為提供了一個(gè)總體框架,為許多其他深度學(xué)習(xí)之謎的原理研究打開(kāi)一扇嶄新的大門。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。