0
本文作者: 我在思考中 | 2021-08-31 11:32 | 專題:ICML 2019 |
作者 | 任潔
編輯 | 王曄
隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用日益廣泛,可解釋性也逐漸受到更多學(xué)者的關(guān)注。目前對神經(jīng)網(wǎng)絡(luò)的可解釋性研究主要分為兩個方面,一方面是語義層面的解釋,另一方面是數(shù)學(xué)層面對網(wǎng)絡(luò)表達(dá)能力推導(dǎo)。
在語義層面,最直接的方法是可視化神經(jīng)網(wǎng)絡(luò)的中層特征,同時很多研究也致力于估計輸入樣本中不同單元對于神經(jīng)網(wǎng)絡(luò)輸出的重要性(attribution/importance/saliency)。
在數(shù)學(xué)推導(dǎo)的層面,很多研究嘗試從各個角度推導(dǎo)出神經(jīng)網(wǎng)絡(luò)表達(dá)能力的邊界。然而,這兩類解釋性研究往往各自為戰(zhàn),語義層面的解釋往往缺乏堅實的理論支撐,數(shù)學(xué)層面的推導(dǎo)又難以對接到人的認(rèn)知,讓人真正地理解神經(jīng)網(wǎng)絡(luò)。
在本文中,作者從特征復(fù)雜度的角度出發(fā),嘗試將語義解釋與神經(jīng)網(wǎng)絡(luò)的表達(dá)能力相結(jié)合。神經(jīng)網(wǎng)絡(luò)的中層特征往往是混雜的,包含非常豐富的信息,其中,一些特征是簡單的,另一些特征則是非常復(fù)雜的,需要經(jīng)過復(fù)雜變換才能學(xué)習(xí)到。受這一點啟發(fā),本文內(nèi)容:
1.定義了神經(jīng)網(wǎng)絡(luò)中層特征的復(fù)雜度;
2.在語義層面,實現(xiàn)了對簡單特征、復(fù)雜特征的拆分及可視化,發(fā)現(xiàn)簡單特征往往表示物體的主體形狀,而復(fù)雜特征則是一些細(xì)節(jié)、噪聲信息;
3.在表達(dá)能力層面,本文用可靠性、有效性,及過擬合程度評測了神經(jīng)網(wǎng)絡(luò)特征,量化了特征表達(dá)能力與特征復(fù)雜度、訓(xùn)練樣本數(shù)等因素之間的聯(lián)系;
4.基于上述結(jié)論,本文利用拆分出的特征向量進(jìn)一步提升了神經(jīng)網(wǎng)絡(luò)的性能,并解釋了經(jīng)典學(xué)習(xí)算法的效果。
論文標(biāo)題:“Interpreting and Disentangling Feature Components of Various Complexity from DNNs” in ICML 2021
論文鏈接:http://proceedings.mlr.press/v139/ren21b.html
點擊觀看論文視頻解讀:
將神經(jīng)網(wǎng)絡(luò)中層特征解構(gòu)并可視化出不同復(fù)雜度的特征分量:神經(jīng)網(wǎng)絡(luò)從輸入樣本中抽取得到了非常豐富的特征,而這些特征既包含簡單的特征分量,也包含復(fù)雜的特征分量。簡單的特征分量往往經(jīng)過簡單的變換就能得到,例如通過一個較淺的神經(jīng)網(wǎng)絡(luò),而復(fù)雜的特征分量則需要較深的神經(jīng)網(wǎng)絡(luò)才能擬合。即,給定一個訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)f,和輸入x,其中層特征f(x)中包含了不同復(fù)雜度的特征分量:
其中c(1)(x)表示不同復(fù)雜度的特征分量。我們利用學(xué)習(xí)某個特征分量所需要的最少的非線性變換數(shù)來量化這個特征分量的復(fù)雜度。例如,單層神經(jīng)網(wǎng)絡(luò)(只包含一個非線性層)所能擬合的特征分量c(1)(x)的復(fù)雜度階數(shù)定義為1階,c(1)(x)稱為f(x)的一階復(fù)雜度分量。包含連個非線性層的神經(jīng)網(wǎng)絡(luò)所能夠擬合的特征c(2)(x)稱為二階復(fù)雜度分量,以此類推。
為了從f(x)中拆分出不同復(fù)雜度的特征分量,我們通過知識蒸餾的方法訓(xùn)練多個不同深度(包含不同多個非線性層)的拆分網(wǎng)絡(luò),淺層的神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)到簡單特征,而深層網(wǎng)絡(luò)所擬合的特征包含了簡單特征和復(fù)雜特征。因此,深度為l-1的拆分網(wǎng)絡(luò)和深度為l的拆分網(wǎng)絡(luò)所擬合的特征的差值,就是復(fù)雜度為l階的特征分量。
下圖展示了不同階特征分量的可視化結(jié)果。可以看出,簡單特征往往包含與輸入物體形狀相關(guān)的信息,而復(fù)雜的特征分量包含了更多的細(xì)節(jié)信息和噪聲信息。
探索實驗
基于上述特征復(fù)雜度的定義,我們提出了一系列指標(biāo),量化分析了不同特征分量的可靠性、有效性和過擬合程度。
原論文鏈接:https://arxiv.org/abs/1908.01581
本文中,我們從各階復(fù)雜度的特征分量中進(jìn)一步提取出了可靠的特征子分量,從而量化了不同復(fù)雜度特征分量的可靠性。
實驗中,我們發(fā)現(xiàn),增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本量,能夠有效提升特征的可靠性,但不會顯著影響特征復(fù)雜度的分布,這在一定程度上與人們的直覺是相反的。
2. 有效性:基于Shapley value,我們量化了特征分量是否有效地幫助了神經(jīng)網(wǎng)絡(luò)的分類(或其他任務(wù))。我們用每個特征分量對分類任務(wù)的損失函數(shù)的下降的Shapley value量化特征分量的有效性,發(fā)現(xiàn)特征不是越復(fù)雜越有效的,相反,當(dāng)特征復(fù)雜度為網(wǎng)絡(luò)深度的一半時,特征分量的有效性最高。
3. 過擬合程度:與有效性類似,我們利用特征分量對訓(xùn)練損失與測試損失差值的Shapley value,量化特征分量是否是過擬合的。實驗發(fā)現(xiàn),當(dāng)增加訓(xùn)練樣本量時,往往能夠降低簡單特征(低復(fù)雜度的特征分量)的過擬合程度,而這一規(guī)律對于復(fù)雜特征并不適用。
拓展應(yīng)用
基于以上實驗發(fā)現(xiàn),我們進(jìn)一步利用特征復(fù)雜度去提升網(wǎng)絡(luò)性能,并解釋了知識蒸餾、網(wǎng)絡(luò)壓縮這兩種經(jīng)典的深度學(xué)習(xí)算法。
1. 提升網(wǎng)絡(luò)性能
前文中我們已經(jīng)發(fā)現(xiàn),當(dāng)特征分量的復(fù)雜度為網(wǎng)絡(luò)深度一半時,該分量是對任務(wù)最有效的。因此,我們將神經(jīng)網(wǎng)絡(luò)原始特征f(x)替換為所拆分出的有效特征分量,使神經(jīng)網(wǎng)絡(luò)的分類性能最高提升了5%;并且,我們發(fā)現(xiàn)中階復(fù)雜度的特征對神經(jīng)網(wǎng)絡(luò)性能的提升更加有效。
2. 解釋經(jīng)典算法
本文中,我們解釋了網(wǎng)絡(luò)壓縮和知識蒸餾兩種算法對神經(jīng)網(wǎng)絡(luò)特征復(fù)雜度的影響,發(fā)現(xiàn)知識蒸餾使神經(jīng)網(wǎng)絡(luò)學(xué)到了更可靠、更有效的特征,從而在一定程度上提升了網(wǎng)絡(luò)性能;網(wǎng)絡(luò)壓縮則主要作用于網(wǎng)絡(luò)中的簡單特征,且不會影響特征可靠性,因此能夠保證網(wǎng)絡(luò)性能不受顯著破壞。
掃碼添加小助手微信(AIyanxishe3),備注ICML2021拉你進(jìn)群。
贈書福利
AI科技評論本次聯(lián)合Springer為大家?guī)?strong style="outline: 0px;">5本周志華教授親筆簽名的《Machine Learning》正版新書。
在AI科技評論8月28日頭條文章“周志華《西瓜書》上線英文版!”(注意不是本文,僅限AI科技評論微信公眾號端)留言區(qū)留言,歡迎大家暢所欲言,談一談你對本書的看法和期待。在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前5不意味著一定會中獎)的讀者中選出5位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。
留言內(nèi)容會有篩選,例如“選我上去”、“這書寫的很棒(僅僅幾個字)”等內(nèi)容將不會被篩選,亦不會中獎。
留言送書活動時間為2021年8月28日 - 2021年9月01日(23:00),活動推送時間內(nèi)僅允許贈書福利中獎一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。