0
雷鋒網(wǎng) AI 科技評論按:深度學(xué)習(xí)的發(fā)展帶給人工智能領(lǐng)域的影響可謂是革命性的,然而該領(lǐng)域目前還存在很多未解決的問題,其中就包括不可解釋性等問題。而希伯來大學(xué)計算機(jī)科學(xué)家和神經(jīng)學(xué)家Naftali Tishby 等人提出的「信息瓶頸」理論,則嘗試來解決神經(jīng)網(wǎng)絡(luò)的一系列問題,自提出以來便一直受到 AI 界的廣泛關(guān)注。IBM 研究院也開展相關(guān)研究來分析這一理論,以期能夠解決神經(jīng)網(wǎng)絡(luò)中的某些問題,相關(guān)成果發(fā)表在 IBM 研究院官網(wǎng)博客上,雷鋒網(wǎng) AI 科技評論編譯如下。
雖然對于神經(jīng)網(wǎng)絡(luò)理論的研究工作日趨增多,但我們對于深度學(xué)習(xí)的宏觀行為理解仍存在許多不足之處。例如,訓(xùn)練期間由哪些因素驅(qū)動內(nèi)部表征的演變、學(xué)習(xí)到的表征屬性以及如何充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)去處理信息等方面存在的問題,一直都沒有得到解決。此外,我們對于神經(jīng)網(wǎng)絡(luò)的了解大多數(shù)都源于揣測,而缺乏實證。
「信息瓶頸」理論試圖解決上述這些問題。作為 MIT- IBM Watson AI 實驗室雙方密切合作的成果,我們在 2019 年國際機(jī)器學(xué)習(xí)大會(ICML)會議論文「深度神經(jīng)網(wǎng)絡(luò)中信息流的評估」(Estimating Information Flow in Deep Neural Networks),從數(shù)學(xué)和經(jīng)驗的角度對「信息瓶頸」理論進(jìn)行了分析,其中更是特別聚焦于其預(yù)測的「信息壓縮」現(xiàn)象。
「信息瓶頸」理論
「信息瓶頸」理論(Schwartz-Ziv & Tishby 2017 年論文等,見參考文獻(xiàn))試圖解釋涉及信息壓縮的神經(jīng)網(wǎng)絡(luò)泛化問題,這個概念是指在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對輸入編碼時,輸入 X 和隱藏層 T(圖 1)之間的互信息在訓(xùn)練過程中迅速上升,之后在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)丟棄與任務(wù)無關(guān)的非關(guān)聯(lián)信息(圖 2)時,該互信息緩慢下降(壓縮)。每一個連續(xù)的層都被視為在不斷壓縮輸入。最終證明,這種淘汰掉無關(guān)信息的方式,可以使分類器的泛化效果更好,因為這樣的話,當(dāng)被給定一種新的此前從未見過的輸入,神經(jīng)網(wǎng)絡(luò)僅僅提取出相關(guān)信息,而不會受到無關(guān)信息的誤導(dǎo)。
圖 1:深度神經(jīng)網(wǎng)絡(luò)的前饋(假設(shè)的)
圖 2:信息瓶頸。圖中顯示了訓(xùn)練過程中 5 個隱藏層中互信息的軌跡
雖然某種程度上這是一個較為誘人的觀點,但遺憾的是,當(dāng)網(wǎng)絡(luò)是確定性的時候,輸入 X 和隱藏層 T 之間的互信息并不依賴于網(wǎng)絡(luò)參數(shù)(而在實踐中,幾乎所有的神經(jīng)網(wǎng)絡(luò)都是確定性的)。為了解決這個問題,先前的工作通過對每個神經(jīng)元進(jìn)行分箱處理(量化)和互信息進(jìn)行計算(成為分箱隱藏層的離散熵),得出互信息的估計值。圖 3 表明該計算與分箱大小高度相關(guān),從而證實它并沒有對互信息進(jìn)行計算。
圖 3:分箱估計的不連續(xù)性
當(dāng)網(wǎng)絡(luò)是確定性的時候,互信息是非信息性的,而當(dāng)網(wǎng)絡(luò)是隨機(jī)性的時候,互信息是富信息性的。因此,我們通過在每個神經(jīng)元輸出中添加高斯噪聲 Z 來定義形成的噪聲神經(jīng)網(wǎng)絡(luò)(圖 4)。這種噪聲同時存在于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試中,從而使相關(guān)的互信息評估變得有意義。在這種情況下,我們提出了一種有效的互信息評估方式,它能以極大極小最優(yōu)速度收斂為真實的互信息(且不依賴于分箱)。
圖 4:噪聲神經(jīng)網(wǎng)絡(luò)
我們的論文通過將單神經(jīng)元分類和噪聲通道上的信息傳輸聯(lián)系起來,能夠開發(fā)出一個數(shù)學(xué)直覺,即信息壓縮(在隨機(jī)網(wǎng)絡(luò)中嚴(yán)格觀察或在確定性網(wǎng)絡(luò)中使用分箱估計)通常都應(yīng)該由內(nèi)部表征聚類引起。具體來說就是,在隱藏表征 T 中,映射同一類 Y 的不同輸入 X 的隱藏層與彼此越來越接近。
要從經(jīng)驗上評估這一點,可參考 Schwartz-Ziv、 Tishby 在其 2017 年一篇論文中提出的數(shù)據(jù)和模型,該模型使用具有雙曲正切函數(shù)(tanh)激活的全連接 12-10-7-5-5-4-3-2 體系結(jié)構(gòu)對 12 維輸入進(jìn)行二進(jìn)制分類。圖 5 顯示了標(biāo)準(zhǔn)偏差 0.005(測試精度 97%)的加性噪聲結(jié)果,說明了各訓(xùn)練期中互信息估計、訓(xùn)練/測試損失和不斷演變的內(nèi)部表征之間的關(guān)系?;バ畔⒌纳仙拖陆祵?yīng)著表征在每一層中的擴(kuò)展或聚合程度。例如,當(dāng)高斯函數(shù)開始沿著一條曲線彼此偏離時(參見頂部第 5 層隱藏表征的散點圖),在 28 epoch 之前,互信息一直呈增長趨勢;到 80 epoch 左右,它們開始聚合,互信息隨之下降。隨著訓(xùn)練的進(jìn)行,飽和的雙曲正切單元將高斯函數(shù)推到立方體的相反角落,進(jìn)一步減少了互信息。
圖 5:訓(xùn)練過程中的 I(X;Y) 壓縮。最上面一行顯示的是在選定 epochs 中隱藏表征的最終層的散點圖,按顏色進(jìn)行類標(biāo)簽編碼
如圖 6 所示,我們使用權(quán)重的正交規(guī)范化規(guī)則(Cisse 等人 2017 年論文),不僅可以消除這種壓縮,實際上也改進(jìn)了泛化。隱藏表征不再聚合在一起,這與信息壓縮的缺失是直接對應(yīng)的。我們在這方面進(jìn)行了更多的實驗,從而有力地證實了信息壓縮是由聚類引起的。
圖 6:使用正交規(guī)范化消除壓縮
由聚類引起的「壓縮」概念之所以重要,基于兩個原因。首先,它揭開了「信息壓縮」的神秘面紗,用一個更具體的公式取而代之。其次,它為直接研究聚類打開了大門,聚類可能不會遭遇源自與互信息估計相關(guān)的維數(shù)的極端「詛咒」(我們證明了樣本復(fù)雜度在維數(shù)上呈指數(shù)級增長)。事實上,我們能夠?qū)⒕垲惖娜舾桑ǔ醪降模y量方法延展到針對 MNIST 掃描數(shù)字任務(wù)進(jìn)行分類的全卷積神經(jīng)網(wǎng)絡(luò)上,從而在訓(xùn)練過程中觀察到類似的「壓縮」行為。
此外,與「信息瓶頸」理論相反,我們發(fā)現(xiàn)壓縮對于泛化來說并不是必要的,不過,鼓勵使用壓縮(通過幾何聚類)是否能夠促進(jìn)更好的泛化性能仍然是一個有待解決的問題。 雷鋒網(wǎng)
論文:Estimating Information Flow in Deep Neural Networks
論文作者:Ziv Goldfeld, Ewout van den Berg, Kristjan Greenewald, Igor Melnyk, Nam Nguyen, Brian Kingsbury, Yury Polyanskiy
[Shwartz-Ziv, R. and Tishby, N. Opening the black box of deep neural networks via information. arXiv:1703.00810, 2017]
[Cisse, M., Bojanowski, P., Grave, E., Dauphin, Y., and Usunier, N. Parseval networks: Improving robustness to adversarial examples. In Proceedings of the International Conference on Machine Learning (ICML), 2017]
via:https://www.ibm.com/blogs/research/2019/06/deep-neural-networks/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。