丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給xyhncepu
發(fā)送

0

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

本文作者: xyhncepu 編輯:幸麗娟 2019-06-24 10:27
導(dǎo)語:提出有效的互信息評估方式,并將聚類引入「信息壓縮」。

雷鋒網(wǎng) AI 科技評論按:深度學(xué)習(xí)的發(fā)展帶給人工智能領(lǐng)域的影響可謂是革命性的,然而該領(lǐng)域目前還存在很多未解決的問題,其中就包括不可解釋性等問題。而希伯來大學(xué)計算機(jī)科學(xué)家和神經(jīng)學(xué)家Naftali Tishby 等人提出的「信息瓶頸」理論,則嘗試來解決神經(jīng)網(wǎng)絡(luò)的一系列問題,自提出以來便一直受到 AI 界的廣泛關(guān)注。IBM 研究院也開展相關(guān)研究來分析這一理論,以期能夠解決神經(jīng)網(wǎng)絡(luò)中的某些問題,相關(guān)成果發(fā)表在 IBM 研究院官網(wǎng)博客上,雷鋒網(wǎng) AI 科技評論編譯如下。

雖然對于神經(jīng)網(wǎng)絡(luò)理論的研究工作日趨增多,但我們對于深度學(xué)習(xí)的宏觀行為理解仍存在許多不足之處。例如,訓(xùn)練期間由哪些因素驅(qū)動內(nèi)部表征的演變、學(xué)習(xí)到的表征屬性以及如何充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)去處理信息等方面存在的問題,一直都沒有得到解決。此外,我們對于神經(jīng)網(wǎng)絡(luò)的了解大多數(shù)都源于揣測,而缺乏實證。

「信息瓶頸」理論試圖解決上述這些問題。作為 MIT- IBM Watson AI 實驗室雙方密切合作的成果,我們在 2019 年國際機(jī)器學(xué)習(xí)大會(ICML)會議論文「深度神經(jīng)網(wǎng)絡(luò)中信息流的評估」(Estimating Information Flow in Deep Neural Networks),從數(shù)學(xué)和經(jīng)驗的角度對「信息瓶頸」理論進(jìn)行了分析,其中更是特別聚焦于其預(yù)測的「信息壓縮」現(xiàn)象。

「信息瓶頸」理論

「信息瓶頸」理論(Schwartz-Ziv & Tishby 2017 年論文等,見參考文獻(xiàn))試圖解釋涉及信息壓縮的神經(jīng)網(wǎng)絡(luò)泛化問題,這個概念是指在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對輸入編碼時,輸入 X 和隱藏層 T(圖 1)之間的互信息在訓(xùn)練過程中迅速上升,之后在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)丟棄與任務(wù)無關(guān)的非關(guān)聯(lián)信息(圖 2)時,該互信息緩慢下降(壓縮)。每一個連續(xù)的層都被視為在不斷壓縮輸入。最終證明,這種淘汰掉無關(guān)信息的方式,可以使分類器的泛化效果更好,因為這樣的話,當(dāng)被給定一種新的此前從未見過的輸入,神經(jīng)網(wǎng)絡(luò)僅僅提取出相關(guān)信息,而不會受到無關(guān)信息的誤導(dǎo)。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 1:深度神經(jīng)網(wǎng)絡(luò)的前饋(假設(shè)的)

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 2:信息瓶頸。圖中顯示了訓(xùn)練過程中 5 個隱藏層中互信息的軌跡

雖然某種程度上這是一個較為誘人的觀點,但遺憾的是,當(dāng)網(wǎng)絡(luò)是確定性的時候,輸入 X 和隱藏層 T 之間的互信息并不依賴于網(wǎng)絡(luò)參數(shù)(而在實踐中,幾乎所有的神經(jīng)網(wǎng)絡(luò)都是確定性的)。為了解決這個問題,先前的工作通過對每個神經(jīng)元進(jìn)行分箱處理(量化)和互信息進(jìn)行計算(成為分箱隱藏層的離散熵),得出互信息的估計值。圖 3 表明該計算與分箱大小高度相關(guān),從而證實它并沒有對互信息進(jìn)行計算。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 3:分箱估計的不連續(xù)性

噪聲神經(jīng)網(wǎng)絡(luò)與互信息評估

當(dāng)網(wǎng)絡(luò)是確定性的時候,互信息是非信息性的,而當(dāng)網(wǎng)絡(luò)是隨機(jī)性的時候,互信息是富信息性的。因此,我們通過在每個神經(jīng)元輸出中添加高斯噪聲 Z 來定義形成的噪聲神經(jīng)網(wǎng)絡(luò)(圖 4)。這種噪聲同時存在于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試中,從而使相關(guān)的互信息評估變得有意義。在這種情況下,我們提出了一種有效的互信息評估方式,它能以極大極小最優(yōu)速度收斂為真實的互信息(且不依賴于分箱)。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 4:噪聲神經(jīng)網(wǎng)絡(luò)

將聚類作為壓縮的驅(qū)動因素

我們的論文通過將單神經(jīng)元分類和噪聲通道上的信息傳輸聯(lián)系起來,能夠開發(fā)出一個數(shù)學(xué)直覺,即信息壓縮(在隨機(jī)網(wǎng)絡(luò)中嚴(yán)格觀察或在確定性網(wǎng)絡(luò)中使用分箱估計)通常都應(yīng)該由內(nèi)部表征聚類引起。具體來說就是,在隱藏表征 T 中,映射同一類 Y 的不同輸入 X 的隱藏層與彼此越來越接近。

要從經(jīng)驗上評估這一點,可參考 Schwartz-Ziv、 Tishby 在其 2017 年一篇論文中提出的數(shù)據(jù)和模型,該模型使用具有雙曲正切函數(shù)(tanh)激活的全連接 12-10-7-5-5-4-3-2 體系結(jié)構(gòu)對 12 維輸入進(jìn)行二進(jìn)制分類。圖 5 顯示了標(biāo)準(zhǔn)偏差 0.005(測試精度 97%)的加性噪聲結(jié)果,說明了各訓(xùn)練期中互信息估計、訓(xùn)練/測試損失和不斷演變的內(nèi)部表征之間的關(guān)系?;バ畔⒌纳仙拖陆祵?yīng)著表征在每一層中的擴(kuò)展或聚合程度。例如,當(dāng)高斯函數(shù)開始沿著一條曲線彼此偏離時(參見頂部第 5 層隱藏表征的散點圖),在 28 epoch 之前,互信息一直呈增長趨勢;到 80 epoch 左右,它們開始聚合,互信息隨之下降。隨著訓(xùn)練的進(jìn)行,飽和的雙曲正切單元將高斯函數(shù)推到立方體的相反角落,進(jìn)一步減少了互信息。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 5:訓(xùn)練過程中的 I(X;Y) 壓縮。最上面一行顯示的是在選定 epochs 中隱藏表征的最終層的散點圖,按顏色進(jìn)行類標(biāo)簽編碼

如圖 6 所示,我們使用權(quán)重的正交規(guī)范化規(guī)則(Cisse 等人 2017 年論文),不僅可以消除這種壓縮,實際上也改進(jìn)了泛化。隱藏表征不再聚合在一起,這與信息壓縮的缺失是直接對應(yīng)的。我們在這方面進(jìn)行了更多的實驗,從而有力地證實了信息壓縮是由聚類引起的。

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

圖 6:使用正交規(guī)范化消除壓縮

其他重要說明

由聚類引起的「壓縮」概念之所以重要,基于兩個原因。首先,它揭開了「信息壓縮」的神秘面紗,用一個更具體的公式取而代之。其次,它為直接研究聚類打開了大門,聚類可能不會遭遇源自與互信息估計相關(guān)的維數(shù)的極端「詛咒」(我們證明了樣本復(fù)雜度在維數(shù)上呈指數(shù)級增長)。事實上,我們能夠?qū)⒕垲惖娜舾桑ǔ醪降模y量方法延展到針對 MNIST 掃描數(shù)字任務(wù)進(jìn)行分類的全卷積神經(jīng)網(wǎng)絡(luò)上,從而在訓(xùn)練過程中觀察到類似的「壓縮」行為。

此外,與「信息瓶頸」理論相反,我們發(fā)現(xiàn)壓縮對于泛化來說并不是必要的,不過,鼓勵使用壓縮(通過幾何聚類)是否能夠促進(jìn)更好的泛化性能仍然是一個有待解決的問題。 雷鋒網(wǎng)

參考文獻(xiàn):

[Shwartz-Ziv, R. and Tishby, N.  Opening the black box of deep neural networks via information. arXiv:1703.00810, 2017]

[Cisse,  M.,  Bojanowski,  P.,  Grave,  E.,  Dauphin,  Y.,  and Usunier, N. Parseval networks: Improving robustness to adversarial examples. In Proceedings of the International Conference on Machine Learning (ICML), 2017]

via:https://www.ibm.com/blogs/research/2019/06/deep-neural-networks/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說