聚焦「信息壓縮」，IBM 攜手 MIT 再解讀「信息瓶頸」理論

本文作者： xyhncepu

編輯：幸麗娟

2019-06-24 10:27

導(dǎo)語：提出有效的互信息評估方式，并將聚類引入「信息壓縮」。

雷鋒網(wǎng) AI 科技評論按：深度學(xué)習(xí)的發(fā)展帶給人工智能領(lǐng)域的影響可謂是革命性的，然而該領(lǐng)域目前還存在很多未解決的問題，其中就包括不可解釋性等問題。而希伯來大學(xué)計(jì)算機(jī)科學(xué)家和神經(jīng)學(xué)家Naftali Tishby 等人提出的「信息瓶頸」理論，則嘗試來解決神經(jīng)網(wǎng)絡(luò)的一系列問題，自提出以來便一直受到 AI 界的廣泛關(guān)注。IBM 研究院也開展相關(guān)研究來分析這一理論，以期能夠解決神經(jīng)網(wǎng)絡(luò)中的某些問題，相關(guān)成果發(fā)表在 IBM 研究院官網(wǎng)博客上，雷鋒網(wǎng) AI 科技評論編譯如下。

雖然對于神經(jīng)網(wǎng)絡(luò)理論的研究工作日趨增多，但我們對于深度學(xué)習(xí)的宏觀行為理解仍存在許多不足之處。例如，訓(xùn)練期間由哪些因素驅(qū)動內(nèi)部表征的演變、學(xué)習(xí)到的表征屬性以及如何充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)去處理信息等方面存在的問題，一直都沒有得到解決。此外，我們對于神經(jīng)網(wǎng)絡(luò)的了解大多數(shù)都源于揣測，而缺乏實(shí)證。

「信息瓶頸」理論試圖解決上述這些問題。作為 MIT- IBM Watson AI 實(shí)驗(yàn)室雙方密切合作的成果，我們在 2019 年國際機(jī)器學(xué)習(xí)大會（ICML）會議論文「深度神經(jīng)網(wǎng)絡(luò)中信息流的評估」（Estimating Information Flow in Deep Neural Networks），從數(shù)學(xué)和經(jīng)驗(yàn)的角度對「信息瓶頸」理論進(jìn)行了分析，其中更是特別聚焦于其預(yù)測的「信息壓縮」現(xiàn)象。

「信息瓶頸」理論

「信息瓶頸」理論（Schwartz-Ziv & Tishby 2017 年論文等，見參考文獻(xiàn)）試圖解釋涉及信息壓縮的神經(jīng)網(wǎng)絡(luò)泛化問題，這個概念是指在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對輸入編碼時(shí)，輸入 X 和隱藏層 T（圖 1）之間的互信息在訓(xùn)練過程中迅速上升，之后在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)丟棄與任務(wù)無關(guān)的非關(guān)聯(lián)信息（圖 2）時(shí)，該互信息緩慢下降（壓縮）。每一個連續(xù)的層都被視為在不斷壓縮輸入。最終證明，這種淘汰掉無關(guān)信息的方式，可以使分類器的泛化效果更好，因?yàn)檫@樣的話，當(dāng)被給定一種新的此前從未見過的輸入，神經(jīng)網(wǎng)絡(luò)僅僅提取出相關(guān)信息，而不會受到無關(guān)信息的誤導(dǎo)。