深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

本文作者：李尊

2016-08-26 11:22

導語：深度學習大神Yoshua Bengio經典前瞻演講“人工智能學習深度架構”

本文聯(lián)合編譯：Blake、高斐

雷鋒網注：Yoshua Bengio教授是機器學習大神之一，尤其是在深度學習這個領域，他也是人工智能領域中經典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學習復興。他的研究工作主要聚焦在高級機器學習方面，致力于用其解決人工智能問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一（蒙特利爾大學），本文是他在2009年的經典前瞻演講——“人工智能學習深度架構”有關內容的第二部分。

題圖來自 cpacanada.ca

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

深信度網絡（DBN）

DBN = 在頂部兩層與RBM接頭的反曲信度網
取樣：

1. 從RMB頂層取樣
2. 當存在k+1層時，從k層取樣

當存在k+1層時，k層=RBM條件下，相同的參數：棧式RBMs——DBN

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

由RBM（受限玻爾茲曼機）向DBN（深信度網絡）的轉換

RMB由P(v|h)與P(h|v)確定P(v,h)
間接定義P(v)與P(h)
使P(v|h)遠離RBM一層，用RBM第二層生成的分布值代替P(h)

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

深信度網絡(DBN)

簡易近似推理

1. 從相互聯(lián)系的RBM中近似取得P(h|h)
2. 由于RBM與DBN中的P(h)不同，因而取近似值

訓練：

1. 可變的界限證實了RBMs貪婪逐層訓練
2. 如何同時訓練所有的層？

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

深層玻爾茲曼機 ((Salakhutdinov et al, AISTATS 2009, Lee et al, ICML 2009)

正相位：可變近似值（平均域）
逆相位：持續(xù)鏈
能夠從棧式RBMs層開始初始化
將誤差從1.2%降低至.95%，以提高MNIST的性能

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

估測對數似然值

RBMs：要求估測配分函數值

1. 重構誤差值，以提供一個廉價的代理服務器。
2. 當對數Z小于25二分輸入值是，對數Z是可分析追蹤的，或隱藏的。
3. 退火重要性采樣(AIS)的最低界限值

深信度網絡：

AIS的擴展(Salakhutdinov & Murray, ICML 2008, NIPS 2008)

開放性問題：找到有效的途徑來監(jiān)督這一進程

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

深層卷積結構

該結構引自Le Cun的團隊(NYU)和Ng（斯坦福大學）：最佳MNIST數據，Caltech-101物體，人臉圖像

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

卷積深信度網絡（Convolutional DBNs）

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

再次回到貪婪逐層預訓練

棧式受限玻爾茲曼機（RBM）——深信度網絡(DBN) ——監(jiān)督式深層神經網絡

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

為什么由DBNs（深信度網絡）獲得的分類器能夠如此有效地運行？

普遍原則
這些原則對于其他單層算法是否有用？
其工作原理是什么？

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

棧式自動編碼器

貪婪逐層無監(jiān)督式預訓練也適用于自動編碼器

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

自動編碼器與對比散度(CD)

RBM對數似然梯度可以被寫作收斂性擴展：CD-K等于2 K terms,重建誤差值近似等于1term

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

貪婪逐層監(jiān)督式訓練

與無監(jiān)督式預訓練相比，貪婪逐層監(jiān)督式訓練的效果更糟糕，但是訓練效果優(yōu)于一個深層神經網絡的普通訓練效果。

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

監(jiān)督式微調是重要的

RBMs或MNIST自動編碼器的貪婪逐層無監(jiān)督式預訓練相位
有無監(jiān)管式更新或監(jiān)管式更新的監(jiān)督式相位，有隱層微調或無隱層微調的監(jiān)督式相位。
能夠同時訓練所有的RBMs（受限玻爾茲曼機）層，可獲得相同的結果。

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

稀疏式自動編碼器(Ranzato et al, 2007; Ranzato et al 2008)

對中間代碼的稀疏性懲罰
與稀疏式編碼相同，但是擁有高效的時間運行編碼器。
稀疏性懲罰推高分布在所有位置的自由能量。
在物體分類方面，取得了很好的成績（卷積網絡）

1.MNIST 誤差為.5% 突破記錄
2.Caltech-101 正確率高達65% 最佳成績 (Jarrett et al, ICCV 2009)

在同一個卷積DBN中獲得相似的結果 (Lee et al, ICML’2009)

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

降噪自動編碼器 (Vincent et al, 2008)

干擾輸入信息（例如，將25%的輸入信息設置為零）
重組受干擾的輸入信息
將未受干擾的代碼作為輸入信息，輸入到下一層

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

學習朝向更高概率區(qū)域發(fā)展的向量域
實現(xiàn)生成模型可變下限最小化
與偽似然值相似

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

棧式降噪自動編碼器

沒有配分函數，能夠衡量訓練標準
編碼與解碼：任意參數化
與棧式RBMs同樣能夠進行無監(jiān)督式預訓練，或者由于RBMs
生成模型為半參數型

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

降噪自動編碼器：標準

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

降噪自動編碼器：結果

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

無監(jiān)督式預訓練效果為何如此好？

正則化假說：

無監(jiān)督式成分使得模型接近P(x)
P(x)的表征也適用于P(y|x)

優(yōu)化假說：

接近P(y|x)局部更優(yōu)最小值的無監(jiān)督式初始值
能夠達到局部最小值下限，否則隨機初始值無法達到局部最小值

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

在函數空間內學習軌線

在函數空間內，每一個點代表一個模型。
顏色相當于epoch
頂端：軌線w/o預訓練
每一條軌線在不同的局部最小值處收斂
W/o預訓練過程中，各區(qū)域之間沒有重疊

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

無監(jiān)督式學習正則化矩陣

額外正則化（減少#隱藏單元）將損害更多的預訓練模型
預訓練模型擁有更少的方差wrt訓練樣本
正則化矩陣等于與無監(jiān)督式預訓練相協(xié)調的區(qū)域外無限懲罰

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

更好地優(yōu)化在線誤差

在無監(jiān)督式預訓練過程中，訓練和在線誤差相對來講更小
當樣本趨向無窮大，訓練誤差 = 在線誤差 = 泛化誤差
沒有無監(jiān)督式預訓練：不能利用從訓練數據中捕捉目標函數復雜性的能力

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

預訓練較低層起到更為重要的作用

證實了：重要的不僅僅是初始權重值的邊際分布。

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

信用分配問題

即便有正確的梯度，較低層（距離預測層比較遠，接近輸入層）是最難訓練的。
較低層最受益于無監(jiān)督式預訓練。

1. 局部無監(jiān)督式信號等于提取/剝離因子
2. 暫時穩(wěn)定性
3. 多模態(tài)之間共享信息

信用分配/錯誤信息不會很容易流通嗎？
信用分配問題與隨著時間的發(fā)展信用分配難度增大相關嗎？

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

層-局部學習是重要的

對無監(jiān)督式深度玻爾茲曼機的每一層進行初始化將會帶來很大裨益。
將無監(jiān)督式神經網絡的每一層初始化為RBM將會帶來很大裨益。
層-局部學習有助于所有訓練層遠離目標層。
不僅僅會產生無監(jiān)督式先驗效果。
聯(lián)合訓練一個深層結構的所有層是有難度的。
運用一種層-局部學習算法（RBM,自動編碼器等）進行初始化是一種有效手段。

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）

半監(jiān)督式嵌入

運用用于表達鄰近概念（或非鄰近概念）的一對或三個實例
拉近被認為是相似概念對的中間表征之間的關系，刪除隨機選擇的相似概念對的表征
(Weston, Ratle & Collobert, ICML’2008):通過把非監(jiān)督式嵌入標準與監(jiān)督式梯度相結合，提高半監(jiān)督式學習的效率

深度學習大神Yoshua Bengio經典前瞻演講，幫你打通深度學習的任督二脈（下）