0
本文作者: 李尊 | 2016-08-26 11:22 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網注:Yoshua Bengio教授是機器學習大神之一,尤其是在深度學習這個領域,他也是人工智能領域中經典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學習復興。他的研究工作主要聚焦在高級機器學習方面,致力于用其解決人工智能問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一(蒙特利爾大學),本文是他在2009年的經典前瞻演講——“人工智能學習深度架構”有關內容的第二部分。
題圖來自 cpacanada.ca
DBN = 在頂部兩層與RBM接頭的反曲信度網
取樣:
1. 從RMB頂層取樣
2. 當存在k+1層時,從k層取樣
當存在k+1層時,k層=RBM條件下,相同的參數:棧式RBMs——DBN
RMB由P(v|h)與P(h|v)確定P(v,h)
間接定義P(v)與P(h)
使P(v|h)遠離RBM一層,用RBM第二層生成的分布值代替P(h)
簡易近似推理
1. 從相互聯(lián)系的RBM中近似取得P(h|h)
2. 由于RBM與DBN中的P(h)不同,因而取近似值
訓練:
1. 可變的界限證實了RBMs貪婪逐層訓練
2. 如何同時訓練所有的層?
正相位:可變近似值(平均域)
逆相位:持續(xù)鏈
能夠從棧式RBMs層開始初始化
將誤差從1.2%降低至.95%,以提高MNIST的性能
RBMs:要求估測配分函數值
1. 重構誤差值,以提供一個廉價的代理服務器。
2. 當對數Z小于25二分輸入值是,對數Z是可分析追蹤的,或隱藏的。
3. 退火重要性采樣(AIS)的最低界限值
深信度網絡:
AIS的擴展(Salakhutdinov & Murray, ICML 2008, NIPS 2008)
開放性問題:找到有效的途徑來監(jiān)督這一進程
該結構引自Le Cun的團隊(NYU)和Ng(斯坦福大學):最佳MNIST數據,Caltech-101物體,人臉圖像
棧式受限玻爾茲曼機(RBM)——深信度網絡(DBN) ——監(jiān)督式深層神經網絡
普遍原則
這些原則對于其他單層算法是否有用?
其工作原理是什么?
貪婪逐層無監(jiān)督式預訓練也適用于自動編碼器
RBM對數似然梯度可以被寫作收斂性擴展:CD-K等于2 K terms,重建誤差值近似等于1term
與無監(jiān)督式預訓練相比,貪婪逐層監(jiān)督式訓練的效果更糟糕,但是訓練效果優(yōu)于一個深層神經網絡的普通訓練效果。
RBMs或MNIST自動編碼器的貪婪逐層無監(jiān)督式預訓練相位
有無監(jiān)管式更新或監(jiān)管式更新的監(jiān)督式相位,有隱層微調或無隱層微調的監(jiān)督式相位。
能夠同時訓練所有的RBMs(受限玻爾茲曼機)層,可獲得相同的結果。
對中間代碼的稀疏性懲罰
與稀疏式編碼相同,但是擁有高效的時間運行編碼器。
稀疏性懲罰推高分布在所有位置的自由能量。
在物體分類方面,取得了很好的成績(卷積網絡)
1.MNIST 誤差為.5% 突破記錄
2.Caltech-101 正確率高達65% 最佳成績 (Jarrett et al, ICCV 2009)
在同一個卷積DBN中獲得相似的結果 (Lee et al, ICML’2009)
干擾輸入信息(例如,將25%的輸入信息設置為零)
重組受干擾的輸入信息
將未受干擾的代碼作為輸入信息,輸入到下一層
學習朝向更高概率區(qū)域發(fā)展的向量域
實現(xiàn)生成模型可變下限最小化
與偽似然值相似
沒有配分函數,能夠衡量訓練標準
編碼與解碼:任意參數化
與棧式RBMs同樣能夠進行無監(jiān)督式預訓練,或者由于RBMs
生成模型為半參數型
正則化假說:
無監(jiān)督式成分使得模型接近P(x)
P(x)的表征也適用于P(y|x)
優(yōu)化假說:
接近P(y|x)局部更優(yōu)最小值的無監(jiān)督式初始值
能夠達到局部最小值下限,否則隨機初始值無法達到局部最小值
在函數空間內,每一個點代表一個模型。
顏色相當于epoch
頂端:軌線w/o預訓練
每一條軌線在不同的局部最小值處收斂
W/o預訓練過程中,各區(qū)域之間沒有重疊
額外正則化(減少#隱藏單元)將損害更多的預訓練模型
預訓練模型擁有更少的方差wrt訓練樣本
正則化矩陣等于與無監(jiān)督式預訓練相協(xié)調的區(qū)域外無限懲罰
在無監(jiān)督式預訓練過程中,訓練和在線誤差相對來講更小
當樣本趨向無窮大,訓練誤差 = 在線誤差 = 泛化誤差
沒有無監(jiān)督式預訓練:不能利用從訓練數據中捕捉目標函數復雜性的能力
證實了:重要的不僅僅是初始權重值的邊際分布。
即便有正確的梯度,較低層(距離預測層比較遠,接近輸入層)是最難訓練的。
較低層最受益于無監(jiān)督式預訓練。
1. 局部無監(jiān)督式信號等于提取/剝離因子
2. 暫時穩(wěn)定性
3. 多模態(tài)之間共享信息
信用分配/錯誤信息不會很容易流通嗎?
信用分配問題與隨著時間的發(fā)展信用分配難度增大相關嗎?
對無監(jiān)督式深度玻爾茲曼機的每一層進行初始化將會帶來很大裨益。
將無監(jiān)督式神經網絡的每一層初始化為RBM將會帶來很大裨益。
層-局部學習有助于所有訓練層遠離目標層。
不僅僅會產生無監(jiān)督式先驗效果。
聯(lián)合訓練一個深層結構的所有層是有難度的。
運用一種層-局部學習算法(RBM,自動編碼器等)進行初始化是一種有效手段。
運用用于表達鄰近概念(或非鄰近概念)的一對或三個實例
拉近被認為是相似概念對的中間表征之間的關系,刪除隨機選擇的相似概念對的表征
(Weston, Ratle & Collobert, ICML’2008):通過把非監(jiān)督式嵌入標準與監(jiān)督式梯度相結合,提高半監(jiān)督式學習的效率
視頻中連續(xù)的圖像 = 相似
隨機選擇的圖像對 = 不相似
緩慢變化的特征可能指代有趣的抽象特征
微調之前——微調之后
當權重越來越大,將陷于吸引域(“象限”不變)。
初始化更新產生重大影響(“關鍵期”)。
在具有良好泛化特征的吸引域中,初始化無監(jiān)督式預訓練。
課程學習(一種延拓型學習方法)(Bengio et al, ICML’2009; Krueger & Dayan 2009)
從簡單的實例開始
在深層結構中,實現(xiàn)更快速地收斂,獲得局部最小值。
實例的排序與選擇是與具有優(yōu)化效果的正則化矩陣相同嗎?
具有影響力的動態(tài)特征學習將產生重大影響。
訓練分布的序列
簡單實例達到初始化巔峰
逐漸分配給更多具有難度實例更多權重,直到實現(xiàn)目標分布
在學習復雜函數方面的突破:具有分布式表征的深層結構。
多層潛變量:在統(tǒng)計結果分享過程中,多層潛變量可能呈指數增長。
主要挑戰(zhàn):訓練深層結構。
RBMs允許快速推理,棧式RMBs/棧式自動編碼器允許快速近似推理。
對分類器進行無監(jiān)督式預訓練這一操作正如優(yōu)化一個陌生的正則化矩陣的在線誤差。
推理近似值和動態(tài)特征學習與模型本身具有重要作用。
為什么訓練深層結構具有難度?
為什么學習動態(tài)特征具有重要性?
應當如何降低聯(lián)合訓練所有層的難度?
如何更高效地從RBMs和深層生成模型中取樣?
是否需要對深層網絡無監(jiān)督式學習的質量實施監(jiān)管?
是否有其他方式可以用來引導訓練中間表征?
如何捕捉場景結構和序列結構?
總結:本文中主要提到了有關深信念網絡、DBN、無監(jiān)督學習、降噪等相關內容,以及為什么將它們應用到人工智能領域中。作為 Yoshua Bengio在2009年的演講,它是相當具有前瞻性的,希望在深度學習能給你以啟發(fā)。
PS : 本文由雷鋒網編譯,未經許可拒絕轉載!
via Yoshua Bengio
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。