0
本文作者: 李尊 | 2016-08-26 11:22 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:Yoshua Bengio教授是機(jī)器學(xué)習(xí)大神之一,尤其是在深度學(xué)習(xí)這個(gè)領(lǐng)域,他也是人工智能領(lǐng)域中經(jīng)典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學(xué)習(xí)復(fù)興。他的研究工作主要聚焦在高級機(jī)器學(xué)習(xí)方面,致力于用其解決人工智能問題。目前他是僅存的幾個(gè)仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一(蒙特利爾大學(xué)),本文是他在2009年的經(jīng)典前瞻演講——“人工智能學(xué)習(xí)深度架構(gòu)”有關(guān)內(nèi)容的第二部分。
題圖來自 cpacanada.ca
DBN = 在頂部兩層與RBM接頭的反曲信度網(wǎng)
取樣:
1. 從RMB頂層取樣
2. 當(dāng)存在k+1層時(shí),從k層取樣
當(dāng)存在k+1層時(shí),k層=RBM條件下,相同的參數(shù):棧式RBMs——DBN
RMB由P(v|h)與P(h|v)確定P(v,h)
間接定義P(v)與P(h)
使P(v|h)遠(yuǎn)離RBM一層,用RBM第二層生成的分布值代替P(h)
簡易近似推理
1. 從相互聯(lián)系的RBM中近似取得P(h|h)
2. 由于RBM與DBN中的P(h)不同,因而取近似值
訓(xùn)練:
1. 可變的界限證實(shí)了RBMs貪婪逐層訓(xùn)練
2. 如何同時(shí)訓(xùn)練所有的層?
正相位:可變近似值(平均域)
逆相位:持續(xù)鏈
能夠從棧式RBMs層開始初始化
將誤差從1.2%降低至.95%,以提高M(jìn)NIST的性能
RBMs:要求估測配分函數(shù)值
1. 重構(gòu)誤差值,以提供一個(gè)廉價(jià)的代理服務(wù)器。
2. 當(dāng)對數(shù)Z小于25二分輸入值是,對數(shù)Z是可分析追蹤的,或隱藏的。
3. 退火重要性采樣(AIS)的最低界限值
深信度網(wǎng)絡(luò):
AIS的擴(kuò)展(Salakhutdinov & Murray, ICML 2008, NIPS 2008)
開放性問題:找到有效的途徑來監(jiān)督這一進(jìn)程
該結(jié)構(gòu)引自Le Cun的團(tuán)隊(duì)(NYU)和Ng(斯坦福大學(xué)):最佳MNIST數(shù)據(jù),Caltech-101物體,人臉圖像
棧式受限玻爾茲曼機(jī)(RBM)——深信度網(wǎng)絡(luò)(DBN) ——監(jiān)督式深層神經(jīng)網(wǎng)絡(luò)
普遍原則
這些原則對于其他單層算法是否有用?
其工作原理是什么?
貪婪逐層無監(jiān)督式預(yù)訓(xùn)練也適用于自動編碼器
RBM對數(shù)似然梯度可以被寫作收斂性擴(kuò)展:CD-K等于2 K terms,重建誤差值近似等于1term
與無監(jiān)督式預(yù)訓(xùn)練相比,貪婪逐層監(jiān)督式訓(xùn)練的效果更糟糕,但是訓(xùn)練效果優(yōu)于一個(gè)深層神經(jīng)網(wǎng)絡(luò)的普通訓(xùn)練效果。
RBMs或MNIST自動編碼器的貪婪逐層無監(jiān)督式預(yù)訓(xùn)練相位
有無監(jiān)管式更新或監(jiān)管式更新的監(jiān)督式相位,有隱層微調(diào)或無隱層微調(diào)的監(jiān)督式相位。
能夠同時(shí)訓(xùn)練所有的RBMs(受限玻爾茲曼機(jī))層,可獲得相同的結(jié)果。
對中間代碼的稀疏性懲罰
與稀疏式編碼相同,但是擁有高效的時(shí)間運(yùn)行編碼器。
稀疏性懲罰推高分布在所有位置的自由能量。
在物體分類方面,取得了很好的成績(卷積網(wǎng)絡(luò))
1.MNIST 誤差為.5% 突破記錄
2.Caltech-101 正確率高達(dá)65% 最佳成績 (Jarrett et al, ICCV 2009)
在同一個(gè)卷積DBN中獲得相似的結(jié)果 (Lee et al, ICML’2009)
干擾輸入信息(例如,將25%的輸入信息設(shè)置為零)
重組受干擾的輸入信息
將未受干擾的代碼作為輸入信息,輸入到下一層
學(xué)習(xí)朝向更高概率區(qū)域發(fā)展的向量域
實(shí)現(xiàn)生成模型可變下限最小化
與偽似然值相似
沒有配分函數(shù),能夠衡量訓(xùn)練標(biāo)準(zhǔn)
編碼與解碼:任意參數(shù)化
與棧式RBMs同樣能夠進(jìn)行無監(jiān)督式預(yù)訓(xùn)練,或者由于RBMs
生成模型為半?yún)?shù)型
正則化假說:
無監(jiān)督式成分使得模型接近P(x)
P(x)的表征也適用于P(y|x)
優(yōu)化假說:
接近P(y|x)局部更優(yōu)最小值的無監(jiān)督式初始值
能夠達(dá)到局部最小值下限,否則隨機(jī)初始值無法達(dá)到局部最小值
在函數(shù)空間內(nèi),每一個(gè)點(diǎn)代表一個(gè)模型。
顏色相當(dāng)于epoch
頂端:軌線w/o預(yù)訓(xùn)練
每一條軌線在不同的局部最小值處收斂
W/o預(yù)訓(xùn)練過程中,各區(qū)域之間沒有重疊
額外正則化(減少#隱藏單元)將損害更多的預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型擁有更少的方差wrt訓(xùn)練樣本
正則化矩陣等于與無監(jiān)督式預(yù)訓(xùn)練相協(xié)調(diào)的區(qū)域外無限懲罰
在無監(jiān)督式預(yù)訓(xùn)練過程中,訓(xùn)練和在線誤差相對來講更小
當(dāng)樣本趨向無窮大,訓(xùn)練誤差 = 在線誤差 = 泛化誤差
沒有無監(jiān)督式預(yù)訓(xùn)練:不能利用從訓(xùn)練數(shù)據(jù)中捕捉目標(biāo)函數(shù)復(fù)雜性的能力
證實(shí)了:重要的不僅僅是初始權(quán)重值的邊際分布。
即便有正確的梯度,較低層(距離預(yù)測層比較遠(yuǎn),接近輸入層)是最難訓(xùn)練的。
較低層最受益于無監(jiān)督式預(yù)訓(xùn)練。
1. 局部無監(jiān)督式信號等于提取/剝離因子
2. 暫時(shí)穩(wěn)定性
3. 多模態(tài)之間共享信息
信用分配/錯誤信息不會很容易流通嗎?
信用分配問題與隨著時(shí)間的發(fā)展信用分配難度增大相關(guān)嗎?
對無監(jiān)督式深度玻爾茲曼機(jī)的每一層進(jìn)行初始化將會帶來很大裨益。
將無監(jiān)督式神經(jīng)網(wǎng)絡(luò)的每一層初始化為RBM將會帶來很大裨益。
層-局部學(xué)習(xí)有助于所有訓(xùn)練層遠(yuǎn)離目標(biāo)層。
不僅僅會產(chǎn)生無監(jiān)督式先驗(yàn)效果。
聯(lián)合訓(xùn)練一個(gè)深層結(jié)構(gòu)的所有層是有難度的。
運(yùn)用一種層-局部學(xué)習(xí)算法(RBM,自動編碼器等)進(jìn)行初始化是一種有效手段。
運(yùn)用用于表達(dá)鄰近概念(或非鄰近概念)的一對或三個(gè)實(shí)例
拉近被認(rèn)為是相似概念對的中間表征之間的關(guān)系,刪除隨機(jī)選擇的相似概念對的表征
(Weston, Ratle & Collobert, ICML’2008):通過把非監(jiān)督式嵌入標(biāo)準(zhǔn)與監(jiān)督式梯度相結(jié)合,提高半監(jiān)督式學(xué)習(xí)的效率
視頻中連續(xù)的圖像 = 相似
隨機(jī)選擇的圖像對 = 不相似
緩慢變化的特征可能指代有趣的抽象特征
微調(diào)之前——微調(diào)之后
當(dāng)權(quán)重越來越大,將陷于吸引域(“象限”不變)。
初始化更新產(chǎn)生重大影響(“關(guān)鍵期”)。
在具有良好泛化特征的吸引域中,初始化無監(jiān)督式預(yù)訓(xùn)練。
課程學(xué)習(xí)(一種延拓型學(xué)習(xí)方法)(Bengio et al, ICML’2009; Krueger & Dayan 2009)
從簡單的實(shí)例開始
在深層結(jié)構(gòu)中,實(shí)現(xiàn)更快速地收斂,獲得局部最小值。
實(shí)例的排序與選擇是與具有優(yōu)化效果的正則化矩陣相同嗎?
具有影響力的動態(tài)特征學(xué)習(xí)將產(chǎn)生重大影響。
訓(xùn)練分布的序列
簡單實(shí)例達(dá)到初始化巔峰
逐漸分配給更多具有難度實(shí)例更多權(quán)重,直到實(shí)現(xiàn)目標(biāo)分布
在學(xué)習(xí)復(fù)雜函數(shù)方面的突破:具有分布式表征的深層結(jié)構(gòu)。
多層潛變量:在統(tǒng)計(jì)結(jié)果分享過程中,多層潛變量可能呈指數(shù)增長。
主要挑戰(zhàn):訓(xùn)練深層結(jié)構(gòu)。
RBMs允許快速推理,棧式RMBs/棧式自動編碼器允許快速近似推理。
對分類器進(jìn)行無監(jiān)督式預(yù)訓(xùn)練這一操作正如優(yōu)化一個(gè)陌生的正則化矩陣的在線誤差。
推理近似值和動態(tài)特征學(xué)習(xí)與模型本身具有重要作用。
為什么訓(xùn)練深層結(jié)構(gòu)具有難度?
為什么學(xué)習(xí)動態(tài)特征具有重要性?
應(yīng)當(dāng)如何降低聯(lián)合訓(xùn)練所有層的難度?
如何更高效地從RBMs和深層生成模型中取樣?
是否需要對深層網(wǎng)絡(luò)無監(jiān)督式學(xué)習(xí)的質(zhì)量實(shí)施監(jiān)管?
是否有其他方式可以用來引導(dǎo)訓(xùn)練中間表征?
如何捕捉場景結(jié)構(gòu)和序列結(jié)構(gòu)?
總結(jié):本文中主要提到了有關(guān)深信念網(wǎng)絡(luò)、DBN、無監(jiān)督學(xué)習(xí)、降噪等相關(guān)內(nèi)容,以及為什么將它們應(yīng)用到人工智能領(lǐng)域中。作為 Yoshua Bengio在2009年的演講,它是相當(dāng)具有前瞻性的,希望在深度學(xué)習(xí)能給你以啟發(fā)。
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Yoshua Bengio
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。