0
本文作者: 李尊 | 2016-08-25 20:45 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:Yoshua Bengio教授是機(jī)器學(xué)習(xí)大神之一,尤其是在深度學(xué)習(xí)這個領(lǐng)域,他也是人工智能領(lǐng)域中經(jīng)典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學(xué)習(xí)復(fù)興。他的研究工作主要聚焦在高級機(jī)器學(xué)習(xí)方面,致力于用其解決人工智能問題。目前他是僅存的幾個仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一(蒙特利爾大學(xué)),本文是他在2009年的經(jīng)典前瞻演講——“人工智能學(xué)習(xí)深度架構(gòu)”有關(guān)內(nèi)容的第一部分。
Yoshua Bengio 蒙特利爾大學(xué)
主要內(nèi)容:“人工智能學(xué)習(xí)深度架構(gòu)”
在視覺和自然語言處理任務(wù)中打敗了淺層神經(jīng)網(wǎng)絡(luò)(shallow neural network)
在像素級視覺任務(wù)中打敗了支持向量機(jī)(SVMs)(同時能處理自然語言處理問題中SVMs不能處理的數(shù)據(jù)大?。?/span>
在自然語言處理領(lǐng)域中實(shí)現(xiàn)了當(dāng)下最好的表現(xiàn)
在無監(jiān)督狀態(tài)下打敗了了深度神經(jīng)網(wǎng)絡(luò)
學(xué)會了視覺特征(和V1和V2神經(jīng)元類似)
大腦擁有深度架構(gòu)
人類是分層級進(jìn)行思考的(通過構(gòu)筑一些簡單的概念)
深度不夠的架構(gòu)其效率也成倍降低
分布式表征(可能是稀疏的)對于實(shí)現(xiàn)非局部泛化來說是有必要的,比1-N枚舉潛在變量值有效得多
多層級的潛在變量允許統(tǒng)計(jì)強(qiáng)度的共享組合
豎軸為預(yù)測f(x),橫軸為測試點(diǎn)x
較少變量情況下較為簡單
紫色曲線代表真實(shí)未知運(yùn)算
藍(lán)色曲線代表已學(xué)會的運(yùn)算:其中預(yù)測= f(x)
1維時——10個位置(position)
2維時——100個位置(position)
3維時——1000個位置(position)
要實(shí)現(xiàn)局部概覽,需要對所有的可能變量進(jìn)行樣本表征。
理論:高斯內(nèi)核機(jī)器至少需要k個樣本來學(xué)會一個運(yùn)算(在某些線上有2k個零交叉點(diǎn))
理論:對于高斯內(nèi)核的機(jī)器來說,對多種函數(shù)在維度上進(jìn)行訓(xùn)練需要跨維度樣本
位圖圖像的旋轉(zhuǎn)變換(rotation transformation of a bitmap image)
局部線性補(bǔ)丁與流形相切 local linear patches tangent to the manifold
收縮變化(shrinking transformation)
原始輸入向量空間(raw input vector space)
組合性:在表征能力上指數(shù)增益
分布表征(Distributed representations)
深度架構(gòu)(Deep architecture)
許多神經(jīng)元是同時活動的
輸入代表了一系列特征(不互相獨(dú)立)的活動
比局部表征更有效(指數(shù)級)
局部式分區(qū):通過已學(xué)會原型進(jìn)行分區(qū)
分布式分區(qū):子分區(qū)1、子分區(qū)2、子分區(qū)3
大腦使用的是分布式表征
大腦也是深度架構(gòu)
大腦重度使用無監(jiān)督學(xué)習(xí)
大腦傾向于學(xué)習(xí)更簡單的任務(wù)
人類大腦通過社會/文化/教育進(jìn)行發(fā)展
V4區(qū)域——更高層次的視覺抽象
V3區(qū)域——初級的形狀檢測器
V2區(qū)域——邊緣檢測器
視網(wǎng)膜——像素
人類會有層次的組織他們的想法和概念
人類首先學(xué)習(xí)一些更簡單的概念,然后將這些組合起來去表征更復(fù)雜抽象的概念
工程師將解決方案分為多層次的抽象和處理
想要學(xué)習(xí)/發(fā)現(xiàn)這些概念
示例:
由圖片(男人坐在地上)——原始輸入向量表征——稍微高階的表征——中間層級等——相當(dāng)高階的表征(男人、坐)
想要更接近人工智能的話,更好地推廣新的任務(wù)是至關(guān)重要的。
深度架構(gòu)能學(xué)會良好的中間表征(能在任務(wù)間共享)
一個良好的表征對于許多任務(wù)來說是有意義的
原始輸入x——共享中間表征h——任務(wù)1、2、3(y1、y2、y3)
不同的任務(wù)能共享同樣的高階特征
不同的高階特征能從同樣的低階特征組中建立
更多的階層=在表征效果上指數(shù)級增加
低階特征——高階特征——任務(wù)1-N(輸出y1-yN)
元素集(*、sin、+、-)——輸入(x、a、b) 輸出(*) 深度=4
元素集(神經(jīng)元、神經(jīng)元、神經(jīng)元)—— 深度=3
2層(邏輯閘、正式的神經(jīng)元、RBF單元)=通用逼近器
所有的3個原理(Hastad et al 86 & 91, Bengio et al 2007)
使用k層緊密表征的運(yùn)算可能需要k-1層的指數(shù)級別
深度架構(gòu)中共享組件
用共享組件表示的多項(xiàng)式:深度的優(yōu)勢可能指數(shù)級增長
深度架構(gòu)具有強(qiáng)大的表征能力
如何對它們進(jìn)行訓(xùn)練?
在2006年前,訓(xùn)練深度架構(gòu)都未成功過(除了卷積神經(jīng)網(wǎng)絡(luò)以外)
Hinton, Osindero & Teh ? A Fast Learning Algorithm for Deep Belief Nets ?, Neural Computation, 2006
Bengio, Lamblin, Popovici, Larochelle ? Greedy Layer-Wise Training of Deep Networks ?, NIPS’2006
Ranzato, Poultney, Chopra, LeCun ? Efficient Learning of Sparse Representations with an Energy-Based Model ?, NIPS’2006
堆棧受限玻爾茲曼機(jī)(RBM)——深度信念網(wǎng)絡(luò)(DBN)——監(jiān)督深度神經(jīng)網(wǎng)絡(luò)
每層輸出向量
給定輸入x輸出層預(yù)測目標(biāo)變量Y的參數(shù)分布
輸出:示例——多項(xiàng)式和softmax輸出單元的多類分類
基于梯度優(yōu)化的訓(xùn)練準(zhǔn)則,包括條件對數(shù)擬然訓(xùn)練等
AISTATS’2009
橫軸代表測試錯誤,豎軸代表計(jì)數(shù)
藍(lán)色為不帶預(yù)訓(xùn)練 橙色為帶預(yù)訓(xùn)練
橫軸為層級數(shù)目,豎軸為測試分類錯誤
玻爾茲曼機(jī)
馬爾可夫隨機(jī)場
隱藏變量更有趣
最流行的深度架構(gòu)構(gòu)件
雙向無監(jiān)督圖形模型
能預(yù)測可見單元的子集y(給定其他的x)
如果y只得到很少的值
Gibbs取樣
添加一個隱藏單元(與適當(dāng)?shù)膮?shù)選擇)保證了增加的可能性
擁有足夠的隱藏單元,能夠完美地模擬任意離散分布
有nb級隱藏單元的RBMs= 非參數(shù)(non-parametric)
Optimal training criterion for RBMs which will be stacked into a DBN is not the RBM likelihood
分區(qū)1、分區(qū)2、分區(qū)3
P(h|x) 和 P(x|h) 因式分解——簡單推理、方便的Gibbs取樣
在實(shí)踐中,Gibbs取樣并不總是很好的混合。
在MNIST上通過CD訓(xùn)練RBM
隨機(jī)狀態(tài)的鏈
真正的數(shù)字鏈
自由能量= 邊緣化時的等效能量
在RBMs中能被精確、有效地計(jì)算
邊際似然p(x)追溯到高劃分函數(shù)Z
梯度有兩個成分——正相、負(fù)相
在RBMs中,容易取樣或者在h|x 中求和
不同的部分:使用馬爾可夫鏈從P(x)中取樣
對比發(fā)散(CD-k):負(fù)相Gibbs鏈觀察x,運(yùn)行k Gibbs步驟
持續(xù)對比發(fā)散(PCD):當(dāng)權(quán)重緩慢變化時在背景中運(yùn)行負(fù)相Gibbs鏈
快速持續(xù)對比發(fā)散(Fast PCD):兩組權(quán)重,有用大量學(xué)習(xí)率的只用于負(fù)相,快速探索模式
集群:確定性近混沌動力系統(tǒng)定義了學(xué)習(xí)和采樣
退火MCMC:使用更高的溫度來逃避模式
對比發(fā)散(CD-k):從負(fù)相區(qū)塊開始Gibbs鏈觀察x,運(yùn)行k Gibbs步驟(Hinton 2002)
當(dāng)權(quán)重緩慢變化時在背景中運(yùn)行負(fù)相Gibbs鏈(Younes 2000, Tieleman 2008):
保證(Younes 89, 2000; Yuille 2004)
如果學(xué)習(xí)率以1/t 減少
在參數(shù)變化太多之前鏈進(jìn)行混合
當(dāng)參數(shù)變化時,鏈保持收斂
在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。
在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。
在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。
取樣過程中,利用參數(shù)快速變化(高學(xué)習(xí)效率)時獲得的極快速集群效應(yīng)。
快速PCD:兩組權(quán)重值,其中之一對應(yīng)高學(xué)習(xí)效率,只用于逆相,能夠快速轉(zhuǎn)換模式。
集群(參見Max Welling在ICML,UAI及專題演講會上的講話):0度MRFs和RBMs,快速計(jì)算權(quán)重值。
O度MRF的狀態(tài)S,權(quán)重為W
全面觀察的案例,觀察所得結(jié)果為,在動態(tài)系統(tǒng)與W一直發(fā)生變化。
只要W保持不變,即使取最大近似值,樣本的統(tǒng)計(jì)結(jié)果仍將與數(shù)據(jù)統(tǒng)計(jì)結(jié)果相匹配。
該狀態(tài)的隱層s = (x,h)
二項(xiàng)式狀態(tài)變量
統(tǒng)計(jì)值f
在正相位中,給定輸入信息x,優(yōu)化隱層h
在實(shí)踐操作中,利用RBM(受限玻爾茲曼機(jī))結(jié)構(gòu),能夠?qū)崿F(xiàn)函數(shù)值最大化。
取消模型與采樣程序兩者間傳統(tǒng)意義上的徹底分離
考慮將自適應(yīng)程序與充當(dāng)生成模型的一個采樣程序相結(jié)合所產(chǎn)生的整體影響
采樣結(jié)果可以通過以下步驟得到評估(不參考某種潛在的概率模型)
高溫退火有助于估計(jì)對數(shù)似然值
考慮不同溫度條件下的多重鏈及鄰近鏈之間的可逆交換
較高溫度鏈能夠不受模型的限制
模型取樣是從T=1開始
總結(jié):本文中主要提到了有關(guān)深度架構(gòu)、神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機(jī)等相關(guān)內(nèi)容,以及為什么將它們應(yīng)用到人工智能領(lǐng)域中的原由。作為 Yoshua Bengio在2009年的演講,它是相當(dāng)具有前瞻性的。在后續(xù)部分中, Yoshua Bengio也提到了DBN、無監(jiān)督學(xué)習(xí)等有關(guān)理念及實(shí)踐過程,請繼續(xù)關(guān)注我們的接下來的第二部分內(nèi)容文章。
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Yoshua Bengio
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。