1
本文作者: 李尊 | 2016-08-22 20:51 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛頓 )是一位英國(guó)出生的計(jì)算機(jī)學(xué)家和心理學(xué)家,以其在神經(jīng)網(wǎng)絡(luò)方面的貢獻(xiàn)聞名。辛頓是反向傳播算法和對(duì)比散度算法的發(fā)明人之一,也是深度學(xué)習(xí)的積極推動(dòng)者,目前任職于多倫多大學(xué)與Google。作為人工智能領(lǐng)域的三位奠基人之一,早在30年前,辛頓就已經(jīng)在深度學(xué)習(xí)領(lǐng)域留下了自己的烙印。然而,直到計(jì)算機(jī)的性能達(dá)到深度學(xué)習(xí)的要求,辛頓才開(kāi)始在學(xué)術(shù)界以外得到自己應(yīng)得的廣泛認(rèn)可,本文是他對(duì)于深度學(xué)習(xí)介紹的演講PPT。
深度學(xué)習(xí)
Geoffrey Hinton
多倫多大學(xué)&Google
機(jī)器學(xué)習(xí)任務(wù)的頻譜
典型的統(tǒng)計(jì)學(xué)方法
低維度數(shù)據(jù)(例如,低于1000個(gè)維度)
數(shù)據(jù)中存在大量的噪音
數(shù)據(jù)不存在健全的結(jié)構(gòu), 一個(gè)極簡(jiǎn)模型如何表示數(shù)據(jù)結(jié)構(gòu)
主要問(wèn)題在于區(qū)分真正結(jié)構(gòu)與數(shù)據(jù)噪音
人工智能(AI)
高維度數(shù)據(jù)(例如,多于1000個(gè)維度)
如果合理處理噪音,噪音不足以模糊數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
數(shù)據(jù)中有龐大得結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)過(guò)于復(fù)雜,難以用一個(gè)簡(jiǎn)單的模型表示。
主要問(wèn)題在于弄清楚如何表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu),使得這種結(jié)構(gòu)易于學(xué)習(xí)
深度學(xué)習(xí)簡(jiǎn)要發(fā)展史
用于學(xué)習(xí)多層非線性特征的反向傳播算法于20世紀(jì)70年代和80年代被提出來(lái)并得到多次發(fā)展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當(dāng)時(shí),反向傳播算法具有廣闊的應(yīng)用前景,然而,到20世紀(jì)90年代,機(jī)器學(xué)習(xí)領(lǐng)域的眾多研究者開(kāi)始停止運(yùn)用該算法,原因如下:
—該算法不能有效利用多數(shù)隱藏層(除了其在“時(shí)延”和卷積網(wǎng)的應(yīng)用)。
—該算法不能在遞歸網(wǎng)絡(luò)中發(fā)揮有效作用。
如何學(xué)習(xí)多層特征(~1985)
運(yùn)用反向傳播錯(cuò)誤信號(hào)以獲得用于學(xué)習(xí)的衍生工具:
首先輸入輸入信息向量,通過(guò)隱藏層,最終得到輸出結(jié)果,對(duì)比輸出結(jié)果與正確答案得到錯(cuò)誤信號(hào)。
隨機(jī)梯度下降
計(jì)算少量隨機(jī)“小批量”訓(xùn)練數(shù)據(jù)的所有權(quán)重值的梯度矢量。
—這將對(duì)所有訓(xùn)練數(shù)據(jù)的梯度矢量進(jìn)行隨機(jī)評(píng)估。
—若權(quán)重值完全出現(xiàn)錯(cuò)誤,即便獲得一個(gè)耗費(fèi)多,精確地估計(jì)值也是無(wú)意義的。
略微減小梯度估計(jì)值,以更新所有權(quán)重值。
—與其他更好地方法相比,這種原始的優(yōu)化方法能夠在大數(shù)據(jù)集中發(fā)揮更好的作用。
反向傳播算法到底是哪里出錯(cuò)了?——20世紀(jì)90年代的觀點(diǎn)
反向傳播算法需要大量的標(biāo)記過(guò)的訓(xùn)練數(shù)據(jù)
— 幾乎所有的數(shù)據(jù)都是未經(jīng)標(biāo)記的。
反向傳播算法未能規(guī)劃好學(xué)習(xí)時(shí)間
— 在存在眾多隱藏層的網(wǎng)絡(luò)中,該算法學(xué)習(xí)速度非常慢。
在局部?jī)?yōu)化過(guò)程中,反向傳播算法會(huì)出現(xiàn)卡殼現(xiàn)象
— 該算法通常能夠得到極好的運(yùn)用,但是從來(lái)沒(méi)有極好的理論。
運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方式,克服反向傳播算法的局限性
保持運(yùn)用梯度方法的有效性與簡(jiǎn)潔性,以調(diào)整權(quán)重值,同時(shí)運(yùn)用這種方法為感官輸入信息構(gòu)建結(jié)構(gòu)。
— 調(diào)整權(quán)重,保證一個(gè)生成模型生成感官輸入信息的最大可能性。
— 學(xué)習(xí)圖像,而非標(biāo)記過(guò)的圖像。
如果你想要從事計(jì)算機(jī)視覺(jué)領(lǐng)域的研究,首選學(xué)習(xí)計(jì)算機(jī)制圖法。
我們應(yīng)當(dāng)學(xué)習(xí)哪種生成模型?
隨機(jī)二進(jìn)制單位(一種奇數(shù)選擇方法)
受限玻爾茲曼機(jī)
限制層與層之間的連接性,使學(xué)習(xí)變得更為簡(jiǎn)單。
—只有一層隨機(jī)二進(jìn)制隱藏單元。
—隱藏層之間無(wú)連接。
在受限玻爾茲曼機(jī)中,鑒于可視狀態(tài),隱藏層之間存在有條件相互獨(dú)立關(guān)系。
— 當(dāng)存在一個(gè)既定的數(shù)據(jù)矢量,我們能夠快速?gòu)暮篁?yàn)分布中獲取一個(gè)無(wú)偏差樣本。
受限玻爾茲曼機(jī)最大可能性學(xué)習(xí)算法圖
由可視單元的一個(gè)訓(xùn)練矢量V開(kāi)頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉(zhuǎn)換。
快速學(xué)習(xí)受限玻爾茲曼機(jī)的方法
由可視單元的一個(gè)訓(xùn)練矢量開(kāi)頭
更新所有平行的隱藏單元
更新所有平行的可視單元,以實(shí)現(xiàn)重構(gòu)
再次更新隱藏單元
旁白
通過(guò)對(duì)運(yùn)用兩種不同方法獲得的預(yù)測(cè)值取平均數(shù),Netflix 能夠預(yù)測(cè)出你對(duì)一部電影的喜愛(ài)程度。
其中的一種方法使用經(jīng)過(guò)快速近似學(xué)習(xí)算法的一種算法版本訓(xùn)練的受限玻爾茲曼機(jī)。
這是受限玻爾茲曼機(jī)的首次重大應(yīng)用。
訓(xùn)練深度網(wǎng)絡(luò)(受限玻爾茲曼機(jī)飽受歡迎的主要原因在于的到蓋茨比基金的支持)
首先訓(xùn)練直接從像素中獲取輸入信息的特征層。
接著,將這些講過(guò)訓(xùn)練的特征視為像素,激活這些特征,在第二隱藏層學(xué)習(xí)這些特征的特征。
如此便生成一個(gè)多層生成模型。
每當(dāng)我們添加一個(gè)特征層,便能夠得到訓(xùn)練數(shù)據(jù)的對(duì)數(shù)概率一個(gè)更好的可變下限,這一點(diǎn)可以得到證實(shí)。
這一證明過(guò)程是非常復(fù)雜的(但是對(duì)于學(xué)術(shù)界同仁之間相互尊重極為重要)。
精細(xì)調(diào)整,以實(shí)現(xiàn)區(qū)分這一目的
預(yù)訓(xùn)練:首先,一次只學(xué)習(xí)一個(gè)特征層,不使用標(biāo)記過(guò)的信息。
精細(xì)調(diào)增:增添最后一個(gè)標(biāo)記單元層,反向計(jì)算標(biāo)記單元的誤差,以便精細(xì)調(diào)整那些在無(wú)監(jiān)督前期訓(xùn)練階段學(xué)會(huì)的特征。
這種精細(xì)調(diào)整方法能夠克服標(biāo)準(zhǔn)反向傳播算法的兩個(gè)主要局限性。
因?yàn)槲唇?jīng)標(biāo)記數(shù)據(jù)而發(fā)現(xiàn)好的特征,我們要求使用更少的標(biāo)記。
由于在預(yù)訓(xùn)練過(guò)程中,一次僅訓(xùn)練一層,并且是從可感知的特征進(jìn)行精細(xì)調(diào)整的,學(xué)習(xí)速度變得越來(lái)越快。
為預(yù)訓(xùn)練深層神經(jīng)網(wǎng)構(gòu)建聲學(xué)模型
在使用雙手機(jī)模型的標(biāo)準(zhǔn)后期處理之后,獲得23.0%的手機(jī)錯(cuò)誤率。
TIMIT之前獲得最優(yōu)結(jié)果為24.4%,這便要求對(duì)幾個(gè)模型的結(jié)果取平均值。
通過(guò)較短時(shí)間的前期處理,現(xiàn)在我們?cè)谶@一塊兒能夠做的更好。
接下來(lái)會(huì)發(fā)生什么
當(dāng)預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于在MSR演講組一致推崇的高斯混合模型,IBM與Google對(duì)這類深層神經(jīng)網(wǎng)絡(luò)實(shí)行進(jìn)一步發(fā)展。
直至2012年,安卓系統(tǒng)的聲音搜索功能便是運(yùn)用一個(gè)基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
現(xiàn)在所有起到領(lǐng)導(dǎo)作用的團(tuán)隊(duì)均使用神經(jīng)網(wǎng)絡(luò),這一技術(shù)正在向性能越來(lái)越好的遞歸神經(jīng)網(wǎng)絡(luò)發(fā)展。
圖像網(wǎng)的ILSVRC-2012競(jìng)爭(zhēng)
擁有120萬(wàn)高分辨率訓(xùn)練圖像的數(shù)據(jù)集。
1000種不同類別的物體。
任務(wù)是在前5次猜測(cè)中猜出“正確”的。
在這個(gè)數(shù)據(jù)集中,對(duì)現(xiàn)有的一些計(jì)算機(jī)視覺(jué)方法進(jìn)行測(cè)試。
2012年的計(jì)算機(jī)視覺(jué)系統(tǒng)使用運(yùn)用手工工程的復(fù)雜的多層系統(tǒng)。
早期階段主要通過(guò)優(yōu)化一些參數(shù)得到調(diào)整。
ILSVRC-2012競(jìng)爭(zhēng)的錯(cuò)誤率
2015年深層卷積神經(jīng)網(wǎng) 5%
多倫多大學(xué)(Krizhevsky等,2012) 16%
東京大學(xué) 26%
牛津大學(xué)(Zisserman 等) 27%
INRIA(法國(guó)國(guó)家科學(xué)院)與XRCE(歐洲施樂(lè)研究中心) 27%
阿姆斯特丹大學(xué) 29%
針對(duì)Imagenet的神經(jīng)網(wǎng)絡(luò)
Alex Krizhevsky等在NIPS 2012開(kāi)發(fā)了一個(gè)非常深的卷積神經(jīng)網(wǎng)絡(luò)(Le Cunn 1987),它的架構(gòu)包括:
l 7個(gè)隱藏層(不包括最大池化層)
l 早期的層級(jí)是卷積的
l 最后兩層是全局相連的
激活函數(shù)是每個(gè)隱層的修正線性單元
這些訓(xùn)練速度快得多,且比邏輯單元要更具表現(xiàn)力
全局連接層擁有最多的參數(shù)
Dropout用來(lái)防止這些層級(jí)過(guò)擬合
在測(cè)試集上的樣本(以及神經(jīng)網(wǎng)絡(luò)猜測(cè)結(jié)果)
獵豹(豹 雪豹 埃及貓)
高速列車(小轎車 地鐵 電車)
放大鏡(剪刀、放大鏡、煎鍋、聽(tīng)診器)
修正線性單元
使用邏輯彎曲而非線性神經(jīng)進(jìn)行修正
y = max(0,x)
這種非線性使得深度網(wǎng)絡(luò)更易訓(xùn)練,在處理真實(shí)值的時(shí)候也表現(xiàn)的更好。
Dropout:平均多個(gè)大型神經(jīng)網(wǎng)絡(luò)的有效方式
設(shè)想一個(gè)包括一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)
每次提出一個(gè)訓(xùn)練樣本時(shí),隨機(jī)以0.5的可能性省略一個(gè)隱藏單元
因此我們隨機(jī)從2^H不同的架構(gòu)中取樣
所有的架構(gòu)權(quán)重相同
Dropout作為一種模型平均形式
我們從2^H模型取樣。只有一部分模型層級(jí)訓(xùn)練過(guò),且它們只訓(xùn)練過(guò)一個(gè)樣本。
權(quán)重共享意味著它們中每個(gè)模型都是十分正則化的
這比試著將權(quán)重保持在較少狀態(tài)更能實(shí)現(xiàn)好的正則化
在測(cè)試的時(shí)候我們做些什么?
我們能對(duì)許多不同的架構(gòu)進(jìn)行取樣,然后在它們的輸出分布中取幾何平均數(shù)。
能用上所有的隱藏單元更好,但是要將它們的輸入權(quán)重減半
這恰好計(jì)算了所有2^H模型預(yù)測(cè)的幾何平均數(shù)
在有更多的隱層的情況下,測(cè)試時(shí)期將權(quán)重減半是唯一一種模型平均的近似值,但是它得到結(jié)果不錯(cuò)
1986年提出的方向傳播算法哪里錯(cuò)了?
關(guān)于它為什么失敗,我們得出的結(jié)論都錯(cuò)了。真正的原因是:
1. 我們的標(biāo)記數(shù)據(jù)集太小了。(幾千倍的差異)
2. 我們的運(yùn)算能力太慢了。(百萬(wàn)倍的差異)
3. 我們進(jìn)行權(quán)重初始化的方式錯(cuò)了。
4. 我們使用了錯(cuò)誤的非線性類別。
幾年前,Jeff Dean認(rèn)為如果計(jì)算能力足夠的話,神經(jīng)網(wǎng)絡(luò)也許能夠做到一些非常了不起的事情。
他建立許多架構(gòu)讓一些大型神經(jīng)網(wǎng)絡(luò)在Google的數(shù)據(jù)中心核心區(qū)塊上進(jìn)行訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)(部分復(fù)雜細(xì)節(jié)已略去)
有關(guān)卷積網(wǎng)絡(luò)最好的類型可以去查看Hochreiter和Schmidhuber于1997年發(fā)布文章的細(xì)節(jié)。
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大,因?yàn)樗鼈兘Y(jié)合了兩種特性。
l 分布式隱層允許它們有效存儲(chǔ)之前的信息
l 非線性動(dòng)態(tài)允許它們以復(fù)雜的方式更新隱層
l 深度越深,性能更好
機(jī)器翻譯的一種全新方式(Suskever, Vinyals和Le,2014)
針對(duì)每種語(yǔ)言,我們都有一個(gè)深度編碼器RNN和一個(gè)深度解碼器RNN
針對(duì)原始語(yǔ)言的編碼器RNN按照語(yǔ)句中文本順序進(jìn)行閱讀
它最終的隱層表示的就是語(yǔ)句所要表達(dá)的含義。
針對(duì)翻譯分布的一個(gè)解碼器RNN
首先它輸出的是可能的首個(gè)單詞的概率分布
我們?cè)谶@個(gè)分布中選取一個(gè)單詞,然后將它反饋到RNN中最為一個(gè)輸入
給定首個(gè)單詞,RNN指定第二個(gè)單詞的分布
繼續(xù)進(jìn)行,直到選完
在訓(xùn)練期間,我們只需要輸入“正確”的單詞。
編碼器和解碼器網(wǎng)絡(luò)是如何訓(xùn)練的
給定一個(gè)句型組,使用反向傳播來(lái)最大化產(chǎn)生特定翻譯的對(duì)數(shù)可能性
目前這個(gè)系統(tǒng)只訓(xùn)練過(guò)一組語(yǔ)言
該系統(tǒng)已實(shí)現(xiàn)在該數(shù)據(jù)上的最佳水準(zhǔn)
該系統(tǒng)大約需要一年來(lái)開(kāi)發(fā)
如果我們使用更多的數(shù)據(jù),并且同時(shí)對(duì)多種語(yǔ)言共同進(jìn)行訓(xùn)練編碼器和解碼器的話,它的表現(xiàn)會(huì)好的多
歐洲的議會(huì)給出了25種方式,我們可以通過(guò)所有的25中解碼器進(jìn)行反向傳播。
結(jié)合視覺(jué)和語(yǔ)言(Vinyals等近期工作的簡(jiǎn)單介紹)
在imagent上訓(xùn)練的深度卷積網(wǎng)絡(luò)種最后一個(gè)隱層的活動(dòng)向量是能編碼圖片中內(nèi)容的“認(rèn)知”
將認(rèn)知規(guī)劃到深度卷積神經(jīng)網(wǎng)絡(luò)的初始隱層
訓(xùn)練RNN來(lái)輸出它在圖片中看到了什么
使用一個(gè)擁有20萬(wàn)張圖片(每張圖片有幾個(gè)注釋)的數(shù)據(jù)集
不再重復(fù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)
一群人在一個(gè)戶外市場(chǎng)購(gòu)物
(人們蜷縮圍繞著一家開(kāi)放市場(chǎng))
一個(gè)抱著填充動(dòng)物玩具的孩子特寫(xiě)
(一個(gè)小女孩睡在沙發(fā)上,抱著一個(gè)玩具熊)
文本處理的意義
一旦我們能將一句話轉(zhuǎn)化成一個(gè)思想向量,那么一篇文本也能變成一系列的思想向量。
在接下里的幾年里,人們將使用深度RNNs來(lái)學(xué)習(xí)對(duì)思想向量序列進(jìn)行建模。
這將捕獲自然推理過(guò)程
它應(yīng)該能讓我們理解文本要表達(dá)的含義
我們可能需要數(shù)十億的神經(jīng)元以及百億級(jí)的參數(shù)才能實(shí)現(xiàn)人類的理解水平。
經(jīng)典AI的意義
對(duì)于物理學(xué)家來(lái)說(shuō)光波必須通過(guò)以太來(lái)進(jìn)行傳播
他們認(rèn)為沒(méi)有其他的可能性
對(duì)于AI研究學(xué)者來(lái)說(shuō)人們必須使用正式的推理規(guī)則來(lái)通過(guò)一個(gè)一個(gè)論點(diǎn)來(lái)傳播含義
他們認(rèn)為沒(méi)有其他的可能性
神經(jīng)網(wǎng)絡(luò)內(nèi)部的編碼器與解碼器沒(méi)有符號(hào)專門(mén)用來(lái)針對(duì)機(jī)器翻譯
唯一的符號(hào)是輸入和輸出
也許處理符號(hào)串不是通過(guò)操作內(nèi)部符號(hào)串來(lái)實(shí)現(xiàn)的
處理像素陣列絕對(duì)不是通過(guò)操作內(nèi)部像素來(lái)實(shí)現(xiàn)的
深度學(xué)習(xí)是從哪里來(lái)的?
所有的主要思想和幾乎全部的實(shí)踐成果都是來(lái)源于基于興趣的研究。(Gatsby基金十分重要)
目標(biāo)在于鼓勵(lì)翻譯研究的政府資助也對(duì)發(fā)展深度學(xué)習(xí)科學(xué)技術(shù)有小部分貢獻(xiàn)
公司擅長(zhǎng)于開(kāi)發(fā)新的想法理念
長(zhǎng)遠(yuǎn)來(lái)看,好的想法理念卻是真正的瓶頸
因此給予大學(xué)基礎(chǔ)結(jié)構(gòu)來(lái)發(fā)展真正的想法理念
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Geoffrey Hinton
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。