1
本文作者: 李尊 | 2016-08-22 20:51 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛頓 )是一位英國出生的計算機學(xué)家和心理學(xué)家,以其在神經(jīng)網(wǎng)絡(luò)方面的貢獻(xiàn)聞名。辛頓是反向傳播算法和對比散度算法的發(fā)明人之一,也是深度學(xué)習(xí)的積極推動者,目前任職于多倫多大學(xué)與Google。作為人工智能領(lǐng)域的三位奠基人之一,早在30年前,辛頓就已經(jīng)在深度學(xué)習(xí)領(lǐng)域留下了自己的烙印。然而,直到計算機的性能達(dá)到深度學(xué)習(xí)的要求,辛頓才開始在學(xué)術(shù)界以外得到自己應(yīng)得的廣泛認(rèn)可,本文是他對于深度學(xué)習(xí)介紹的演講PPT。
深度學(xué)習(xí)
Geoffrey Hinton
多倫多大學(xué)&Google
機器學(xué)習(xí)任務(wù)的頻譜
典型的統(tǒng)計學(xué)方法
低維度數(shù)據(jù)(例如,低于1000個維度)
數(shù)據(jù)中存在大量的噪音
數(shù)據(jù)不存在健全的結(jié)構(gòu), 一個極簡模型如何表示數(shù)據(jù)結(jié)構(gòu)
主要問題在于區(qū)分真正結(jié)構(gòu)與數(shù)據(jù)噪音
人工智能(AI)
高維度數(shù)據(jù)(例如,多于1000個維度)
如果合理處理噪音,噪音不足以模糊數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
數(shù)據(jù)中有龐大得結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)過于復(fù)雜,難以用一個簡單的模型表示。
主要問題在于弄清楚如何表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu),使得這種結(jié)構(gòu)易于學(xué)習(xí)
深度學(xué)習(xí)簡要發(fā)展史
用于學(xué)習(xí)多層非線性特征的反向傳播算法于20世紀(jì)70年代和80年代被提出來并得到多次發(fā)展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當(dāng)時,反向傳播算法具有廣闊的應(yīng)用前景,然而,到20世紀(jì)90年代,機器學(xué)習(xí)領(lǐng)域的眾多研究者開始停止運用該算法,原因如下:
—該算法不能有效利用多數(shù)隱藏層(除了其在“時延”和卷積網(wǎng)的應(yīng)用)。
—該算法不能在遞歸網(wǎng)絡(luò)中發(fā)揮有效作用。
如何學(xué)習(xí)多層特征(~1985)
運用反向傳播錯誤信號以獲得用于學(xué)習(xí)的衍生工具:
首先輸入輸入信息向量,通過隱藏層,最終得到輸出結(jié)果,對比輸出結(jié)果與正確答案得到錯誤信號。
隨機梯度下降
計算少量隨機“小批量”訓(xùn)練數(shù)據(jù)的所有權(quán)重值的梯度矢量。
—這將對所有訓(xùn)練數(shù)據(jù)的梯度矢量進(jìn)行隨機評估。
—若權(quán)重值完全出現(xiàn)錯誤,即便獲得一個耗費多,精確地估計值也是無意義的。
略微減小梯度估計值,以更新所有權(quán)重值。
—與其他更好地方法相比,這種原始的優(yōu)化方法能夠在大數(shù)據(jù)集中發(fā)揮更好的作用。
反向傳播算法到底是哪里出錯了?——20世紀(jì)90年代的觀點
反向傳播算法需要大量的標(biāo)記過的訓(xùn)練數(shù)據(jù)
— 幾乎所有的數(shù)據(jù)都是未經(jīng)標(biāo)記的。
反向傳播算法未能規(guī)劃好學(xué)習(xí)時間
— 在存在眾多隱藏層的網(wǎng)絡(luò)中,該算法學(xué)習(xí)速度非常慢。
在局部優(yōu)化過程中,反向傳播算法會出現(xiàn)卡殼現(xiàn)象
— 該算法通常能夠得到極好的運用,但是從來沒有極好的理論。
運用無監(jiān)督學(xué)習(xí)方式,克服反向傳播算法的局限性
保持運用梯度方法的有效性與簡潔性,以調(diào)整權(quán)重值,同時運用這種方法為感官輸入信息構(gòu)建結(jié)構(gòu)。
— 調(diào)整權(quán)重,保證一個生成模型生成感官輸入信息的最大可能性。
— 學(xué)習(xí)圖像,而非標(biāo)記過的圖像。
如果你想要從事計算機視覺領(lǐng)域的研究,首選學(xué)習(xí)計算機制圖法。
我們應(yīng)當(dāng)學(xué)習(xí)哪種生成模型?
隨機二進(jìn)制單位(一種奇數(shù)選擇方法)
受限玻爾茲曼機
限制層與層之間的連接性,使學(xué)習(xí)變得更為簡單。
—只有一層隨機二進(jìn)制隱藏單元。
—隱藏層之間無連接。
在受限玻爾茲曼機中,鑒于可視狀態(tài),隱藏層之間存在有條件相互獨立關(guān)系。
— 當(dāng)存在一個既定的數(shù)據(jù)矢量,我們能夠快速從后驗分布中獲取一個無偏差樣本。
受限玻爾茲曼機最大可能性學(xué)習(xí)算法圖
由可視單元的一個訓(xùn)練矢量V開頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉(zhuǎn)換。
快速學(xué)習(xí)受限玻爾茲曼機的方法
由可視單元的一個訓(xùn)練矢量開頭
更新所有平行的隱藏單元
更新所有平行的可視單元,以實現(xiàn)重構(gòu)
再次更新隱藏單元
旁白
通過對運用兩種不同方法獲得的預(yù)測值取平均數(shù),Netflix 能夠預(yù)測出你對一部電影的喜愛程度。
其中的一種方法使用經(jīng)過快速近似學(xué)習(xí)算法的一種算法版本訓(xùn)練的受限玻爾茲曼機。
這是受限玻爾茲曼機的首次重大應(yīng)用。
訓(xùn)練深度網(wǎng)絡(luò)(受限玻爾茲曼機飽受歡迎的主要原因在于的到蓋茨比基金的支持)
首先訓(xùn)練直接從像素中獲取輸入信息的特征層。
接著,將這些講過訓(xùn)練的特征視為像素,激活這些特征,在第二隱藏層學(xué)習(xí)這些特征的特征。
如此便生成一個多層生成模型。
每當(dāng)我們添加一個特征層,便能夠得到訓(xùn)練數(shù)據(jù)的對數(shù)概率一個更好的可變下限,這一點可以得到證實。
這一證明過程是非常復(fù)雜的(但是對于學(xué)術(shù)界同仁之間相互尊重極為重要)。
精細(xì)調(diào)整,以實現(xiàn)區(qū)分這一目的
預(yù)訓(xùn)練:首先,一次只學(xué)習(xí)一個特征層,不使用標(biāo)記過的信息。
精細(xì)調(diào)增:增添最后一個標(biāo)記單元層,反向計算標(biāo)記單元的誤差,以便精細(xì)調(diào)整那些在無監(jiān)督前期訓(xùn)練階段學(xué)會的特征。
這種精細(xì)調(diào)整方法能夠克服標(biāo)準(zhǔn)反向傳播算法的兩個主要局限性。
因為未經(jīng)標(biāo)記數(shù)據(jù)而發(fā)現(xiàn)好的特征,我們要求使用更少的標(biāo)記。
由于在預(yù)訓(xùn)練過程中,一次僅訓(xùn)練一層,并且是從可感知的特征進(jìn)行精細(xì)調(diào)整的,學(xué)習(xí)速度變得越來越快。
為預(yù)訓(xùn)練深層神經(jīng)網(wǎng)構(gòu)建聲學(xué)模型
在使用雙手機模型的標(biāo)準(zhǔn)后期處理之后,獲得23.0%的手機錯誤率。
TIMIT之前獲得最優(yōu)結(jié)果為24.4%,這便要求對幾個模型的結(jié)果取平均值。
通過較短時間的前期處理,現(xiàn)在我們在這一塊兒能夠做的更好。
接下來會發(fā)生什么
當(dāng)預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于在MSR演講組一致推崇的高斯混合模型,IBM與Google對這類深層神經(jīng)網(wǎng)絡(luò)實行進(jìn)一步發(fā)展。
直至2012年,安卓系統(tǒng)的聲音搜索功能便是運用一個基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型。
現(xiàn)在所有起到領(lǐng)導(dǎo)作用的團(tuán)隊均使用神經(jīng)網(wǎng)絡(luò),這一技術(shù)正在向性能越來越好的遞歸神經(jīng)網(wǎng)絡(luò)發(fā)展。
圖像網(wǎng)的ILSVRC-2012競爭
擁有120萬高分辨率訓(xùn)練圖像的數(shù)據(jù)集。
1000種不同類別的物體。
任務(wù)是在前5次猜測中猜出“正確”的。
在這個數(shù)據(jù)集中,對現(xiàn)有的一些計算機視覺方法進(jìn)行測試。
2012年的計算機視覺系統(tǒng)使用運用手工工程的復(fù)雜的多層系統(tǒng)。
早期階段主要通過優(yōu)化一些參數(shù)得到調(diào)整。
ILSVRC-2012競爭的錯誤率
2015年深層卷積神經(jīng)網(wǎng) 5%
多倫多大學(xué)(Krizhevsky等,2012) 16%
東京大學(xué) 26%
牛津大學(xué)(Zisserman 等) 27%
INRIA(法國國家科學(xué)院)與XRCE(歐洲施樂研究中心) 27%
阿姆斯特丹大學(xué) 29%
針對Imagenet的神經(jīng)網(wǎng)絡(luò)
Alex Krizhevsky等在NIPS 2012開發(fā)了一個非常深的卷積神經(jīng)網(wǎng)絡(luò)(Le Cunn 1987),它的架構(gòu)包括:
l 7個隱藏層(不包括最大池化層)
l 早期的層級是卷積的
l 最后兩層是全局相連的
激活函數(shù)是每個隱層的修正線性單元
這些訓(xùn)練速度快得多,且比邏輯單元要更具表現(xiàn)力
全局連接層擁有最多的參數(shù)
Dropout用來防止這些層級過擬合
在測試集上的樣本(以及神經(jīng)網(wǎng)絡(luò)猜測結(jié)果)
獵豹(豹 雪豹 埃及貓)
高速列車(小轎車 地鐵 電車)
放大鏡(剪刀、放大鏡、煎鍋、聽診器)
修正線性單元
使用邏輯彎曲而非線性神經(jīng)進(jìn)行修正
y = max(0,x)
這種非線性使得深度網(wǎng)絡(luò)更易訓(xùn)練,在處理真實值的時候也表現(xiàn)的更好。
Dropout:平均多個大型神經(jīng)網(wǎng)絡(luò)的有效方式
設(shè)想一個包括一個隱層的神經(jīng)網(wǎng)絡(luò)
每次提出一個訓(xùn)練樣本時,隨機以0.5的可能性省略一個隱藏單元
因此我們隨機從2^H不同的架構(gòu)中取樣
所有的架構(gòu)權(quán)重相同
Dropout作為一種模型平均形式
我們從2^H模型取樣。只有一部分模型層級訓(xùn)練過,且它們只訓(xùn)練過一個樣本。
權(quán)重共享意味著它們中每個模型都是十分正則化的
這比試著將權(quán)重保持在較少狀態(tài)更能實現(xiàn)好的正則化
在測試的時候我們做些什么?
我們能對許多不同的架構(gòu)進(jìn)行取樣,然后在它們的輸出分布中取幾何平均數(shù)。
能用上所有的隱藏單元更好,但是要將它們的輸入權(quán)重減半
這恰好計算了所有2^H模型預(yù)測的幾何平均數(shù)
在有更多的隱層的情況下,測試時期將權(quán)重減半是唯一一種模型平均的近似值,但是它得到結(jié)果不錯
1986年提出的方向傳播算法哪里錯了?
關(guān)于它為什么失敗,我們得出的結(jié)論都錯了。真正的原因是:
1. 我們的標(biāo)記數(shù)據(jù)集太小了。(幾千倍的差異)
2. 我們的運算能力太慢了。(百萬倍的差異)
3. 我們進(jìn)行權(quán)重初始化的方式錯了。
4. 我們使用了錯誤的非線性類別。
幾年前,Jeff Dean認(rèn)為如果計算能力足夠的話,神經(jīng)網(wǎng)絡(luò)也許能夠做到一些非常了不起的事情。
他建立許多架構(gòu)讓一些大型神經(jīng)網(wǎng)絡(luò)在Google的數(shù)據(jù)中心核心區(qū)塊上進(jìn)行訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)(部分復(fù)雜細(xì)節(jié)已略去)
有關(guān)卷積網(wǎng)絡(luò)最好的類型可以去查看Hochreiter和Schmidhuber于1997年發(fā)布文章的細(xì)節(jié)。
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)十分強大,因為它們結(jié)合了兩種特性。
l 分布式隱層允許它們有效存儲之前的信息
l 非線性動態(tài)允許它們以復(fù)雜的方式更新隱層
l 深度越深,性能更好
機器翻譯的一種全新方式(Suskever, Vinyals和Le,2014)
針對每種語言,我們都有一個深度編碼器RNN和一個深度解碼器RNN
針對原始語言的編碼器RNN按照語句中文本順序進(jìn)行閱讀
它最終的隱層表示的就是語句所要表達(dá)的含義。
針對翻譯分布的一個解碼器RNN
首先它輸出的是可能的首個單詞的概率分布
我們在這個分布中選取一個單詞,然后將它反饋到RNN中最為一個輸入
給定首個單詞,RNN指定第二個單詞的分布
繼續(xù)進(jìn)行,直到選完
在訓(xùn)練期間,我們只需要輸入“正確”的單詞。
編碼器和解碼器網(wǎng)絡(luò)是如何訓(xùn)練的
給定一個句型組,使用反向傳播來最大化產(chǎn)生特定翻譯的對數(shù)可能性
目前這個系統(tǒng)只訓(xùn)練過一組語言
該系統(tǒng)已實現(xiàn)在該數(shù)據(jù)上的最佳水準(zhǔn)
該系統(tǒng)大約需要一年來開發(fā)
如果我們使用更多的數(shù)據(jù),并且同時對多種語言共同進(jìn)行訓(xùn)練編碼器和解碼器的話,它的表現(xiàn)會好的多
歐洲的議會給出了25種方式,我們可以通過所有的25中解碼器進(jìn)行反向傳播。
結(jié)合視覺和語言(Vinyals等近期工作的簡單介紹)
在imagent上訓(xùn)練的深度卷積網(wǎng)絡(luò)種最后一個隱層的活動向量是能編碼圖片中內(nèi)容的“認(rèn)知”
將認(rèn)知規(guī)劃到深度卷積神經(jīng)網(wǎng)絡(luò)的初始隱層
訓(xùn)練RNN來輸出它在圖片中看到了什么
使用一個擁有20萬張圖片(每張圖片有幾個注釋)的數(shù)據(jù)集
不再重復(fù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)
一群人在一個戶外市場購物
(人們蜷縮圍繞著一家開放市場)
一個抱著填充動物玩具的孩子特寫
(一個小女孩睡在沙發(fā)上,抱著一個玩具熊)
文本處理的意義
一旦我們能將一句話轉(zhuǎn)化成一個思想向量,那么一篇文本也能變成一系列的思想向量。
在接下里的幾年里,人們將使用深度RNNs來學(xué)習(xí)對思想向量序列進(jìn)行建模。
這將捕獲自然推理過程
它應(yīng)該能讓我們理解文本要表達(dá)的含義
我們可能需要數(shù)十億的神經(jīng)元以及百億級的參數(shù)才能實現(xiàn)人類的理解水平。
經(jīng)典AI的意義
對于物理學(xué)家來說光波必須通過以太來進(jìn)行傳播
他們認(rèn)為沒有其他的可能性
對于AI研究學(xué)者來說人們必須使用正式的推理規(guī)則來通過一個一個論點來傳播含義
他們認(rèn)為沒有其他的可能性
神經(jīng)網(wǎng)絡(luò)內(nèi)部的編碼器與解碼器沒有符號專門用來針對機器翻譯
唯一的符號是輸入和輸出
也許處理符號串不是通過操作內(nèi)部符號串來實現(xiàn)的
處理像素陣列絕對不是通過操作內(nèi)部像素來實現(xiàn)的
深度學(xué)習(xí)是從哪里來的?
所有的主要思想和幾乎全部的實踐成果都是來源于基于興趣的研究。(Gatsby基金十分重要)
目標(biāo)在于鼓勵翻譯研究的政府資助也對發(fā)展深度學(xué)習(xí)科學(xué)技術(shù)有小部分貢獻(xiàn)
公司擅長于開發(fā)新的想法理念
長遠(yuǎn)來看,好的想法理念卻是真正的瓶頸
因此給予大學(xué)基礎(chǔ)結(jié)構(gòu)來發(fā)展真正的想法理念
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via Geoffrey Hinton
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。