2
本文作者: 李尊 | 2016-08-23 18:39 |
本文聯(lián)合編譯:Blake、高斐
雷鋒網(wǎng)注:卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network)是一種前饋神經(jīng)網(wǎng)絡,它的人工神經(jīng)元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現(xiàn)。
Yann LeCun出生在法國,曾在多倫多大學跟隨深度學習鼻祖Geoffrey Hinton進行博士后研究。早在20世紀80年代末,Yann LeCun就作為貝爾實驗室的研究員提出了卷積網(wǎng)絡技術,并展示如何使用它來大幅度提高手寫識別能力。上世紀末本世紀初,當神經(jīng)網(wǎng)絡失寵時Yann LeCun是少數(shù)幾名一直堅持的科學家之一。他于2003年成為紐約大學教授,并從此引領了深度學習的發(fā)展,目前任職于Facebook FAIR實驗室。本文是Yann LeCun對于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network)的演講介紹PPT。
Yann LeCun (信息學與計算機科學)(2015-2016)
首個卷積神經(jīng)網(wǎng)絡模型(多倫多大學)(LeCun 88,89)
共320個運用反向傳播算法訓練的實例
帶有步幅的卷積(子樣本)
緊密相連的池化過程
在貝爾實驗室建立的首個“真實”卷積神經(jīng)網(wǎng)絡模型(LeCun et al 89)
運用反向傳播算法進行訓練
USPS 編碼數(shù)字:7300次訓練,2000次測試
帶有步幅的卷積
緊密相連的池化過程
卷積神經(jīng)網(wǎng)絡(vintage 1990)
濾波-雙曲正切——池化——濾波-雙曲正切——池化
多重卷積網(wǎng)絡
卷積神經(jīng)網(wǎng)絡的卷積運算過程大致如下:
輸入圖像通過三個可訓練的濾波器組進行非線性卷積,卷積后在每一層產生特征映射圖,然后特征映射圖中每組的四個像素在進行求和、加權值、加偏置,在此過程中這些像素在池化層被池化,最終得到輸出值。
卷積神經(jīng)網(wǎng)絡的整體結構:
歸一化——濾波器組——非線性計算——池化
歸一化:圖像白化處理的變形(可選擇性)
減法運算:平均去除,高通濾波器進行濾波處理
除法運算:局部對比規(guī)范化,方差歸一化
濾波器組:維度拓展,映射
非線性:稀疏化,飽和,側抑制
精餾,成分明智收縮,雙曲正切等
池化: 空間或特征類型的聚合
最大化,Lp范數(shù),對數(shù)概率
LeNet5
卷積神經(jīng)網(wǎng)絡簡化模型
MNIST (LeCun 1998)
階段1:濾波器組——擠壓——最大池化
階段2:濾波器組——擠壓——最大池化
階段3:標準2層 MLP
多特征識別(Matan et al 1992)
每一層都是一個卷積層
單一特征識別器 ——SDNN
滑動窗口卷積神經(jīng)網(wǎng)絡+加權有限狀態(tài)機
卷積神經(jīng)網(wǎng)絡的應用范圍
信號以(多維度)數(shù)組的形式出現(xiàn)
具有很強局部關聯(lián)性的信號
特征能夠在任何位置出現(xiàn)的信號
目標物不因翻譯或扭曲而變化的信號
一維卷積神經(jīng)網(wǎng)絡:時序信號,文本
文本分類
音樂體裁分類
用于語音識別的聲學模型
時間序列預測
二維卷積神經(jīng)網(wǎng)絡:圖像,時間-頻率表征(語音與音頻)
物體檢測,定位,識別
三維卷積神經(jīng)網(wǎng)絡:視頻,立體圖像,層析成像
視頻識別/理解
生物醫(yī)學圖像分析
高光譜圖像分析
人臉檢測(Vaillant et al.93, 94)
應用于大圖像檢測的卷積神經(jīng)網(wǎng)絡
多尺度熱量圖
對候選圖像的非最大抑制
對256X256圖像進行6秒稀疏
人臉檢測的藝術結果狀態(tài)
卷積神經(jīng)網(wǎng)絡在生物圖像切割方面的應用
生物圖像切割(Ning et al. IEEE-TIP 2005)
運用卷積神經(jīng)網(wǎng)絡在大背景下進行像素標記
卷積神經(jīng)網(wǎng)絡擁有一個像素窗口,標記中央像素
運用一個有條件的隨機域進行清除
3D版連接體(Jain et al.2007)
場景解析/標記
場景解析/標記:多尺度卷積神經(jīng)網(wǎng)絡結構
每一個輸出值對應一個大的輸入背景
46X46全像素窗口;92X92 1/2像素窗口;182X182 1/4像素窗口
[7X7卷積運算]->[2X2池化] ->[7X7卷積運算] ->[2X2池化] ->[7X7卷積運算] ->
監(jiān)督式訓練全標記圖像
方法:通過超級像素區(qū)域選出主要部分
輸入圖像——超像素邊界參數(shù)——超像素邊界——通過超像素進行主要部分投票處理——類別與區(qū)域邊界對齊
多尺度卷積網(wǎng)絡——卷積網(wǎng)絡特征(每個像素中d=768)卷積分類——“soft”分類得分
場景分析/標記
無前期處理
逐幀進行
在Vittex-6 FPGA硬件上以50ms一幀運行卷積網(wǎng)絡
但是在以太網(wǎng)上傳輸特征限制了系統(tǒng)的表現(xiàn)
針對遠程自適應機器人視覺的卷積網(wǎng)絡(DARPA LAGR項目2005-2008)
輸入圖像
標記
分類輸出
非常深的卷積網(wǎng)絡架構
小內核,較少二次抽樣(小部分二次抽樣)
VGG
GoogleNet
Resnet
使用卷積網(wǎng)絡進行對象檢測和定位
分類+定位:多重移動窗口
將帶多重滑動窗口的卷積網(wǎng)絡應用到圖像上
重要提示:將卷積網(wǎng)絡應用到一張圖片上非常便宜
只要計算整個圖像的卷積并把全連接層復制
分類+定位:滑動窗口+限定框回歸
將帶多重滑動窗口的卷積網(wǎng)絡應用到圖像上
對每個窗口,預測一個類別和限定框參數(shù)
即便目標不是完全包含在瀏覽窗口中,卷積網(wǎng)絡也能猜測它認為這個目標是什么。
Deep Face
Taigman等 CVPR 2014
隊列
卷積網(wǎng)絡
度量學習
Facebook開發(fā)的自動標記方法
每天8億張圖片
使用卷積網(wǎng)絡進行姿勢預估和屬性恢復
深度屬性模型的姿勢對齊網(wǎng)絡
Zhang等 CVPR 2014 (Facebook AI Research)
人物檢測和姿勢預估
Tompson,Goroshin,Jain,Lecun,Bregler等 arxiv(2014)
監(jiān)督卷積網(wǎng)絡畫圖
使用卷積網(wǎng)絡來畫圖
Dosovitskyi等 arxiv (1411:5928)
監(jiān)督卷積網(wǎng)絡畫圖
生成椅子
特征空間對椅子進行計算
全局(端對端)學習:能量模型
輸入——卷積網(wǎng)絡(或其他深度架構)——能量模塊(潛在變量、輸出)——能量
使得系統(tǒng)中每個模塊都能進行訓練。
所有模塊都是同時訓練的,這樣就能優(yōu)化全局的損失函數(shù)。
包括特征提取器,識別器,以及前后處理程序(圖像模型)。
問題:反向傳播在圖像模型中傾斜
深度卷積網(wǎng)絡(還有其他深度神經(jīng)網(wǎng)絡)
訓練樣本:(Xi,Yi)k=1 到 k
對象函數(shù)(邊緣型損失= ReLU)
題圖來自newscientist.com
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉載!
via Yann Lecun
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。