MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

本文作者： AI研習(xí)社-譯站

2018-06-14 09:56

導(dǎo)語(yǔ)：這里是 MIT 6.S094：自動(dòng)駕駛汽車(chē)課程（2018）的第四課的筆記。

雷鋒網(wǎng)按：雷鋒字幕組獲MIT課程團(tuán)隊(duì)授權(quán)翻譯自動(dòng)駕駛課程，視頻鏈接：http://www.mooc.ai/course/483/info

我們?yōu)槟阏砹嗣恳粋€(gè) Lecture 的課程筆記，提煉出每一講的要點(diǎn)精華，推薦結(jié)合課程筆記觀(guān)看視頻內(nèi)容，學(xué)習(xí)效果更佳。

原標(biāo)題 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 4 Notes: Deep Learning for Human Sensing

作者 | Sanyam Bhutani

翻譯 | 姚秀清、程倩、郭蘊(yùn)哲、王祎、朱茵整理 | 凡江

這里是 MIT 6.S094：自動(dòng)駕駛汽車(chē)課程（2018）的第四課的筆記

所有的圖片均來(lái)源于自于課程的幻燈片。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

計(jì)算機(jī)視覺(jué)：告訴計(jì)算機(jī)去理解世界

計(jì)算機(jī)視覺(jué)，到目前為止都是深度學(xué)習(xí)。并且大部分成功理解圖片含義的案例都是使用神經(jīng)網(wǎng)絡(luò)。

監(jiān)督學(xué)習(xí)：人類(lèi)提供已標(biāo)記的數(shù)據(jù)。而神經(jīng)網(wǎng)絡(luò)通過(guò)從原始感知數(shù)據(jù)到圖片分類(lèi)的映射來(lái)完成圖片的解析和完整性檢測(cè)，這個(gè)過(guò)程應(yīng)該在測(cè)試集上表現(xiàn)良好。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

原始感知數(shù)據(jù)：對(duì)于機(jī)器，圖片是以數(shù)字形式存在。以通道 1 或通道 3 的數(shù)值數(shù)組組成的圖片作為神經(jīng)網(wǎng)絡(luò)的輸入，而輸出則通過(guò)回歸或圖片分類(lèi)來(lái)產(chǎn)生不同的類(lèi)別。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

我們必須謹(jǐn)慎的對(duì)待感知層容易和困難的假設(shè)。

人類(lèi)視覺(jué) Vs 計(jì)算機(jī)視覺(jué)

視覺(jué)皮層的結(jié)構(gòu)是分層的。當(dāng)信息從眼睛傳遞到大腦時(shí)，形成了越來(lái)越高階的表示。這是深度神經(jīng)網(wǎng)絡(luò)在圖像背后的表現(xiàn)。越來(lái)越高的表示通過(guò)分層形成。早期的圖層采用原始像素來(lái)尋找邊緣。通過(guò)連接這些邊來(lái)進(jìn)一步發(fā)現(xiàn)更多的抽象特征。最后，找到更高階的語(yǔ)義含義。
深度學(xué)習(xí)對(duì)于計(jì)算機(jī)視覺(jué)來(lái)說(shuō)比較難。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

照明變化是駕駛中最大的挑戰(zhàn)。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

姿態(tài)變化：神經(jīng)網(wǎng)絡(luò)并不擅長(zhǎng)于描述姿勢(shì)。2D 平面中對(duì)象的顏色和紋理在旋轉(zhuǎn)時(shí)是有很大差異的。
類(lèi)間變量：對(duì)于分類(lèi)而言，不同種類(lèi)之間存在許多不同的變量，且各變量之間的差別較小。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

遮擋：當(dāng)一個(gè)物體的局部被其他物體遮擋時(shí)，我們需要通過(guò)人眼來(lái)識(shí)別被遮擋的物體。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

哲學(xué)上的歧義：圖像分類(lèi)不等于理解。
無(wú)監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)。

圖像分類(lèi)管道

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

任一種類(lèi)間不同類(lèi)別的圖像擁有各自的存儲(chǔ)路徑。路徑下存有不同類(lèi)別的多個(gè)范例。任務(wù)：存儲(chǔ)一個(gè)新的圖像到其對(duì)應(yīng)的存儲(chǔ)路徑下。

著名數(shù)據(jù)集：

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

MNIST
ImageNet

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

CIFAR-10

最簡(jiǎn)潔的數(shù)據(jù)集之一，包含 10 個(gè)類(lèi)別，通常用于卷積神經(jīng)網(wǎng)絡(luò)。

簡(jiǎn)單的例子：

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

將兩張圖片上的像素強(qiáng)度矩陣進(jìn)行相減，并對(duì)其每一像素的差值進(jìn)行加和。若結(jié)果值較高，則兩張圖片的內(nèi)容不同。

若采用這套方法，能得到 35% 的 L2 微分精度和 38% 的 L1 微分精度，比隨機(jī)的圖像識(shí)別方式高 10% 的精確度。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

K 近鄰：

我們嘗試找到與 K 類(lèi)別最為相似的圖像并將其存入 K 類(lèi)別的存儲(chǔ)路徑下，來(lái)代替匹配整個(gè)數(shù)據(jù)庫(kù)的搜索方式。將 K 值設(shè)置在 1--5 之間，看不同 K 值對(duì)整個(gè)匹配和存儲(chǔ)過(guò)程的影響。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

當(dāng) K 等于 7 時(shí)，我們達(dá)到了 30% 的準(zhǔn)確率。

人類(lèi)級(jí)別的準(zhǔn)確率是 95% 的準(zhǔn)確率。

使用卷積神經(jīng)網(wǎng)絡(luò)，我們達(dá)到了 97.75% 的準(zhǔn)確率。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

每個(gè)輸入信號(hào)經(jīng)過(guò)加權(quán)、偏置和強(qiáng)化
然后將處理后的信號(hào)輸入進(jìn)一個(gè)非線(xiàn)性激活函數(shù)
將越來(lái)越多的層級(jí)進(jìn)行組合，形成一種深層次的神經(jīng)元網(wǎng)絡(luò)。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練方式是預(yù)先做出判斷，通過(guò)評(píng)估預(yù)先判斷與實(shí)際值之間的差距，然后降低其中導(dǎo)致差值因素的權(quán)重，增加其中得出正確結(jié)果因素的權(quán)重。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

10 種情況輸入將會(huì)得到 10 種不同的結(jié)果
當(dāng)所代表的類(lèi)別得到信號(hào)時(shí)，神經(jīng)元會(huì)產(chǎn)生興奮
激活值最高的類(lèi)別將產(chǎn)生輸出

卷積神經(jīng)網(wǎng)絡(luò)

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

CNNs 的工作效率很高，如學(xué)習(xí)大量數(shù)據(jù)和大量對(duì)象的復(fù)雜任務(wù)。

“調(diào)參空間的不變性”：

圖片中左上角和右下角的物體相同，我們知道圖片中有相同的特征。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

卷積操作：在這里我們使用了 3 維卷積操作代替全連接層。所以在該卷積操作中，輸入和數(shù)據(jù)均為 3 維向量。

使用滑動(dòng)窗口對(duì)圖片進(jìn)行滑動(dòng)，從而對(duì)圖像切片。對(duì)滑動(dòng)窗口應(yīng)用用同樣的權(quán)重來(lái)生成輸出。我們可以生成很多這樣的濾波器。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

每個(gè)濾波器的參數(shù)是共享的（如果某一特征在一個(gè)地方有用，則它在所有地方都有用），這使得參數(shù)縮減成為了一個(gè)很重要的工作。重復(fù)使用的特征如下：

深度：濾波器的數(shù)量。
步長(zhǎng)：使用濾波器時(shí)候移過(guò)的像素長(zhǎng)度。
填充：在圖像邊界進(jìn)行卷積操作時(shí)進(jìn)行填 0 處理。

一個(gè)例子：

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

左邊的列：3 個(gè)輸入通道（RGB）。
濾波器 W0：2 通道濾波器，每個(gè)濾波器的大小為 3x3。
3x3 大小的濾波器參數(shù)是需要通過(guò)學(xué)習(xí)得到的。
通過(guò)在圖片上滑動(dòng)來(lái)獲得輸出內(nèi)容。
這些操作的目的是要輸出內(nèi)容。

卷積操作

輸入圖像。
使用單獨(dú)的卷積濾波器生成卷積圖像。
使用不同的其他濾波器生成邊緣。
從而檢測(cè)到任意組合的圖案并且生成輸出數(shù)據(jù)。
應(yīng)該有和濾波器等量的輸出，來(lái)表示找到的圖案。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

任務(wù)：從分類(lèi)任務(wù)中學(xué)習(xí)到有用的所需圖案。
卷積濾波器隨著層數(shù)增加，擁有越來(lái)越高級(jí)的表示。
從邊界圖案開(kāi)始，最終可以表達(dá)圖像中擁有語(yǔ)意的內(nèi)容。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

丈量圖像：池化。使用卷積操作的結(jié)果作為輸入，同伙壓縮信息來(lái)減少圖像的分辨率，比如說(shuō)在 Max-Pooling 中使用最大值作為池化之后的值。
注意：涉及到場(chǎng)景分割時(shí)，“空間分辨率的縮減”對(duì)結(jié)果具有不好的影響，但是該操作可以更好地在圖像中尋找高代表性的表現(xiàn)，從而有助于對(duì)圖像分類(lèi)。
卷積神經(jīng)網(wǎng)絡(luò)由很多這樣的卷積層組成。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

全聯(lián)接層可以讓我們將上述操作應(yīng)用于特定的區(qū)域。

ImageNet 跟蹤研究

任務(wù)：對(duì)規(guī)模最大的圖像數(shù)據(jù)集分類(lèi)，14M+ 圖像，21K+個(gè)類(lèi)別，并含有子類(lèi)
提供了檢查類(lèi)間、類(lèi)內(nèi)分類(lèi)效果的好機(jī)會(huì)。
網(wǎng)絡(luò)：

AlexNet 2012：里程碑式的進(jìn)步
ZFNet 2013
VGGNet 2014

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

GoogLeNet 2014

初始模塊介紹

想法：不同大小的卷積濾波器為網(wǎng)絡(luò)提供了不同的值，進(jìn)行不同的卷積和連接。

更小的卷積核：高分辨率的紋理信息。

更大的卷積核：更加抽象的特征信息。

結(jié)果：參數(shù)更少，表現(xiàn)更好。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

ResNet 2015

設(shè)計(jì)靈感：通過(guò)增加網(wǎng)絡(luò)深度，提升模型的表現(xiàn)性。

“殘差塊”可以使設(shè)計(jì)者訓(xùn)練深度更深的網(wǎng)絡(luò)。

殘差塊：

- 重現(xiàn)一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)塊，類(lèi)似 RNNs。

- 在轉(zhuǎn)化之前傳遞輸入數(shù)據(jù)，并具有學(xué)習(xí)權(quán)重的能力。

- 每一層使用前一層的輸入，原始數(shù)據(jù)和未轉(zhuǎn)換的數(shù)據(jù)學(xué)習(xí)新的參數(shù)。

CUImage 2016

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

SENet 2017

擠激網(wǎng)絡(luò)：

- 通過(guò)在卷積單元的每個(gè)信道上添加一個(gè)參數(shù)的方式，網(wǎng)絡(luò)會(huì)基于其被傳入的特征自主地對(duì)信道上的權(quán)重進(jìn)行調(diào)整。

- 目的：讓網(wǎng)絡(luò)學(xué)習(xí)每個(gè)獨(dú)立信道上的權(quán)重。

- 注意：由于它會(huì)依據(jù)內(nèi)容來(lái)選擇使用的過(guò)濾器，因此這種方法適用于任何架構(gòu)。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

ILSVRC 分類(lèi)挑戰(zhàn)賽評(píng)估

前 5 大猜想。

人類(lèi)的錯(cuò)誤率是 5.1%

于 2015 年被打破。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

膠囊網(wǎng)絡(luò)：

- 設(shè)計(jì)靈感：考慮一下什么樣的假設(shè)會(huì)被網(wǎng)絡(luò)所所制造出來(lái)，什么樣的信息會(huì)被丟掉。

- 由于卷積神經(jīng)網(wǎng)絡(luò)的空間限制，它會(huì)丟棄掉復(fù)雜物體和簡(jiǎn)單物體之間的層級(jí)。

- 未來(lái)的挑戰(zhàn)：如何設(shè)計(jì)出旋轉(zhuǎn)工作的神經(jīng)網(wǎng)絡(luò)。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

改變神經(jīng)網(wǎng)絡(luò)的最后一層來(lái)實(shí)現(xiàn)這些網(wǎng)絡(luò)。

物體識(shí)別

注意：卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了一個(gè)基于卷積的像素級(jí)激活熱力圖。

場(chǎng)景理解

目標(biāo)：為現(xiàn)實(shí)世界的場(chǎng)景，將二維投射的每個(gè)像素進(jìn)行分類(lèi)。
挑戰(zhàn)：在像素級(jí)別上進(jìn)行邊界標(biāo)記。
使用案例：

- 物品邊界的精確提取對(duì)醫(yī)學(xué)上和駕駛上都意義重大。

- 在駕駛方面，將這些信息與傳感器中的信息進(jìn)行整合，之后將語(yǔ)義知識(shí)與現(xiàn)實(shí)世界的三維坐標(biāo)進(jìn)行整合，以此來(lái)對(duì)周?chē)h(huán)境的邊界進(jìn)行準(zhǔn)確的標(biāo)記。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

FCN 2014:

- 對(duì)預(yù)訓(xùn)練好的網(wǎng)絡(luò) ImageNet，改變其目標(biāo)。

- 使用解碼器代替全連接層，通過(guò)圖片升采樣的方式來(lái)構(gòu)造熱力圖。

- 為了將升采樣的粒度細(xì)化提升，會(huì)跳過(guò)一些連接。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

SegNet 2015:

- 已被應(yīng)用到駕駛環(huán)境中。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

空洞卷積 2015:

- 使用卷積操作代替池化操作大大降低了分辨率。

- 當(dāng)必須得持續(xù)捕捉空間窗口時(shí)，Gridding 維護(hù)了局部高解析度的紋理。

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

DeepLab v1,v2 2016:
- 疊加條件隨機(jī)場(chǎng) (CRFs): 將通過(guò)觀(guān)察底層圖像強(qiáng)度來(lái)平滑分割進(jìn)行后置處理。

切分的關(guān)鍵

全量卷積網(wǎng)絡(luò)
條件隨機(jī)森林
空洞卷積

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了

ResNet-DUC 2017:

在學(xué)習(xí)放大特征上，采用密集上采樣卷積來(lái)代替雙線(xiàn)性插值。
復(fù)合空洞卷積：

從輸入到輸出的過(guò)程中，卷積被依次展開(kāi)。

竅門(mén)：放大特征的參數(shù)

神經(jīng)光流網(wǎng)絡(luò)

在此討論的方法均忽略與機(jī)器人相關(guān)的時(shí)序動(dòng)態(tài)。

流能夠幫助輸入圖片中的像素
光流會(huì)生成像素移動(dòng)的方向和移動(dòng)量級(jí)，由此我們可以拿到第一楨檢測(cè)到的信息并且將其向前傳播。
對(duì)于“彩色書(shū)籍標(biāo)注”任務(wù)來(lái)說(shuō)，神經(jīng)光流網(wǎng)絡(luò)的處理非常慢（1 張圖片需要 90 分鐘）。
FlowNetS-將兩張圖片融合，將結(jié)果作為輸入。
FlowNetC-分別卷積，與連接層進(jìn)行結(jié)合
挑戰(zhàn)：穿過(guò)時(shí)間的圖片分割。

FlowNet 2 2016：

MIT 6.S094· 計(jì)算機(jī)視覺(jué) | 學(xué)霸的課程筆記，我們都替你整理好了