丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

本文作者: AI研習(xí)社-譯站 2018-06-14 09:56
導(dǎo)語:這里是 MIT 6.S094:自動駕駛汽車課程(2018)的第四課的筆記。

雷鋒網(wǎng)按:雷鋒字幕組獲MIT課程團隊授權(quán)翻譯自動駕駛課程,視頻鏈接:http://www.mooc.ai/course/483/info

我們?yōu)槟阏砹嗣恳粋€ Lecture 的課程筆記,提煉出每一講的要點精華,推薦結(jié)合課程筆記觀看視頻內(nèi)容,學(xué)習(xí)效果更佳。

原標(biāo)題 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 4 Notes: Deep Learning for Human Sensing

作者 |  Sanyam Bhutani             

翻譯 | 姚秀清、程倩、郭蘊哲、王祎、朱茵                           整理 | 凡江


這里是 MIT 6.S094:自動駕駛汽車課程(2018)的第四課的筆記

所有的圖片均來源于自于課程的幻燈片。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

計算機視覺:告訴計算機去理解世界

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了


計算機視覺,到目前為止都是深度學(xué)習(xí)。并且大部分成功理解圖片含義的案例都是使用神經(jīng)網(wǎng)絡(luò)。

  • 監(jiān)督學(xué)習(xí):人類提供已標(biāo)記的數(shù)據(jù)。而神經(jīng)網(wǎng)絡(luò)通過從原始感知數(shù)據(jù)到圖片分類的映射來完成圖片的解析和完整性檢測,這個過程應(yīng)該在測試集上表現(xiàn)良好。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

原始感知數(shù)據(jù):對于機器,圖片是以數(shù)字形式存在。以通道 1 或通道 3 的數(shù)值數(shù)組組成的圖片作為神經(jīng)網(wǎng)絡(luò)的輸入,而輸出則通過回歸或圖片分類來產(chǎn)生不同的類別。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

我們必須謹(jǐn)慎的對待感知層容易和困難的假設(shè)。

人類視覺 Vs 計算機視覺

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  1. 視覺皮層的結(jié)構(gòu)是分層的。當(dāng)信息從眼睛傳遞到大腦時,形成了越來越高階的表示。這是深度神經(jīng)網(wǎng)絡(luò)在圖像背后的表現(xiàn)。越來越高的表示通過分層形成。早期的圖層采用原始像素來尋找邊緣。通過連接這些邊來進一步發(fā)現(xiàn)更多的抽象特征。最后,找到更高階的語義含義。

  2. 深度學(xué)習(xí)對于計算機視覺來說比較難。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 照明變化是駕駛中最大的挑戰(zhàn)。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 姿態(tài)變化:神經(jīng)網(wǎng)絡(luò)并不擅長于描述姿勢。2D 平面中對象的顏色和紋理在旋轉(zhuǎn)時是有很大差異的。

    MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 類間變量:對于分類而言,不同種類之間存在許多不同的變量,且各變量之間的差別較小。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 遮擋:當(dāng)一個物體的局部被其他物體遮擋時,我們需要通過人眼來識別被遮擋的物體。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 哲學(xué)上的歧義:圖像分類不等于理解。

  • 無監(jiān)督學(xué)習(xí)

  • 強化學(xué)習(xí)。


圖像分類管道

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了



任一種類間不同類別的圖像擁有各自的存儲路徑。路徑下存有不同類別的多個范例。任務(wù):存儲一個新的圖像到其對應(yīng)的存儲路徑下。

著名數(shù)據(jù)集:

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • MNIST

  • ImageNet

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • CIFAR-10

最簡潔的數(shù)據(jù)集之一,包含 10 個類別,通常用于卷積神經(jīng)網(wǎng)絡(luò)。

簡單的例子:

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 將兩張圖片上的像素強度矩陣進行相減,并對其每一像素的差值進行加和。若結(jié)果值較高,則兩張圖片的內(nèi)容不同。

若采用這套方法,能得到 35% 的 L2 微分精度和 38% 的 L1 微分精度,比隨機的圖像識別方式高 10% 的精確度。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了


K 近鄰:

我們嘗試找到與 K 類別最為相似的圖像并將其存入 K 類別的存儲路徑下,來代替匹配整個數(shù)據(jù)庫的搜索方式。將 K 值設(shè)置在 1--5 之間,看不同 K 值對整個匹配和存儲過程的影響。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 當(dāng) K 等于 7 時,我們達到了 30% 的準(zhǔn)確率。

人類級別的準(zhǔn)確率是 95% 的準(zhǔn)確率。

使用卷積神經(jīng)網(wǎng)絡(luò),我們達到了 97.75% 的準(zhǔn)確率。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 每個輸入信號經(jīng)過加權(quán)、偏置和強化

  • 然后將處理后的信號輸入進一個非線性激活函數(shù)

  • 將越來越多的層級進行組合,形成一種深層次的神經(jīng)元網(wǎng)絡(luò)。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練方式是預(yù)先做出判斷,通過評估預(yù)先判斷與實際值之間的差距,然后降低其中導(dǎo)致差值因素的權(quán)重,增加其中得出正確結(jié)果因素的權(quán)重。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 10 種情況輸入將會得到 10 種不同的結(jié)果

  • 當(dāng)所代表的類別得到信號時,神經(jīng)元會產(chǎn)生興奮

  • 激活值最高的類別將產(chǎn)生輸出

卷積神經(jīng)網(wǎng)絡(luò)

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了


CNNs 的工作效率很高,如學(xué)習(xí)大量數(shù)據(jù)和大量對象的復(fù)雜任務(wù)。

“調(diào)參空間的不變性”:

圖片中左上角和右下角的物體相同,我們知道圖片中有相同的特征。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

卷積操作 :在這里我們使用了 3 維卷積操作代替全連接層。所以在該卷積操作中,輸入和數(shù)據(jù)均為 3 維向量。

使用滑動窗口對圖片進行滑動,從而對圖像切片。對滑動窗口應(yīng)用用同樣的權(quán)重來生成輸出。我們可以生成很多這樣的濾波器。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

每個濾波器的參數(shù)是共享的(如果某一特征在一個地方有用,則它在所有地方都有用),這使得參數(shù)縮減成為了一個很重要的工作。重復(fù)使用的特征如下:

  • 深度:濾波器的數(shù)量。

  • 步長:使用濾波器時候移過的像素長度。

  • 填充:在圖像邊界進行卷積操作時進行填 0 處理。

一個例子:

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 左邊的列:3 個輸入通道(RGB)。

  • 濾波器 W0:2 通道濾波器,每個濾波器的大小為 3x3。

  • 3x3 大小的濾波器參數(shù)是需要通過學(xué)習(xí)得到的。

  • 通過在圖片上滑動來獲得輸出內(nèi)容。

  • 這些操作的目的是要輸出內(nèi)容。


卷積操作

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 輸入圖像。

  • 使用單獨的卷積濾波器生成卷積圖像。

  • 使用不同的其他濾波器生成邊緣。

  • 從而檢測到任意組合的圖案并且生成輸出數(shù)據(jù)。

  • 應(yīng)該有和濾波器等量的輸出,來表示找到的圖案。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 任務(wù):從分類任務(wù)中學(xué)習(xí)到有用的所需圖案。

  • 卷積濾波器隨著層數(shù)增加,擁有越來越高級的表示。

  • 從邊界圖案開始,最終可以表達圖像中擁有語意的內(nèi)容。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 丈量圖像:池化。使用卷積操作的結(jié)果作為輸入,同伙壓縮信息來減少圖像的分辨率,比如說在 Max-Pooling 中使用最大值作為池化之后的值。

  • 注意:涉及到場景分割時,“空間分辨率的縮減”對結(jié)果具有不好的影響,但是該操作可以更好地在圖像中尋找高代表性的表現(xiàn),從而有助于對圖像分類。

  • 卷積神經(jīng)網(wǎng)絡(luò)由很多這樣的卷積層組成。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 全聯(lián)接層可以讓我們將上述操作應(yīng)用于特定的區(qū)域。

ImageNet 跟蹤研究

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 任務(wù):對規(guī)模最大的圖像數(shù)據(jù)集分類,14M+ 圖像,21K+個類別,并含有子類

  • 提供了檢查類間、類內(nèi)分類效果的好機會。

  • 網(wǎng)絡(luò):

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • AlexNet 2012:里程碑式的進步

  • ZFNet 2013

  • VGGNet 2014

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • GoogLeNet 2014

初始模塊介紹

想法:不同大小的卷積濾波器為網(wǎng)絡(luò)提供了不同的值,進行不同的卷積和連接。

更小的卷積核: 高分辨率的紋理信息。

更大的卷積核:更加抽象的特征信息。

結(jié)果:參數(shù)更少,表現(xiàn)更好。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • ResNet 2015

設(shè)計靈感:通過增加網(wǎng)絡(luò)深度,提升模型的表現(xiàn)性。

“殘差塊”可以使設(shè)計者訓(xùn)練深度更深的網(wǎng)絡(luò)。

殘差塊:

- 重現(xiàn)一個簡單的網(wǎng)絡(luò)塊,類似 RNNs。

- 在轉(zhuǎn)化之前傳遞輸入數(shù)據(jù),并具有學(xué)習(xí)權(quán)重的能力。

- 每一層使用前一層的輸入,原始數(shù)據(jù)和未轉(zhuǎn)換的數(shù)據(jù)學(xué)習(xí)新的參數(shù)。

  • CUImage 2016

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • SENet 2017

擠激網(wǎng)絡(luò):

- 通過在卷積單元的每個信道上添加一個參數(shù)的方式,網(wǎng)絡(luò)會基于其被傳入的特征自主地對信道上的權(quán)重進行調(diào)整。

- 目的:讓網(wǎng)絡(luò)學(xué)習(xí)每個獨立信道上的權(quán)重。

- 注意:由于它會依據(jù)內(nèi)容來選擇使用的過濾器,因此這種方法適用于任何架構(gòu)。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • ILSVRC 分類挑戰(zhàn)賽評估

前 5 大猜想。

人類的錯誤率是 5.1%

于 2015 年被打破。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 膠囊網(wǎng)絡(luò):

- 設(shè)計靈感:考慮一下什么樣的假設(shè)會被網(wǎng)絡(luò)所所制造出來,什么樣的信息會被丟掉。

- 由于卷積神經(jīng)網(wǎng)絡(luò)的空間限制,它會丟棄掉復(fù)雜物體和簡單物體之間的層級。

- 未來的挑戰(zhàn):如何設(shè)計出旋轉(zhuǎn)工作的神經(jīng)網(wǎng)絡(luò)。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 改變神經(jīng)網(wǎng)絡(luò)的最后一層來實現(xiàn)這些網(wǎng)絡(luò)。

物體識別

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

注意:卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了一個基于卷積的像素級激活熱力圖。

場景理解

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 目標(biāo):為現(xiàn)實世界的場景,將二維投射的每個像素進行分類。

  • 挑戰(zhàn):在像素級別上進行邊界標(biāo)記。

  • 使用案例:

- 物品邊界的精確提取對醫(yī)學(xué)上和駕駛上都意義重大。

- 在駕駛方面,將這些信息與傳感器中的信息進行整合,之后將語義知識與現(xiàn)實世界的三維坐標(biāo)進行整合,以此來對周圍環(huán)境的邊界進行準(zhǔn)確的標(biāo)記。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • FCN 2014:

- 對預(yù)訓(xùn)練好的網(wǎng)絡(luò) ImageNet,改變其目標(biāo)。

- 使用解碼器代替全連接層,通過圖片升采樣的方式來構(gòu)造熱力圖。

- 為了將升采樣的粒度細化提升,會跳過一些連接。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • SegNet 2015:

- 已被應(yīng)用到駕駛環(huán)境中。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 空洞卷積 2015:

- 使用卷積操作代替池化操作大大降低了分辨率。

- 當(dāng)必須得持續(xù)捕捉空間窗口時,Gridding 維護了局部高解析度的紋理。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • DeepLab v1,v2 2016:

    - 疊加條件隨機場 (CRFs): 將通過觀察底層圖像強度來平滑分割進行后置處理。

切分的關(guān)鍵

  • 全量卷積網(wǎng)絡(luò)

  • 條件隨機森林

  • 空洞卷積

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

ResNet-DUC 2017:

  • 在學(xué)習(xí)放大特征上,采用密集上采樣卷積來代替雙線性插值。

  • 復(fù)合空洞卷積:

從輸入到輸出的過程中,卷積被依次展開。

  • 竅門:放大特征的參數(shù)

神經(jīng)光流網(wǎng)絡(luò)

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

在此討論的方法均忽略與機器人相關(guān)的時序動態(tài)。

  • 流能夠幫助輸入圖片中的像素

  • 光流會生成像素移動的方向和移動量級,由此我們可以拿到第一楨檢測到的信息并且將其向前傳播。

  • 對于“彩色書籍標(biāo)注”任務(wù)來說,神經(jīng)光流網(wǎng)絡(luò)的處理非常慢(1 張圖片需要 90 分鐘)。

  • FlowNetS-將兩張圖片融合,將結(jié)果作為輸入。

  • FlowNetC-分別卷積,與連接層進行結(jié)合

  • 挑戰(zhàn):穿過時間的圖片分割。

FlowNet 2 2016:

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

結(jié)合了 FlowNetC 與 FlowNetS 的特性

  • 生成更平滑的流場。

  • 保留了更多動作細節(jié)。

  • 運行速度為 8–140 楨每秒。

  • 步驟:

- 將網(wǎng)絡(luò)模型融合為一個方法。

- 對數(shù)據(jù)集事件進行排序

分段融合

數(shù)據(jù)集:

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 1080p 的原始駕駛視頻呈現(xiàn)在 8K 360 度的視頻中。

    MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 每一幀的地面實況訓(xùn)練集

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • SOTA 分段輸出

  • 光流

任務(wù):

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

  • 使用最初的地面實況視頻分段,該分段來自 SOTA 網(wǎng)絡(luò)并且改善該分段。

  • 使用該網(wǎng)絡(luò)的輸出幫助更好地傳輸信息,我們能找到使用臨時信息的方法么?


博客原址 https://hackernoon.com/mit-6-s094-deep-learning-for-self-driving-cars-2018-lecture-4-notes-computer-vision-f591f14b3b99

添加雷鋒字幕組微信號(leiphonefansub)為好友

備注「我要加入」,To be an  AI  Volunteer ! 雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))雷鋒網(wǎng)

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

MIT 6.S094· 計算機視覺 | 學(xué)霸的課程筆記,我們都替你整理好了

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說