MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

本文作者： AI研習(xí)社-譯站

2018-06-19 10:36

導(dǎo)語：為你奉上 MIT 6. S094 自動(dòng)駕駛 2018 課程的第五講的筆記。

雷鋒網(wǎng)按：雷鋒字幕組獲MIT課程團(tuán)隊(duì)授權(quán)翻譯自動(dòng)駕駛課程，視頻鏈接：http://www.mooc.ai/course/483/info

我們?yōu)槟阏砹嗣恳粋€(gè) Lecture 的課程筆記，提煉出每一講的要點(diǎn)精華，推薦結(jié)合課程筆記觀看視頻內(nèi)容，學(xué)習(xí)效果更佳。

原標(biāo)題 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 5 Notes: Deep Learning for Human Sensing

作者 | Sanyam Bhutani

翻譯 | 陳濤、朱偉杰、Binpluto,、佟金廣整理 | 凡江

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

所有的圖片皆來自課程中的幻燈片。

這次的課程將利用深度學(xué)習(xí)的方法來理解人類的感官功能。

其中研究的重點(diǎn)在于計(jì)算機(jī)視覺技術(shù)。

我們將了解到：如何使用計(jì)算機(jī)視覺技術(shù)，從拍攝于汽車場景下的視頻中提取有用的信息。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

深度學(xué)習(xí)實(shí)現(xiàn)人類感知：

使用計(jì)算機(jī)視覺和深度學(xué)習(xí)的技術(shù)，創(chuàng)造可以在真實(shí)世界中發(fā)揮作用的系統(tǒng)。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

達(dá)到此目的的要求是（按重要性排序）：

數(shù)據(jù)：

我們需要大量的真實(shí)數(shù)據(jù)，其中數(shù)據(jù)收集是最困難且最重要的環(huán)節(jié)。

半監(jiān)督：

原始數(shù)據(jù)需要被歸納成有意義的、具有代表性的例子，這意味著原始數(shù)據(jù)需要被標(biāo)注。

我們需要收集數(shù)據(jù)并采用半監(jiān)督學(xué)習(xí)的技術(shù)，去找到其中可以被用來訓(xùn)練我們網(wǎng)絡(luò)的數(shù)據(jù)。

有效標(biāo)注：

良好的標(biāo)注可以使模型表現(xiàn)出色。

對不同的場景，標(biāo)注技術(shù)是完全不同的，比如：視線分類的標(biāo)注、身體姿態(tài)估計(jì)的標(biāo)注、SegFuse 比賽中圖片像素級的標(biāo)注。

硬件：

大批的數(shù)據(jù)需要得到大規(guī)模的分布式計(jì)算和存儲。

算法：

我們希望算法能夠自校準(zhǔn)，從而得到泛化的效果。

時(shí)間動(dòng)態(tài)：

目前深度學(xué)習(xí)中的算法都是基于單獨(dú)的圖像開發(fā)出來的，我們需要讓算法能夠處理一連串圖像所組成的時(shí)間序列。

上述要求的重點(diǎn)是：數(shù)據(jù)收集及清理比算法本身更重要。

人類的缺點(diǎn)

分心駕駛：

2014 年，分心駕駛所引發(fā)的車禍導(dǎo)致 3179 人喪生，超過 431 萬人受傷。

眼睛偏離路況：

當(dāng)你邊開車邊發(fā)消息時(shí)，平均每 5 秒鐘，你的眼睛就會偏離路況。

酒駕：

在 2014 年中，30％的交通死亡事件由酒駕造成。

毒駕：

在 2014 年中，23％的夜間駕駛者都屬于毒駕。

疲勞駕駛：

疲勞駕駛引發(fā)了 3％的交通死亡事件。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

考慮到這些缺點(diǎn)，以及我們在前面課程中討論過的未來實(shí)現(xiàn)自動(dòng)化駕駛的兩條路徑（以人為中心的自動(dòng)化和完全的自動(dòng)化）：

我們需要思考以人為中心的自動(dòng)化駕駛的設(shè)想是否可行？

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

人們可能會傾向于過度信賴系統(tǒng)本身。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

MIT－AVT 自然駕駛數(shù)據(jù)集

數(shù)據(jù)收集：

“2＋1”的攝像機(jī)配置。
攝像機(jī) 1：通過采集駕駛者臉部的高清視頻，以實(shí)現(xiàn)視線識別和認(rèn)知負(fù)荷評價(jià)。
攝像機(jī) 2（魚眼攝像機(jī)）：負(fù)責(zé)身體姿態(tài)估計(jì)（是否手握方向盤以及活動(dòng)識別）。
攝像機(jī) 3：記錄車外場景，從而實(shí)現(xiàn)全景分割。

收集到的數(shù)據(jù)使得我們可以了解到如下信息：

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

駕駛者的行為。
部署自動(dòng)化技術(shù)的效果。
如何設(shè)計(jì)算法，以幫助訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)更好地完成感知任務(wù)。

安全性 Vs 針對自動(dòng)駕駛的偏好

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

數(shù)據(jù)集顯示無論自動(dòng)導(dǎo)航儀是否開啟，駕駛者身體參與程度其實(shí)是一樣的。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

所以，自動(dòng)導(dǎo)航儀是允許被應(yīng)用到實(shí)際中的，但是這樣的系統(tǒng)并不會被駕駛員過度信任。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

行人識別

面對的挑戰(zhàn)：

不同的表現(xiàn)方式：類別內(nèi)差異。
不同的清晰度。
造成視線遮擋的配飾。
行人間的互相遮蔽。

解決方案：

需求是從原始的像素圖片中提取特征。

平滑移動(dòng)圖片：

Haar 級聯(lián)
方向梯度直方圖
卷積神經(jīng)網(wǎng)絡(luò)

更加智能化的網(wǎng)絡(luò)：

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
薄膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
Voxel 網(wǎng)絡(luò)

這些網(wǎng)絡(luò)生成的模型會被考慮用于整個(gè)方案的一個(gè)部分，而不是通過移動(dòng)窗口的方式。

用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)分類器去探測是否有興趣對象出現(xiàn)。
用非最大化控制器來剔除重疊的矩形區(qū)域。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

數(shù)據(jù)（從不同的交叉領(lǐng)域中得到的）：

每天記錄 10 個(gè)小時(shí)的數(shù)據(jù)量。
大約有 12000 個(gè)行人通過。
2100 萬具有特征向量的采樣數(shù)量。
區(qū)域卷積神經(jīng)網(wǎng)絡(luò)會對所有行人進(jìn)行矩形區(qū)域的探測。

肢體姿勢估計(jì)

內(nèi)容包括：

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

找到圖片中的關(guān)聯(lián)處。
找到圖片中的重要節(jié)點(diǎn)。

為什么它很重要？

它會被用于判定司機(jī)的坐姿方式。
注釋：一般情況下，安全氣囊是在駕駛員面對正前方的假設(shè)下進(jìn)行安裝的。
然而隨著駕駛自動(dòng)化的進(jìn)步，這個(gè)假設(shè)可能并不成立。

序列化探測法

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

先探測手，接下去是腳，然后是肩膀等等。
這是一種傳統(tǒng)的方法。

整體姿勢洞悉：

這是一種很強(qiáng)大并且成功的用于識別多人，多姿勢的方法。
采取回歸的手段分別探測完整圖像中各個(gè)身體部位，而不是序列化的探測。
之后，把探測到的連接處黏連到一起。
能被用于探測各異的姿勢，即使連接處并不可見。

級聯(lián)姿態(tài)回歸器：

卷積神經(jīng)網(wǎng)絡(luò)端輸入原始圖片后，會在每個(gè)連接點(diǎn)處產(chǎn)生一個(gè) x－y 坐標(biāo)的估計(jì)值。
在每個(gè)估計(jì)值處圖像會進(jìn)行放大，并且不斷在更高的識別精度下產(chǎn)生新的估計(jì)值。

身體部位探測法：

我們可以用這種方法來識別多人圖中的具體身體部位。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

首先，人的身體部位的探測可以不經(jīng)過個(gè)體識別而達(dá)到。
然后我們可以把這些部位連接起來。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

通過二合匹配，再把不同的人黏連在一起。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

這種方法被麻省理工學(xué)院用于識別人體上半身部分。
駕駛員的位置對比標(biāo)準(zhǔn)的正面位置。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

頸部位置隨時(shí)間變化的圖表。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

對行人的身體姿勢進(jìn)行預(yù)測。
這就允許當(dāng)一位行人穿過馬路并且看著這輛車時(shí)，算法進(jìn)行非言語交際的動(dòng)態(tài)性探測。
一個(gè)有趣的發(fā)現(xiàn)是：大多數(shù)人在橫穿馬路前，會對駛向自己的汽車視而不見。

瀏覽分類算法：

判斷司機(jī)正在看哪兒
注：不同于凝視識別，這個(gè)算法用于確定（x，y，z）坐標(biāo)。

（產(chǎn)生）兩個(gè)結(jié)果：（視線）在路上／不在路上。

或六個(gè)結(jié)果：

在路上
不在路上
（看）左邊
（看）右邊
（看）儀表盤
（看）后視鏡

這個(gè)分類算法可以視為機(jī)器學(xué)習(xí)問題。
同樣能沿用到行人識別方面，比如他們正在／不在看行駛過來的汽車。
注：參考數(shù)據(jù)由人工注釋提供。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

面部定位：

設(shè)計(jì)一個(gè)能識別個(gè)體人臉并估計(jì)頭部姿勢的算法。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

凝視分類算法工作流程：

源錄像
標(biāo)定：
基于傳感器的位置，需要給它定位。
穩(wěn)定錄像
面部識別
面部校準(zhǔn)
人眼／瞳孔識別
估計(jì)頭部（和眼睛）的姿勢
分類
最終剪輯

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

注釋工具

半自動(dòng)注釋：網(wǎng)絡(luò)不確定的數(shù)據(jù)由人為注釋。

基本的比較評定：

我們可以接受的精確度是多少？

為了提高精確度，常常人為迭代和注釋數(shù)據(jù)。

輔助的積極方面：

能夠處理更多的訓(xùn)練數(shù)據(jù)。

某些級別的人工注釋修復(fù)了一些問題。

駕駛員狀態(tài)識別：

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

駕駛員的情緒識別。

多種方式分類情緒。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

識別情緒的匯總。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

比如：表達(dá)情感的數(shù)據(jù)開發(fā)包。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

這套算法將我們的表現(xiàn)映射成情緒。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

特定的情緒識別應(yīng)用：

例如：使用基于語音的 GPS（全球定位系統(tǒng)）交互－自注釋。
通用的情緒識別器做不到如下判斷，在駕駛過程中笑意味著沮喪。
因此，注釋是十分重要的。這些數(shù)據(jù)必須被標(biāo)記于反映對應(yīng)的情境。

認(rèn)知負(fù)荷：

對應(yīng)在一個(gè)人身上就是精神層面的繁忙。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

眼睛的放大和收縮由認(rèn)知負(fù)荷決定，其移動(dòng)也可以反映為深度思考。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

認(rèn)知負(fù)荷能通過眨眼動(dòng)態(tài)，眼球移動(dòng)和瞳孔擴(kuò)張來檢測。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

然而，現(xiàn)實(shí)中的光源使得瞳孔擴(kuò)張被忽略。
而眨眼動(dòng)態(tài)，眼球移動(dòng)被加以使用。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

3D 卷積神經(jīng)網(wǎng)絡(luò)

當(dāng)輸入一些列圖片時(shí)，我們使用三維卷積的方法。
對多個(gè)圖像／通道進(jìn)行交叉卷積
這使得學(xué)習(xí)的過程在時(shí)間跨度上具有一定的動(dòng)態(tài)范圍。

真實(shí)情景數(shù)據(jù)：

利用 N 個(gè)背景任務(wù)來估計(jì)認(rèn)知負(fù)荷。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

我們檢測人臉，提取眼部信息并且將他們輸入到卷積神經(jīng)網(wǎng)絡(luò)中。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

對人眼的移動(dòng)及對應(yīng)的認(rèn)知負(fù)荷作圖。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

標(biāo)準(zhǔn)的 3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

真實(shí)情景數(shù)據(jù)的實(shí)驗(yàn)結(jié)果準(zhǔn)確度。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

雖然我們一直以來在研究利用機(jī)器進(jìn)行感知，比如利用傳感器實(shí)現(xiàn)定位及路徑規(guī)劃等功能，我們距離實(shí)現(xiàn)真正的機(jī)器感知，還有至少 20 年的路要走。

所以，在現(xiàn)階段必須將人包含在機(jī)器感知的過程中。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

也就是說，需要通過改善人機(jī)接口從而使得機(jī)器人「能夠理解」人類的行為。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

通往大規(guī)模自動(dòng)駕駛之路（不再有方向盤）。
以人為中心的自動(dòng)駕駛：

SDC 是一個(gè)個(gè)人機(jī)器人而不是一套具有感知功能的控制系統(tǒng)。
傳送控制系統(tǒng)中包括一個(gè)人機(jī)接口。
SDC 機(jī)器人將會對自動(dòng)駕駛汽車產(chǎn)生深遠(yuǎn)的影響。

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

預(yù)告：MIT 的 SDC 機(jī)器人將會在 2018 年 3 月的首次公開亮相，并在公共街道上進(jìn)行測試。
下節(jié)內(nèi)容提要：

DeepTraffic 深度強(qiáng)化學(xué)習(xí)競賽
DeepCrash
SegFuse 視頻分割競賽

博客原址： https://hackernoon.com/mit-6-s094-deep-learning-for-self-driving-cars-2018-lecture-5-notes-deep-learning-for-human-5cb0f53e4f15

更多文章，關(guān)注雷鋒網(wǎng)，添加雷鋒字幕組微信號（leiphonefansub）為好友

備注「我要加入」，To be an AI Volunteer ！

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

11人收藏

相關(guān)文章

AI研習(xí)社-譯站

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學(xué)習(xí)知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了

MIT 6.S094· 感知人類的深度學(xué)習(xí) | 學(xué)霸的課程筆記，我們都替你整理好了