0
本文作者: AI研習(xí)社-譯站 | 2018-06-19 10:36 |
雷鋒網(wǎng)按:雷鋒字幕組獲MIT課程團(tuán)隊(duì)授權(quán)翻譯自動(dòng)駕駛課程,視頻鏈接:http://www.mooc.ai/course/483/info
我們?yōu)槟阏砹嗣恳粋€(gè) Lecture 的課程筆記,提煉出每一講的要點(diǎn)精華,推薦結(jié)合課程筆記觀看視頻內(nèi)容,學(xué)習(xí)效果更佳。
原標(biāo)題 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 5 Notes: Deep Learning for Human Sensing
作者 | Sanyam Bhutani
翻譯 | 陳濤、朱偉杰、Binpluto,、佟金廣 整理 | 凡江
所有的圖片皆來自課程中的幻燈片。
這次的課程將利用深度學(xué)習(xí)的方法來理解人類的感官功能。
其中研究的重點(diǎn)在于計(jì)算機(jī)視覺技術(shù)。
我們將了解到:如何使用計(jì)算機(jī)視覺技術(shù),從拍攝于汽車場景下的視頻中提取有用的信息。
深度學(xué)習(xí)實(shí)現(xiàn)人類感知:
使用計(jì)算機(jī)視覺和深度學(xué)習(xí)的技術(shù),創(chuàng)造可以在真實(shí)世界中發(fā)揮作用的系統(tǒng)。
達(dá)到此目的的要求是(按重要性排序):
數(shù)據(jù):
我們需要大量的真實(shí)數(shù)據(jù),其中數(shù)據(jù)收集是最困難且最重要的環(huán)節(jié)。
半監(jiān)督:
原始數(shù)據(jù)需要被歸納成有意義的、具有代表性的例子,這意味著原始數(shù)據(jù)需要被標(biāo)注。
我們需要收集數(shù)據(jù)并采用半監(jiān)督學(xué)習(xí)的技術(shù),去找到其中可以被用來訓(xùn)練我們網(wǎng)絡(luò)的數(shù)據(jù)。
有效標(biāo)注:
良好的標(biāo)注可以使模型表現(xiàn)出色。
對不同的場景,標(biāo)注技術(shù)是完全不同的,比如:視線分類的標(biāo)注、身體姿態(tài)估計(jì)的標(biāo)注、SegFuse 比賽中圖片像素級的標(biāo)注。
硬件:
大批的數(shù)據(jù)需要得到大規(guī)模的分布式計(jì)算和存儲。
算法:
我們希望算法能夠自校準(zhǔn),從而得到泛化的效果。
時(shí)間動(dòng)態(tài):
目前深度學(xué)習(xí)中的算法都是基于單獨(dú)的圖像開發(fā)出來的,我們需要讓算法能夠處理一連串圖像所組成的時(shí)間序列。
上述要求的重點(diǎn)是:數(shù)據(jù)收集及清理比算法本身更重要。
人類的缺點(diǎn)
分心駕駛:
2014 年,分心駕駛所引發(fā)的車禍導(dǎo)致 3179 人喪生,超過 431 萬人受傷。
眼睛偏離路況:
當(dāng)你邊開車邊發(fā)消息時(shí),平均每 5 秒鐘,你的眼睛就會偏離路況。
酒駕:
在 2014 年中,30% 的交通死亡事件由酒駕造成。
毒駕:
在 2014 年中,23% 的夜間駕駛者都屬于毒駕。
疲勞駕駛:
疲勞駕駛引發(fā)了 3% 的交通死亡事件。
考慮到這些缺點(diǎn),以及我們在前面課程中討論過的未來實(shí)現(xiàn)自動(dòng)化駕駛的兩條路徑(以人為中心的自動(dòng)化和完全的自動(dòng)化):
我們需要思考以人為中心的自動(dòng)化駕駛的設(shè)想是否可行?
人們可能會傾向于過度信賴系統(tǒng)本身。
MIT-AVT 自然駕駛數(shù)據(jù)集
數(shù)據(jù)收集:
“2+1”的攝像機(jī)配置。
攝像機(jī) 1:通過采集駕駛者臉部的高清視頻,以實(shí)現(xiàn)視線識別和認(rèn)知負(fù)荷評價(jià)。
攝像機(jī) 2(魚眼攝像機(jī)):負(fù)責(zé)身體姿態(tài)估計(jì)(是否手握方向盤以及活動(dòng)識別)。
攝像機(jī) 3:記錄車外場景,從而實(shí)現(xiàn)全景分割。
收集到的數(shù)據(jù)使得我們可以了解到如下信息:
駕駛者的行為。
部署自動(dòng)化技術(shù)的效果。
如何設(shè)計(jì)算法,以幫助訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)更好地完成感知任務(wù)。
安全性 Vs 針對自動(dòng)駕駛的偏好
數(shù)據(jù)集顯示無論自動(dòng)導(dǎo)航儀是否開啟,駕駛者身體參與程度其實(shí)是一樣的。
所以,自動(dòng)導(dǎo)航儀是允許被應(yīng)用到實(shí)際中的,但是這樣的系統(tǒng)并不會被駕駛員過度信任。
行人識別
面對的挑戰(zhàn):
不同的表現(xiàn)方式:類別內(nèi)差異。
不同的清晰度。
造成視線遮擋的配飾。
行人間的互相遮蔽。
解決方案:
需求是從原始的像素圖片中提取特征。
平滑移動(dòng)圖片:
Haar 級聯(lián)
方向梯度直方圖
卷積神經(jīng)網(wǎng)絡(luò)
更加智能化的網(wǎng)絡(luò):
快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
薄膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
Voxel 網(wǎng)絡(luò)
這些網(wǎng)絡(luò)生成的模型會被考慮用于整個(gè)方案的一個(gè)部分,而不是通過移動(dòng)窗口的方式。
用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)分類器去探測是否有興趣對象出現(xiàn)。
用非最大化控制器來剔除重疊的矩形區(qū)域。
數(shù)據(jù)(從不同的交叉領(lǐng)域中得到的):
每天記錄 10 個(gè)小時(shí)的數(shù)據(jù)量。
大約有 12000 個(gè)行人通過。
2100 萬具有特征向量的采樣數(shù)量。
區(qū)域卷積神經(jīng)網(wǎng)絡(luò)會對所有行人進(jìn)行矩形區(qū)域的探測。
肢體姿勢估計(jì)
內(nèi)容包括:
找到圖片中的關(guān)聯(lián)處。
找到圖片中的重要節(jié)點(diǎn)。
為什么它很重要?
它會被用于判定司機(jī)的坐姿方式。
注釋:一般情況下,安全氣囊是在駕駛員面對正前方的假設(shè)下進(jìn)行安裝的。
然而隨著駕駛自動(dòng)化的進(jìn)步,這個(gè)假設(shè)可能并不成立。
序列化探測法
先探測手,接下去是腳,然后是肩膀等等。
這是一種傳統(tǒng)的方法。
整體姿勢洞悉:
這是一種很強(qiáng)大并且成功的用于識別多人,多姿勢的方法。
采取回歸的手段分別探測完整圖像中各個(gè)身體部位,而不是序列化的探測。
之后,把探測到的連接處黏連到一起。
能被用于探測各異的姿勢,即使連接處并不可見。
級聯(lián)姿態(tài)回歸器:
卷積神經(jīng)網(wǎng)絡(luò)端輸入原始圖片后,會在每個(gè)連接點(diǎn)處產(chǎn)生一個(gè) x-y 坐標(biāo)的估計(jì)值。
在每個(gè)估計(jì)值處圖像會進(jìn)行放大,并且不斷在更高的識別精度下產(chǎn)生新的估計(jì)值。
身體部位探測法:
我們可以用這種方法來識別多人圖中的具體身體部位。
首先,人的身體部位的探測可以不經(jīng)過個(gè)體識別而達(dá)到。
然后我們可以把這些部位連接起來。
通過二合匹配,再把不同的人黏連在一起。
這種方法被麻省理工學(xué)院用于識別人體上半身部分。
駕駛員的位置對比標(biāo)準(zhǔn)的正面位置。
頸部位置隨時(shí)間變化的圖表。
對行人的身體姿勢進(jìn)行預(yù)測。
這就允許當(dāng)一位行人穿過馬路并且看著這輛車時(shí),算法進(jìn)行非言語交際的動(dòng)態(tài)性探測。
一個(gè)有趣的發(fā)現(xiàn)是:大多數(shù)人在橫穿馬路前,會對駛向自己的汽車視而不見。
瀏覽分類算法:
判斷司機(jī)正在看哪兒
注:不同于凝視識別,這個(gè)算法用于確定 (x,y,z) 坐標(biāo)。
(產(chǎn)生)兩個(gè)結(jié)果:(視線)在路上/不在路上。
或六個(gè)結(jié)果:
在路上
不在路上
(看)左邊
(看)右邊
(看)儀表盤
(看)后視鏡
這個(gè)分類算法可以視為機(jī)器學(xué)習(xí)問題。
同樣能沿用到行人識別方面,比如他們正在/不在看行駛過來的汽車。
注:參考數(shù)據(jù)由人工注釋提供。
面部定位:
設(shè)計(jì)一個(gè)能識別個(gè)體人臉并估計(jì)頭部姿勢的算法。
凝視分類算法工作流程:
源錄像
標(biāo)定:
基于傳感器的位置,需要給它定位。
穩(wěn)定錄像
面部識別
面部校準(zhǔn)
人眼/瞳孔識別
估計(jì)頭部(和眼睛)的姿勢
分類
最終剪輯
注釋工具
半自動(dòng)注釋:網(wǎng)絡(luò)不確定的數(shù)據(jù)由人為注釋。
基本的比較評定:
我們可以接受的精確度是多少?
為了提高精確度,常常人為迭代和注釋數(shù)據(jù)。
輔助的積極方面:
能夠處理更多的訓(xùn)練數(shù)據(jù)。
某些級別的人工注釋修復(fù)了一些問題。
駕駛員狀態(tài)識別:
駕駛員的情緒識別。
多種方式分類情緒。
識別情緒的匯總。
比如:表達(dá)情感的數(shù)據(jù)開發(fā)包。
這套算法將我們的表現(xiàn)映射成情緒。
特定的情緒識別應(yīng)用:
例如:使用基于語音的 GPS(全球定位系統(tǒng))交互-自注釋。
通用的情緒識別器做不到如下判斷,在駕駛過程中笑意味著沮喪。
因此,注釋是十分重要的。這些數(shù)據(jù)必須被標(biāo)記于反映對應(yīng)的情境。
認(rèn)知負(fù)荷:
對應(yīng)在一個(gè)人身上就是精神層面的繁忙。
眼睛的放大和收縮由認(rèn)知負(fù)荷決定,其移動(dòng)也可以反映為深度思考。
認(rèn)知負(fù)荷能通過眨眼動(dòng)態(tài),眼球移動(dòng)和瞳孔擴(kuò)張來檢測。
然而,現(xiàn)實(shí)中的光源使得瞳孔擴(kuò)張被忽略。
而眨眼動(dòng)態(tài),眼球移動(dòng)被加以使用。
3D 卷積神經(jīng)網(wǎng)絡(luò)
當(dāng)輸入一些列圖片時(shí),我們使用三維卷積的方法。
對多個(gè)圖像/通道進(jìn)行交叉卷積
這使得學(xué)習(xí)的過程在時(shí)間跨度上具有一定的動(dòng)態(tài)范圍。
真實(shí)情景數(shù)據(jù):
利用 N 個(gè)背景任務(wù)來估計(jì)認(rèn)知負(fù)荷。
我們檢測人臉,提取眼部信息并且將他們輸入到卷積神經(jīng)網(wǎng)絡(luò)中。
對人眼的移動(dòng)及對應(yīng)的認(rèn)知負(fù)荷作圖。
標(biāo)準(zhǔn)的 3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。
真實(shí)情景數(shù)據(jù)的實(shí)驗(yàn)結(jié)果準(zhǔn)確度。
雖然我們一直以來在研究利用機(jī)器進(jìn)行感知,比如利用傳感器實(shí)現(xiàn)定位及路徑規(guī)劃等功能,我們距離實(shí)現(xiàn)真正的機(jī)器感知,還有至少 20 年的路要走。
所以,在現(xiàn)階段必須將人包含在機(jī)器感知的過程中。
也就是說,需要通過改善人機(jī)接口從而使得機(jī)器人「能夠理解」人類的行為。
通往大規(guī)模自動(dòng)駕駛之路(不再有方向盤)。
以人為中心的自動(dòng)駕駛:
SDC 是一個(gè)個(gè)人機(jī)器人而不是一套具有感知功能的控制系統(tǒng)。
傳送控制系統(tǒng)中包括一個(gè)人機(jī)接口。
SDC 機(jī)器人將會對自動(dòng)駕駛汽車產(chǎn)生深遠(yuǎn)的影響。
預(yù)告:MIT 的 SDC 機(jī)器人將會在 2018 年 3 月的首次公開亮相,并在公共街道上進(jìn)行測試。
下節(jié)內(nèi)容提要:
DeepTraffic 深度強(qiáng)化學(xué)習(xí)競賽
DeepCrash
SegFuse 視頻分割競賽
更多文章,關(guān)注雷鋒網(wǎng),添加雷鋒字幕組微信號(leiphonefansub)為好友
備注「我要加入」,To be an AI Volunteer !
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。