0
本文作者: AI研習(xí)社-譯站 | 2018-06-19 10:36 |
雷鋒網(wǎng)按:雷鋒字幕組獲MIT課程團(tuán)隊(duì)授權(quán)翻譯自動(dòng)駕駛課程,視頻鏈接:http://www.mooc.ai/course/483/info
我們?yōu)槟阏砹嗣恳粋€(gè) Lecture 的課程筆記,提煉出每一講的要點(diǎn)精華,推薦結(jié)合課程筆記觀看視頻內(nèi)容,學(xué)習(xí)效果更佳。
原標(biāo)題 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 5 Notes: Deep Learning for Human Sensing
作者 | Sanyam Bhutani
翻譯 | 陳濤、朱偉杰、Binpluto,、佟金廣 整理 | 凡江
所有的圖片皆來(lái)自課程中的幻燈片。
這次的課程將利用深度學(xué)習(xí)的方法來(lái)理解人類(lèi)的感官功能。
其中研究的重點(diǎn)在于計(jì)算機(jī)視覺(jué)技術(shù)。
我們將了解到:如何使用計(jì)算機(jī)視覺(jué)技術(shù),從拍攝于汽車(chē)場(chǎng)景下的視頻中提取有用的信息。
深度學(xué)習(xí)實(shí)現(xiàn)人類(lèi)感知:
使用計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的技術(shù),創(chuàng)造可以在真實(shí)世界中發(fā)揮作用的系統(tǒng)。
達(dá)到此目的的要求是(按重要性排序):
數(shù)據(jù):
我們需要大量的真實(shí)數(shù)據(jù),其中數(shù)據(jù)收集是最困難且最重要的環(huán)節(jié)。
半監(jiān)督:
原始數(shù)據(jù)需要被歸納成有意義的、具有代表性的例子,這意味著原始數(shù)據(jù)需要被標(biāo)注。
我們需要收集數(shù)據(jù)并采用半監(jiān)督學(xué)習(xí)的技術(shù),去找到其中可以被用來(lái)訓(xùn)練我們網(wǎng)絡(luò)的數(shù)據(jù)。
有效標(biāo)注:
良好的標(biāo)注可以使模型表現(xiàn)出色。
對(duì)不同的場(chǎng)景,標(biāo)注技術(shù)是完全不同的,比如:視線(xiàn)分類(lèi)的標(biāo)注、身體姿態(tài)估計(jì)的標(biāo)注、SegFuse 比賽中圖片像素級(jí)的標(biāo)注。
硬件:
大批的數(shù)據(jù)需要得到大規(guī)模的分布式計(jì)算和存儲(chǔ)。
算法:
我們希望算法能夠自校準(zhǔn),從而得到泛化的效果。
時(shí)間動(dòng)態(tài):
目前深度學(xué)習(xí)中的算法都是基于單獨(dú)的圖像開(kāi)發(fā)出來(lái)的,我們需要讓算法能夠處理一連串圖像所組成的時(shí)間序列。
上述要求的重點(diǎn)是:數(shù)據(jù)收集及清理比算法本身更重要。
人類(lèi)的缺點(diǎn)
分心駕駛:
2014 年,分心駕駛所引發(fā)的車(chē)禍導(dǎo)致 3179 人喪生,超過(guò) 431 萬(wàn)人受傷。
眼睛偏離路況:
當(dāng)你邊開(kāi)車(chē)邊發(fā)消息時(shí),平均每 5 秒鐘,你的眼睛就會(huì)偏離路況。
酒駕:
在 2014 年中,30% 的交通死亡事件由酒駕造成。
毒駕:
在 2014 年中,23% 的夜間駕駛者都屬于毒駕。
疲勞駕駛:
疲勞駕駛引發(fā)了 3% 的交通死亡事件。
考慮到這些缺點(diǎn),以及我們?cè)谇懊嬲n程中討論過(guò)的未來(lái)實(shí)現(xiàn)自動(dòng)化駕駛的兩條路徑(以人為中心的自動(dòng)化和完全的自動(dòng)化):
我們需要思考以人為中心的自動(dòng)化駕駛的設(shè)想是否可行?
人們可能會(huì)傾向于過(guò)度信賴(lài)系統(tǒng)本身。
MIT-AVT 自然駕駛數(shù)據(jù)集
數(shù)據(jù)收集:
“2+1”的攝像機(jī)配置。
攝像機(jī) 1:通過(guò)采集駕駛者臉部的高清視頻,以實(shí)現(xiàn)視線(xiàn)識(shí)別和認(rèn)知負(fù)荷評(píng)價(jià)。
攝像機(jī) 2(魚(yú)眼攝像機(jī)):負(fù)責(zé)身體姿態(tài)估計(jì)(是否手握方向盤(pán)以及活動(dòng)識(shí)別)。
攝像機(jī) 3:記錄車(chē)外場(chǎng)景,從而實(shí)現(xiàn)全景分割。
收集到的數(shù)據(jù)使得我們可以了解到如下信息:
駕駛者的行為。
部署自動(dòng)化技術(shù)的效果。
如何設(shè)計(jì)算法,以幫助訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)更好地完成感知任務(wù)。
安全性 Vs 針對(duì)自動(dòng)駕駛的偏好
數(shù)據(jù)集顯示無(wú)論自動(dòng)導(dǎo)航儀是否開(kāi)啟,駕駛者身體參與程度其實(shí)是一樣的。
所以,自動(dòng)導(dǎo)航儀是允許被應(yīng)用到實(shí)際中的,但是這樣的系統(tǒng)并不會(huì)被駕駛員過(guò)度信任。
行人識(shí)別
面對(duì)的挑戰(zhàn):
不同的表現(xiàn)方式:類(lèi)別內(nèi)差異。
不同的清晰度。
造成視線(xiàn)遮擋的配飾。
行人間的互相遮蔽。
解決方案:
需求是從原始的像素圖片中提取特征。
平滑移動(dòng)圖片:
Haar 級(jí)聯(lián)
方向梯度直方圖
卷積神經(jīng)網(wǎng)絡(luò)
更加智能化的網(wǎng)絡(luò):
快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
薄膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)
Voxel 網(wǎng)絡(luò)
這些網(wǎng)絡(luò)生成的模型會(huì)被考慮用于整個(gè)方案的一個(gè)部分,而不是通過(guò)移動(dòng)窗口的方式。
用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器去探測(cè)是否有興趣對(duì)象出現(xiàn)。
用非最大化控制器來(lái)剔除重疊的矩形區(qū)域。
數(shù)據(jù)(從不同的交叉領(lǐng)域中得到的):
每天記錄 10 個(gè)小時(shí)的數(shù)據(jù)量。
大約有 12000 個(gè)行人通過(guò)。
2100 萬(wàn)具有特征向量的采樣數(shù)量。
區(qū)域卷積神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)所有行人進(jìn)行矩形區(qū)域的探測(cè)。
肢體姿勢(shì)估計(jì)
內(nèi)容包括:
找到圖片中的關(guān)聯(lián)處。
找到圖片中的重要節(jié)點(diǎn)。
為什么它很重要?
它會(huì)被用于判定司機(jī)的坐姿方式。
注釋?zhuān)阂话闱闆r下,安全氣囊是在駕駛員面對(duì)正前方的假設(shè)下進(jìn)行安裝的。
然而隨著駕駛自動(dòng)化的進(jìn)步,這個(gè)假設(shè)可能并不成立。
序列化探測(cè)法
先探測(cè)手,接下去是腳,然后是肩膀等等。
這是一種傳統(tǒng)的方法。
整體姿勢(shì)洞悉:
這是一種很強(qiáng)大并且成功的用于識(shí)別多人,多姿勢(shì)的方法。
采取回歸的手段分別探測(cè)完整圖像中各個(gè)身體部位,而不是序列化的探測(cè)。
之后,把探測(cè)到的連接處黏連到一起。
能被用于探測(cè)各異的姿勢(shì),即使連接處并不可見(jiàn)。
級(jí)聯(lián)姿態(tài)回歸器:
卷積神經(jīng)網(wǎng)絡(luò)端輸入原始圖片后,會(huì)在每個(gè)連接點(diǎn)處產(chǎn)生一個(gè) x-y 坐標(biāo)的估計(jì)值。
在每個(gè)估計(jì)值處圖像會(huì)進(jìn)行放大,并且不斷在更高的識(shí)別精度下產(chǎn)生新的估計(jì)值。
身體部位探測(cè)法:
我們可以用這種方法來(lái)識(shí)別多人圖中的具體身體部位。
首先,人的身體部位的探測(cè)可以不經(jīng)過(guò)個(gè)體識(shí)別而達(dá)到。
然后我們可以把這些部位連接起來(lái)。
通過(guò)二合匹配,再把不同的人黏連在一起。
這種方法被麻省理工學(xué)院用于識(shí)別人體上半身部分。
駕駛員的位置對(duì)比標(biāo)準(zhǔn)的正面位置。
頸部位置隨時(shí)間變化的圖表。
對(duì)行人的身體姿勢(shì)進(jìn)行預(yù)測(cè)。
這就允許當(dāng)一位行人穿過(guò)馬路并且看著這輛車(chē)時(shí),算法進(jìn)行非言語(yǔ)交際的動(dòng)態(tài)性探測(cè)。
一個(gè)有趣的發(fā)現(xiàn)是:大多數(shù)人在橫穿馬路前,會(huì)對(duì)駛向自己的汽車(chē)視而不見(jiàn)。
瀏覽分類(lèi)算法:
判斷司機(jī)正在看哪兒
注:不同于凝視識(shí)別,這個(gè)算法用于確定 (x,y,z) 坐標(biāo)。
(產(chǎn)生)兩個(gè)結(jié)果:(視線(xiàn))在路上/不在路上。
或六個(gè)結(jié)果:
在路上
不在路上
(看)左邊
(看)右邊
(看)儀表盤(pán)
(看)后視鏡
這個(gè)分類(lèi)算法可以視為機(jī)器學(xué)習(xí)問(wèn)題。
同樣能沿用到行人識(shí)別方面,比如他們正在/不在看行駛過(guò)來(lái)的汽車(chē)。
注:參考數(shù)據(jù)由人工注釋提供。
面部定位:
設(shè)計(jì)一個(gè)能識(shí)別個(gè)體人臉并估計(jì)頭部姿勢(shì)的算法。
凝視分類(lèi)算法工作流程:
源錄像
標(biāo)定:
基于傳感器的位置,需要給它定位。
穩(wěn)定錄像
面部識(shí)別
面部校準(zhǔn)
人眼/瞳孔識(shí)別
估計(jì)頭部(和眼睛)的姿勢(shì)
分類(lèi)
最終剪輯
注釋工具
半自動(dòng)注釋?zhuān)壕W(wǎng)絡(luò)不確定的數(shù)據(jù)由人為注釋。
基本的比較評(píng)定:
我們可以接受的精確度是多少?
為了提高精確度,常常人為迭代和注釋數(shù)據(jù)。
輔助的積極方面:
能夠處理更多的訓(xùn)練數(shù)據(jù)。
某些級(jí)別的人工注釋修復(fù)了一些問(wèn)題。
駕駛員狀態(tài)識(shí)別:
駕駛員的情緒識(shí)別。
多種方式分類(lèi)情緒。
識(shí)別情緒的匯總。
比如:表達(dá)情感的數(shù)據(jù)開(kāi)發(fā)包。
這套算法將我們的表現(xiàn)映射成情緒。
特定的情緒識(shí)別應(yīng)用:
例如:使用基于語(yǔ)音的 GPS(全球定位系統(tǒng))交互-自注釋。
通用的情緒識(shí)別器做不到如下判斷,在駕駛過(guò)程中笑意味著沮喪。
因此,注釋是十分重要的。這些數(shù)據(jù)必須被標(biāo)記于反映對(duì)應(yīng)的情境。
認(rèn)知負(fù)荷:
對(duì)應(yīng)在一個(gè)人身上就是精神層面的繁忙。
眼睛的放大和收縮由認(rèn)知負(fù)荷決定,其移動(dòng)也可以反映為深度思考。
認(rèn)知負(fù)荷能通過(guò)眨眼動(dòng)態(tài),眼球移動(dòng)和瞳孔擴(kuò)張來(lái)檢測(cè)。
然而,現(xiàn)實(shí)中的光源使得瞳孔擴(kuò)張被忽略。
而眨眼動(dòng)態(tài),眼球移動(dòng)被加以使用。
3D 卷積神經(jīng)網(wǎng)絡(luò)
當(dāng)輸入一些列圖片時(shí),我們使用三維卷積的方法。
對(duì)多個(gè)圖像/通道進(jìn)行交叉卷積
這使得學(xué)習(xí)的過(guò)程在時(shí)間跨度上具有一定的動(dòng)態(tài)范圍。
真實(shí)情景數(shù)據(jù):
利用 N 個(gè)背景任務(wù)來(lái)估計(jì)認(rèn)知負(fù)荷。
我們檢測(cè)人臉,提取眼部信息并且將他們輸入到卷積神經(jīng)網(wǎng)絡(luò)中。
對(duì)人眼的移動(dòng)及對(duì)應(yīng)的認(rèn)知負(fù)荷作圖。
標(biāo)準(zhǔn)的 3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。
真實(shí)情景數(shù)據(jù)的實(shí)驗(yàn)結(jié)果準(zhǔn)確度。
雖然我們一直以來(lái)在研究利用機(jī)器進(jìn)行感知,比如利用傳感器實(shí)現(xiàn)定位及路徑規(guī)劃等功能,我們距離實(shí)現(xiàn)真正的機(jī)器感知,還有至少 20 年的路要走。
所以,在現(xiàn)階段必須將人包含在機(jī)器感知的過(guò)程中。
也就是說(shuō),需要通過(guò)改善人機(jī)接口從而使得機(jī)器人「能夠理解」人類(lèi)的行為。
通往大規(guī)模自動(dòng)駕駛之路(不再有方向盤(pán))。
以人為中心的自動(dòng)駕駛:
SDC 是一個(gè)個(gè)人機(jī)器人而不是一套具有感知功能的控制系統(tǒng)。
傳送控制系統(tǒng)中包括一個(gè)人機(jī)接口。
SDC 機(jī)器人將會(huì)對(duì)自動(dòng)駕駛汽車(chē)產(chǎn)生深遠(yuǎn)的影響。
預(yù)告:MIT 的 SDC 機(jī)器人將會(huì)在 2018 年 3 月的首次公開(kāi)亮相,并在公共街道上進(jìn)行測(cè)試。
下節(jié)內(nèi)容提要:
DeepTraffic 深度強(qiáng)化學(xué)習(xí)競(jìng)賽
DeepCrash
SegFuse 視頻分割競(jìng)賽
更多文章,關(guān)注雷鋒網(wǎng),添加雷鋒字幕組微信號(hào)(leiphonefansub)為好友
備注「我要加入」,To be an AI Volunteer !
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。