0
本文作者: 楊曉凡 | 2017-10-21 17:43 |
雷鋒網(wǎng) AI 科技評論按:自動駕駛是人工智能落地的重要應(yīng)用之一,許多業(yè)界公司和學(xué)校實驗室都在以自己的方法研究自動駕駛系統(tǒng)。本次雷鋒網(wǎng) AI 科技評論請到了許華哲博士介紹他們團隊研究的端到端自動駕駛系統(tǒng)。
許華哲是UC Berkeley 博士,師從 Prof. Trevor Darrell。對計算機視覺、自動駕駛、強化學(xué)習(xí)感興趣。本科畢業(yè)于清華大學(xué)電子工程系。
這次分享主要基于徐華哲和他的同學(xué)們發(fā)表的CVPR2017的收錄文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」,這是對端到端自動駕駛的一個嘗試。除了文章本身,許華哲也會介紹學(xué)術(shù)角度上自動駕駛領(lǐng)域中有意思的任務(wù)和問題。
分享的內(nèi)容包括:
自動駕駛的前世今生
許華哲他們發(fā)表的超大規(guī)模數(shù)據(jù)集
為了解決自動駕駛問題,如何用數(shù)學(xué)公式定義它
論文中構(gòu)建的FCN-LSTM模型
論文中用到的新技巧“Learning with privileged information”,以及實驗結(jié)果
自動駕駛主要分為這樣幾類:基于規(guī)則的自動駕駛系統(tǒng),端到端的自動駕駛系統(tǒng)(輸出直接是對車的操作),綜合性方法(Intermediate,決策系統(tǒng)的輸入是前處理系統(tǒng)的輸出)。最后還有一個研究方向是對未來會發(fā)生的事情做預(yù)測以便規(guī)避風(fēng)險。
圖中是基于規(guī)則的自動駕駛系統(tǒng)的經(jīng)典工作,檢測出路上的車和車道,然后進行決策。
基于規(guī)則的系統(tǒng),好處是在工業(yè)界得到了廣泛使用,比如GoogleX的自動駕駛就是以基于規(guī)則的系統(tǒng)為主;以及系統(tǒng)的可解釋性非常強。不好之處是難以應(yīng)對不確定的情況,以及在復(fù)雜的情況下無法對所有可能的操作進行建模。
完全端到端的方法中早期的典型工作是ALVINN,淺層神經(jīng)網(wǎng)絡(luò)的結(jié)果已經(jīng)表明端到端學(xué)習(xí)有形成自動駕駛系統(tǒng)的潛力。
Yann LeCun提出的DAVE已經(jīng)可以回避路上的障礙物。
在2017年10月最新的文章中,已經(jīng)可以通過高階的運動意圖對低階的實際駕駛操作進行條件(conditioned)控制,在許華哲看來已經(jīng)是水平最領(lǐng)先的文章。
不過話說回來,這個領(lǐng)域影響最大的還是NVIDIA的這篇文章,第一次借助三個攝像頭用端到端的方法開起了真車。
端到端駕駛的好處是,模型可以直接對圖像輸入作出回應(yīng),不需要人類干預(yù);壞處是,系統(tǒng)對于不同的車輛系統(tǒng)需要逐一校準(zhǔn),以及解釋性差
這項綜合自動駕駛系統(tǒng)的典型方法中,用深度學(xué)習(xí)方法學(xué)到一系列行駛中的路況信息,然后把這些路況信息輸入決策模型;決策模型中則可以再設(shè)定一些規(guī)則。
這種方法的解釋性介于端到端和基于規(guī)則的系統(tǒng)之間,但還是需要人工定義許多規(guī)則,仍然有“無法完全定義系統(tǒng)規(guī)則”的問題
未來視頻預(yù)測的目的是幫助訓(xùn)練自動駕駛系統(tǒng),效果還有很多提升的空間,但是許華哲認為與現(xiàn)階段各大自動駕駛平臺的自動駕駛模擬器相比,這方面研究的意義還有待討論。
接下來,值得聊的話題是數(shù)據(jù)集。大家都知道ImageNet對深度學(xué)習(xí)領(lǐng)域有著深遠的影響,因為它提供了檢驗算法的絕佳條件。
從近年的錯誤率顯著下降來看,大家都認為圖像分類問題是一個近乎于解決了的問題,ImageNet就在其中起到了非常大的貢獻。
那么,許華哲認為自動駕駛領(lǐng)域也需要一個起到同樣作用的數(shù)據(jù)集,它應(yīng)當(dāng)由眾包得到,應(yīng)當(dāng)是真實的、足夠難的、有一個明確的任務(wù)目標(biāo)
對于任務(wù)目標(biāo),他們把它公式化為了一個預(yù)測車輛未來位置的問題。
這樣做的好處是,泛化性強,可以運用于對任意的車輛,也可以用未經(jīng)過校準(zhǔn)的數(shù)據(jù);他們的模型是可以端到端訓(xùn)練的;同時模型可以一次預(yù)測多個方向
模型中要預(yù)測的egomotion用方向角α和位移s描述,這樣也就不需要直接對車輛內(nèi)的方向盤和踏板進行控制,簡化了系統(tǒng)的前期研究。
模型的數(shù)學(xué)定義如上圖,評估給定的狀態(tài)s和動作a的得分,其中s包括視覺信息和車輛的當(dāng)前狀態(tài);a可以是分離的幾個狀態(tài),也可以是連續(xù)的數(shù)值輸出;最精確的是輸出6個自由度上的運動
下一個問題就是如何評估這個模型。借助數(shù)據(jù)集的話,借助語言模型里perplexity預(yù)測的思路,把過去的狀態(tài)作為序列,預(yù)測序列中的下一個元素
在他們的數(shù)據(jù)集之前,大家比較熟悉幾個數(shù)據(jù)集包括KITTI、Cityscape、英特爾的GTA。
KITTI的特點是數(shù)據(jù)量比較小,但圖像質(zhì)量高,數(shù)據(jù)種類豐富,橫向很寬
Torcs是在游戲里采的數(shù)據(jù)
Cityscape是一個高質(zhì)量的圖像語意分割數(shù)據(jù)集,但是并沒有放出對應(yīng)的視頻
英特爾的GTA數(shù)據(jù)集也是以語意分割為主,雖然基于虛擬的游戲環(huán)境但是很逼真,可以看作最接近真實世界的游戲
幾個數(shù)據(jù)集做對比的話,場景的豐富程度上KITTI力壓所有數(shù)據(jù)集,其余更多方面則都有缺失
時長方面,Oxford的最長,圍繞城市采了200小時數(shù)據(jù)。
這幾個數(shù)據(jù)集都不算令人滿意。為了大幅度提升時長和豐富程度,許華哲他們想到了眾包的方法,與Uber合作,采集、使用了司機視角的視頻。這個數(shù)據(jù)集的特點是基于真實世界的、第一人稱視角,從右側(cè)樣例里可以看到內(nèi)容也非常豐富。
最重要的是,這個數(shù)據(jù)集也是足夠長的,比現(xiàn)存的任何數(shù)據(jù)集都要多出2個數(shù)量級。
這樣對比下來,他們的數(shù)據(jù)集BDD-V就全面領(lǐng)先于其它的數(shù)據(jù)集
BDD-V數(shù)據(jù)集更多的指標(biāo)如上圖,30fps/720p,包括了慣性傳感器IMU、陀螺儀Gyroscope、GPS和指南針的數(shù)據(jù),而且是全面開放的。許華哲還偷偷透露,除了這個視頻數(shù)據(jù)集,他們還會同步發(fā)布其它用于駕駛?cè)蝿?wù)的高質(zhì)量、大規(guī)模數(shù)據(jù)集。
這里正式介紹文章中的內(nèi)容,一張圖像輸入到模型中后,模型要判斷車如何行駛,最后輸出中綠色部分表示可能的動作的概率分布(離散或者連續(xù))。
論文中使用的模型結(jié)構(gòu)是Dilated Fully Convolutional Networks+LSTM+Segmentation Loss。FCN用來保留空間信息,LSTM對之前時間中的信息加以利用,Segmentation語義分割則是為了把車輛從背景中分離出來(這部分屬于Privileged Learning,等下還會講到)。
上圖顯示的是預(yù)測離散的車輛動作(也就是前后左右)的結(jié)果,G代表ground truth,P代表預(yù)測的結(jié)果。
對于紅綠燈也作出了合理的預(yù)測結(jié)果(黃燈時前進和停止一半一半,紅燈時預(yù)測結(jié)果都是停止)
對于預(yù)測連續(xù)的車輛動作,沿著路的時候能判斷出“不能右轉(zhuǎn)”,到了路口就有了更多方向的選擇
在連續(xù)預(yù)測中,有個重要問題是能否預(yù)測多個模態(tài)??梢钥吹剑搅寺房跁r預(yù)測結(jié)果明顯分為了兩個部分。
這里,為了更好地展示模型學(xué)到的特征,徐華哲從模型中抽出了conv-4層學(xué)到的特征。對于右側(cè)的街道圖,左側(cè)是模型注意力的heat-map;兩圖并不是完全對齊的??梢钥吹?,行車線、紅綠燈、騎車的人和汽車(表現(xiàn)為兩個車輪)都獲得了很高的注意力。
Privileged Learning是指,模型一邊預(yù)測未來的運動,一邊訓(xùn)練一個語義分割網(wǎng)絡(luò),然后用語義分割網(wǎng)絡(luò)更好地幫助模型做運動預(yù)測。P1、P2是Baseline,P3是帶有Privileged Learning之后的結(jié)果,對圖中這樣“半輛車”的情況有更好的識別能力。
總結(jié)整篇論文
首先介紹了一個不依賴執(zhí)行機構(gòu)的自動駕駛通用模型
收集、公開了最大、最豐富的基于真實世界的數(shù)據(jù)集
提出了新的網(wǎng)絡(luò)架構(gòu),能夠輸出多模態(tài)行為
確認了Privileged Learning方法的有效性,進一步提升了預(yù)測效果
第一個長度可以和人類一生開車時間相比的訓(xùn)練數(shù)據(jù)集
數(shù)據(jù)、模型和代碼可以在 https://github.com/gy20073/BDD_Driving_Model 看到。
未來他們也還會繼續(xù)采集、擴充數(shù)據(jù)集。目前總長度(最下方)大概是一個人一生開車時間的一半,未來希望擴充到10萬個小時。
同時他們也在改進模型,并在測試場地上把真車開起來。 秋天時他們也會再發(fā)一兩篇文章。
徐華哲最后還解答了幾個在線觀眾提出的問題。
完整視頻在這里
感謝嘉賓分享。更多分享請繼續(xù)關(guān)注我們。
雷鋒網(wǎng) AI 科技評論整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。