0
本文作者: 我在思考中 | 2021-11-16 10:28 |
編輯 | 青暮
自動駕駛汽車如何像人那樣感知環(huán)境并做出決策?
像人一樣感知環(huán)境并做出決策,這是人們對自動駕駛汽車的最終想象。經(jīng)過多年的研究,當(dāng)前自動駕駛汽車主要存在三大類感知決策控制方法,分別為sequential planning、behavior-aware planning以及end-to-end planning。
sequential planning屬于最傳統(tǒng)的方法,感知、決策與控制三個部分層次較為清晰;behavior-aware planning的亮點(diǎn)在于引入了人機(jī)共駕、車路協(xié)同以及車輛對外部動態(tài)環(huán)境的風(fēng)險預(yù)估;而時下最熱門的方法之一,則是end-to-end planning,這種方法基于DL、DRL技術(shù),可以借助大量的數(shù)據(jù)做訓(xùn)練,獲得從圖像等感知信息到方向盤轉(zhuǎn)角等車輛控制輸入的關(guān)系。
牛津布魯斯大學(xué)計算機(jī)視覺實(shí)驗室的研究團(tuán)隊,就基于端到端的方法,發(fā)表了第一類面向自動駕駛車輛的道路事件感知數(shù)據(jù)集(ROAD)。
論文鏈接:https://arxiv.org/pdf/2102.11585.pdf
ROAD由一個移動智能體(即自動駕駛車輛)、它所執(zhí)行的動作和相應(yīng)的場景位置三者組成,可以測試自動駕駛車輛感知并預(yù)測道路事件的能力。
作者表示,利用ROAD,通過一種模仿學(xué)習(xí)設(shè)置,人類駕駛者應(yīng)對道路情況的駕駛行為,可以被用來訓(xùn)練自動駕駛汽車以更深入、更人性化的方式,理解道路環(huán)境以及道路其他使用者隨時間而變化的行為。
不用關(guān)注駕駛員的身體動作了?
為了了解道路上發(fā)生的情況,如今的自動駕駛車輛通常配備了一系列不同的傳感器(如激光測距儀、雷達(dá)、攝像頭、GPS )來收集數(shù)據(jù),不過ROAD主要考慮的是基于視覺的自動駕駛車輛的行駛環(huán)境。
安裝在牛津機(jī)器人小車上的攝像機(jī),以一種流式、在線的方式拍下了大量視頻,研究團(tuán)隊從中精心挑選了22段持續(xù)時間相對較長(每段約8分鐘)的視頻,這些視頻由多個道路事件(REs)組成。
根據(jù)定義,REs由移動智能體Ag、它執(zhí)行的動作Ac和發(fā)生該動作的位置Loc所組成,即E=(Ag、Ac、Loc)。
經(jīng)過對這22個視頻的內(nèi)容進(jìn)行編譯,Ag、Ac、Loc構(gòu)成了編譯后有限列表里的所有分類,道路事件則可喻為“管道”,即逐幀邊界框檢測(frame-wise bounding box detections)的時間序列。
ROAD是一個具有相當(dāng)規(guī)模的數(shù)據(jù)集,因為122K的視頻鏡頭被標(biāo)記成了總共560K的檢測邊界框,依次與1.7M的唯一單獨(dú)標(biāo)簽相關(guān)聯(lián),這些標(biāo)簽分別有560K智能體標(biāo)簽、640K動作標(biāo)簽和499K位置標(biāo)簽。
此數(shù)據(jù)集按照以下原則設(shè)計:
多標(biāo)簽基準(zhǔn):每個道路事件由負(fù)責(zé)的(移動)智能體標(biāo)簽、執(zhí)行的動作類型標(biāo)簽和描述了動作所在位置的標(biāo)簽組成。
每一個事件都可以在相關(guān)時間下被分配到同種標(biāo)簽類型的多個實(shí)例(例如,一個RE可以是既移動又左轉(zhuǎn)的實(shí)例)。
標(biāo)注都是從自動駕駛車輛的角度完成的,最終目標(biāo)是為了讓自動駕駛車輛利用此信息做出適當(dāng)?shù)臎Q策。
元數(shù)據(jù)旨在包含所有需要全面描述了道路場景的信息,下圖給出了該概念的說明。這意味著,即使不看視頻,我們也可以根據(jù)與這些視頻關(guān)聯(lián)的一組標(biāo)簽,還原當(dāng)時的道路情況(或者可以讓自動駕駛汽車根據(jù)這些標(biāo)簽,做出一樣的決定)
(a)如箭頭所示,在換道時,一輛綠色汽車在自動駕駛車輛前面。然后,關(guān)聯(lián)事件將攜帶以下標(biāo)簽:在車輛車道(位置)、向左移動(動作)。一旦事件完成,位置標(biāo)簽將改為:位于駛出車道。
(b)從6號車道向左轉(zhuǎn)進(jìn)入4號車道的自動駕駛車輛:因為車流與自動駕駛車輛方向相同,4號車道將成為駛出車道。但是,如果自動駕駛車輛從6號車道右轉(zhuǎn)到4號車道(一個錯誤的轉(zhuǎn)彎),那么4號車道將隨著車輛的進(jìn)入而成為駛?cè)胲嚨馈?/span>
簡而言之,ROAD的總體思想,是希望通過使用多種標(biāo)簽類型的適當(dāng)組合,來充分描述道路狀況,并允許機(jī)器學(xué)習(xí)算法從這些信息中學(xué)習(xí)。
局限:沒有關(guān)注到行人的動作
而為了讓科學(xué)家能夠評估他們在道路事件檢測方面所選擇的方法的性能,該研究團(tuán)隊還提出了一種強(qiáng)大的基線,該基線將先進(jìn)的單級目標(biāo)檢測技術(shù)與在線管道構(gòu)建方法相結(jié)合,目的是隨著時間推移持續(xù)探測道路環(huán)境,以創(chuàng)建事件管道(event tubes)。
“這種方法的一個優(yōu)點(diǎn)在于,當(dāng)自動駕駛車輛學(xué)習(xí)如何做出決策時,它允許車輛關(guān)注更少的相關(guān)信息,做到更接近人類的決策方式。”研究團(tuán)隊在論文中表示。
除此之外,該團(tuán)隊還提供了一種新的基于沿時間膨脹RetinaNet的在線道路事件感知增量算法,在50%重疊度下,幀級和視頻級事件檢測的平均準(zhǔn)確率分別為16.8 %和6.1 %。
但一個問題在于,ROAD關(guān)注到了各類車輛中駕駛員所執(zhí)行的行動,卻沒有考慮到行人、自行車等道路上的其他參與者動作,而對于業(yè)界的企業(yè)玩家來說,對道路上各種Corner Case的攻克才是更急迫和突顯競爭力的。
另外,ROAD數(shù)據(jù)集僅基于22個視頻標(biāo)注而成,對于自動駕駛的感知算法來說,ROAD的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不夠,且還需要覆蓋更多更復(fù)雜場景。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。