0
本文作者: 汪思穎 | 2019-06-09 17:34 |
雷鋒網(wǎng) AI 科技評(píng)論按,本文是計(jì)算機(jī)視覺領(lǐng)域國(guó)際頂級(jí)會(huì)議 CVPR 2019 入選論文《Multi Agent Tensor Fusion for Contextual Trajectory Prediction》的解讀。該論文由 MIT 支持的自動(dòng)駕駛初創(chuàng)公司 ISEE Inc,北京大學(xué)王亦洲課題組,UCLA,以及 MIT CSAIL 合作共同完成。該論文主要提出了一種基于深度學(xué)習(xí)的車輛和行人軌跡預(yù)測(cè)方法,提出了一個(gè)可以保持空間結(jié)構(gòu)信息的多智能體張量融合網(wǎng)絡(luò),在機(jī)動(dòng)車駕駛和行人軌跡數(shù)據(jù)集中對(duì)模型的性能進(jìn)行了驗(yàn)證。
正文內(nèi)容如下,雷鋒網(wǎng) AI 科技評(píng)論獲其授權(quán)轉(zhuǎn)載。
簡(jiǎn)介
人類駕駛員不斷地預(yù)測(cè)其附近的車輛和行人未來的行為,從而避免與其他車輛和行人沖撞,以規(guī)劃安全迅捷的行車路線。自動(dòng)駕駛汽車也必須預(yù)測(cè)其他人和車的軌跡,以便在未來的社會(huì)互動(dòng)發(fā)生之前主動(dòng)規(guī)劃,而不是被動(dòng)地在意外發(fā)生后才作出反應(yīng)。這樣做可以盡量避免不安全的行為,如急剎車、急并道、急轉(zhuǎn)彎等。從根本上來說,軌跡預(yù)測(cè)讓自動(dòng)駕駛車輛得以推斷他們將遇到的未來可能情況,以評(píng)估特定規(guī)劃相對(duì)于這些情況的風(fēng)險(xiǎn),從而得以選擇最小化該風(fēng)險(xiǎn)的行車規(guī)劃。這為自動(dòng)駕駛系統(tǒng)增加了一層可解釋性,對(duì)于調(diào)試和驗(yàn)證至關(guān)重要。
軌跡預(yù)測(cè)問題之所以具有挑戰(zhàn)性,是因?yàn)橹悄荏w的動(dòng)作是隨機(jī)的,并且取決于他們的目的地、與其他智能體的社會(huì)交互、以及其所在場(chǎng)景的物理約束。預(yù)測(cè)還必須對(duì)不同場(chǎng)景中不斷變動(dòng)的智能體數(shù)量和類型具有泛化性?;谏窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)算法往往很難編碼類似的信息,因?yàn)闃?biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)只接受固定的輸入、輸出和參數(shù)維度;而對(duì)于這類預(yù)測(cè)任務(wù),這些參數(shù)維度會(huì)因場(chǎng)景而異。之前的論文或利用面向智能體(agent-centric)的方法進(jìn)行軌跡預(yù)測(cè),例如 Social LSTM [1],Social GAN [2];或利用面向空間結(jié)構(gòu)(spatial-centric)的編碼方式解決這個(gè)問題,例如 Chauffeur Net [3]。面向智能體的編碼在多個(gè)智能體的特征向量上運(yùn)行聚合函數(shù),而面向空間結(jié)構(gòu)的方法則直接在鳥瞰視角的場(chǎng)景表示圖上進(jìn)行運(yùn)算。
而多智能體張量融合(Multi-Agent Tensor Fusion, MATF)則提出了一種創(chuàng)新的多智能體張量融合編碼器-解碼器(Encoder-Decoder)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)結(jié)合了面向智能體和面向空間結(jié)構(gòu)的軌跡預(yù)測(cè)方法的長(zhǎng)處,通過端到端訓(xùn)練學(xué)習(xí)表示和推理有關(guān)社會(huì)互動(dòng)和場(chǎng)景物理約束的所有相關(guān)信息。圖 1 展示了 MATF 的核心張量 MAT 的構(gòu)造,該張量在空間上將場(chǎng)景的特征編碼與場(chǎng)景中每個(gè)智能體的過去軌跡的特征編碼向量對(duì)齊,保持了靜態(tài)場(chǎng)景以及多智能體的空間位置關(guān)系。接下來,通過全卷積網(wǎng)絡(luò)(Fully Convolutional Layers)構(gòu)造出融合的多智能體張量編碼(見下一個(gè)小節(jié))。這種編碼方式一方面可以像面向空間結(jié)構(gòu)的方法那樣很自然地保持多智能體張量中的所有智能體和靜態(tài)場(chǎng)景的空間結(jié)構(gòu)以捕捉空間信息,另一方面也可以像面向智能體的方法那樣敏感捕捉多智能體間的微妙社會(huì)互動(dòng)。
MAT 編碼是一個(gè)鳥瞰視角的靜態(tài)場(chǎng)景和動(dòng)態(tài)多智能體的特征圖(Feature Map),包括多智能體編碼通道(Multi-Agent Encoding Channels)(上)和靜態(tài)場(chǎng)景編碼通道(Scene Context Encoding Channels)(下)。單智能體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Single Agent LSTM)編碼器輸出的多智能個(gè)體特征向量(紅色)在空間上根據(jù)這些智能體的坐標(biāo)對(duì)齊,構(gòu)造出多智能體編碼通道。多智能體編碼通道與靜態(tài)場(chǎng)景編碼通道(場(chǎng)景編碼全卷積網(wǎng)絡(luò)的輸出特征圖)對(duì)齊,以保持智能體與場(chǎng)景間的空間結(jié)構(gòu)。
MAT 緊接著將融合了社會(huì)互動(dòng)和場(chǎng)景物理制約的 MAT 編碼結(jié)果解碼,以同時(shí)預(yù)測(cè)場(chǎng)景中所有智能體的未來軌跡。現(xiàn)實(shí)世界中人的行為不是確定性的,智能體可以在同一個(gè)場(chǎng)景中做出不同的行為,MATF 使用條件生成對(duì)抗訓(xùn)練(Conditional GAN)來捕獲預(yù)測(cè)軌跡的這種不確定性。
MATF 對(duì)新提出的模型在駕駛數(shù)據(jù)集和行人人群數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。該論文報(bào)告了來自以下數(shù)據(jù)集的結(jié)果:公開的 NGSIM 駕駛數(shù)據(jù)集,斯坦福無人機(jī)行人數(shù)據(jù)集(Stanford Drone dataset),ETH-UCY 人群數(shù)據(jù)集,以及最近收集的暫未公開的馬薩諸塞州駕駛數(shù)據(jù)集。文章匯報(bào)了定量和定性實(shí)驗(yàn)結(jié)果,顯示了模型每個(gè)部分的貢獻(xiàn)。與領(lǐng)域最先進(jìn)論文的定量比較表明所提出的方法在高速公路駕駛和行人軌跡預(yù)測(cè)方面都有著最好的表現(xiàn)。
網(wǎng)絡(luò)架構(gòu)
多智能體張量融合(MATF)的網(wǎng)絡(luò)架構(gòu)簡(jiǎn)圖如下所示:
該網(wǎng)絡(luò)的輸入是在過去時(shí)間段內(nèi)的所有智能體的軌跡,以及鳥瞰視角下的靜態(tài)場(chǎng)景圖像。每個(gè)智能體的過去軌跡和靜態(tài)場(chǎng)景圖像分別通過循環(huán)(Single-Agent LSTM Encoders)和卷積編碼流獨(dú)立編碼。編碼后的多智能體向量和靜態(tài)場(chǎng)景特征圖在空間上對(duì)齊以構(gòu)造出多智能體張量。例如,圖中 3-D 黑框(下方)顯示的是橙色智能體周圍的多智能體張量切片。
接下來,結(jié)構(gòu)類似 U-Net 的全卷積網(wǎng)絡(luò)(Convolutional Operator: Multi-Agent Tensor Fusion)作用在構(gòu)造出的多智能體張量上,用以推斷社會(huì)交互和空間物理約束,同時(shí)始終保持空間結(jié)構(gòu)和空間局部性特征,該全卷積網(wǎng)絡(luò)最終輸出融合的多智能體張量(上方)。每個(gè)融合的智能體向量從該張量切片得出,包含了推理加工過的相應(yīng)智能體的社會(huì)互動(dòng)信息、自身歷史軌跡信息、以及其周圍的場(chǎng)景物理約束信息。值得指出的是,因?yàn)?MATF 架構(gòu)運(yùn)行共享卷積運(yùn)算,所以在同一次正向傳播中可以計(jì)算得出的所有智能體的相應(yīng)融合向量。例如,實(shí)心藍(lán)框(上方)所表示的智能體融合向量融合了來自卷積層感受野內(nèi)的該智能體附近的所有智能體和場(chǎng)景特征的綜合推斷信息。
MATF 在此之后將這些融合的特征向量作為殘差(Residual)加到相應(yīng)智能體的原始編碼向量上,以獲得最終智能體編碼向量。這些向量最終將被循環(huán)神經(jīng)網(wǎng)絡(luò)解碼器(Single-Agent LSTM Decoders)獨(dú)立地解碼為網(wǎng)絡(luò)對(duì)這些智能體的未來的軌跡的預(yù)測(cè)結(jié)果。MATF 整個(gè)架構(gòu)是完全可微的,并且支持端到端的訓(xùn)練。
駕駛數(shù)據(jù)集實(shí)驗(yàn)結(jié)果樣例
馬薩諸塞州駕駛數(shù)據(jù)集的定性實(shí)驗(yàn)結(jié)果樣例如上所示。每輛車的過去軌跡以不同的顏色顯示,其后連接的是網(wǎng)絡(luò)對(duì)這些車未來軌跡的預(yù)測(cè)的采樣。正確結(jié)果(Ground Truth)的軌跡以黑色顯示,車道中心以灰色顯示。
(a)一個(gè)涉及五輛車的復(fù)雜情景;MATF 準(zhǔn)確地預(yù)測(cè)了所有車的軌跡和速度分布;
(b)MATF 正確地預(yù)測(cè)了紅色車輛將完成換道;
(c)MATF 捕捉到紅色車輛是否將駛?cè)敫咚俟烦隹诘牟淮_定性。
(d)當(dāng)紫色車輛通過高速公路出口后,MATF 預(yù)測(cè)它將不會(huì)退出。
(e)在這里,MATF 無法預(yù)測(cè)精確的真實(shí)未來軌跡;然而,一小部分采樣軌跡成功預(yù)測(cè)到了紅色車輛將持續(xù)變道。
行人數(shù)據(jù)集實(shí)驗(yàn)結(jié)果樣例
斯坦福無人機(jī)數(shù)據(jù)集的定性實(shí)驗(yàn)結(jié)果樣例如上所示。從左到右分別是 MATF 多智能體-場(chǎng)景推斷模型,MATF 多智能體-無場(chǎng)景推斷模型,和 LSTM 基準(zhǔn)模型的預(yù)測(cè)結(jié)果,所有用來預(yù)測(cè)的模型都是確定性模型。藍(lán)線顯示的是過去的軌跡,紅色是真實(shí)的未來軌跡,綠色的是三個(gè)模型分別預(yù)測(cè)的未來軌跡。MATF 可以通過一個(gè)正向傳播同時(shí)預(yù)測(cè)該圖所示的所有的智能體的未來的軌跡。綠色的預(yù)測(cè)軌跡越接近紅色的真實(shí)未來軌跡,預(yù)測(cè)就越準(zhǔn)確。MATF 多智能體-場(chǎng)景推斷模型成功預(yù)測(cè)了:
(1)兩個(gè)人或自行車從頂部進(jìn)入環(huán)形交叉口,并將向左駛出;
(2)環(huán)形交叉路口左上方路徑的一位行人正在轉(zhuǎn)彎向左移動(dòng)到圖像的頂部;
(3)一個(gè)人在環(huán)形交叉路口的右上方建筑物門口減速;
(4)在一個(gè)有趣的失敗案例中,環(huán)形交叉路口右上方的人向右轉(zhuǎn),向圖像頂部移動(dòng);該模型成功預(yù)測(cè)了此次轉(zhuǎn)彎,但失敗在無法預(yù)測(cè)轉(zhuǎn)彎的急緩程度。
MATF 多智能體-場(chǎng)景推斷模型正確預(yù)測(cè)了這些和其他各種場(chǎng)景的軌跡情形,其中一些情形也被 MATF 多智能體-無場(chǎng)景推斷模型近似地預(yù)測(cè)了出來,但大多數(shù)情形都沒有被基準(zhǔn)的 LSTM 模型預(yù)測(cè)出來。
更多細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參考論文原文:
https://arxiv.org/abs/1904.04776
參考文獻(xiàn):
[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.
[2] A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018.
[3] M. Bansal, A. Krizhevsky, and A. S. Ogale. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst. CoRR, abs/1812.03079, 2018.
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。