自動駕駛領域，「決策」和「感知」終于握手言和

本文作者：郭思

2024-02-27 10:59

導語：軌跡預測準確率提升30%的大模型「上車」之道。

作者丨郭思

編輯丨陳彩嫻

圍繞大模型應用于自動駕駛的討論熱度持續(xù)升溫，卻呈現(xiàn)出愈發(fā)復雜而矛盾的現(xiàn)象。

一方面，資本力量的積極投入，行業(yè)巨頭紛紛搶占先機。例如，特斯拉近期推出了其“端到端”的全自動駕駛軟件FSD v12版本，并已在美國和加拿大地區(qū)逐步面向非員工用戶提供更新服務。與此同時，小米汽車于23年末宣告搭載自主研發(fā)的端到端感知決策大模型的小米智能駕駛系統(tǒng)面世，展現(xiàn)其在自動駕駛領域的創(chuàng)新突破。

學術界同樣對此表現(xiàn)出濃厚興趣，諸如BEV（鳥瞰視角）技術和NLP（自然語言處理）的應用推動著汽車智能化走向新的高峰。其中，上海人工智能實驗室在2023年CVPR會議上榮獲最佳論文獎的UniAD自動駕駛模型，正是全球首個實現(xiàn)感知決策一體化的自動駕駛大模型典范。

然而，另一方面，透過華麗的宣傳表象，實際專注于研發(fā)和應用自動駕駛大模型的企業(yè)數(shù)量并不多（據(jù)AI科技評論了解，當前在這一領域穩(wěn)健推進的僅有英國Wayve等少數(shù)公司）。傳統(tǒng)汽車行業(yè)的模塊化管理模式長期以來形成的壁壘，令汽車行業(yè)在面對大模型試圖一攬子解決諸多問題的新模式時承受巨大壓力。

在此之前，國內(nèi)某企業(yè)自動駕駛的負責人也曾透露，大模型技術的發(fā)展潮流促使整個部門內(nèi)部組織結構發(fā)生顯著調(diào)整。一體化的自動駕駛決策大模型在某種程度上緩解了過去車企內(nèi)部感知與決策部門間可能出現(xiàn)的沖突與不協(xié)調(diào)。然而，在邁向大規(guī)模部署和產(chǎn)業(yè)化發(fā)展的道路上，尚需面對輕量化部署難度高、高質(zhì)量訓練數(shù)據(jù)匱乏、傳統(tǒng)車企轉型升級步伐緩慢等一系列挑戰(zhàn)。

大模型「上車」之路，看似近在咫尺，實則極具挑戰(zhàn)。

1、大腦和耳目的「分崩離析」

和人類一樣，智能駕駛汽車想要自己開上路，首先需要對周圍環(huán)境有一個認識。這件事情一般會交給自動駕駛的感知系統(tǒng)來完成。感知系統(tǒng)以多種傳感器的數(shù)據(jù)和高精度地圖的信息作為信息輸入，經(jīng)過一系列計算及處理，對自動駕駛汽車周圍環(huán)境進行精確感知，也常常被比喻成智能汽車的”眼睛“和”耳朵“。

只不過有了眼睛和耳朵還不夠，上路還需要強大的大腦，這也就牽扯到了自動駕駛領域的決策系統(tǒng)。

長久以來，這兩個系統(tǒng)各自面臨技術和實踐上的挑戰(zhàn)，有時呈現(xiàn)出“分崩離析”的狀態(tài)，在某些復雜場景下，感知模塊可能無法準確識別或理解環(huán)境信息，而決策模塊也可能因?qū)Ω兄Y果處理不當或算法局限性導致不正確的行駛決策。

這一現(xiàn)狀也體現(xiàn)在眾多自動駕駛公司的組織架構之中。

在國內(nèi)自動駕駛行業(yè)某頭部公司內(nèi)部，感知與決策團隊之間的緊張關系一度成為焦點。感知部門作為信息采集和初步處理的上游，負責通過各類傳感器收集環(huán)境數(shù)據(jù)并進行初步分析；而決策部門則扮演下游角色，基于感知數(shù)據(jù)做出駕駛策略決策。由于兩部門職能緊密相連且相互依賴，兩位團隊負責人在技術路線、資源分配及責任邊界等方面出現(xiàn)了較大分歧，甚至影響到了整體工作的協(xié)調(diào)推進。

最終，為了解決這一內(nèi)耗問題，最后導致管理層不得不將兩個人的權責范圍進行調(diào)整。

另一個傳統(tǒng)車企研究院的技術架構師曾告訴AI 科技評論，自動駕駛部分這兩個部分碰撞十分之多。軟件模塊一旦涉及到接口的東西，出現(xiàn)問題之際，很難撇清是誰的責任，必須要有模塊化的測試用例，從而去進行區(qū)分。

汽車在行駛過程中，最終決策如果有出現(xiàn)錯誤，就可能意味著在決策之上的每一個環(huán)節(jié)都在出現(xiàn)問題。傳統(tǒng)的模塊方式，會有誤差的累積。如果感知模塊未能正確識別出道路障礙物或預測其他交通參與者的行為，則可能導致決策規(guī)劃模塊依據(jù)錯誤的信息做出不正確的行駛決策。此外，模塊之間的信息傳遞如果不清晰或者接口定義不嚴謹，也會導致信息丟失或誤傳，進一步增加決策錯誤的風險。

為了減少這類問題，汽車制造商和研發(fā)機構通常會采取諸如模塊化設計與測試、集成測試與回歸測試、功能安全認證以及強大的仿真平臺與實車測試等措施，以求最大程度上減少誤差累積和避免事故發(fā)生。

但盡管如此，由于自動駕駛技術的復雜性和多學科交叉特性，完全消除錯誤和不確定性仍然是一個艱巨的任務。模塊化設計與測試雖有助于隔離問題，確保每個模塊獨立運作的可靠性，但在實際集成過程中，模塊間的交互可能導致新的未知問題出現(xiàn)。

行業(yè)迫切需要一套更簡單高效解決的方案。

2、決策與感知握手言和是大勢所趨

2023年12月，小米汽車宣布推出搭載其自研端到端感知決策大模型的小米智能駕駛系統(tǒng)。緊接著，特斯拉也發(fā)布了其“端到端”自動駕駛軟件FSD v12版本，并開始在北美向非員工用戶推送。這似乎在表明對決策感知一體化的深入理解正成為共識，預示著行業(yè)發(fā)展的趨勢。

然而，在決策感知一體化概念進入公眾視野之前，早就有一群敏銳的學術先行者已經(jīng)關注到這一動向。

2023年6月，上海人工智能實驗室的自動駕駛全棧可控端到端方案UniAD相關研究論文，在人工智能頂會CVPR（國際計算機視覺與模式識別會議）上榮獲最佳論文獎。這是有史以來自動駕駛相關技術首次獲此殊榮。UniAD向全世界展示了感知、規(guī)劃及決策一體化的“端到端”框架，為自動駕駛開拓了新方向。

上海人工智能實驗室青年科學家、OpenDriveLab團隊負責人李弘揚博士向AI科技評論表示，2023年的獲獎只是最終結果。在此之前，包括其團隊在內(nèi)，學術界和產(chǎn)業(yè)界對自動駕駛的研究經(jīng)歷了一段探索過程。

2021年，彼時剛加入上海人工智能實驗室不久的李弘揚，注意到了國外一個自動駕駛系統(tǒng)開源項目——Openpilot。

基于Openpilot系統(tǒng)，只需為車輛安裝一個當時售價999美元的后裝設備，內(nèi)置單個攝像頭和電路板，可以處理L2級別的駕駛場景，實現(xiàn)自適應巡航控制（ACC）、自動車道保持（ALC）、前向碰撞警告（FCW）和車道偏離警告（LDW）等功能，目前已支持40余種車型。相比特斯拉完全自動駕駛系統(tǒng)，Openpilot成本低，效果卻十分驚艷。

OpenDriveLab團隊系統(tǒng)研究了Openpilot的各項技術細節(jié)，得出結論：Openpilot之所以能夠在單一設備上實現(xiàn)L2級自動駕駛，關鍵在于端到端的系統(tǒng)設計，而非傳統(tǒng)的模塊化框架。并于當年發(fā)表了一篇Openpilot研究論文，向?qū)W術界和產(chǎn)業(yè)界分享了觀點。

自動駕駛領域，「決策」和「感知」終于握手言和

OpenDriveLab團隊Openpilot研究論文截圖

論文鏈接：https://arxiv.org/abs/2206.08176

「原來自動駕駛可以做得如此簡單?！?/p>

受此影響，團隊開始著手設計端到端的直接輸出項目，成為開啟UniAD研究的首個關鍵節(jié)點。

而UniAD研究的第二個關鍵節(jié)點則與BEV + Transformer相關。

BEV是如今自動駕駛領域的熱門詞匯。即通過車輛上傳感器接收的數(shù)據(jù)生成俯視圖（地圖）坐標系下感知結果的算法，包括檢測、分割等任務，是現(xiàn)行自動駕駛領域環(huán)境感知和表示的重要方式。

在BEV之前，大部分汽車廠商的做法是先去感知了2D圖像中的一些特征，比如說車在哪里，車輪的接定點在哪里，車的長寬比例是多少，拿到了一些圖像層面的信息之后。再根據(jù)相機的一些3D的標定幾何參數(shù)去獲得目標在三維空間下的準確的位置信息。

直到 2014 年，一篇標題為“Automatic Parking Based on a Bird’s Eye View Vision System”的論文發(fā)表，改變了這一局面。該論文的核心內(nèi)容是：通過四顆魚眼攝像頭感知環(huán)境信息，并來構建一個 BEV 視覺系統(tǒng)，并由此實現(xiàn)自動泊車。BEV橫空出世，成為了大家爭相研究的方向。

感知下游的規(guī)劃控制成為了主流做法。而隨著深度學習技術的持續(xù)進步，在2021年底至2022年間，BEV與Transformer的深度融合逐漸成為了自動駕駛領域內(nèi)的主流研究趨勢。

當時，學術界面臨如何繼續(xù)深化自動駕駛技術創(chuàng)新的挑戰(zhàn)，這要求從系統(tǒng)架構和軟件工程層面深入探討，并前瞻性地預見行業(yè)發(fā)展趨勢。

而從商業(yè)化角度看，2021年之際，自動駕駛技術似乎已觸及了一個瓶頸階段，L2級別的輔助駕駛功能基本滿足了大部分日常駕駛需求。吉利汽車與Mobileye的合作就是這一趨勢的體現(xiàn)，當時計劃在2021年實現(xiàn)L2+級自動駕駛系統(tǒng)的量產(chǎn)。其他汽車制造商如日本的幾家大型車企也在2022年前后在其主力車型中廣泛普及L2級別的自動駕駛技術。

只不過在應對復雜多變的交通場景，提供更加流暢和穩(wěn)定的駕駛體驗上，各家都顯得捉襟見肘。

李弘揚銳地感知到了這一趨勢，堅信端到端大模型具有廣闊前景，是推動自動駕駛領域發(fā)展的有力途徑。

一開始他們在感知階段使用Transformer，而在預測和控制階段則采用了Resnet架構。嘗試將所有模塊整合進單一網(wǎng)絡結構，但在這時卻遭遇了訓練不穩(wěn)定和性能下滑的問題。統(tǒng)一了全用 Transformer 這種網(wǎng)絡結構之后， QPV 等等這些幾個變量都能統(tǒng)一到一起。需要一整套的這種系統(tǒng)的級聯(lián)以及豐富模型訓練的這種經(jīng)驗的背景，才把這一套跑通。

在UniAD中，研究人員首次將感知、預測和規(guī)劃等三大類主任務、六小類子任務（目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規(guī)劃）整合到統(tǒng)一的基于 Transformer的端到端網(wǎng)絡框架下，實現(xiàn)了全棧關鍵任務駕駛通用模型。

自動駕駛領域，「決策」和「感知」終于握手言和

在 nuScenes 真實場景數(shù)據(jù)集下，UniAD的所有任務均達到領域最佳性能（State-of-the-art），尤其是預測和規(guī)劃效果遠超之前的最佳方案。其中，多目標跟蹤準確率超越SOTA 20%，車道線預測準確率提升30%，預測運動位移和規(guī)劃的誤差則分別降低了38%和28%。

該成果一旦大規(guī)模應用其實也會一定程度解決文章開頭提及的決策和感知打架的矛盾。

3、走向產(chǎn)業(yè)的三大攔路虎

在學術前沿技術公布之后，緊隨其后的重點是探索其產(chǎn)業(yè)落地的可能性及其對社會價值的有效貢獻。對于UniAD這一自動駕駛領域的尖端技術來說，其向車載應用場景邁進的道路充滿了挑戰(zhàn)。

核心挑戰(zhàn)首先是如何實現(xiàn)模型的輕量化部署以及獲取高質(zhì)量的訓練數(shù)據(jù)。另一方面，UniAD作為一項自動駕駛領域成果，能否上車其實也受制于車企的推進意愿。這三點正是UniAD大規(guī)模部署途中的三大攔路虎。

當UniAD宣布開源時，外界普遍關注其如何能在短時間內(nèi)迅速達到高水平并成功實現(xiàn)在車輛上的應用。

實際上，這一問題的復雜性遠超出人們的初步認識。李弘揚坦言，盡管基于Transformer架構的UniAD在追求卓越性能的過程中取得了顯著成果，但也無可避免地受限于Transformer模型本身固有的問題，尤其是在模型部署環(huán)節(jié)，因其巨大的參數(shù)量帶來了嚴峻挑戰(zhàn)。

在此背景下，眾多汽車制造商及相關企業(yè)正集中力量，著力于在確保高性能的前提下，將模型高效部署于車載嵌入式系統(tǒng)中，特別是像NVIDIA Orin等高性能汽車芯片以及高通驍龍819等新型芯片平臺。

李弘揚團隊所研發(fā)的多項算法在關鍵性能指標FPS上有顯著提升，已實現(xiàn)每秒處理超過20幀圖像，這意味著系統(tǒng)擁有更強的實時處理能力和更快的響應速度。

回顧初期，UniAD初次發(fā)布時，其FPS僅為8至9幀。經(jīng)過學界與產(chǎn)業(yè)界共同努力，如今已將該數(shù)值提升至超過20幀的高度。

在追求輕量化部署的過程中，車載芯片本身的特性也是一個重要考量因素。在自動駕駛領域，芯片并非單純追求極致算力，而是更看重穩(wěn)定性以及功耗控制，要求在較低功耗范圍內(nèi)（通常為十幾瓦左右）持續(xù)穩(wěn)定工作。同時還要具備良好的散熱性能以適應嚴苛的車載環(huán)境。相較于普通消費級芯片，車規(guī)級芯片需在更惡劣條件下運行，如寬溫范圍（零下40攝氏度至零上155攝氏度），以及應對光線、振動、粉塵、電磁干擾等多種復雜情況。

這就要求芯片即使在極端顛簸環(huán)境中也能保持穩(wěn)定工作，而這雖不屬于算法團隊的傳統(tǒng)研究范疇，卻也是必須解決的適配問題。若芯片算力不足，無法支持多種算法，或者生態(tài)系統(tǒng)不夠成熟，在設計網(wǎng)絡結構時，就必須精簡設計，甚至只能局限于芯片支持的現(xiàn)有庫中的算法。

針對決策與感知一體化的需求，其對計算能力的要求一開始就非常高。以高端配置為例，單顆芯片可能具備200TOPS的算力，兩顆芯片組合可達400TOPS，但這僅僅是理論上的峰值。在實際運行中，往往需要上千TOPS乃至更高的有效算力，因此需要進行針對性的優(yōu)化適配。凡此種種，皆對汽車廠商與芯片廠商都提出了更高的要求。

除了輕量化部署是一大難題之外，橫在UniAD面前的，還有高質(zhì)量數(shù)據(jù)這一老大難問題。

在通用視覺領域，現(xiàn)有的數(shù)據(jù)集往往缺乏足夠的三維數(shù)據(jù)或多角度信息。而對于自動駕駛應用場景來說，尤其是一些重要但出現(xiàn)頻率較低的特殊情境數(shù)據(jù)尤為關鍵。比如車輛在降雪環(huán)境下突然進入半開放式隧道，或是遇到具有潮汐車道屬性的左轉信號燈等情況。

這些罕見且關鍵的駕駛場景對數(shù)據(jù)的豐富度要求極高，但由于實際發(fā)生的概率較小，故難以積累充足的此類數(shù)據(jù)。許多自動駕駛領域的研究者在開展感知相關的研究時，急需三維數(shù)據(jù)及多視角重建的支持。因為在實際駕駛中駕駛員主要依賴前方視野，而要全面重建駕駛場景，則需要綜合考慮前后左右各方位的信息，這樣的高質(zhì)量數(shù)據(jù)極為稀缺。

除此之外，端到端技術的推行還面臨著結構性阻力。特別是在已有明確分工的傳統(tǒng)車企中，它們往往設有獨立的二級或三級部門，分別專注于預測、路徑規(guī)劃、控制等專項任務。若推行端到端技術，則意味著可能需要整合多個部門的功能，組建一個新的綜合性部門，類似于設立未來技術研究院。國內(nèi)傳統(tǒng)車企如一汽、廣汽等，它們的相關研究和技術開發(fā)通常就在類似的研究院體系下展開。

相比之下，國內(nèi)一些新興造車勢力更愿意接納和運用端到端技術。由于這些企業(yè)是從零起步，沒有歷史負擔，從無到有建立起自己的技術和管理體系，所以在技術層面更具創(chuàng)新性和前瞻性。此外，新興企業(yè)的組織結構相對扁平，部門劃分尚未固化，較容易接受端到端這樣打破原有模塊化界限的技術革新，從而更有效地推動技術進步與應用落地。

4、結語

盡管大模型技術在自動駕駛領域的應用前景廣闊，如UniAD等前沿項目在關鍵性能指標上取得了顯著的進步，但要實現(xiàn)大模型成功“上車”，仍有重重挑戰(zhàn)待解。

不過對于自動駕駛的期待，人類從來沒有停止。正如馬斯克近期在一場談話節(jié)目里所表示的那樣，「沒有自主權的汽車，跟馬沒有區(qū)別?！?/p>

當下，大模型技術的飛速發(fā)展正驅(qū)動汽車行業(yè)經(jīng)歷一場前所未有的變革，有望全面提升汽車行業(yè)效率與智能水平。而隨著決策與感知一體化設計理念的演進，汽車的架構設計和工程流程也正經(jīng)歷深刻的調(diào)整，產(chǎn)業(yè)鏈的各個環(huán)節(jié)都需要與時俱進地適應這一趨勢。

底層算法的不斷創(chuàng)新和完善，以及車載芯片的持續(xù)迭代升級，預示著汽車領域的顛覆性改革已然箭在弦上。

而未來的汽車究竟又會以哪種形態(tài)帶給人們更大的驚喜，這一切都讓人充滿期待。

本文作者長期關注大模型計算與框架、芯片領域動態(tài)，大模型上車還將會有哪些新故事？歡迎添加作者微信lionceau2046互通有無。

雷峰網(wǎng) 雷峰網(wǎng)(公眾號：雷峰網(wǎng)) 雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。