0
作者丨郭思
編輯丨陳彩嫻
圍繞大模型應(yīng)用于自動駕駛的討論熱度持續(xù)升溫,卻呈現(xiàn)出愈發(fā)復(fù)雜而矛盾的現(xiàn)象。
一方面,資本力量的積極投入,行業(yè)巨頭紛紛搶占先機(jī)。例如,特斯拉近期推出了其“端到端”的全自動駕駛軟件FSD v12版本,并已在美國和加拿大地區(qū)逐步面向非員工用戶提供更新服務(wù)。與此同時,小米汽車于23年末宣告搭載自主研發(fā)的端到端感知決策大模型的小米智能駕駛系統(tǒng)面世,展現(xiàn)其在自動駕駛領(lǐng)域的創(chuàng)新突破。
學(xué)術(shù)界同樣對此表現(xiàn)出濃厚興趣,諸如BEV(鳥瞰視角)技術(shù)和NLP(自然語言處理)的應(yīng)用推動著汽車智能化走向新的高峰。其中,上海人工智能實(shí)驗(yàn)室在2023年CVPR會議上榮獲最佳論文獎的UniAD自動駕駛模型,正是全球首個實(shí)現(xiàn)感知決策一體化的自動駕駛大模型典范。
然而,另一方面,透過華麗的宣傳表象,實(shí)際專注于研發(fā)和應(yīng)用自動駕駛大模型的企業(yè)數(shù)量并不多(據(jù)AI科技評論了解,當(dāng)前在這一領(lǐng)域穩(wěn)健推進(jìn)的僅有英國Wayve等少數(shù)公司)。傳統(tǒng)汽車行業(yè)的模塊化管理模式長期以來形成的壁壘,令汽車行業(yè)在面對大模型試圖一攬子解決諸多問題的新模式時承受巨大壓力。
在此之前,國內(nèi)某企業(yè)自動駕駛的負(fù)責(zé)人也曾透露,大模型技術(shù)的發(fā)展潮流促使整個部門內(nèi)部組織結(jié)構(gòu)發(fā)生顯著調(diào)整。一體化的自動駕駛決策大模型在某種程度上緩解了過去車企內(nèi)部感知與決策部門間可能出現(xiàn)的沖突與不協(xié)調(diào)。然而,在邁向大規(guī)模部署和產(chǎn)業(yè)化發(fā)展的道路上,尚需面對輕量化部署難度高、高質(zhì)量訓(xùn)練數(shù)據(jù)匱乏、傳統(tǒng)車企轉(zhuǎn)型升級步伐緩慢等一系列挑戰(zhàn)。
大模型「上車」之路,看似近在咫尺,實(shí)則極具挑戰(zhàn)。
1、大腦和耳目的「分崩離析」
和人類一樣,智能駕駛汽車想要自己開上路,首先需要對周圍環(huán)境有一個認(rèn)識。這件事情一般會交給自動駕駛的感知系統(tǒng)來完成。感知系統(tǒng)以多種傳感器的數(shù)據(jù)和高精度地圖的信息作為信息輸入,經(jīng)過一系列計(jì)算及處理,對自動駕駛汽車周圍環(huán)境進(jìn)行精確感知,也常常被比喻成智能汽車的”眼睛“和”耳朵“。
只不過有了眼睛和耳朵還不夠,上路還需要強(qiáng)大的大腦,這也就牽扯到了自動駕駛領(lǐng)域的決策系統(tǒng)。
長久以來,這兩個系統(tǒng)各自面臨技術(shù)和實(shí)踐上的挑戰(zhàn),有時呈現(xiàn)出“分崩離析”的狀態(tài),在某些復(fù)雜場景下,感知模塊可能無法準(zhǔn)確識別或理解環(huán)境信息,而決策模塊也可能因?qū)Ω兄Y(jié)果處理不當(dāng)或算法局限性導(dǎo)致不正確的行駛決策。
這一現(xiàn)狀也體現(xiàn)在眾多自動駕駛公司的組織架構(gòu)之中。
在國內(nèi)自動駕駛行業(yè)某頭部公司內(nèi)部,感知與決策團(tuán)隊(duì)之間的緊張關(guān)系一度成為焦點(diǎn)。感知部門作為信息采集和初步處理的上游,負(fù)責(zé)通過各類傳感器收集環(huán)境數(shù)據(jù)并進(jìn)行初步分析;而決策部門則扮演下游角色,基于感知數(shù)據(jù)做出駕駛策略決策。由于兩部門職能緊密相連且相互依賴,兩位團(tuán)隊(duì)負(fù)責(zé)人在技術(shù)路線、資源分配及責(zé)任邊界等方面出現(xiàn)了較大分歧,甚至影響到了整體工作的協(xié)調(diào)推進(jìn)。
最終,為了解決這一內(nèi)耗問題,最后導(dǎo)致管理層不得不將兩個人的權(quán)責(zé)范圍進(jìn)行調(diào)整。
另一個傳統(tǒng)車企研究院的技術(shù)架構(gòu)師曾告訴AI 科技評論,自動駕駛部分這兩個部分碰撞十分之多。軟件模塊一旦涉及到接口的東西,出現(xiàn)問題之際,很難撇清是誰的責(zé)任,必須要有模塊化的測試用例,從而去進(jìn)行區(qū)分。
汽車在行駛過程中,最終決策如果有出現(xiàn)錯誤,就可能意味著在決策之上的每一個環(huán)節(jié)都在出現(xiàn)問題。傳統(tǒng)的模塊方式,會有誤差的累積。如果感知模塊未能正確識別出道路障礙物或預(yù)測其他交通參與者的行為,則可能導(dǎo)致決策規(guī)劃模塊依據(jù)錯誤的信息做出不正確的行駛決策。此外,模塊之間的信息傳遞如果不清晰或者接口定義不嚴(yán)謹(jǐn),也會導(dǎo)致信息丟失或誤傳,進(jìn)一步增加決策錯誤的風(fēng)險(xiǎn)。
為了減少這類問題,汽車制造商和研發(fā)機(jī)構(gòu)通常會采取諸如模塊化設(shè)計(jì)與測試、集成測試與回歸測試、功能安全認(rèn)證以及強(qiáng)大的仿真平臺與實(shí)車測試等措施,以求最大程度上減少誤差累積和避免事故發(fā)生。
但盡管如此,由于自動駕駛技術(shù)的復(fù)雜性和多學(xué)科交叉特性,完全消除錯誤和不確定性仍然是一個艱巨的任務(wù)。模塊化設(shè)計(jì)與測試雖有助于隔離問題,確保每個模塊獨(dú)立運(yùn)作的可靠性,但在實(shí)際集成過程中,模塊間的交互可能導(dǎo)致新的未知問題出現(xiàn)。
行業(yè)迫切需要一套更簡單高效解決的方案。
2、決策與感知握手言和是大勢所趨
2023年12月,小米汽車宣布推出搭載其自研端到端感知決策大模型的小米智能駕駛系統(tǒng)。緊接著,特斯拉也發(fā)布了其“端到端”自動駕駛軟件FSD v12版本,并開始在北美向非員工用戶推送。這似乎在表明對決策感知一體化的深入理解正成為共識,預(yù)示著行業(yè)發(fā)展的趨勢。
然而,在決策感知一體化概念進(jìn)入公眾視野之前,早就有一群敏銳的學(xué)術(shù)先行者已經(jīng)關(guān)注到這一動向。
2023年6月,上海人工智能實(shí)驗(yàn)室的自動駕駛?cè)珬?煽囟说蕉朔桨窾niAD相關(guān)研究論文,在人工智能頂會CVPR(國際計(jì)算機(jī)視覺與模式識別會議)上榮獲最佳論文獎。這是有史以來自動駕駛相關(guān)技術(shù)首次獲此殊榮。UniAD向全世界展示了感知、規(guī)劃及決策一體化的“端到端”框架,為自動駕駛開拓了新方向。
上海人工智能實(shí)驗(yàn)室青年科學(xué)家、OpenDriveLab團(tuán)隊(duì)負(fù)責(zé)人李弘揚(yáng)博士向AI科技評論表示,2023年的獲獎只是最終結(jié)果。在此之前,包括其團(tuán)隊(duì)在內(nèi),學(xué)術(shù)界和產(chǎn)業(yè)界對自動駕駛的研究經(jīng)歷了一段探索過程。
2021年,彼時剛加入上海人工智能實(shí)驗(yàn)室不久的李弘揚(yáng),注意到了國外一個自動駕駛系統(tǒng)開源項(xiàng)目——Openpilot。
基于Openpilot系統(tǒng),只需為車輛安裝一個當(dāng)時售價(jià)999美元的后裝設(shè)備,內(nèi)置單個攝像頭和電路板,可以處理L2級別的駕駛場景,實(shí)現(xiàn)自適應(yīng)巡航控制(ACC)、自動車道保持(ALC)、前向碰撞警告(FCW)和車道偏離警告(LDW)等功能,目前已支持40余種車型。相比特斯拉完全自動駕駛系統(tǒng),Openpilot成本低,效果卻十分驚艷。
OpenDriveLab團(tuán)隊(duì)系統(tǒng)研究了Openpilot的各項(xiàng)技術(shù)細(xì)節(jié),得出結(jié)論:Openpilot之所以能夠在單一設(shè)備上實(shí)現(xiàn)L2級自動駕駛,關(guān)鍵在于端到端的系統(tǒng)設(shè)計(jì),而非傳統(tǒng)的模塊化框架。并于當(dāng)年發(fā)表了一篇Openpilot研究論文,向?qū)W術(shù)界和產(chǎn)業(yè)界分享了觀點(diǎn)。
OpenDriveLab團(tuán)隊(duì)Openpilot研究論文截圖
論文鏈接:https://arxiv.org/abs/2206.08176
「原來自動駕駛可以做得如此簡單。」
受此影響,團(tuán)隊(duì)開始著手設(shè)計(jì)端到端的直接輸出項(xiàng)目,成為開啟UniAD研究的首個關(guān)鍵節(jié)點(diǎn)。
而UniAD研究的第二個關(guān)鍵節(jié)點(diǎn)則與BEV + Transformer相關(guān)。
BEV是如今自動駕駛領(lǐng)域的熱門詞匯。即通過車輛上傳感器接收的數(shù)據(jù)生成俯視圖(地圖)坐標(biāo)系下感知結(jié)果的算法,包括檢測、分割等任務(wù),是現(xiàn)行自動駕駛領(lǐng)域環(huán)境感知和表示的重要方式。
在BEV之前,大部分汽車廠商的做法是先去感知了2D圖像中的一些特征,比如說車在哪里,車輪的接定點(diǎn)在哪里,車的長寬比例是多少,拿到了一些圖像層面的信息之后。再根據(jù)相機(jī)的一些3D的標(biāo)定幾何參數(shù)去獲得目標(biāo)在三維空間下的準(zhǔn)確的位置信息。
直到 2014 年,一篇標(biāo)題為“Automatic Parking Based on a Bird’s Eye View Vision System”的論文發(fā)表,改變了這一局面。該論文的核心內(nèi)容是:通過四顆魚眼攝像頭感知環(huán)境信息,并來構(gòu)建一個 BEV 視覺系統(tǒng),并由此實(shí)現(xiàn)自動泊車。BEV橫空出世,成為了大家爭相研究的方向。
感知下游的規(guī)劃控制成為了主流做法。而隨著深度學(xué)習(xí)技術(shù)的持續(xù)進(jìn)步,在2021年底至2022年間,BEV與Transformer的深度融合逐漸成為了自動駕駛領(lǐng)域內(nèi)的主流研究趨勢。
當(dāng)時,學(xué)術(shù)界面臨如何繼續(xù)深化自動駕駛技術(shù)創(chuàng)新的挑戰(zhàn),這要求從系統(tǒng)架構(gòu)和軟件工程層面深入探討,并前瞻性地預(yù)見行業(yè)發(fā)展趨勢。
而從商業(yè)化角度看,2021年之際,自動駕駛技術(shù)似乎已觸及了一個瓶頸階段,L2級別的輔助駕駛功能基本滿足了大部分日常駕駛需求。吉利汽車與Mobileye的合作就是這一趨勢的體現(xiàn),當(dāng)時計(jì)劃在2021年實(shí)現(xiàn)L2+級自動駕駛系統(tǒng)的量產(chǎn)。其他汽車制造商如日本的幾家大型車企也在2022年前后在其主力車型中廣泛普及L2級別的自動駕駛技術(shù)。
只不過在應(yīng)對復(fù)雜多變的交通場景,提供更加流暢和穩(wěn)定的駕駛體驗(yàn)上,各家都顯得捉襟見肘。
李弘揚(yáng)銳地感知到了這一趨勢,堅(jiān)信端到端大模型具有廣闊前景,是推動自動駕駛領(lǐng)域發(fā)展的有力途徑。
一開始他們在感知階段使用Transformer,而在預(yù)測和控制階段則采用了Resnet架構(gòu)。嘗試將所有模塊整合進(jìn)單一網(wǎng)絡(luò)結(jié)構(gòu),但在這時卻遭遇了訓(xùn)練不穩(wěn)定和性能下滑的問題。統(tǒng)一了全用 Transformer 這種網(wǎng)絡(luò)結(jié)構(gòu)之后, QPV 等等這些幾個變量都能統(tǒng)一到一起。需要一整套的這種系統(tǒng)的級聯(lián)以及豐富模型訓(xùn)練的這種經(jīng)驗(yàn)的背景,才把這一套跑通。
在UniAD中,研究人員首次將感知、預(yù)測和規(guī)劃等三大類主任務(wù)、六小類子任務(wù)(目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃)整合到統(tǒng)一的基于 Transformer的端到端網(wǎng)絡(luò)框架下,實(shí)現(xiàn)了全棧關(guān)鍵任務(wù)駕駛通用模型。
在 nuScenes 真實(shí)場景數(shù)據(jù)集下,UniAD的所有任務(wù)均達(dá)到領(lǐng)域最佳性能(State-of-the-art),尤其是預(yù)測和規(guī)劃效果遠(yuǎn)超之前的最佳方案。其中,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車道線預(yù)測準(zhǔn)確率提升30%,預(yù)測運(yùn)動位移和規(guī)劃的誤差則分別降低了38%和28%。
該成果一旦大規(guī)模應(yīng)用其實(shí)也會一定程度解決文章開頭提及的決策和感知打架的矛盾。
在學(xué)術(shù)前沿技術(shù)公布之后,緊隨其后的重點(diǎn)是探索其產(chǎn)業(yè)落地的可能性及其對社會價(jià)值的有效貢獻(xiàn)。對于UniAD這一自動駕駛領(lǐng)域的尖端技術(shù)來說,其向車載應(yīng)用場景邁進(jìn)的道路充滿了挑戰(zhàn)。
核心挑戰(zhàn)首先是如何實(shí)現(xiàn)模型的輕量化部署以及獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。另一方面,UniAD作為一項(xiàng)自動駕駛領(lǐng)域成果,能否上車其實(shí)也受制于車企的推進(jìn)意愿。這三點(diǎn)正是UniAD大規(guī)模部署途中的三大攔路虎。
當(dāng)UniAD宣布開源時,外界普遍關(guān)注其如何能在短時間內(nèi)迅速達(dá)到高水平并成功實(shí)現(xiàn)在車輛上的應(yīng)用。
實(shí)際上,這一問題的復(fù)雜性遠(yuǎn)超出人們的初步認(rèn)識。李弘揚(yáng)坦言,盡管基于Transformer架構(gòu)的UniAD在追求卓越性能的過程中取得了顯著成果,但也無可避免地受限于Transformer模型本身固有的問題,尤其是在模型部署環(huán)節(jié),因其巨大的參數(shù)量帶來了嚴(yán)峻挑戰(zhàn)。
在此背景下,眾多汽車制造商及相關(guān)企業(yè)正集中力量,著力于在確保高性能的前提下,將模型高效部署于車載嵌入式系統(tǒng)中,特別是像NVIDIA Orin等高性能汽車芯片以及高通驍龍819等新型芯片平臺。
李弘揚(yáng)團(tuán)隊(duì)所研發(fā)的多項(xiàng)算法在關(guān)鍵性能指標(biāo)FPS上有顯著提升,已實(shí)現(xiàn)每秒處理超過20幀圖像,這意味著系統(tǒng)擁有更強(qiáng)的實(shí)時處理能力和更快的響應(yīng)速度。
回顧初期,UniAD初次發(fā)布時,其FPS僅為8至9幀。經(jīng)過學(xué)界與產(chǎn)業(yè)界共同努力,如今已將該數(shù)值提升至超過20幀的高度。
在追求輕量化部署的過程中,車載芯片本身的特性也是一個重要考量因素。在自動駕駛領(lǐng)域,芯片并非單純追求極致算力,而是更看重穩(wěn)定性以及功耗控制,要求在較低功耗范圍內(nèi)(通常為十幾瓦左右)持續(xù)穩(wěn)定工作。同時還要具備良好的散熱性能以適應(yīng)嚴(yán)苛的車載環(huán)境。相較于普通消費(fèi)級芯片,車規(guī)級芯片需在更惡劣條件下運(yùn)行,如寬溫范圍(零下40攝氏度至零上155攝氏度),以及應(yīng)對光線、振動、粉塵、電磁干擾等多種復(fù)雜情況。
這就要求芯片即使在極端顛簸環(huán)境中也能保持穩(wěn)定工作,而這雖不屬于算法團(tuán)隊(duì)的傳統(tǒng)研究范疇,卻也是必須解決的適配問題。若芯片算力不足,無法支持多種算法,或者生態(tài)系統(tǒng)不夠成熟,在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)時,就必須精簡設(shè)計(jì),甚至只能局限于芯片支持的現(xiàn)有庫中的算法。
針對決策與感知一體化的需求,其對計(jì)算能力的要求一開始就非常高。以高端配置為例,單顆芯片可能具備200TOPS的算力,兩顆芯片組合可達(dá)400TOPS,但這僅僅是理論上的峰值。在實(shí)際運(yùn)行中,往往需要上千TOPS乃至更高的有效算力,因此需要進(jìn)行針對性的優(yōu)化適配。凡此種種,皆對汽車廠商與芯片廠商都提出了更高的要求。
除了輕量化部署是一大難題之外,橫在UniAD面前的,還有高質(zhì)量數(shù)據(jù)這一老大難問題。
在通用視覺領(lǐng)域,現(xiàn)有的數(shù)據(jù)集往往缺乏足夠的三維數(shù)據(jù)或多角度信息。而對于自動駕駛應(yīng)用場景來說,尤其是一些重要但出現(xiàn)頻率較低的特殊情境數(shù)據(jù)尤為關(guān)鍵。比如車輛在降雪環(huán)境下突然進(jìn)入半開放式隧道,或是遇到具有潮汐車道屬性的左轉(zhuǎn)信號燈等情況。
這些罕見且關(guān)鍵的駕駛場景對數(shù)據(jù)的豐富度要求極高,但由于實(shí)際發(fā)生的概率較小,故難以積累充足的此類數(shù)據(jù)。許多自動駕駛領(lǐng)域的研究者在開展感知相關(guān)的研究時,急需三維數(shù)據(jù)及多視角重建的支持。因?yàn)樵趯?shí)際駕駛中駕駛員主要依賴前方視野,而要全面重建駕駛場景,則需要綜合考慮前后左右各方位的信息,這樣的高質(zhì)量數(shù)據(jù)極為稀缺。
除此之外,端到端技術(shù)的推行還面臨著結(jié)構(gòu)性阻力。特別是在已有明確分工的傳統(tǒng)車企中,它們往往設(shè)有獨(dú)立的二級或三級部門,分別專注于預(yù)測、路徑規(guī)劃、控制等專項(xiàng)任務(wù)。若推行端到端技術(shù),則意味著可能需要整合多個部門的功能,組建一個新的綜合性部門,類似于設(shè)立未來技術(shù)研究院。國內(nèi)傳統(tǒng)車企如一汽、廣汽等,它們的相關(guān)研究和技術(shù)開發(fā)通常就在類似的研究院體系下展開。
相比之下,國內(nèi)一些新興造車勢力更愿意接納和運(yùn)用端到端技術(shù)。由于這些企業(yè)是從零起步,沒有歷史負(fù)擔(dān),從無到有建立起自己的技術(shù)和管理體系,所以在技術(shù)層面更具創(chuàng)新性和前瞻性。此外,新興企業(yè)的組織結(jié)構(gòu)相對扁平,部門劃分尚未固化,較容易接受端到端這樣打破原有模塊化界限的技術(shù)革新,從而更有效地推動技術(shù)進(jìn)步與應(yīng)用落地。
盡管大模型技術(shù)在自動駕駛領(lǐng)域的應(yīng)用前景廣闊,如UniAD等前沿項(xiàng)目在關(guān)鍵性能指標(biāo)上取得了顯著的進(jìn)步,但要實(shí)現(xiàn)大模型成功“上車”,仍有重重挑戰(zhàn)待解。
不過對于自動駕駛的期待,人類從來沒有停止。正如馬斯克近期在一場談話節(jié)目里所表示的那樣,「沒有自主權(quán)的汽車,跟馬沒有區(qū)別?!?/p>
當(dāng)下,大模型技術(shù)的飛速發(fā)展正驅(qū)動汽車行業(yè)經(jīng)歷一場前所未有的變革,有望全面提升汽車行業(yè)效率與智能水平。而隨著決策與感知一體化設(shè)計(jì)理念的演進(jìn),汽車的架構(gòu)設(shè)計(jì)和工程流程也正經(jīng)歷深刻的調(diào)整,產(chǎn)業(yè)鏈的各個環(huán)節(jié)都需要與時俱進(jìn)地適應(yīng)這一趨勢。
底層算法的不斷創(chuàng)新和完善,以及車載芯片的持續(xù)迭代升級,預(yù)示著汽車領(lǐng)域的顛覆性改革已然箭在弦上。
而未來的汽車究竟又會以哪種形態(tài)帶給人們更大的驚喜,這一切都讓人充滿期待。
本文作者長期關(guān)注大模型計(jì)算與框架、芯片領(lǐng)域動態(tài),大模型上車還將會有哪些新故事?歡迎添加作者微信lionceau2046互通有無。
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。