0
一周了,新智駕團隊都泡在上海車展里,一直走到腳底起水泡。
廢話不多說,關于今年國內智能駕駛行業(yè)的技術熱點,通過觀察這一屆上海車展,我們發(fā)現了這幾大關鍵詞:
去高精地圖的重感知方案;
BEV視角下的多模態(tài)融合(強調采用Transformer結構);
基于高算力的大規(guī)模數據訓練;
基于行泊一體解決方案NOA功能在城市場景的量產上車。
就在車展前兩天,華為發(fā)布ADS2.0版本,強調放棄高精地圖路線,實現城市導航輔助駕駛,計劃在23年實現60個無圖城市的落地。
車展期間,理想汽車也宣布,理想智能駕駛進入3.0時代,技術上采用基于Transformer模型架構的BEV、Occupancy感知算法,解決動靜態(tài)障礙物和道路真實環(huán)境重建問題,計劃2023年底,不依賴高精地圖,城市NOA推送100座中國城市。
“去高精地圖”“智能駕駛3.0時代”“BEV感知算法”……這些詞并非新面孔,此前就已被業(yè)內頻頻提及。
比如自動駕駛3.0時代是毫末在2022年9月份首次講到,那時,毫末就提出了大模型和可解釋的駕駛常識。
而“重感知”技術路線則又是毫末最早在2022年4月在行業(yè)內公開提及,也對其BEV感知技術做了公開展示,后邊車企智己汽車、極狐汽車等也走的是“重感知”路線,現在看起來,這個趨勢已漸漸被越來越多的行業(yè)各玩家所認可。
不難發(fā)現,過去一年間,隨著中國自動駕駛進入深度技術革新和產業(yè)的激烈競爭周期,行業(yè)的很多趨勢其實都與毫末這家公司的判斷和實踐不謀而合。
這次車展前夕,毫末發(fā)布行業(yè)首個自動駕駛生成式大模型DriveGPT,逐步融合感知和認知模型,提出實現端到端自動駕駛的技術演進目標。
毫末智行CEO顧維灝再次預測,“我們相信在大數據的基礎上,自動駕駛的DriveGPT也將重塑汽車智能化的技術路線,加速自動駕駛3.0時代更早到來?!?/p>
顧維灝認為,毫末正在沖刺進入自動駕駛的3.0時代。
當大多數參賽選手都在2.0階段打轉的時候,成立僅三年的毫末,敢喊出如此口號的底氣到底是什么?
首先得明確一下,毫末口中的“自動駕駛3.0時代”是怎么樣的。
每個時代都有典型的技術特征,由于驅動力和技術工具不同,技術高度上也明顯不同。
在技術特征上,自動駕駛可以分成四個維度:產品和技術運行了多少里程、感知技術的實現方法、認知技術的實現方法、技術模式的迭代方式。
在毫末看來,自動駕駛1.0時代,是硬件驅動時代。
在這一階段,自動駕駛車輛武裝到了牙齒,車上掛滿了各種大大小小硬件。
感知能力,主要靠的激光雷達,誰的線束多,誰的個數多,誰的能力強;在認知上,也基本使用規(guī)則的方式來實現。
而由于車輛整體成本比較高,所以車輛數量有限,同時技術效果一般,由此導致自動駕駛里程規(guī)模比較少,在100萬公里左右。
2.0時代,是軟件驅動時代,這時行業(yè)等來了更大算力的中央計算芯片,看到車上車規(guī)級傳感器個數在快速增加,也等到AI在車上的廣泛應用。
然而這時在感知方向上,各個傳感器仍是各自為戰(zhàn),用一些小模型和少量數據做訓練,得到單個傳感器的識別結果,然后進行感知結果級的融合。
在認知方向,依然是人工規(guī)則為主;不過由于整體成本的下降和效果的提升,自動駕駛里程在快速增加,達到上千萬公里。
3.0時代,則是數據驅動時代。
“這是完全不一樣的時代,是數據自己訓練自己的時代,我們所做的一切的,都是為了能夠做出數據通道和計算中心,以便可以更高效的獲取數據,并把數據轉化為知識。”顧維灝說。
不同階段的技術特征并不是突然發(fā)生變化的,這背后與智能駕駛落地場景的變化息息相關。
進入2023年,中國智能駕駛玩家NOA功能落地的戰(zhàn)火早已從高速場景蔓延至城市場景,甚至可以明確地說,城市導航輔助駕駛產品在2023年將圍繞量產上車發(fā)力。
從高速封閉道路到城市開放道路下的復雜場景,從感知實現技術上看,難度呈數量級上升,2.0時代的智能駕駛技術開始迎來質變期。
因此我們看到,在這個階段,從數據上看,大規(guī)模量產車的落地,提供了充沛的數據資源,在感知方向,行業(yè)開始用多個傳感器、不同模態(tài)傳感器的原始數據聯合輸出感知結果。
從算法上,Transformer架構模型在自動駕駛的應用成為行業(yè)公認的范式,在認知方向,開始通過大量人駕數據抽取可解釋的場景化駕駛常識,再配以AI實時計算,可以更加擬人化地融入社會交通流中。
訓練的方式,也發(fā)生了很多變化,主要是從小模型少數據,轉成大模型和真正的大數據,開始有1億公里以上的輔助駕駛里程所產出的數據,因此在算力上,云端智算中心建設成為趨勢。
這是3.0時代,智能駕駛技術需要解決的問題,也是毫末沖刺的方向。
以感知技術的實現方法為例,在城市場景,紅綠燈是最為普遍場景,但對紅綠燈識別也是個非常有挑戰(zhàn)性的任務。
一方面,紅綠燈比較小,是個典型的小目標檢測問題;另一方面,紅綠燈的狀態(tài)會動態(tài)變化,比如閃爍;除此之外,紅綠燈還有明顯的地方特色,橫著的、豎著的、三個的、五個的、有待轉的、有倒計時的,各地形色各異。
最具挑戰(zhàn)性的,還在于不同的燈,究竟具體管的是哪條路、管的哪條車道?
為此,基于充足的數據,毫末智行設計了針對紅綠燈檢測及綁路的雙流感知模型,將紅綠燈檢測和綁路問題分解成兩個通道。
此時毫末會通過訓練生成feature map的卷積神經網絡,獲得真實圖像中經常出現紅綠燈位置的概率圖,最后用空間注意力機制將二者結合,從而輸出綁路后目標車道紅綠燈通行狀態(tài)。
另外在車道線識別方面,毫末還設計了自己的BEV Transfomer進行車道線識別。
根據介紹,毫末大舉投入的Transformer模型效果驚人:通過自研的BEV Transfomer,毫末在城市道路上實現了多傳感器融合車道線識別,號稱能讓中國沒有不能識別的車道線。
方向比努力更重要。
重要的不是所占據的這個地方,而是在不斷前進的那個方向。
早幾年,圍繞自動駕駛商業(yè)化路徑,究竟應該走“跨越式”發(fā)展方向,還是“漸進式”方向,不同玩家爭論不休。
而在成立之初,毫末就在業(yè)內堅定地首次提出了自動駕駛商業(yè)發(fā)展三定律——“從低速到高速,從載物到載人,從商用到民用”,強調自動駕駛技術的“可行、可靠、可商用”。
這無疑是條透露著務實氣質的漸進式落地路線,這一方面能讓方案先搭載到量產車上,實現營收,從而做到商業(yè)閉環(huán),另一方面又可以積累數據。
事實上,國內自動駕駛的商業(yè)化發(fā)展軌跡,也確實精準地貼合了毫末所提出的這三大發(fā)展定律,也因此讓毫末少了許多技術路線搖擺的內耗過程。
中國智能駕駛進入2023年,毫末再次拋出觀察:對于2023年的智能駕駛市場,今年是沖刺之年、大考之年。
數據顯示,2022年度中國市場,乘用車L2及以上輔助駕駛前裝搭載率升至29.40%,前裝標配交付585.99萬輛。
毫末則在去年預估,到2025年高級別輔助駕駛搭載率將超過70%。
毫末董事長張凱認為,這意味著智駕產品正在進入快速增長的全線爆發(fā)期,2023年是非常關鍵的一年。
首先,城市導航輔助駕駛產品在2023年將圍繞量產上車發(fā)力,主要玩家的城市輔助駕駛產品進入到真實用戶覆蓋和多城市落地的比拼。
其次,行泊一體和末端物流自動配送產業(yè)商業(yè)化將成為自動駕駛公司深耕的重點。
在乘用車領域,搭載行泊一體功能的智駕產品將迎來前裝量產潮;在末端物流自動配送領域,商超、快遞等場景迎來爆發(fā),2023年將在這些場景實現可持續(xù)商業(yè)化閉環(huán)。
這些都意味著,用戶開始更高頻地開啟輔助駕駛功能,智駕行駛里程滲透率呈現指數級提升,將驅動著自動駕駛技術的快速迭代升級。
而早在這之前,圍繞自動駕駛產品能力的打造,毫末就提出了數據驅動的第一性原理,又總結出了自動駕駛能力發(fā)展曲線F=Z+M(X),也正是對這一曲線的認知,讓毫末的研發(fā)體系即使是在應對快速變化、五花八門的智能駕駛場景需求時,也能保持著高效、穩(wěn)定的迭代。
在F=Z+M(X)中,F代表產品力,Z代表毫末第一代產品,M代表將數據轉化為知識的函數,包括數據獲取、表達、存儲、傳輸、計算、驗證,以及對成本和速度的影響,而最核心的M,就是MANA。
MANA是毫末在2021年底發(fā)布的中國首個自動駕駛數據智能體系,由BASE、TARS、LUCAS、VENUS四個子系統(tǒng)組成。
其中BASE是通用的數據基礎服務、計算基礎服務和支撐跨平臺的中間件;
TARS是自動駕駛中的核心算法原型,包括感知、認知、地圖以及支撐算法原型迭代的仿真系統(tǒng);
LUCAS是提取數據價值,以數據驅動系統(tǒng)能力持續(xù)迭代的核心子系統(tǒng),解決場景泛化,評測和部署的問題;
VENUS是數據可視化系統(tǒng),提供全局的數據洞察等能力并且提供車輛管理、平行駕駛等平臺工具。
基于MANA,毫末的五大能力逐步進化。
以自動標注能力為例,人工智能算法的進步離不開大量的數據標注工作,如果在當下這個智駕產品進入大規(guī)模量產的階段,能提高數據標注的效率,無疑能擁有更多的成本優(yōu)勢。
根據介紹,毫末早以閉環(huán)思路、無監(jiān)督自動標注算法等為支撐,推出了自動標注,性能較市場上很多競品高很多倍。
更值得一提的,是為了讓GPU不再等待數據,讓數據轉化成知識的速度更快,毫末在2023年1月發(fā)布了國內自動駕駛行業(yè)最大智算中心雪湖·綠洲,實現每秒浮點運算達到67億億次,存儲帶寬達到2T/秒,通信帶寬則達到800G/秒。
通過升級以上計算、存儲、通訊方面的配備,目前雪湖·綠洲的訓練效率提升了100倍。
感知要解決的是從傳感器信號中重建客觀世界的問題,而認知要解決的是從客觀世界到駕駛動作的映射問題。
在認知領域,毫末在今年4月份做了項關鍵的升級——發(fā)布自動駕駛生成式大模型DriveGPT,中文名:雪湖·海若,這是業(yè)內首次將 GPT 應用到自動駕駛領域。
GPT的全稱是生成式預訓練Transformer模型,本身是一種非常通用的建模范式,能應用的領域非常之多。
其實在ChatGPT大火之前,GPT就已經用在了其他領域,比如2021年7月的CodeX,也就是CodeGPT,可以用于代碼生成,提升寫代碼的效率,還有2021年12月發(fā)布的WebGPT,可以讓GPT利用搜索引擎,主動搜索結果并匯總整理出答案,也就是近期微軟發(fā)布的New Bing搜索。
從本質上看,GPT是在求解下一個詞出現的概率,即每一次調用都是從概率分布中抽樣,并生成一個詞,這樣不斷地循環(huán),就能生成一連串的字符,用于各種下游任務。
而毫末發(fā)布的DriveGPT,也是在求解下一個Token(詞)的概率,通過每一次調用都相當于根據前序Token序列生成一個Token,這些Token就相當于自然語言處理中的一個詞語,只不過這里的Token是用來描述駕駛場景的。
一連串的Token拼在一塊就是一個完整的駕駛場景時間序列,這樣就能將自動駕駛場景Token化,形成“Drive Language”,最終完成自車的決策規(guī)控、障礙物預測以及決策邏輯鏈的輸出等任務。
毫末的目標,則是在DriveGPT這樣一個統(tǒng)一的生成式框架下,做到將規(guī)劃、決策與推理等多個任務全部完成。
目前,毫末DriveGPT主要用于解決自動駕駛的認知決策問題,后續(xù)會將毫末多個大模型的能力整合到DriveGPT中。
“這部分的工作,即使放眼全球也是非常獨特和創(chuàng)新的?!鳖櫨S灝稱。
這就需要通過引入海量真實人駕接管數據建立RLHF(人類反饋強化學習)技術,對自動駕駛認知決策模型進行持續(xù)優(yōu)化。
據介紹,目前毫末DriveGPT已實現模型架構與參數規(guī)模的升級,參數規(guī)模達到1200億,預訓練階段引入4000萬公里量產車駕駛數據,RLHF階段引入5萬段人工精選的困難場景接管Clips。
除此之外,要想持續(xù)訓練DriveGPT,也離不開算力的支持。
除了前文提及的建立智算中心,毫末還對訓練和推理框架進行了三方面升級:
第一個是訓練穩(wěn)定性的保障和升級,在大模型訓練框架的基礎上,毫末與火山引擎共建全套訓練保障框架,最終實現異常任務分鐘級捕獲和恢復能力,可以保證千卡任務連續(xù)訓練數月沒有任何非正常中斷;
第二個是彈性調度資源的升級,毫末將增量學習技術推廣至大模型訓練框架,構建一個大模型持續(xù)學習系統(tǒng),研發(fā)了任務級彈性伸縮調度器,實現分鐘級調度資源,集群計算資源利用率達到95%;
第三個則是吞吐效率的升級,通過引入火山引擎提供的Lego算子庫實現算子融合,端到端吞吐提升84%。
而毫末DriveGPT的最終目標,是做到感知決策一體化,實現端到端自動駕駛。
相比于傳統(tǒng)模塊化的方案,端到端自動駕駛,是基于人類根據場景信息直接輸出控制信號這一駕駛過程,通過端到端網絡直接輸出車輛的軌跡規(guī)劃或控制信號,最優(yōu)性更佳,同時人為設計更少,不過因此也對算法提出了更高的要求。
這是業(yè)內的又一前沿技術探索方向,毫末DriveGPT的發(fā)布和應用落地無疑領先一步。
根據介紹,DriveGPT雪湖·海若將率先探索在這四大場景的應用:智能駕駛、駕駛場景識別、駕駛行為驗證、困難場景脫困。
首先會開放的,則是DriveGPT的智能駕駛和駕駛場景識別服務。
現階段在業(yè)內,數據標注的成本很高,一般而言要得到對諸如車道線、交通參與者、紅綠燈等的正確標注結果,一張圖片需要5元,而毫末開放的DriveGPT雪湖·海若的場景識別服務,一張圖片的價格將下降到0.5元。
顧維灝透露,毫末DriveGPT雪湖·海若大模型的成果,將首發(fā)落地在搭載毫末HPilot3.0的新摩卡DHT-PHEV上,這個車型會很快上市,“我們也能為城市NOH提供優(yōu)秀的駕駛體驗,引領行業(yè)領先趨勢”。
雷峰網#雷峰網#雷峰網(公眾號:雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。