0
本文作者: 丁莉 | 2025-09-04 10:52 |
數(shù)據(jù)一直是具身智能圈子里最頭疼的問題之一。
過去一兩年里,真機數(shù)據(jù)的信仰者和仿真數(shù)據(jù)的擁躉們吵得不可開交。真機實采價格昂貴、效率低下,成本動輒上億元;仿真數(shù)據(jù)面臨巨大的 Sim2Real 鴻溝。兩者似乎都無法帶來涌現(xiàn),讓技術進展陷入卡殼。
有人開始探索世界模型。這個在自動駕駛領域先火起來的概念真能救得了具身智能嗎?
朱政是其中之一,也是當下從自動駕駛轉向具身智能的洶涌大軍中的一員。
他是CV(計算機視覺)出身,博士畢業(yè)于中科院自動化研究所,隨后在清華大學自動化系從事博士后研究。過去十余年間, CV 界科研人員經歷了好幾個應用風口,先是人臉識別,再之后是自動駕駛。
這也是朱政早期的研究。他在頂會頂刊上發(fā)表超過70篇論文,引用超過16000次,曾獲得過NIST-FRVT、 COCO、 VOT 等頂級視覺競賽冠軍,開發(fā)的 WebFace260M 是全球最大的人臉識別數(shù)據(jù)集,被500余家科研機構申請使用; BEVDet 是 BEV 感知領域的代表性算法,被多家車企和自動駕駛公司3D感知方案采用,在 KITTI、nuScenes等榜單排名第一。
現(xiàn)在,繼自動駕駛和人臉識別之后,CV 界又來到了具身智能的門前。
“在前兩個領域,視覺感知始終是重心。但到了具身智能場景,需要頻繁地同物理世界交互,因此,重心轉移到了解決 action 的能力,這是進化的必然?!敝煺嬖V雷峰網(公眾號:雷峰網) AI科技評論,人臉識別是一個單點問題,自動駕駛是一個系統(tǒng)問題,而具身智能觸及了更本質的問題——改變物理世界。這也是 CV 研究者的終極考驗。
如何完成這個轉型?朱政找到的切點是世界模型。
作為極佳科技聯(lián)合創(chuàng)始人、首席科學家,朱政此前已帶領團隊為多家車企提供基于世界模型的仿真環(huán)境,用于測試和優(yōu)化自動駕駛算法。團隊的學術成果 DriveDreamer 也入選了 ECCV 2024 最具影響力論文榜單。
去年開始,他們順勢轉戰(zhàn),開始研究具身智能的世界模型。不久前,他們發(fā)布了主要基于世界模型數(shù)據(jù)訓練的 VLA —— GigaBrain ,據(jù)稱應對 Zero-Shot 的任務成功率提升了 50 個百分點。世界模型平臺 GigaWorld 也會在本月發(fā)布。趁著這波具身智能熱潮,極佳科技在半年內連續(xù)完成了三輪融資。
今年,世界模型迅速躥紅,在整個圈子中被炒得沸沸揚揚,但圍繞它的許多概念業(yè)內還未厘清,比如:世界模型是什么?它和VLA關系是怎樣的?
朱政向雷峰網 AI科技評論表示,短期內,世界模型是“馴化” VLA 的容器,能解決后者訓練數(shù)據(jù)不足的致命痛點;但長期來看,二者或許會融為一體,“世界模型是物理世界通用智能最重要的事情,是唯一可能創(chuàng)造出與 LLM 時代互聯(lián)網數(shù)據(jù)比肩的數(shù)據(jù)量的路徑?!?/p>
AI科技評論:當下整個行業(yè)對世界模型的定義還遠遠沒有收斂,您對世界模型的定義是什么?或者說極佳想做的是哪種世界模型?
朱政:我們關注的是世界模型的本質——對于未來的預測能力。
不同領域對于世界模型的定義的確不太一樣。 CV 界主要關注視頻生成, RL界則更多關注 agent ,他們的重心是為 agent 提供仿真訓練環(huán)境。但無論出于哪種目的,都是因為世界模型有對未來的預測能力。
所謂預測能力是指,在給定一個 action 序列的情況下,世界模型可以給出環(huán)境的反饋。當然 action 的定義就比較廣泛了,可以是文本,比如文生視頻;也可以是各種結構化的條件,比如在自動駕駛領域,它可以是 3D 框或者車道線;在具身智能領域,我們更關注的是動作序列。
AI科技評論:但預測的終極目標也是為了服務 agent ?
朱政:我們把世界模型分成三個階段。
現(xiàn)階段主要是用世界模型生成訓練數(shù)據(jù);下一步會為 agent 提供閉環(huán)仿真環(huán)境;到最后一階段,世界模型會進化成VLA的下一代。
AI科技評論:你覺得這三個階段最終要走完并且成熟需要多長時間?
朱政:現(xiàn)在比較成熟的是用世界模型生成數(shù)據(jù),這方面大家已經有一些共識了,據(jù)我所知,不僅我們,很多本體公司、具身大腦公司、大廠可能都在探索。到明年如果我們能首先證明這條路徑的可行性,大家可能都會跟進。
下面兩個階段會對世界模型的能力會提出更高要求,比如在可控性、物理規(guī)律擬合方面做得更好。整個過程大概需要花費 3 到 5 年時間。
AI科技評論:所以具身智能的成熟和普及也會在這個節(jié)點之后出現(xiàn)?
朱政:是的。
AI科技評論:世界模型應該是一個全局模型還是可定制的垂直模型?
朱政:世界模型表現(xiàn)出來是一個視頻生成模型,它需要一個基座模型,這個基座模型可能是個通用場景的,也就是所謂的全局性模型。
但是之后我們會做后訓練,結合自動駕駛或具身智能領域的數(shù)據(jù)讓模型更符合具體領域的物理約束和規(guī)律??偨Y來說,前期我們會做一個基模,后期會根據(jù)具體任務要求去做定制化的垂直模型。
AI科技評論:這種輕量化的垂直模型也有助于實現(xiàn)低延遲和高保真?
朱政:為了實現(xiàn)高保真世界模型在低延遲場景下的實時推理,我們目前方案大概有三塊。一塊是步數(shù)蒸餾,另外一塊是參數(shù)蒸餾,最后是量化部署。
首先通過單步蒸餾將擴散模型的多步去噪壓縮至一步,這樣可以顯著縮短它的推理時長。其次,我們會利用參數(shù)蒸餾設計一些端側運行的小模型,這樣就不用全在云端進行,可以在保證生成質量的同時減低計算的開銷。最后,我們在側端部署時會結合混合精度量化、硬件優(yōu)化做進一步的加速。
現(xiàn)在從量化指標來看,跟我們比較類似的模型是英偉達的 Cosmos ,當然 Cosmos 確實比較大。我們的模型和 Cosmos 相比基本可以實現(xiàn) 10 倍的加速。
AI科技評論:世界模型這個概念也是從自動駕駛領域火起來的,極佳科技也為很多車企提供服務,自動駕駛領域的世界模型進展到什么階段了?
朱政:自動駕駛的世界模型在訓練數(shù)據(jù)生成、閉環(huán)仿真方面已經比較成熟了,業(yè)內有很多研究,現(xiàn)在正處在和 VLA 結合并發(fā)展成VLA下一代 的過程中。
我們在 2023 年 9 月做了 DriveDreamer,這在當時應該是第一個真實駕駛場景的世界模型原型?;谶@個工作,后來我們又做了一些改進,包括 DriveDreamer-2、DriveDreamer4D、ReconDreamer、ReconDreamer++,提升了數(shù)據(jù)生成的質量和可控性,并且引入了生成+重建的范式。
上個月我們又發(fā)布了一個新工作,叫做 ReconDreamer-RL,是將重建+生成的世界模型作為強化學習訓練的閉環(huán)仿真器。
AI科技評論:自動駕駛也缺數(shù)據(jù)嗎?車在路上跑不是天然會產生大量數(shù)據(jù)嗎?
朱政:我們跟中國很多頭部車企接觸過,他們會用大量車隊花費數(shù)年時間采集數(shù)據(jù),基本都積累了幾億公里的實采數(shù)據(jù)。但這些數(shù)據(jù)中 99% 都是常見情況,比如晴天在路面直行的數(shù)據(jù),缺少長尾問題或者 corner case 的數(shù)據(jù),比如雨天、霧天、雪天,大卡車、警車、平板掛車,行人鬼探頭、車輛突然超車等等。
世界模型的好處是我們可以基于實采數(shù)據(jù)做數(shù)據(jù)泛化,讓數(shù)據(jù)分布更加均勻。
AI科技評論:自動駕駛世界模型目前最大的問題是什么?
朱政:關鍵問題在于,世界模型的構建比較依賴視頻生成技術,視頻生成會存在幻覺。我們目前的解決方案是引入重建模型來輔助。也就是3DGS的方式,先進行場景重建,將重建結果喂給視頻生成模型,視頻生成模型會做修復,修復之后的結果再反饋給重建模型,形成循環(huán)。
AI科技評論:但重建的成本也更高?
朱政:是的?,F(xiàn)在重建模型大部分是基于逐場景優(yōu)化的,所以每做一個場景都需要訓練一個重建模型。一家車企一般需要把全國各地發(fā)生過人類駕駛員接管、車禍的地方都重建出來,成本非常高。
我們也在跟進一些更前沿的方法,比如用 feed forward (前饋網絡)的方式直接生成具備物理屬性的 3DGS 資產,它是一個統(tǒng)一的模型,可以用來重建不同的場景,更加自動化,可以加速 3D 世界模型的構建流程。
當然最終趨勢應該還是用純視頻生成模型來構建世界模型,但還需要一點時間。
AI科技評論:極佳后來為什么從自動駕駛切入了具身智能?
朱政:其實從成立之初我們就很關注具身智能,但我們認為自動駕駛是世界模型的一個比較好的切入點。在自動駕駛領域積累了一段時間之后,從去年下半年開始,我們就在重點投入做具身智能世界模型了。
AI科技評論:自動駕駛和具身智能領域的世界模型有什么差別?
朱政:自動駕駛的世界模型核心在于對交通參與者的動態(tài)變化做長時序預測,尤其是高速移動目標,比如車輛變道、行人鬼探頭等等,這些場景一般會持續(xù)幾十秒,而具身智能完成一個抓取動作只需三四秒,即便像疊衣服等復雜任務也不過 10 秒左右。因此,自動駕駛的世界模型必須具備強時序建模能力。
相較之下,具身智能的場景會更依賴精細操作,比如抓取、推拉、裝配等,同環(huán)境交互頻繁,因此對世界模型的幾何精度、物理合理性等提出了更高要求。
AI科技評論:具身智能的世界模型全部是 3D 的嗎?
朱政:我們把目前的世界模型分為兩種,一種是 3D World Model(3D世界模型),利用 3DGS 技術來輔助進行場景重建;另一種是 Video World Model(視頻世界模型),它是2D的。
AI科技評論:未來具身智能的維度有可能會超越當前的維度限制嗎?
朱政:從現(xiàn)在的技術進展來看,把世界模型建模成 3D,或者再加一維時間建構成 4D 是最自然的,能夠同時反映幾何結構和動態(tài)變化。這種結構有明確的物理意義,也具備工程可實驗性。
但是世界模型的本質肯定不能被局限在 4D 里。世界模型的終極目標是重建世界和理解世界。因此未來可能需要引入超越 4D 的變量,比如力反饋信號、觸覺信號等等。這樣就可以捕捉那些沒有辦法通過純幾何+時間描述的規(guī)律。
AI科技評論:剛剛提到,具身智能領域的世界模型對物理合理性提出了更高要求,怎樣讓世界模型學習物理規(guī)律呢?
朱政:同樣是兩個辦法。
對于視頻世界模型,需要采用端到端的訓練方式,把表觀、幾何、物理規(guī)則隱式編碼在擴散模型里,通過大規(guī)模 2D 數(shù)據(jù)進行隱式學習,然后直接從視頻里生成未來幀。相當于人類直接通過觀察而非交互學習物理規(guī)律。
這種方法上限比較高,擅長紋理、光照等的表觀建模,但是無法滿足一些對空間一致性要求較高的后續(xù)任務,比如 SFT 階段所需要的高保真交互模擬。
對于 3D 世界模型,需要給 3DGS 綁定一些顯式的物理屬性,比如 Mesh、物質點或者粒子系統(tǒng)。相當于人類通過各種交互去學習物理規(guī)律。這種方法對物理規(guī)律的擬合更高,還可以支持一些碰撞檢測、力傳播或動力學建模等。但由于這些綁定仍然依賴逐場景優(yōu)化,還不能完全自動化。
AI科技評論:世界模型要如何維護一個持久化的環(huán)境記憶?特別是 2D 世界模型的空間一致性較差。
朱政:基本上是兩種方式。
第一種是顯式的維護,即通過結構化的方式存儲環(huán)境狀態(tài),用來查詢更新。
整體流程是,生成模型會輸出新視角的內容,作為擴展場景輸入,重建模型會把這些結果整合為幾何一致的 3D 場景表示,形成一個環(huán)境記憶,重建結果再將結果作為先驗返回給生成模型,引導后續(xù)生成過程中遵循物理和幾何約束,之后再提升跨視角或者跨時間的一致性。
第二種是隱式的編碼記憶, DeepMind 的 Genie 系列就是一個典型代表。簡單來說就是通過編碼歷史幀的上下文特征,驅動自回歸式視頻生成,這樣就可以在不需要顯式建模的前提下實現(xiàn)短期動態(tài)預測。
但是它的缺點也比較明顯,就是受限于目前的計算資源和序列建模能力,這類方法通常只能在有限時間窗口內維持記憶一致性,比如說幾秒鐘,難以支持長時間、大規(guī)模的環(huán)境記憶管理。
未來,我們會探索將RAG 技術引入世界模型架構,構建輕量級的外部特征記憶庫。這種機制可以在不顯著增加計算開銷的前提下,實現(xiàn)對關鍵環(huán)境狀態(tài)的長期存儲與高效檢索,從而突破局部記憶窗口的限制。
AI科技評論:上述各種方法在面對不同場景時要如何選擇?
朱政:3D世界模型擅長于做大空間的建模,在移動導航場景比較合適;視頻世界模型在操作場景比較合適。
AI科技評論:所以現(xiàn)在是兩種方式融合來做。
朱政:是的,我們會融合兩種世界模型的建模方式,完成移動導航+操作的任務。
AI科技評論:剛剛提到生成數(shù)據(jù)是世界模型的意義之一。您如何看待真機數(shù)據(jù)?現(xiàn)在很多企業(yè)都在做數(shù)采,這個路徑是對的嗎,能帶來涌現(xiàn)嗎?
朱政:真機數(shù)據(jù)肯定是最真實的,但是采集周期非常長、成本非常高。
舉個例子,π0模型是借助真機采了 1 萬個小時的數(shù)據(jù)。再考慮到本體成本、數(shù)采員成本、存儲成本,所有花銷加起來可能將近 1 億元。即便是如此高成本訓出來的π0在行為、視角、位置等的泛化方面仍然有局限性。
我認為具身智能理解世界不一定要完全依賴真機數(shù)據(jù)。舉個例子,我們人類的小孩肯定不是通過反復試錯,比如一定要把杯子摔碎,才能學會“杯子摔了會碎”這個常識,而是先對物理世界有一個基本認知,就可以推理預測結果。
AI科技評論:與真機數(shù)據(jù)相對的是仿真數(shù)據(jù),世界模型和仿真器有什么區(qū)別?
朱政:其實我們可以把世界模型看作是一個對物理規(guī)律更加擬合的新一代仿真器,也就是英偉達經常提到的 Sim 2.0。
傳統(tǒng)仿真數(shù)據(jù)最大的問題,也就是我們老生常談的 Sim to Real 的 gap 還沒有得到很好的解決。Sim 1.0 的仿真數(shù)據(jù)可以給世界模型提供一些條件,而世界模型可以進一步通過生成能力來減少其Sim to Real 的gap,從而可以比較高效率、低成本地生成大量物理比較真實的數(shù)據(jù)。
AI科技評論:世界模型的出現(xiàn)會動搖數(shù)據(jù)金字塔嗎?
朱政:我覺得世界模型的出現(xiàn)不會改變金字塔的結構,但可能會增加金字塔,尤其是金字塔中間這一層的豐富程度。
目前大家都在探索各種數(shù)據(jù)共生的實踐。世界模型仍然需要真實數(shù)據(jù)才能進行泛化,我們也會采用少量真機數(shù)據(jù)用于后訓練,防止模型對生成數(shù)據(jù)過擬合。
AI科技評論:那你覺得,世界模型成熟后,合理的數(shù)據(jù)配比可能是怎樣的?
朱政:我們已經做了很多實驗,現(xiàn)在我們在訓練 VLA 過程中,大概只有 10% 是真機數(shù)據(jù),其余 90% 都是世界模型泛化出來的數(shù)據(jù)。我們還在做一些更激進的實驗,準備在明年把這個比例提到 1:100 。
AI科技評論:借助極佳科技的世界模型,具身智能實際訓練表現(xiàn)怎么樣?
朱政:拿柔體場景為例,很多傳統(tǒng)仿真器基本沒有辦法很好地處理柔體。我們發(fā)現(xiàn)模型在使用世界模型泛化的柔體數(shù)據(jù)訓練后,比之前任務成功率提升了 50% 左右。
在泛化性方面,我們測試了幾十種任務,發(fā)現(xiàn)模型 Zero-Shot 的成功率從30%提到了 80% 。明年我們會發(fā)布 GigaBrain 2.0,希望把成功率提到 90% 左右。
更重要的是數(shù)據(jù)成本降低了一個量級。我們估測,訓練一個比較好的 VLA ,如果全靠真機實采數(shù)據(jù),大概需要幾千萬元。但是采用世界模型只需要 GPU 推理,大概只用花費幾百萬元的成本。
AI科技評論:世界模型是為了解決具身智能領域數(shù)據(jù)匱乏的問題,但構建世界模型所需要的數(shù)據(jù)同樣匱乏,這一問題怎么解決?
朱政:目前訓練世界模型主要是用互聯(lián)網上真實的物理場景視頻、多視角 3D 數(shù)據(jù)。依賴這些數(shù)據(jù),我們已經可以初步訓練出一個基本能夠理解物理規(guī)律的世界模型,為 VLA 模型提供多樣性的結構合理的數(shù)據(jù)。
接下來 VLA 需要在真實環(huán)境中部署并執(zhí)行任務,在這個過程中可以不斷采集真實的交互數(shù)據(jù),包括視覺、力覺、觸覺多種模態(tài),反過來又能改進世界模型。
所以世界模型和 VLA 之間是一個相互供給的數(shù)據(jù)循環(huán)狀態(tài)。
AI科技評論:依賴世界模型重建物理規(guī)則,解決 VLA 泛化能力不足的問題,會不會是為了解決一個難題而去開設一個更難的題?
朱政:短期看可能如此,但長期看,這可能是通往真正泛化智能的必經之路。
目前 VLA 泛化的瓶頸可能在于缺乏對于物理世界的理解。世界模型可以比較好地解決這一點,為模型提供一個模擬器,讓 VLA 能預測動作后果,實現(xiàn)跨場景的推理。所以不算是開啟了一個更難的道路,而是在解決一個更本質的問題。
AI科技評論:世界模型是用來“馴化”VLA的容器還是會取代VLA?
朱政:現(xiàn)階段它是一個“容器”,為 VLA 提供數(shù)據(jù)和訓練場。
但從最終視角來看,世界模型最本質的是預測能力,預測能力本身就是一種 VLA 的表現(xiàn)形式。因此它們未來可能會融為一體,但這需要一個過程。可能過幾年大家不會再討論世界模型和 VLA 的區(qū)別,因為它們指代的就是同一件事。
AI 科技評論:去年李飛飛的 World Labs 成立,這和你們在做的事一樣嗎?
朱政:根據(jù)一些公開信息,李飛飛老師的 World Labs主要關注文生和圖生 3D 世界,主要聚焦的是內容或娛樂方向,強調藝術的表現(xiàn)力和創(chuàng)造性,跟我們做的事情在技術上是相通的,但落點會不太一樣。
AI 科技評論:今年很多初創(chuàng)公司、大廠、科研院所都在做具身大腦,你怎么看?在這樣的背景下,具身公司還有沒有必要做大腦,會不會被有被資源更多的大廠“平權”的風險?自研本體搭載開源大腦會不會是更快的落地路徑?
朱政:本體公司的優(yōu)勢在于,標準化硬件可以采集數(shù)據(jù), VLA 在這些數(shù)據(jù)上訓練收斂速度會更快;大廠優(yōu)勢可能在于應用場景更明確,能夠跟主營業(yè)務結合起來;科研院所的技術積累周期更長。具身大腦初創(chuàng)公司優(yōu)勢更綜合。
我覺得目前具身大腦還沒到即插即用的程度,存在任務泛化性、跨本體、側端部署等各種問題,解決不了行業(yè)訴求?,F(xiàn)階段本體和大腦開發(fā)還是高度耦合的。
AI 科技評論:聽到一些小道消息說極佳科技也在做本體。
朱政:是的,我們做本體的出發(fā)點比較明確——因為需要在一個標準化的本體上快速迭代世界模型到 VLA 的閉環(huán)鏈路。這樣也方便以后把我們的模型推廣到客戶的其他機器人本體上。
AI 科技評論:之后會考慮賣本體嗎?
朱政:其實現(xiàn)在已經接觸了一些終端客戶,主要是政府實訓場、高校科研場景、家庭商業(yè)服務場景等等。我們會為他們提供軟硬件配套的原型方案,搭載我們的世界模型和 VLA 的方案。預計過幾年會向 To C 轉變。
AI 科技評論:所以既要像自動駕駛時代一樣為行業(yè)提供世界模型平臺,也要直接面向終端落地,這樣“兩條腿走路”對初創(chuàng)公司會不會牽扯太多精力?
朱政:我們會分階段來實施這個戰(zhàn)略。
DeepSeek 給了大家一個比較好的樣本。我們希望能做具身智能的DeepSeek,當然這個難度會比語言模型復雜很多,尤其在數(shù)據(jù)方面。但這也是我們最大的優(yōu)勢,我們的短期目標是把具身智能行業(yè)的數(shù)據(jù)成本打下來。
我們認為世界模型是物理世界通用智能最重要的事情,世界模型產生的訓練數(shù)據(jù)在體量和通用性方面,是唯一一個有希望達到大語言模型互聯(lián)網數(shù)據(jù)級別的路徑。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。