英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

本文作者：鄭佳美

2025-03-28 15:41

導(dǎo)語：與物理世界交互的 AI 大模型技術(shù)發(fā)展加快。

英偉達(dá) GTC 大會熱度飆升。繼黃仁勛在英偉達(dá)大會上發(fā)布基礎(chǔ)世界模型 Cosmos 引發(fā)業(yè)內(nèi)討論后，英偉達(dá)團(tuán)隊近日又發(fā)布了一個新的物理世界大模型：Cosmos-Reason1。

作為 Cosmos 系列的一個大模型，顧名思義，Cosmos-Reason1 更強(qiáng)調(diào)模型的“Reason”（即“推理”）能力。這是繼 DeepSeek R1 采用純強(qiáng)化學(xué)習(xí)方法替代 SFT 之后，思考推理模型在物理世界中的進(jìn)一步探索；且據(jù)論文介紹，其取得了不錯的成果。

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

論文地址：https://arxiv.org/abs/2503.15558

與 DeepSeek 跑在云端不同，Cosmos-Reason1 致力于解決的是人工智能系統(tǒng)與物理世界交互的問題——這要求跑在物理世界中的 AI 大模型要同時具備感知、理解與執(zhí)行復(fù)雜動作的三個基本能力，即當(dāng)前具身智能領(lǐng)域主流的研究熱詞“VLA”，或“具身大腦”。

根據(jù)論文介紹，Cosmos-Reason1 可以理解物理世界，并通過長思維鏈（Long CoT）的推理過程在自然語言中生成適當(dāng)?shù)男袨闆Q策。在這個思路上，英偉達(dá)的研究團(tuán)隊開發(fā)兩個多模態(tài)大模型，分別是 80 億參數(shù)的 Cosmos-Reason1-8B 和 560 億參數(shù)的 Cosmos-Reason1-56B。

他們分四個階段來進(jìn)行數(shù)據(jù)收集與模型訓(xùn)練，分別是：視覺預(yù)訓(xùn)練、通用 SFT、物理 AI SFT、以及物理 AI 強(qiáng)化學(xué)習(xí)后訓(xùn)練。為了評估模型效果，他們分別在物理常識與具身推理兩個方向上制定了 Benchmark，并取得了不錯的表現(xiàn)。

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

Cosmos-Reason1 技術(shù)路線圖概覽

當(dāng)前 Cosmos-Reason1 已開源，具身智能先鋒研究者宋舒然等人也參與其中。

物理世界的 AGI 有何不同？

業(yè)內(nèi)一直有觀點(diǎn)認(rèn)為，AGI 的發(fā)展會天然地分為云端 AGI 與端側(cè) AGI，物理世界中的 AGI 即屬于后者。

但相比云端 AGI 模型（如 DeepSeek R1 等），能夠與物理世界進(jìn)行有效交互的 AGI 卻突破緩慢，因其難度更大，不僅要具備云端 AGI 的理解、推理能力，還需要感知、決策。即使是推理環(huán)節(jié)，云端大模型的訓(xùn)練主要基于互聯(lián)網(wǎng)上的大量文本數(shù)據(jù)，也難以遷移到與物理世界的互動知識中。

物理世界中的 AGI 需要具備什么能力？

英偉達(dá)團(tuán)隊認(rèn)為，與設(shè)計擅長解決編碼和數(shù)學(xué)問題的大模型不同，物理世界的大模型應(yīng)該具備物理世界常識與基于物理世界的具體推理能力。這包含兩方面：

一是物理常識應(yīng)分為三個主要類別：空間、時間和基礎(chǔ)物理，同時這三個類別又會被進(jìn)一步劃分為 16 個細(xì)粒度的子類別。這關(guān)乎到物理世界如何在物理定律下運(yùn)行，以及 AI 如何與物理世界進(jìn)行交互；

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

圖注：物理常識的 16 個子類別，空間包含關(guān)系、合理性、可供性與環(huán)境；時間包含規(guī)劃、相機(jī)、因果、指令、行為；基礎(chǔ)物理包括反重力、熱力學(xué)、電磁、機(jī)械學(xué)、客體永恒性、狀態(tài)、屬性。

二是他們認(rèn)為，要為具身推理引入一個二維的知識體系，其包含跨越 5 類具身智能體的 4 種關(guān)鍵推理能力。這樣有助于 AI 智能體在物理世界中的理解與規(guī)劃。

具體而言，具身推理需要具備以下能力：

處理復(fù)雜的感官輸入。與處理清晰數(shù)據(jù)表示的符號推理不同，具身推理必須從原始的、往往不完整且模糊的感官輸入中提取有意義的模式。

預(yù)測行動效果。行動會產(chǎn)生物理后果，有效的推理需要直觀地掌握因果關(guān)系。AI 系統(tǒng)必須預(yù)測一個物體對力會有怎樣的反應(yīng)，一個機(jī)器人的身體將如何與周圍環(huán)境相互作用，或者一輛車輛的移動將如何受到地形和物理規(guī)律的影響。

遵循物理約束。與通常涉及優(yōu)化離散選擇的抽象問題解決不同，具身推理必須考慮現(xiàn)實世界的物理因素，如慣性、摩擦力和材料屬性。它要求 AI 生成在物理約束條件下可行的長期行動規(guī)劃，以確保執(zhí)行過程中的穩(wěn)定性、效率和安全性。

從交互中學(xué)習(xí)。在物理 AI 中，行動不是孤立發(fā)生的；每一個動作或決策都會影響環(huán)境并產(chǎn)生反饋。具身推理必須基于這些交互不斷更新其理解，使系統(tǒng)能夠動態(tài)地改進(jìn)其行為。

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

在這個過程中，Cosmos-Reason1 的目標(biāo)之一是使多模態(tài)大模型生成更多符合物理世界要求的反應(yīng)。在視覺世界中，模型對世界的理解會被表示為視頻形式，然后通過視頻輸入感知、理解與推理物理世界，再用自然語言將模型的反應(yīng)表達(dá)出來。他們采用的是純解碼的多模態(tài)大模型架構(gòu)，以及混合的 Mamba-MLP-Transformer 架構(gòu)。

值得注意的是，Transformer 架構(gòu)此前一直被詬病雖然擅長長序列表達(dá)、但無法高效實現(xiàn)空間理解，而 Mamba 架構(gòu)是典型的非 Transformer 架構(gòu)，英偉達(dá)團(tuán)隊采用 Mamba 混合或許就是為了中和 Transformer 在物理世界大模型中的短板。

他們使用張量并行度為 4 來訓(xùn)練 Cosmos-Reason1-8B 模型，而 Cosmos-Reason1-56B 模型則使用張量并行度為 8 和流水線并行度為 2來進(jìn)行訓(xùn)練，以支持更長的視頻訓(xùn)練。

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

為了提高模型的通用能力，在數(shù)據(jù)采集上，英偉達(dá)團(tuán)隊一共采用了總計 120M 的圖像、視頻與交互數(shù)據(jù)用于數(shù)據(jù)預(yù)訓(xùn)練，8M 的圖像和視頻數(shù)據(jù)用于通用的 SFT。

在大模型的推理中，基于規(guī)則的、可驗證的大規(guī)模獎勵（即強(qiáng)化學(xué)習(xí)方法）對解決數(shù)學(xué)、編碼問題起了很大的作用。受此啟發(fā)，英偉達(dá)團(tuán)隊也在 Cosmos-Reason1 中使用了強(qiáng)化學(xué)習(xí)方法來訓(xùn)練模型在物理世界中的推理能力。

他們探索了兩種多項選擇題回答的獎勵類型，一種是基于人工注釋的 MCQ，另一種是受視頻自監(jiān)督學(xué)習(xí)的啟發(fā)，自動生成基于視頻數(shù)據(jù)結(jié)構(gòu)的 MCQ，比如用打亂的時空視頻補(bǔ)丁來解謎題、預(yù)測視頻向前或向后播放的時間箭頭等。

Cosmos-Reason1 的效果

為了測試 Cosmos-Reason1 的效果，英偉達(dá)團(tuán)隊制定了以下基準(zhǔn)：

在物理常識上，他們制定了 3 個基準(zhǔn)（空間、時間與基礎(chǔ)物理），包含了來自 426 個視頻中的 604 個問題。

在具身推理上，他們建立了 6 個基準(zhǔn)測試、包含來自 600 個視頻的 612 個問題，覆蓋了包括人體、機(jī)械臂、人形機(jī)器人與自動駕駛等多個構(gòu)型的物理具身。

他們將 Cosmos-Reason1 與其他的大模型進(jìn)行了對比，結(jié)果如下：

在物理常識的基準(zhǔn)上，Cosmos-Reason1-8B 與 56B 的效果都顯著提升，尤其是 56B 的效果全面超過 Qwen2.5-VL-7B 與 72B、Gemini 2.0 Flash 與 GPT-4o，只稍遜于 OpenAI 的 o1：

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1，在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型