0
| 本文作者: 劉欣 | 2025-12-11 11:49 |
從走路、跳舞到后空翻,動作模仿教會了機(jī)器人「怎么動」,而到端盤子、分揀水果、熱食物等復(fù)雜操作時,機(jī)器人不能只模仿,更要識別復(fù)雜環(huán)境,理解「為什么做」的任務(wù)意圖,再轉(zhuǎn)化為「動手這么做」的連貫操作。
人類的行動,一般都依托于上下文和意圖,核心就在于推理。對機(jī)器人而言,盡管大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)讓GPT、DeepSeek等AI具備了不錯的推理能力,但讓AI在真實(shí)物理世界里通過推理“準(zhǔn)確動起來”,特別是處理多步驟長時序任務(wù)、模糊指令、未見過情景時,依然挑戰(zhàn)重重。
主流視覺-語言-動作VLA模型依賴"軌跡記憶",通過海量數(shù)據(jù)學(xué)習(xí)"看到A+聽到B→做C"的映射。這種方式在標(biāo)準(zhǔn)場景表現(xiàn)尚可,但在開放環(huán)境中會暴露三大缺陷:抽象概念失效,比如理解"可樂",卻不懂什么是"補(bǔ)充能量的飲料";環(huán)境泛化困難,如白桌訓(xùn)練、到木桌失效;長時序任務(wù)崩潰,比如微波爐加熱需多步連貫操作,一步出錯則全盤皆輸。
AI機(jī)器人公司星塵智能提出端到端全身VLA模型——Lumo-1,旨在讓機(jī)器人心手合一,想清楚就干活,借助具身化VLM、跨本體聯(lián)合訓(xùn)練、推理-動作真機(jī)訓(xùn)練、以及強(qiáng)化學(xué)習(xí)校準(zhǔn)對齊等方式,配合繩驅(qū)機(jī)器人S1的高質(zhì)量真機(jī)訓(xùn)練,將大模型“心智”轉(zhuǎn)化為全身到手的絲滑操作。
項(xiàng)目頁面:www.astribot.com/research/Lumo1
技術(shù)報告:https://arxiv.org/pdf/2512.08580

Lumo-1展現(xiàn)了強(qiáng)大的操作智能與泛化能力,在多步驟長時序、精細(xì)靈巧操作、可泛化抓取放置等三大類核心操作任務(wù)中,全部超越了π0、π0.5等先進(jìn)模型,尤其在未見過的物體、場景和指令等分布外情況(Out of Distribution,簡稱OOD),以及抽象、模糊、需擴(kuò)展推理的指令中,優(yōu)勢更為明顯。
從"背菜譜"到"懂烹飪"
人類執(zhí)行復(fù)雜任務(wù)時不只是調(diào)用"動作庫",而是實(shí)時進(jìn)行多層次推理——理解抽象語義、拆解子任務(wù)、感知空間關(guān)系、規(guī)劃運(yùn)動路徑。讓機(jī)器人像人一樣推理,就更能像人一樣行動。
"教會機(jī)器人思考推理,與喂飽它數(shù)據(jù)一樣重要。Lumo-1的三階段訓(xùn)練架構(gòu):從具身化VLM,到跨本體聯(lián)合訓(xùn)練,再到推理-動作真機(jī)訓(xùn)練,最后用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)推理與動作的校準(zhǔn)與對齊。
如同從"背誦菜譜"到"理解烹飪原理",機(jī)器人開始擁有了"做決定"的能力。
Lumo-1展現(xiàn)了強(qiáng)大的操作智能與泛化能力,在多步驟長時序、精細(xì)靈巧操作、可泛化抓取放置等三大類核心機(jī)器人任務(wù)中,全部超越了π0、π0.5等先進(jìn)模型,尤其在未見過的物體、場景和指令等分布外情況(Out of Distribution,簡稱OOD),以及抽象、模糊、需擴(kuò)展推理的指令中,優(yōu)勢更為明顯。

通用抓取放置測試結(jié)果

長時序與靈巧操作任務(wù)對比結(jié)果
三階訓(xùn)練 VLM認(rèn)知轉(zhuǎn)化為VLA智能
Lumo-1 的訓(xùn)練不是堆規(guī)模,而是精心設(shè)計(jì)的「智力遷移」過程。
階段 1:具身化 VLM(Embodied VLM)。在精選的視覺-語言數(shù)據(jù)上持續(xù)預(yù)訓(xùn)練,讓模型具備空間理解、規(guī)劃、軌跡推斷等「具身語義」。在 7 個經(jīng)典具身推理基準(zhǔn)中大部分超過 RoboBrain-7B、Robix-7B 等專用模型。

精選數(shù)據(jù)集旨在不損傷預(yù)訓(xùn)練VLM的通用多模態(tài)理解與推理能力前提下,強(qiáng)化核心具身推理能力。
階段 2:跨本體聯(lián)合訓(xùn)練。融合跨機(jī)器人、多視角軌跡、VLM數(shù)據(jù)上聯(lián)合訓(xùn)練,強(qiáng)化了指令跟隨、物體定位與空間推理能力,使模型開始理解「動作是什么,與指令和觀測是什么關(guān)系」。
階段 3:真機(jī)推理-動作訓(xùn)練(S1軌跡)。利用繩驅(qū)機(jī)器人 Astribot S1 高度仿人的示教軌跡,進(jìn)行帶推理過程的動作訓(xùn)練,讓模型習(xí)得真實(shí)世界可執(zhí)行的動作模式,比如:怎么用雙手協(xié)同處理物體、如何執(zhí)行長序列操作、如何將推理一步步落實(shí)為軌跡等。

Astribot S1機(jī)器人上收集的樣本任務(wù)。這些任務(wù)涵蓋了廣泛的日?;顒樱杉圆煌奈矬w、光照條件及環(huán)境場景。每項(xiàng)任務(wù)均涉及復(fù)雜、長時序行為,可自然分解為多個子任務(wù),包含多樣化的基礎(chǔ)動作單元,例如清掃、削皮、傾倒、刷洗、折疊、按壓和旋轉(zhuǎn)等
最后加入強(qiáng)化學(xué)習(xí)推理-行動對齊(RL Alignment),校準(zhǔn)對齊高級推理與低級動作之間的誤差,設(shè)計(jì)了視覺、動作與推理一致、動作執(zhí)行、推理格式等多維度的獎勵信號,通過基于GRPO的學(xué)習(xí)方案鼓勵模型選擇更準(zhǔn)確、連貫、符合物理規(guī)則的動作。實(shí)驗(yàn)表明,該方案使模型在任務(wù)成功率、動作合理性與泛化能力上顯著超越模仿專家示范的原始表現(xiàn)。
三大技術(shù)拆解:層層遞進(jìn)的"推理-動作"引擎
動作空間建模:從"高頻噪聲"到"關(guān)鍵路徑"
在 Lumo-1 里,通過動作空間建模SAT(Spatial Action Tokenizer),機(jī)器人將動作軌跡轉(zhuǎn)化為可復(fù)用、組合的「動作單詞庫」,能像寫句子一樣組合動作,或者復(fù)用、解釋和預(yù)測動作。技術(shù)上,SAT將連續(xù)動作軌跡壓縮成最短路徑點(diǎn),并把旋轉(zhuǎn)/平移的增量動作聚類成緊湊token等,在保持動作空間意義時,減少數(shù)據(jù)收集引入的無關(guān)噪音,比FAST與分桶方法等更緊湊和穩(wěn)定。

結(jié)構(gòu)化推理:讓機(jī)器人擁有"常識與思考能力"
Lumo-1將推理拆解為兩個維度:文字推理與視覺推理。
模型進(jìn)行多種形式的具身文本推理:
(1)抽象概念推理整合視覺觀測和指令以推斷隱含語義("低熱量"→排除可樂);
(2)子任務(wù)推理旨在推斷到達(dá)最終目標(biāo)的最優(yōu)中間步驟(微波爐加熱→開門→取物→放入→關(guān)門→旋鈕→取出);
(3)視覺觀測描述強(qiáng)調(diào)對顯著場景特征和可操作物體的準(zhǔn)確識別和分析;
(4)運(yùn)動推理包括對夾爪空間關(guān)系的文字推斷,以及運(yùn)動方向的闡述。
然后再進(jìn)一步執(zhí)行視覺推理,以實(shí)現(xiàn)基于感知的推斷和運(yùn)動估計(jì)。
通過結(jié)構(gòu)化推理(Structured Reasoning),機(jī)器人大腦不再死記軌跡,而是形成解釋動作的結(jié)構(gòu)化推理鏈,從執(zhí)行動作到「執(zhí)行想法」,使「為什么這樣做」先于「怎么做」。最終,它把視覺理解映射為路徑點(diǎn)預(yù)測,讓 2D 預(yù)測自然落到 3D 控制上,實(shí)現(xiàn)更有目的性、情境化的動作生成。
在S1真機(jī)部署中,這種能力展現(xiàn)得淋漓盡致。讓機(jī)器人"把代表愛情的花放進(jìn)花瓶",S1能理解玫瑰代表的文化隱喻;當(dāng)指令換成"把KFC里的東西放進(jìn)藍(lán)色容器",它能推理出炸雞、漢堡等關(guān)聯(lián)物品。在"把畫海洋的工具放進(jìn)綠盤子"這種任務(wù)中,S1也能準(zhǔn)確找到藍(lán)色的畫筆。

把可以畫海洋的文具放到綠盤子里
強(qiáng)化學(xué)習(xí)推理-行動對齊(RL Alignment)
推理很強(qiáng) ≠ 執(zhí)行一定成功。Lumo-1 在最后加入強(qiáng)化學(xué)習(xí)推理-行動對齊(RL Alignment),校準(zhǔn)對齊高級推理與低級動作之間的誤差,在真實(shí)軌跡中反饋迭代,通過視覺、動作與推理一致、動作執(zhí)行、推理格式等多維度GRPO風(fēng)格獎勵信號,鼓勵模型選擇更準(zhǔn)確、連貫、符合物理規(guī)則的動作。
成果與影響
Scaling Law驗(yàn)證
團(tuán)隊(duì)采用數(shù)據(jù)受限擴(kuò)展定律驗(yàn)證訓(xùn)練策略。結(jié)果顯示:在固定模型規(guī)模下,數(shù)據(jù)多樣性(場景、物體、指令的覆蓋面)對泛化能力的影響遠(yuǎn)超數(shù)據(jù)重復(fù)次數(shù)。這為行業(yè)指明方向——除了堆數(shù)據(jù)量,也可以抓數(shù)據(jù)質(zhì)量。
技術(shù)成果:全面超越主流基線
Lumo-1在7個多模態(tài)基準(zhǔn)測試中的6個優(yōu)于backbone模型Qwen2.5-VL-7B,并超越專門的具身模型RoboBrain-7B和Robix-7B。更關(guān)鍵的是,融入動作學(xué)習(xí)后,模型的核心多模態(tài)感知和推理能力未受損——這證明"推理"與"動作"并非零和博弈。
在真實(shí)環(huán)境驗(yàn)證中,S1展現(xiàn)出驚人的泛化能力:面對不同高度的容器,自動調(diào)整手臂姿態(tài);菜單從印刷體換成手寫體,仍能精準(zhǔn)識別食材配對(腸仔意面、胡蘿卜牛腩等)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。