0
本文作者: 吳華秀 | 2025-06-26 15:20 |
大模型處理復(fù)雜問(wèn)題時(shí),它越來(lái)越傾向于生成一個(gè)推理鏈條。這條鏈,把一個(gè)復(fù)雜問(wèn)題,拆解成多個(gè)推理環(huán)節(jié),一步步得出結(jié)論。
支撐這種推理能力的,是一種被反復(fù)驗(yàn)證的技術(shù)路徑:思維鏈(Chain of Thought,簡(jiǎn)稱 CoT)。這項(xiàng)技術(shù)并不新,本質(zhì)上是一種提示工程的升級(jí)版——通過(guò)引導(dǎo)模型“慢慢想”,強(qiáng)迫其展開(kāi)清晰的推理流程。
早期的 CoT 停留在語(yǔ)言層面,即“思維可視化”;而在具身智能領(lǐng)域,它的角色正在發(fā)生變化——不再只要“想得清楚”,更要“做得明白”。也就是說(shuō),CoT 正從語(yǔ)言中的邏輯鏈條,演變成機(jī)器人行為背后的核心認(rèn)知機(jī)制。
越來(lái)越多公司正在嘗試將 CoT 應(yīng)用到具身智能的架構(gòu)設(shè)計(jì)中。主流做法是基于分層結(jié)構(gòu),借助預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(VLM)作為感知與推理的中樞,用自然語(yǔ)言能力“驅(qū)動(dòng)”物理動(dòng)作。
而一些更前沿的團(tuán)隊(duì),如自變量機(jī)器人,正試圖通過(guò)統(tǒng)一的“多模態(tài)到多模態(tài)”生成架構(gòu),從根本上重構(gòu)這一過(guò)程:不僅讓機(jī)器人“看”和“想”,更讓它們以類似人類的整體性方式思考、計(jì)劃、行動(dòng)——而非三者割裂。
這就像人類學(xué)習(xí)騎自行車:沒(méi)有人能單純靠分步驟的語(yǔ)言描述學(xué)會(huì)騎行。初學(xué)者往往需要調(diào)動(dòng)全身肌肉一次次試錯(cuò),真正的掌握,則是身體在實(shí)踐中的形成的一整套連貫動(dòng)作,將復(fù)雜的身體自由度收斂為腰腿間的協(xié)調(diào)發(fā)力。這種從感知到行動(dòng)的整體性學(xué)習(xí),恰恰是割裂的模態(tài)拼接的方式無(wú)法實(shí)現(xiàn)的。
這種探索背后的核心命題是:機(jī)器人的“認(rèn)知”與“行為”,是否可以被徹底打通?
“具身 CoT 的意義超越了單純的語(yǔ)言任務(wù)規(guī)劃,它是連接抽象思考與具體行動(dòng)的絕對(duì)核心。”自變量機(jī)器人 CTO 王昊告訴 AI 科技評(píng)論。
CoT,最初是一種語(yǔ)言模型在面對(duì)復(fù)雜問(wèn)題時(shí)用于逐步推理的提示技巧,而當(dāng)它被引入具身智能領(lǐng)域時(shí),它承擔(dān)的角色已遠(yuǎn)不止于此——它正在成為大模型從感知世界、理解任務(wù)到執(zhí)行動(dòng)作的核心橋梁。
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)的語(yǔ)言模型思考(CoT)是在一個(gè)封閉的、符號(hào)化的世界里進(jìn)行邏輯推演,而機(jī)器人的行動(dòng)則發(fā)生在開(kāi)放、動(dòng)態(tài)、充滿不確定性的物理世界。兩者之間存在天然的巨大鴻溝,具體來(lái)看:
首先,具身 CoT 是一種融合推理,其每一步思考都必須融合視覺(jué)、空間與物理常識(shí),確保了邏輯從一開(kāi)始就與物理世界綁定;
其次,這種扎根現(xiàn)實(shí)的推理使其能夠進(jìn)行“動(dòng)態(tài) grounding(需要加中文解釋)”,將模糊指令實(shí)時(shí)分解為與環(huán)境持續(xù)交互的子任務(wù)鏈,讓思考過(guò)程本身就是一個(gè)感知-規(guī)劃-行動(dòng)的循環(huán);
最終,這必然導(dǎo)向因果驅(qū)動(dòng)的行動(dòng),即機(jī)器人的每個(gè)動(dòng)作都是由思維鏈上的具體推理步驟所直接生成,并且每步推理都會(huì)受到動(dòng)作在環(huán)境中執(zhí)行帶來(lái)的影響。
釋義:“動(dòng)態(tài) grounding” 指機(jī)器人將抽象符號(hào)、語(yǔ)言或概念與動(dòng)態(tài)變化的現(xiàn)實(shí)世界感知信息(如視覺(jué)、觸覺(jué)等)實(shí)時(shí)關(guān)聯(lián)的過(guò)程,讓機(jī)器人能在環(huán)境變化中理解概念并調(diào)整行為,是實(shí)現(xiàn)智能交互的關(guān)鍵能力。
目前,包括英偉達(dá)、谷歌、自變量等公司正在探索將 CoT 引入具身任務(wù)中,用以提升多模態(tài)大語(yǔ)言模型(MLLM)在物理世界中的決策能力。技術(shù)路徑上,大致分為兩種方向:分層架構(gòu)與端到端模型。
以英偉達(dá)為例,其在 2025 年 GTC 大會(huì)后推出 Cosmos-Reason1 采用了分層架構(gòu)+CoT的方式。該系統(tǒng)基于模塊化的感知、推理、控制流程構(gòu)建了層次化物理本體,能夠生成顯式、可解釋的動(dòng)作序列,具備良好的追溯性和驗(yàn)證性。
一位業(yè)內(nèi)專家告訴 AI 科技評(píng)論,這種路徑“工程上更穩(wěn)健、調(diào)試更方便?!庇绕涫菍?duì)于能被明確拆解的任務(wù),比如疊衣服等,分層結(jié)構(gòu)非常管用。但他也指出,這一路徑存在天然的上限:“一旦任務(wù)場(chǎng)景變復(fù)雜,模塊之間的信息傳遞容易出問(wèn)題,尤其是面對(duì)環(huán)境變化時(shí),響應(yīng)往往滯后。”
AI 科技評(píng)論了解到,多數(shù)企業(yè)或研究團(tuán)隊(duì)選擇分層結(jié)構(gòu)的原因之一在于工程可控性強(qiáng)。尤其是雙系統(tǒng)架構(gòu)在實(shí)驗(yàn)中表現(xiàn)穩(wěn)定,從語(yǔ)言到視覺(jué)再到行動(dòng)由中間信號(hào)傳遞,更容易實(shí)現(xiàn)閉環(huán)。但缺點(diǎn)也顯而易見(jiàn),一旦要應(yīng)對(duì)復(fù)雜推理、解決隨機(jī)問(wèn)題時(shí),完成難度直線上升。
顯然,認(rèn)知深度是更進(jìn)一步的問(wèn)題。另一位業(yè)內(nèi)人士指出,“真正的具身智能,不只是能看、能想、能說(shuō),更要知道自己在做什么,以及怎么做?!蔽锢硎澜绲母叨葟?fù)雜性和不確定性,要求具身智能必須解決兩個(gè)核心問(wèn)題:
一是知道在做什么。例如,去倒一杯水,必須理解“水是液體,杯子傾斜才會(huì)倒出,而不是機(jī)械地把一個(gè)圓柱體傾斜到某個(gè)角度。
二是知道怎么做。例如,偏癱患者,即使有明確意圖,也無(wú)法準(zhǔn)確控制自身的動(dòng)作及與外界的交互。
在王昊看來(lái),這也是分層架構(gòu)的本質(zhì)問(wèn)題之一。他指出,首先是“表征瓶頸”——信息在不同模塊之間頻繁傳遞,會(huì)發(fā)生壓縮與損失;其次是“難以涌現(xiàn)”——模塊之間的結(jié)構(gòu)割裂,讓模型很難自然學(xué)到跨模態(tài)的物理因果和直覺(jué)常識(shí)。
因此,自變量機(jī)器人選擇了另一條路線:端到端的具身 CoT。他們?cè)O(shè)計(jì)了一整套統(tǒng)一的多模態(tài)生成架構(gòu),試圖在同一個(gè)神經(jīng)網(wǎng)絡(luò)中處理視覺(jué)、語(yǔ)言、觸覺(jué)和動(dòng)作等不同模態(tài)的信息。
“我們的目的是消除人為劃分的模態(tài)邊界,把它們都看作一個(gè)‘高維信息流’?!蓖蹶徽f(shuō)。
這種統(tǒng)一架構(gòu),主要在于信息流的融合:讓視覺(jué)、語(yǔ)言、動(dòng)作等各種模態(tài)的信息在同一個(gè)空間里可以自由地流動(dòng)。關(guān)鍵突破在于他們引入了一種“多任務(wù)多模態(tài)生成”的監(jiān)督機(jī)制。
王昊表示,他們要求模型在訓(xùn)練時(shí)必須學(xué)會(huì)任意模態(tài)之間的轉(zhuǎn)換,比如用語(yǔ)言生成圖像、用圖像預(yù)測(cè)下一步動(dòng)作?!斑@種機(jī)制會(huì)驅(qū)動(dòng)會(huì)強(qiáng)迫模型去學(xué)習(xí)模態(tài)之間深層的因果聯(lián)系?!?/p>
過(guò)去在單一模態(tài)生成上,其他公司已有所嘗試。谷歌 DeepMind 的 RT 系列已經(jīng)實(shí)現(xiàn)了語(yǔ)言到動(dòng)作的直接映射;斯坦福大學(xué)團(tuán)隊(duì)也在測(cè)試將 CoT 與物理環(huán)境仿真融合,以實(shí)現(xiàn)更自然的機(jī)器人操作規(guī)劃。
王昊解釋,為了讓機(jī)器人從“看懂”走向“會(huì)做”,統(tǒng)一的、多模態(tài)的思維鏈能夠驅(qū)使系統(tǒng)呈現(xiàn)出一種類似人類的“整體性認(rèn)知”:在面對(duì)未知任務(wù)時(shí),能夠在一個(gè)表示空間中同時(shí)完成視覺(jué)理解、語(yǔ)義推理、物理預(yù)測(cè)與動(dòng)作規(guī)劃,不再依賴串行模塊處理。
與分層結(jié)構(gòu)通過(guò)模塊拆解任務(wù)不同,自變量機(jī)器人的統(tǒng)一架構(gòu)更關(guān)注模型內(nèi)部思維過(guò)程的自然涌現(xiàn)。
他們推出的具身智能模型,基于統(tǒng)一神經(jīng)網(wǎng)絡(luò)架構(gòu),在執(zhí)行復(fù)雜任務(wù)時(shí)引入 CoT 機(jī)制,不再依賴人工拆分的感知、推理和控制流程,而是讓模型自主完成從感知到動(dòng)作的完整閉環(huán)。
這種設(shè)計(jì)帶來(lái)的挑戰(zhàn)是顯而易見(jiàn)的:系統(tǒng)不僅要能“做”,還要能“想清楚再做”,甚至“邊想邊做邊說(shuō)”。這意味著模型需要具備復(fù)雜推理能力、連續(xù)操作能力以及多模態(tài)表達(dá)能力,能夠?qū)⒁曈X(jué)、語(yǔ)言和動(dòng)作有效對(duì)齊,并實(shí)時(shí)呈現(xiàn)思維鏈條。
在多個(gè)具身任務(wù)實(shí)驗(yàn)中,自變量機(jī)器人的具身模型展示出了三類關(guān)鍵能力:
第一個(gè)是符號(hào)-空間推理能力。
符號(hào)-空間推理能力是指機(jī)器人不僅能理解符號(hào)的含義,比如文字、圖形等抽象信息,還能夠?qū)⑦@些符號(hào)與物理空間中的對(duì)象、位置和操作建立對(duì)應(yīng)關(guān)系,并在此基礎(chǔ)上做出合理推理與操作決策。
比如,當(dāng)機(jī)器人看到一幅手繪的“五角星”圖案時(shí),它首先需要識(shí)別這個(gè)圖形所代表的含義,并聯(lián)想到對(duì)應(yīng)的字母拼寫,比如“S”“T”“A”“R”。接著,系統(tǒng)要理解這些字母在二維平面中的排列順序,進(jìn)一步推理出一個(gè)有語(yǔ)義的英文單詞。
但這還不夠,機(jī)器人還要把這種符號(hào)信息轉(zhuǎn)化為動(dòng)作指令——比如用積木在三維空間中重新“搭建出”這個(gè)單詞的拼寫。這需要它具備:
對(duì)圖形/字母的識(shí)別能力(視覺(jué)感知)
對(duì)字母組合的語(yǔ)義理解與推理(語(yǔ)言與因果)
對(duì)目標(biāo)在空間中的相對(duì)位置規(guī)劃能力(空間操作)
整個(gè)過(guò)程體現(xiàn)了視覺(jué)感知、因果推理和空間操作的深度融合。
【視頻演示1:機(jī)器人根據(jù)手繪圖形拼出對(duì)應(yīng)單詞】
第二個(gè)是物理空間推理能力。
物理空間推理能力表示機(jī)器人在面對(duì)一個(gè)現(xiàn)實(shí)環(huán)境中的物體或任務(wù)時(shí),能夠理解物體之間的空間關(guān)系、物理屬性,如重力、支撐、平衡等,并據(jù)此推理出合理的操作順序與結(jié)果。這種能力是機(jī)器人真正“理解”環(huán)境并做出符合常識(shí)決策的關(guān)鍵。
【視頻演示2:觀察積木操作步驟并搭建對(duì)應(yīng)空間形狀】
視頻中,機(jī)器人能從積木圖片中看懂每一步怎么做,按部就班地拾取相應(yīng)積木并妥善擺放。
一連串動(dòng)作的背后,是機(jī)器人對(duì)整個(gè)結(jié)構(gòu)的空間理解和因果推理。比如哪塊積木起支撐作用,先放哪塊才能保持整體穩(wěn)定,甚至能預(yù)測(cè)如果換一種順序搭建,積木結(jié)構(gòu)會(huì)不會(huì)倒。更重要的是,機(jī)器人能把自己的思考過(guò)程用語(yǔ)言清晰地表述出來(lái),解釋為什么要這么放置、哪里需要注意重力和結(jié)構(gòu)的平衡。
可以說(shuō),機(jī)器人基于深層的物理理解,獨(dú)立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺(jué)與推理能力的有機(jī)結(jié)合。
第三個(gè)是具備推理鏈的自主探索能力。
推理鏈的自主探索能力是指機(jī)器人在面對(duì)一個(gè)未知或不確定的任務(wù)時(shí),不再依賴預(yù)設(shè)規(guī)則或外部指令,而是能像人一樣,自主觀察環(huán)境、調(diào)動(dòng)已有知識(shí),構(gòu)建出一套連貫的推理過(guò)程,來(lái)指導(dǎo)自己的行動(dòng)。這是從“被動(dòng)執(zhí)行”走向“主動(dòng)決策”的關(guān)鍵能力。
【視頻演示3:帶有推理過(guò)程的物品搜索】
在 Demo 中,當(dāng)機(jī)器人得到指令:“找到藍(lán)色的布偶玩具并把它拿到桌子中間”。沒(méi)有任何記憶參考的機(jī)器人,開(kāi)始根據(jù)指令進(jìn)行探索:先查看桌面物品,逐一挪開(kāi)杯子、衣服,試圖找到玩偶;隨后又依次拉開(kāi)抽屜,尋找可能的藏匿處。
整個(gè)過(guò)程,機(jī)器人展現(xiàn)出的不是機(jī)械式執(zhí)行,而是一種目標(biāo)導(dǎo)向的推理能力,意味著機(jī)器人能夠理解任務(wù)目標(biāo),并推理出合理的行動(dòng)路徑,“自己想辦法完成任務(wù)”。
以上三個(gè)過(guò)程,機(jī)器人需要在操作中實(shí)時(shí)輸出推理過(guò)程,這要求模型在統(tǒng)一架構(gòu)中實(shí)現(xiàn)物理操作、視覺(jué)和語(yǔ)言推理的精確同步,“這種推理過(guò)程是端到端學(xué)習(xí)的自然涌現(xiàn)”。
因此 CoT 不再是工程技巧,而是真正成為驅(qū)動(dòng)機(jī)器人思考和行動(dòng)的重要機(jī)制。在這一過(guò)程中,模型架構(gòu)、任務(wù)反饋機(jī)制與訓(xùn)練范式的每一步演進(jìn),都教會(huì)機(jī)器人以新的方式理解世界,完成交互。
此外,端到端統(tǒng)一具身思維鏈讓機(jī)器人還具備了從視頻中學(xué)習(xí)的能力和協(xié)作推理能力。
在觀察人類操作的視頻時(shí),機(jī)器人并不只是模仿動(dòng)作表面,而是嘗試去“看懂人類在做什么”——它從視頻中推斷出人類行為背后的真實(shí)意圖和目標(biāo)狀態(tài)。這意味著它不僅能學(xué)會(huì)怎么做,更能理解“為什么這么做”。
【視頻演示4:從視頻中推斷動(dòng)作信息意圖并自主執(zhí)行】
這種能力遠(yuǎn)不止是復(fù)制動(dòng)作,而是一種融合了視頻理解、人類意圖識(shí)別和任務(wù)目標(biāo)推理的復(fù)雜能力。它讓機(jī)器人具備了初步的自主學(xué)習(xí)能力。
在具身智能的發(fā)展路徑上,CoT 正逐漸成為連接感知、推理與行動(dòng)的核心技術(shù)。無(wú)論是分層架構(gòu)還是端到端模型,各方都在尋找更好的方式,讓機(jī)器人真正理解并適應(yīng)物理世界。
自變量機(jī)器人選擇了一條天花板更高的路:在統(tǒng)一的端到端架構(gòu)中推動(dòng)多模態(tài)思維鏈的自然涌現(xiàn)。
他們相信,只有拋棄拼接式的多模態(tài)融合方式,才能打通視覺(jué)、語(yǔ)言和行動(dòng)之間的壁壘,讓機(jī)器人像人一樣,在行動(dòng)中感知,在感知中思考,思考的結(jié)果又即時(shí)地、非線性地體現(xiàn)在行動(dòng)中,從而形成更加豐富的“思維環(huán)”,以適應(yīng)復(fù)雜的物理世界。
這是一場(chǎng)對(duì)具身認(rèn)知的重構(gòu),讓機(jī)器人具備真正的整體性能力。或許就從這樣一條思維鏈起,機(jī)器人將開(kāi)始真正走進(jìn)現(xiàn)實(shí)世界。
文中視頻可查看文章:https://mp.weixin.qq.com/s/i6zmzBlMxEZWh7F2H6b-iw
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。