丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機器人 正文
發(fā)私信給吳華秀
發(fā)送

0

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

本文作者: 吳華秀   2025-06-26 15:20
導(dǎo)語:拋棄多模塊融合的拼湊范式,轉(zhuǎn)向一個端到端的統(tǒng)一架構(gòu)。

大模型處理復(fù)雜問題時,它越來越傾向于生成一個推理鏈條。這條鏈,把一個復(fù)雜問題,拆解成多個推理環(huán)節(jié),一步步得出結(jié)論。

支撐這種推理能力的,是一種被反復(fù)驗證的技術(shù)路徑:思維鏈(Chain of Thought,簡稱 CoT)。這項技術(shù)并不新,本質(zhì)上是一種提示工程的升級版——通過引導(dǎo)模型“慢慢想”,強迫其展開清晰的推理流程。

早期的 CoT 停留在語言層面,即“思維可視化”;而在具身智能領(lǐng)域,它的角色正在發(fā)生變化——不再只要“想得清楚”,更要“做得明白”。也就是說,CoT 正從語言中的邏輯鏈條,演變成機器人行為背后的核心認知機制。

越來越多公司正在嘗試將 CoT 應(yīng)用到具身智能的架構(gòu)設(shè)計中。主流做法是基于分層結(jié)構(gòu),借助預(yù)訓(xùn)練視覺語言模型(VLM)作為感知與推理的中樞,用自然語言能力“驅(qū)動”物理動作。

而一些更前沿的團隊,如自變量機器人,正試圖通過統(tǒng)一的“多模態(tài)到多模態(tài)”生成架構(gòu),從根本上重構(gòu)這一過程:不僅讓機器人“看”和“想”,更讓它們以類似人類的整體性方式思考、計劃、行動——而非三者割裂。

這就像人類學(xué)習(xí)騎自行車:沒有人能單純靠分步驟的語言描述學(xué)會騎行。初學(xué)者往往需要調(diào)動全身肌肉一次次試錯,真正的掌握,則是身體在實踐中的形成的一整套連貫動作,將復(fù)雜的身體自由度收斂為腰腿間的協(xié)調(diào)發(fā)力。這種從感知到行動的整體性學(xué)習(xí),恰恰是割裂的模態(tài)拼接的方式無法實現(xiàn)的。

這種探索背后的核心命題是:機器人的“認知”與“行為”,是否可以被徹底打通?

連接"思考"與"行動"的 CoT

“具身 CoT 的意義超越了單純的語言任務(wù)規(guī)劃,它是連接抽象思考與具體行動的絕對核心?!弊宰兞繖C器人 CTO 王昊告訴 AI 科技評論。

CoT,最初是一種語言模型在面對復(fù)雜問題時用于逐步推理的提示技巧,而當(dāng)它被引入具身智能領(lǐng)域時,它承擔(dān)的角色已遠不止于此——它正在成為大模型從感知世界、理解任務(wù)到執(zhí)行動作的核心橋梁。

簡單來說,傳統(tǒng)的語言模型思考(CoT)是在一個封閉的、符號化的世界里進行邏輯推演,而機器人的行動則發(fā)生在開放、動態(tài)、充滿不確定性的物理世界。兩者之間存在天然的巨大鴻溝,具體來看:

首先,具身 CoT 是一種融合推理,其每一步思考都必須融合視覺、空間與物理常識,確保了邏輯從一開始就與物理世界綁定;


其次,這種扎根現(xiàn)實的推理使其能夠進行“動態(tài) grounding(需要加中文解釋)”,將模糊指令實時分解為與環(huán)境持續(xù)交互的子任務(wù)鏈,讓思考過程本身就是一個感知-規(guī)劃-行動的循環(huán);


最終,這必然導(dǎo)向因果驅(qū)動的行動,即機器人的每個動作都是由思維鏈上的具體推理步驟所直接生成,并且每步推理都會受到動作在環(huán)境中執(zhí)行帶來的影響。

釋義:“動態(tài) grounding” 指機器人將抽象符號、語言或概念與動態(tài)變化的現(xiàn)實世界感知信息(如視覺、觸覺等)實時關(guān)聯(lián)的過程,讓機器人能在環(huán)境變化中理解概念并調(diào)整行為,是實現(xiàn)智能交互的關(guān)鍵能力。

目前,包括英偉達、谷歌、自變量等公司正在探索將 CoT 引入具身任務(wù)中,用以提升多模態(tài)大語言模型(MLLM)在物理世界中的決策能力。技術(shù)路徑上,大致分為兩種方向:分層架構(gòu)與端到端模型。

以英偉達為例,其在 2025 年 GTC 大會后推出 Cosmos-Reason1 采用了分層架構(gòu)+CoT的方式。該系統(tǒng)基于模塊化的感知、推理、控制流程構(gòu)建了層次化物理本體,能夠生成顯式、可解釋的動作序列,具備良好的追溯性和驗證性。

一位業(yè)內(nèi)專家告訴 AI 科技評論,這種路徑“工程上更穩(wěn)健、調(diào)試更方便。”尤其是對于能被明確拆解的任務(wù),比如疊衣服等,分層結(jié)構(gòu)非常管用。但他也指出,這一路徑存在天然的上限:“一旦任務(wù)場景變復(fù)雜,模塊之間的信息傳遞容易出問題,尤其是面對環(huán)境變化時,響應(yīng)往往滯后。”

AI 科技評論了解到,多數(shù)企業(yè)或研究團隊選擇分層結(jié)構(gòu)的原因之一在于工程可控性強。尤其是雙系統(tǒng)架構(gòu)在實驗中表現(xiàn)穩(wěn)定,從語言到視覺再到行動由中間信號傳遞,更容易實現(xiàn)閉環(huán)。但缺點也顯而易見,一旦要應(yīng)對復(fù)雜推理、解決隨機問題時,完成難度直線上升。

顯然,認知深度是更進一步的問題。另一位業(yè)內(nèi)人士指出,“真正的具身智能,不只是能看、能想、能說,更要知道自己在做什么,以及怎么做。”物理世界的高度復(fù)雜性和不確定性,要求具身智能必須解決兩個核心問題:

  • 一是知道在做什么。例如,去倒一杯水,必須理解“水是液體,杯子傾斜才會倒出,而不是機械地把一個圓柱體傾斜到某個角度。

  • 二是知道怎么做。例如,偏癱患者,即使有明確意圖,也無法準(zhǔn)確控制自身的動作及與外界的交互。

在王昊看來,這也是分層架構(gòu)的本質(zhì)問題之一。他指出,首先是“表征瓶頸”——信息在不同模塊之間頻繁傳遞,會發(fā)生壓縮與損失;其次是“難以涌現(xiàn)”——模塊之間的結(jié)構(gòu)割裂,讓模型很難自然學(xué)到跨模態(tài)的物理因果和直覺常識。

因此,自變量機器人選擇了另一條路線:端到端的具身 CoT。他們設(shè)計了一整套統(tǒng)一的多模態(tài)生成架構(gòu),試圖在同一個神經(jīng)網(wǎng)絡(luò)中處理視覺、語言、觸覺和動作等不同模態(tài)的信息。

“我們的目的是消除人為劃分的模態(tài)邊界,把它們都看作一個‘高維信息流’。”王昊說。

這種統(tǒng)一架構(gòu),主要在于信息流的融合:讓視覺、語言、動作等各種模態(tài)的信息在同一個空間里可以自由地流動。關(guān)鍵突破在于他們引入了一種“多任務(wù)多模態(tài)生成”的監(jiān)督機制。

王昊表示,他們要求模型在訓(xùn)練時必須學(xué)會任意模態(tài)之間的轉(zhuǎn)換,比如用語言生成圖像、用圖像預(yù)測下一步動作。“這種機制會驅(qū)動會強迫模型去學(xué)習(xí)模態(tài)之間深層的因果聯(lián)系?!?/p>

過去在單一模態(tài)生成上,其他公司已有所嘗試。谷歌 DeepMind 的 RT 系列已經(jīng)實現(xiàn)了語言到動作的直接映射;斯坦福大學(xué)團隊也在測試將 CoT 與物理環(huán)境仿真融合,以實現(xiàn)更自然的機器人操作規(guī)劃。

王昊解釋,為了讓機器人從“看懂”走向“會做”,統(tǒng)一的、多模態(tài)的思維鏈能夠驅(qū)使系統(tǒng)呈現(xiàn)出一種類似人類的“整體性認知”:在面對未知任務(wù)時,能夠在一個表示空間中同時完成視覺理解、語義推理、物理預(yù)測與動作規(guī)劃,不再依賴串行模塊處理。

自然涌現(xiàn)

與分層結(jié)構(gòu)通過模塊拆解任務(wù)不同,自變量機器人的統(tǒng)一架構(gòu)更關(guān)注模型內(nèi)部思維過程的自然涌現(xiàn)。

他們推出的具身智能模型,基于統(tǒng)一神經(jīng)網(wǎng)絡(luò)架構(gòu),在執(zhí)行復(fù)雜任務(wù)時引入 CoT 機制,不再依賴人工拆分的感知、推理和控制流程,而是讓模型自主完成從感知到動作的完整閉環(huán)。

這種設(shè)計帶來的挑戰(zhàn)是顯而易見的:系統(tǒng)不僅要能“做”,還要能“想清楚再做”,甚至“邊想邊做邊說”。這意味著模型需要具備復(fù)雜推理能力、連續(xù)操作能力以及多模態(tài)表達能力,能夠?qū)⒁曈X、語言和動作有效對齊,并實時呈現(xiàn)思維鏈條。

在多個具身任務(wù)實驗中,自變量機器人的具身模型展示出了三類關(guān)鍵能力:

第一個是符號-空間推理能力。

符號-空間推理能力是指機器人不僅能理解符號的含義,比如文字、圖形等抽象信息,還能夠?qū)⑦@些符號與物理空間中的對象、位置和操作建立對應(yīng)關(guān)系,并在此基礎(chǔ)上做出合理推理與操作決策。

比如,當(dāng)機器人看到一幅手繪的“五角星”圖案時,它首先需要識別這個圖形所代表的含義,并聯(lián)想到對應(yīng)的字母拼寫,比如“S”“T”“A”“R”。接著,系統(tǒng)要理解這些字母在二維平面中的排列順序,進一步推理出一個有語義的英文單詞。

但這還不夠,機器人還要把這種符號信息轉(zhuǎn)化為動作指令——比如用積木在三維空間中重新“搭建出”這個單詞的拼寫。這需要它具備:

  • 對圖形/字母的識別能力(視覺感知)

  • 對字母組合的語義理解與推理(語言與因果)

  • 對目標(biāo)在空間中的相對位置規(guī)劃能力(空間操作)

整個過程體現(xiàn)了視覺感知、因果推理和空間操作的深度融合。

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

【視頻演示1:機器人根據(jù)手繪圖形拼出對應(yīng)單詞】

第二個是物理空間推理能力。

物理空間推理能力表示機器人在面對一個現(xiàn)實環(huán)境中的物體或任務(wù)時,能夠理解物體之間的空間關(guān)系、物理屬性,如重力、支撐、平衡等,并據(jù)此推理出合理的操作順序與結(jié)果。這種能力是機器人真正“理解”環(huán)境并做出符合常識決策的關(guān)鍵。

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

【視頻演示2:觀察積木操作步驟并搭建對應(yīng)空間形狀】

視頻中,機器人能從積木圖片中看懂每一步怎么做,按部就班地拾取相應(yīng)積木并妥善擺放。

一連串動作的背后,是機器人對整個結(jié)構(gòu)的空間理解和因果推理。比如哪塊積木起支撐作用,先放哪塊才能保持整體穩(wěn)定,甚至能預(yù)測如果換一種順序搭建,積木結(jié)構(gòu)會不會倒。更重要的是,機器人能把自己的思考過程用語言清晰地表述出來,解釋為什么要這么放置、哪里需要注意重力和結(jié)構(gòu)的平衡。

可以說,機器人基于深層的物理理解,獨立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺與推理能力的有機結(jié)合。

第三個是具備推理鏈的自主探索能力。

推理鏈的自主探索能力是指機器人在面對一個未知或不確定的任務(wù)時,不再依賴預(yù)設(shè)規(guī)則或外部指令,而是能像人一樣,自主觀察環(huán)境、調(diào)動已有知識,構(gòu)建出一套連貫的推理過程,來指導(dǎo)自己的行動。這是從“被動執(zhí)行”走向“主動決策”的關(guān)鍵能力。

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

【視頻演示3:帶有推理過程的物品搜索】

在 Demo 中,當(dāng)機器人得到指令:“找到藍色的布偶玩具并把它拿到桌子中間”。沒有任何記憶參考的機器人,開始根據(jù)指令進行探索:先查看桌面物品,逐一挪開杯子、衣服,試圖找到玩偶;隨后又依次拉開抽屜,尋找可能的藏匿處。

整個過程,機器人展現(xiàn)出的不是機械式執(zhí)行,而是一種目標(biāo)導(dǎo)向的推理能力,意味著機器人能夠理解任務(wù)目標(biāo),并推理出合理的行動路徑,“自己想辦法完成任務(wù)”。

以上三個過程,機器人需要在操作中實時輸出推理過程,這要求模型在統(tǒng)一架構(gòu)中實現(xiàn)物理操作、視覺和語言推理的精確同步,“這種推理過程是端到端學(xué)習(xí)的自然涌現(xiàn)”。

因此 CoT 不再是工程技巧,而是真正成為驅(qū)動機器人思考和行動的重要機制。在這一過程中,模型架構(gòu)、任務(wù)反饋機制與訓(xùn)練范式的每一步演進,都教會機器人以新的方式理解世界,完成交互。

此外,端到端統(tǒng)一具身思維鏈讓機器人還具備了從視頻中學(xué)習(xí)的能力和協(xié)作推理能力。

在觀察人類操作的視頻時,機器人并不只是模仿動作表面,而是嘗試去“看懂人類在做什么”——它從視頻中推斷出人類行為背后的真實意圖和目標(biāo)狀態(tài)。這意味著它不僅能學(xué)會怎么做,更能理解“為什么這么做”。

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

【視頻演示4:從視頻中推斷動作信息意圖并自主執(zhí)行】

這種能力遠不止是復(fù)制動作,而是一種融合了視頻理解、人類意圖識別和任務(wù)目標(biāo)推理的復(fù)雜能力。它讓機器人具備了初步的自主學(xué)習(xí)能力。

結(jié) 語

在具身智能的發(fā)展路徑上,CoT 正逐漸成為連接感知、推理與行動的核心技術(shù)。無論是分層架構(gòu)還是端到端模型,各方都在尋找更好的方式,讓機器人真正理解并適應(yīng)物理世界。

自變量機器人選擇了一條天花板更高的路:在統(tǒng)一的端到端架構(gòu)中推動多模態(tài)思維鏈的自然涌現(xiàn)。

他們相信,只有拋棄拼接式的多模態(tài)融合方式,才能打通視覺、語言和行動之間的壁壘,讓機器人像人一樣,在行動中感知,在感知中思考,思考的結(jié)果又即時地、非線性地體現(xiàn)在行動中,從而形成更加豐富的“思維環(huán)”,以適應(yīng)復(fù)雜的物理世界。

這是一場對具身認知的重構(gòu),讓機器人具備真正的整體性能力?;蛟S就從這樣一條思維鏈起,機器人將開始真正走進現(xiàn)實世界。


文中視頻可查看文章:https://mp.weixin.qq.com/s/i6zmzBlMxEZWh7F2H6b-iw

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說