0
作者 | 賴文昕
編輯 | 陳彩嫻
上個月末,世界機(jī)器人大會(WRC 2024)在北京剛剛結(jié)束,27 款人形機(jī)器人果然成為了會場中的主角。
夾爪疊衣服、做漢堡,靈巧手抓雞蛋、演手舞,輪式進(jìn)商超,雙足滿場逛......在這場硅基生命的大 party 里,人形機(jī)器人們的才藝都得到了充分的展示,特別是在操作能力上有了顯著提升。
在具身智能時代,人形機(jī)器人代表著人類創(chuàng)造者對通用機(jī)器人終極形態(tài)的一大向往。
前文提到,為了在技術(shù)與商業(yè)落地上快人一步,具身智能玩家們在構(gòu)型上對操作能力和移動能力各自做出取舍,其中上肢的操作能力因最能顯現(xiàn)智能水平而被寄予厚望,逐漸成為學(xué)術(shù)圈與產(chǎn)業(yè)界的焦點,因此衍生了對二指夾爪、三指、五指靈巧手等多種末端執(zhí)行器的探討和落地。(插入鏈接)
然而,無論是否選擇人形,在這場具身智能的較量中,除了最外顯的軀殼,玩家們還需要解決最核心的問題:實現(xiàn)智能,攻克軟件與硬件的耦合。
為了攻克這一關(guān)卡,具身智能領(lǐng)域的不同團(tuán)隊也有差異化思考,選擇了不同的解決方案來支撐機(jī)器人的能力與智能水平。
技術(shù)路線如散開的蛛網(wǎng)蜿蜒開來——端到端的暴力美學(xué)是否可行?分層決策是否更有優(yōu)勢?「大腦」和「小腦」誰的優(yōu)先級更高?
選手們已各就各位,劍指具身智能。
端到端的暴力美學(xué)
具身智能漸成顯學(xué)后,機(jī)器人運行的四大板塊(感知、規(guī)劃決策、控制和執(zhí)行),逐漸被類人化地劃分為負(fù)責(zé)解決高層次認(rèn)知或決策問題(high level)的「大腦」,以及負(fù)責(zé)基礎(chǔ)層面的功能性問題(low level)的「小腦」。
兩大系統(tǒng)各司其職又互相合作:「大腦」負(fù)責(zé)解析任務(wù)需求,整合來自傳感器的信息,進(jìn)行任務(wù)的細(xì)化和策略規(guī)劃;「小腦」則專注于精細(xì)的運動控制,確保在「大腦」制定的策略指導(dǎo)下,機(jī)器人能夠準(zhǔn)確無誤地執(zhí)行動作并進(jìn)行必要的調(diào)整。
這種劃分方法往往被稱為分層決策結(jié)構(gòu)。不過,除了分層決策外,實現(xiàn)這一過程采用的另一種主要方法則是端到端架構(gòu)。
端到端架構(gòu)將「大腦」和「小腦」合為一體,通過單一的神經(jīng)網(wǎng)絡(luò),直接將任務(wù)目標(biāo)轉(zhuǎn)化為控制信號,實現(xiàn)從輸入到輸出的無縫銜接,是一個黑盒。
特斯拉的 Optimus 機(jī)器人與谷歌的 RT-2 項目便是使用端到端模型的典型代表。
在端到端神經(jīng)網(wǎng)絡(luò)的加持下,Optimus 機(jī)器人能通過搭載的 2D 攝像頭以及集成的觸覺和壓力感應(yīng)器所收集的信息,直接生成用于驅(qū)動關(guān)節(jié)的指令序列,能完成分揀、放置、疊衣服等任務(wù)。
相似地,RT-2 項目旨在訓(xùn)練一個能夠從視覺輸入直接學(xué)習(xí)到動作輸出的機(jī)器人模型。作為一個基于 Transformer 的模型,RT-2 在互聯(lián)網(wǎng)上的海量數(shù)據(jù)中對視覺-語言模型(VLM)進(jìn)行預(yù)訓(xùn)練,然后在具體的機(jī)器人任務(wù)上進(jìn)行微調(diào),結(jié)合視覺和動作數(shù)據(jù),形成了一個能夠?qū)D像直接轉(zhuǎn)換為控制指令的視覺-語言-動作模型(VLA),能完成將草莓放入特定的碗中、將足球移至籃球旁等任務(wù)。
RT-2 還展示出類人的學(xué)習(xí)和行動能力。傳統(tǒng)機(jī)器人需要經(jīng)過專門訓(xùn)練才能識別和處理垃圾,RT-2 則能從網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)垃圾這個抽象概念,理解吃完的薯片袋或香蕉皮是垃圾。識別垃圾后,在無動作訓(xùn)練的情況下,RT-2 還學(xué)會了如何扔垃圾。
而除了大廠外,目前也有少數(shù)海外團(tuán)隊在走端到端路線,比如由 Karol Hausman、Sergey Levine 和 Chelsea Finn 這三位 AI + Robotics 大牛創(chuàng)立的 Physical Intelligence。
這么看來,端到端模型的一步到位與強(qiáng)大的學(xué)習(xí)能力確實是通往具身智能的「康莊大道」,但為什么縱觀全球,選擇端到端方案的團(tuán)隊卻寥寥無幾呢?
數(shù)據(jù)和算力,是橫在具身智能創(chuàng)企們探索端到端的兩座大山——端到端的暴力美學(xué)需要通過海量的數(shù)據(jù)和算力來驅(qū)動,如此「燒錢」的做法絕非大多數(shù)企業(yè),特別是小規(guī)模創(chuàng)業(yè)團(tuán)隊所可以模仿的。
一位具身智能創(chuàng)業(yè)者認(rèn)為,端到端是未來機(jī)器人模型的重要組成部分,但不能完全依賴它,否則將面臨諸多挑戰(zhàn)。「端到端在機(jī)器人訓(xùn)練中主要依賴數(shù)據(jù),但以現(xiàn)在的方法加上不足的數(shù)據(jù),收斂性會非常差?!顾赋?,「端到端目前難以深入理解數(shù)據(jù),如在處理多維物體抓取時可能無法準(zhǔn)確把握其空間結(jié)構(gòu),需輔以物理知識以糾正?!?/p>
更早些時,端到端方案由特斯拉在自動駕駛領(lǐng)域引爆。到了今天,特斯拉在 Optimus 機(jī)器人的控制系統(tǒng)中也加上了全自動駕駛(FSD)控制器,以提高視覺處理和實時決策的能力,讓機(jī)器人在無監(jiān)督下自主完成復(fù)雜任務(wù)。更何況,Optimus 還能走進(jìn)自家的汽車工廠實訓(xùn),這意味著至少在工業(yè)場景下, Optimus 具有天然的數(shù)據(jù)沃土。
至于 RT-2,此工作建立在 RT-1 之上,后者使用 13 個機(jī)器人、耗時 17 個月,采集了 13 萬條數(shù)據(jù),使其在谷歌美國加州的辦公室廚房環(huán)境中表現(xiàn)出色。再看 RT-2 的成員名單,團(tuán)隊一共有 54 人,人數(shù)超過不少具身智能初創(chuàng)企業(yè)。
而且,端到端方案存在的一個問題是,數(shù)據(jù)量的激增和頻繁調(diào)用模型還會拖慢機(jī)器人的決策速度。
以 RT-2 為例,RT-2 集成了谷歌的具身多模態(tài)語言模型 PaLM-E,但在端到端架構(gòu)下,機(jī)器人的決策速度有所降低,運行速度僅為 1~3 Hz,即反應(yīng)時間可能長達(dá) 0.3 ~1 秒。這對于部分要求敏捷反應(yīng)的任務(wù)而言略顯遲緩,自然阻礙其在多變的實際場景下的應(yīng)用潛力。
當(dāng)然,如果海量數(shù)據(jù)和算力得以保障,又或者出現(xiàn)新的技術(shù)突破,大模型的暴力美學(xué)依舊很有希望在具身智能領(lǐng)域復(fù)現(xiàn),因此端到端模型仍是業(yè)內(nèi)公認(rèn)通向具身智能的主要路徑之一。
「我相信端到端、VLA 模型在 3~5 年內(nèi)能有突破?!垢道~創(chuàng)始人兼 CEO 顧捷對端到端的進(jìn)展表示樂觀,「因為算力、硬件本體以及以動作數(shù)據(jù)為核心的多模態(tài)數(shù)據(jù)會越來越多、越來越好?!?/p>
目前,千尋智能是國內(nèi)少數(shù)選擇端到端技術(shù)路線的具身智能創(chuàng)企。
首席科學(xué)家高陽是清華叉院助理教授,在伯克利讀博士與博士后期間同 Pieter Abbeel、Trevor Darell 和 Sergey Levine 三位合作緊密。從 2016 年起,高陽便開始了端到端模型的研究,他指出,「端到端最大難點在于,這么大的模型如何訓(xùn)練才能夠泛化,不只是簡單預(yù)測動作,而是讓預(yù)測變得可泛化,讓神經(jīng)網(wǎng)絡(luò)變得部分可解釋、有因果性等等?!?/p>
針對數(shù)據(jù)的質(zhì)量與數(shù)量問題,高陽帶領(lǐng)清華團(tuán)隊和 Pieter Abbeel 合作,發(fā)布了 Any-point Trajectory Model(ATM)框架。ATM 框架的創(chuàng)新之處在于通過預(yù)訓(xùn)練一個軌跡模型,專注視頻中任意點未來軌跡的預(yù)測,而非整個圖像的全面分析——這種選擇性的關(guān)注點大幅降低了計算負(fù)荷,并加速了模型的運行效率。
因此,與傳統(tǒng)方法相比,ATM 只需少量標(biāo)注數(shù)據(jù)就能完成訓(xùn)練,還兼具魯棒性。此工作也被機(jī)器人頂會 RSS 2024 接收,得到了所有審稿人的滿分評價。根據(jù)千尋智能最新發(fā)布的 demo 來看,他們搭載 ATM 模型的機(jī)器人在制作咖啡時能識別透明反光的玻璃杯,推開擋住杯子的紙巾盒,還能扶起倒下的紙杯。
分層決策,各司其職
與端到端的黑盒不同,分層決策模型通過將感知、規(guī)劃決策、控制和執(zhí)行各模塊分解為多個層級,分別突破「大腦」和「小腦」,利用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終再整合起來。
分層決策架構(gòu)最知名的選手是與 OpenAI 合作的 Figure AI。
上個月問世即爆火的 Figure 02 采用三層級方案:頂層集成了 OpenAI 的大模型,負(fù)責(zé)視覺推理和語言理解(推測為 GPT-4V);中間層是神經(jīng)網(wǎng)絡(luò)策略(NNP),負(fù)責(zé)快速、靈巧的操作,將視覺信息直接轉(zhuǎn)換為動作指令,并以高達(dá) 200hz 的頻率輸出這些指令;底層是全身控制器,負(fù)責(zé)提供穩(wěn)定的基礎(chǔ)控制,在接收 NNP 的動作指令后,能以 1khz 的頻率輸出各關(guān)節(jié)的扭矩指令。
分層決策模型的最直接的優(yōu)點便是即時性——Figure 02 高達(dá) 200hz 的輸出頻率意味著它執(zhí)行動作的延時只有 5ms,比谷歌快了上百倍。
除此之外,因為各層級還能再細(xì)分為多個小模型,與端到端架構(gòu)相比,分層決策架構(gòu)還具有更高的可解釋性和可控性,且由于可以逐一精準(zhǔn)突破,在訓(xùn)練單個模型中所需的數(shù)據(jù)量相對更少。
「所有人都在賭 scaling law 是可行的,但到底是數(shù)據(jù)不夠還是這個方法在具身智能不可行,目前尚不可知?!寡趴杀葯C(jī)器人創(chuàng)始人兼 CEO 邱迪聰表達(dá)了對純端到端架構(gòu)的顧慮,「最可怕的點在于這是個無法證實或證偽的黑洞,只能一直加量,像煉丹一樣?!?/p>
因此,出于對成本和技術(shù)可實現(xiàn)性的考量,分層決策模型現(xiàn)已成為國內(nèi)大多數(shù)具身智能初創(chuàng)公司的選擇。除了簡單劃分為「大腦」和「小腦」外,不同的團(tuán)隊也根據(jù)自己的理解設(shè)計出各自的解決方案。
比如,上個月智元在發(fā)布首款產(chǎn)品遠(yuǎn)征 A1 時還推出了分為四級的具身智腦框架 EI-Brain ,包括技能級的云端超腦、技能級的大腦、指令級的小腦以及伺服級的腦干。
對于「大腦」,他們再細(xì)分為通用大模型和動作大模型兩個模塊。通用大模型負(fù)責(zé)認(rèn)知世界,拆解任務(wù)步驟并感知物體位置,再由動作大模型完成具體動作,而且兩者都是自研的。
智元機(jī)器人合伙人兼營銷服副總裁姜青松表示,與由業(yè)界推動、數(shù)據(jù)來自互聯(lián)網(wǎng)的通用大模型不同,動作大模型的數(shù)據(jù)來自于實際場景,需要采集真實數(shù)據(jù)?!竸幼鞔竽P偷臄?shù)據(jù)壁壘更高,需要深入實際環(huán)境,如工業(yè)場景,需要直接在工廠部署才能獲取到關(guān)鍵的真實數(shù)據(jù)。」
穹徹智能則是從第一性原理出發(fā)打造兩級火箭大模型:一級火箭是實體世界大模型,能在訓(xùn)練中讓機(jī)器人掌握常識性的、低維的操作物理表征,從而理解客觀物理事實,并與人類概念對齊;二級火箭是機(jī)器人行為大模型,能充分耦合操作物理常識表征和執(zhí)行體的高精度力反饋能力,從而作出仿人化的力位混合的行為決策,讓操作兼具魯棒性和通用性。
當(dāng)兩級火箭串在一起做端到端的聯(lián)合訓(xùn)練時,數(shù)據(jù)量需求就會大幅降低、增長斜率更加明顯,使訓(xùn)練變得足夠的低成本和可規(guī)?;?。
對于二級火箭,穹徹智能創(chuàng)始人、上海交通大學(xué)教授盧策吾認(rèn)為,如果力這環(huán)不解決,具身智能很難落地。
「我們展示刮胡子技能,就是想說,具身智能的交互是需要高精密操作和高頻接觸的。」盧策吾解釋道,「操作分為高頻接觸與非高頻接觸,非高頻接觸是做空間中的規(guī)劃,相對的不確定性較小,但高頻接觸涉及力反饋,對決策和大腦提出更高的要求。」
同樣采用分層決策方案的還有推出三層級大模型系統(tǒng)的銀河通用。
硬件(如末端執(zhí)行器)為最底層,旨在打造低成本的通用移動操作平臺;中間層是負(fù)責(zé) low level 執(zhí)行的具身技能模型,是由 3D 視覺驅(qū)動的通用導(dǎo)航和移動操作,能完成自主建圖、自主導(dǎo)航、物體抓取、開門開抽屜開冰箱、掛衣服疊衣服柔性物體操作等任務(wù);最上層是負(fù)責(zé) high level 推理規(guī)劃的多模態(tài)大模型,可以調(diào)度中間技能 API,來實現(xiàn)完整的從任務(wù)的感知、規(guī)劃到執(zhí)行的全流程。
值得一提的是,銀河通用在中間的「小腦」層采用 100% 仿真合成數(shù)據(jù),不用任何真實世界數(shù)據(jù)訓(xùn)練可泛化的技能,以求解決數(shù)據(jù)不足的痛點。
大腦 vs.小腦
顯然,無論是哪種分層決策模型,都需要解決「大小腦」,實現(xiàn)從感知到執(zhí)行的閉環(huán)。
先說說「大腦」。
「大腦」負(fù)責(zé) high level 的感知和規(guī)劃決策系統(tǒng),是多模態(tài)大模型。與傳統(tǒng)機(jī)器人相比,具身智能時代的機(jī)器人在這兩個版塊的泛化性和自主性都有了大幅提升。
首先,在感知環(huán)節(jié),傳統(tǒng)機(jī)器人的感知技術(shù)主要依賴于各種傳感器來獲取內(nèi)部狀態(tài)信息和外部環(huán)境信息,如視覺、力覺、觸覺、嗅覺和味覺等,實現(xiàn)對物體的識別、測量距離、避開障礙物等功能。
而具身智能則更進(jìn)一步,不僅包括了傳統(tǒng)機(jī)器人的感知技術(shù),還強(qiáng)調(diào)智能體與環(huán)境的交互和融合,以及在動態(tài)環(huán)境中自主、實時的決策和學(xué)習(xí)?;诙嗄B(tài)大模型(或更高階的世界模型),機(jī)器人能學(xué)習(xí)、理解、融合和對齊各傳感器采集而來的跨模態(tài)信息,實現(xiàn)對復(fù)雜環(huán)境的魯棒建模與更精準(zhǔn)、通用的感知。
到了規(guī)劃決策板塊,在大模型時代前,這主要由人類工程師負(fù)責(zé),先理解任務(wù)、拆解動作,再編程給機(jī)器人下達(dá)具體指令?,F(xiàn)在大模型直接化身 AI 工程師,使機(jī)器人能自主規(guī)劃任務(wù),提升了環(huán)境適應(yīng)性和靈活性。
目前,業(yè)內(nèi)將主打產(chǎn)品設(shè)為「大腦」的企業(yè)主要是穹徹智能和有鹿機(jī)器人,雙方都主張研發(fā)通用的「大腦」來賦能包括但不限于人形機(jī)器人的載體上。
穹徹智能發(fā)布的具身大腦 Noematrix Brain 包括自研實體世界大模型和機(jī)器人行為大模型,使大腦具備規(guī)劃、記憶、執(zhí)行的核心能力。
因此,搭載穹徹大腦的實體機(jī)器人能對無限自由度物體做出操作,如無需預(yù)建模即可折疊雜亂衣物,以及執(zhí)行不規(guī)則曲面任務(wù),如刮胡子和削黃瓜皮。在穹徹的計劃中,Noematrix Brain 將與各種類型的機(jī)器人本體、甚至工業(yè)設(shè)備都能有機(jī)結(jié)合。
而專注于開發(fā)「通用具身大腦」的有鹿機(jī)器人,也旨在為各類專業(yè)機(jī)器和人形機(jī)器人形態(tài)提供通用大腦。
最開始有鹿甚至打算僅以軟件形式進(jìn)行銷售,但考慮到軟件的無形性,很難在前期讓客戶切實感受到智能性,轉(zhuǎn)而采取軟硬件結(jié)合的形式,推出通用具身大腦 Master 2000?!高@不僅限適用于工業(yè)、清潔、物流等領(lǐng)域,如叉車和鏟車等,也適用于人形機(jī)器人,即插即用?!褂新箼C(jī)器人介紹道,「具身智能并不局限在人形上?!?/p>
再看負(fù)責(zé) low level 控制和執(zhí)行模塊的「小腦」。
它需要將「大腦」的決策轉(zhuǎn)換為動作指令并執(zhí)行出來,并將傳感器采集的數(shù)據(jù)傳遞回去,一般由多個具體的小模型組合(如物體抓取模型、擰螺絲模型等),類似于一個可不斷擴(kuò)充、升級的技能庫。
但與純軟件的「大腦」不同,「小腦」作為連接智能與身體的中間環(huán)節(jié),承擔(dān)著耦合軟硬件的作用,依賴海量動作數(shù)據(jù)來訓(xùn)練。數(shù)據(jù)不足作為具身智能的最大痛點,也主要集中于此,所以關(guān)于仿真數(shù)據(jù)、模擬器、Sim2Real的探索也愈發(fā)火熱。
不少從業(yè)者認(rèn)為,當(dāng)前具身智能的研究重點在于解決機(jī)器人的 low level 問題,因為 high level 已由大模型解決。
「low level 涉及實際的物理交互,如抓取、移動物體等基本技能?;A(chǔ)任務(wù)未解決前,大模型的頂層規(guī)劃能力無法有效發(fā)揮,因為機(jī)器人可能連簡單的動作如開冰箱門都做不到。因此,實現(xiàn)物理世界的順暢交互是關(guān)鍵?!骨迦A具身智能實驗室主任、星海圖聯(lián)創(chuàng)許華哲說。
香港科技大學(xué)機(jī)器人研究院創(chuàng)始院長、戴盟首席科學(xué)家王煜則提出了「具身技能」的概念。「如果把具身智能稱為大腦,那么中腦或小腦則是大關(guān)節(jié)控制,精細(xì)操作為細(xì)小腦,也可叫具身技能,需要有硬件、學(xué)習(xí)方法、數(shù)據(jù)的支持?!雇蹯辖淌诮忉尩?,「不到具身技能的層次其實無法發(fā)揮人形機(jī)器人的作用?!?/p>
結(jié)語
無論和哪一位具身智能創(chuàng)業(yè)者聊起其創(chuàng)業(yè)契機(jī),必然會得到的回答之一便是「大模型讓通用機(jī)器人有了實現(xiàn)的可能」。
短短一年,具身智能雄起,賽道之火熱,儼然已瓜分了大模型的主角光環(huán)。
選擇端到端還是分層決策架構(gòu),有點類似于是否「直接上人形」的討論,取決于對項目落地速度和可靠性的要求——
前者是「登月派」,多由明星學(xué)者或有強(qiáng)融資能力的創(chuàng)始人坐鎮(zhèn),不需考慮短期的商業(yè)化落地,可以自由探索,目標(biāo)是像 Open AI 一樣直接「憋個大招」;
后者是「落地派」,期望逐步突破各應(yīng)用場景,因此穩(wěn)定性和模型的可解釋性變得重要,需要更便于逐層優(yōu)化和約束的分層結(jié)構(gòu)來加速商業(yè)化落地的進(jìn)程。
「隨著數(shù)據(jù)和訓(xùn)練能力的增長,分層決策結(jié)構(gòu)中各模塊可能會逐步打通,最終融合簡化成一個端到端模型。」美國灣區(qū)創(chuàng)企 Anyware Robotics 創(chuàng)始人兼 CEO 湯特認(rèn)為路線選擇是動態(tài)變化的,在足夠大的市場里,任何一種路都有可能走通。
「就像特斯拉最初做自動駕駛也是采用分層結(jié)構(gòu),隨著公司發(fā)展,逐步向端到端融合過渡,現(xiàn)在做人形機(jī)器人就直接端到端了。」
開普勒機(jī)器人 CEO 胡德波在與客戶的交流中也發(fā)現(xiàn),需求方并不介意技術(shù)路徑究竟是分層還是端到端,重點是在于穩(wěn)定可靠、高安全性以及性價比。
「從商業(yè)落地和實用主義的角度出發(fā),我們不排斥各種算法,比如現(xiàn)在是大小腦,但如果有了特別好的端到端模型,參數(shù)量小、部署效果好,那我們也會使用?!?/p>
不過,無論是端到端的暴力美學(xué),「大小腦」的高速實時協(xié)同,還是技術(shù)路徑的動態(tài)變化,數(shù)據(jù)都是導(dǎo)致訓(xùn)練效果參差不齊的最大阻礙。
因此,在連續(xù)做出對構(gòu)型和模型架構(gòu)的抉擇后,具身智能玩家們還得共同面臨數(shù)據(jù)這個公認(rèn)的最大痛點。
如何提高數(shù)據(jù)的質(zhì)量和數(shù)量?模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)哪種訓(xùn)練效果更優(yōu)?真實數(shù)據(jù)和仿真數(shù)據(jù)誰更勝一籌?
讓我們且走且看。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))本文作者anna042023將持續(xù)關(guān)注具身智能,歡迎添加雷峰網(wǎng)作者交流,互通有無。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。