與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

本文作者：吳華秀

2025-02-26 10:54

導(dǎo)語：Figure 的首個 VLA 模型，有效實(shí)現(xiàn)人形機(jī)器人上半身高效控制。

兩周前，F(xiàn)igure 宣布停止與 Open AI 的聯(lián)姻，并丟下一個預(yù)告，將會未來 30 天內(nèi)推出“人形機(jī)器人上從未見過的東西”。

勾起不少人好奇心的 Figure，這回終于丟出了一個重磅：將首個自研具身模型 Helix 裝入機(jī)器人Figure。Figure 創(chuàng)始人兼 CEO Brett Adcock 表示，有了大腦 Helix 的加持，機(jī)器人能夠拾取任何家庭物品。

與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

視頻畫面中，一臺桌子，一臺冰箱，兩個機(jī)器人合伙一同整理物品，將它們從未見過的物品挨個分門別類放好。動作全程行云流水，無比絲滑。

尤其是兩機(jī)器人傳遞物品時抬頭的那一對望，讓不少網(wǎng)友直呼機(jī)器人仿佛有了意識，“原來這就是心電感應(yīng)”。

這得益于 Helix 對機(jī)器人上半身的全控制，其中涵蓋手腕、軀干、頭部和各個手指，能夠?qū)C(jī)器人上半身進(jìn)行高速率的連續(xù)控制。

同時，視頻中還罕見地展示了多個機(jī)器人間的協(xié)作與配合?！岸鄼C(jī)協(xié)作是一個亮點(diǎn)，不過這次 Figure 機(jī)器人之間的協(xié)作任務(wù)還比較簡單?！币晃粡臉I(yè)者告訴 AI 科技評論，多機(jī)協(xié)作的交互和規(guī)劃會是一個重要課題，但目前優(yōu)先級還是讓單一機(jī)器人能真正落地干活，這也是當(dāng)下機(jī)器人廠商普遍的發(fā)力點(diǎn)。

在具體任務(wù)的執(zhí)行上，F(xiàn)igure 表示，只要向機(jī)器人發(fā)話，機(jī)器人便能拾取各種各樣從未見過的家庭用品。比如拾取生活中的各種物品，玩具，杯子等等。

與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

不過，正和其他機(jī)器人廠商一樣，目前 Helix 仍還處在比較早期的階段。

實(shí)現(xiàn)高速上半身控制，達(dá)到多機(jī)器人協(xié)作

Helix 是一個通用的“視覺-語言-感知”（VLA）模型，將感知、語言理解和學(xué)習(xí)控制統(tǒng)一起來，取得一系列首創(chuàng)：

整個上身控制：首次對人形機(jī)器人上半身（包括手腕、軀干、頭部和各個手指）進(jìn)行高速率連續(xù)控制的VLA。
多機(jī)器人協(xié)作：首個同時在兩個機(jī)器人上運(yùn)行的VLA，能夠使用從未見過的物品解決共享的遠(yuǎn)程操作任務(wù)。
拿起任何東西：只需按照自然語言提示，就能拿起幾乎任何小型家居物品，包括數(shù)千種它們從未遇到過的物品。
一個神經(jīng)網(wǎng)絡(luò)：與之前的方法不同，使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為（挑選和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互），而無需任何針對特定任務(wù)的微調(diào)。
已做好商業(yè)準(zhǔn)備：首款完全在嵌入式低功耗 GPU 上運(yùn)行的 VLA，可立即進(jìn)行商業(yè)部署。

在對機(jī)器人上半身的控制上，Helix 能以 200Hz 頻率協(xié)調(diào) 35 自由度動作空間，讓機(jī)器人的上半身從手指、手腕到頭部的動作流暢高效。頭部與軀干控制存在獨(dú)特挑戰(zhàn)——當(dāng)頭部移動時，將會改變機(jī)器人的接觸距離和視線范圍，以往這種變化會導(dǎo)致機(jī)器人不穩(wěn)定。

視頻中，機(jī)器人用頭部平穩(wěn)地跟蹤雙手，同時調(diào)整軀干以獲得最佳范圍，同時保持精確的手指控制以抓握物品。Figure 表示，此前還沒有 VLA 能展示這種程度的實(shí)施協(xié)調(diào)，同時保持多任務(wù)泛化能力。

與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

Figure 還嘗試了將 Helix 運(yùn)用在一個高難度多智能體操作場景中：兩臺 Figure 機(jī)器人之間協(xié)作實(shí)現(xiàn)零樣本雜貨存放。這兩臺機(jī)器人都采用了相同的 Helix 模型權(quán)重進(jìn)行操作，不再需要對機(jī)器人進(jìn)行訓(xùn)練或分配角色，它們之間能通過自然語言進(jìn)行合作。

如下面視頻中所展示的，“將一袋餅干遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人那里接過一袋餅干并將餅干放在打開的抽屜里”，兩臺機(jī)器人能靈活協(xié)同處理問題。

與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

搭載 Helix 的機(jī)器人還展現(xiàn)出了強(qiáng)大的泛化能力。只要一個簡單的“拿起 [X]”命令，機(jī)器人幾乎能拿起所有的小型家庭用品。在系統(tǒng)測試中，機(jī)器人成功處理了雜亂無章的數(shù)千件新物品），不需要任何事先演示或自定義編程。

更難得的是，Helix 能彌合語言理解與機(jī)器控制之間的距離。例如，當(dāng)指示機(jī)器人“撿起沙漠物品”時，Helix 不僅能識別出玩具仙人掌，還能選擇最近的手去抓住物品。這種通用的“語言到動作”的掌握能力，讓機(jī)器人部署在非結(jié)構(gòu)化環(huán)境中有了新可能。

與Open AI分手后，F(xiàn)igure 推出具身模型 Helix，多個機(jī)器人一同做家務(wù)

Figure 創(chuàng)始人 Brett Adcock 表示，團(tuán)隊花了一年多的時間研發(fā)出了 Helix，讓人形機(jī)器人無需經(jīng)過任何訓(xùn)練、代碼，就能抓取幾乎任何家庭用品。

首創(chuàng)“系統(tǒng) 1、系統(tǒng) 2” VLA，慢思考與快思考

Helix 是首創(chuàng)的“系統(tǒng) 1、系統(tǒng) 2”VLA 模型，可對人形機(jī)器人的整個上半身進(jìn)行高速、靈巧的控制。

先前的方法面臨著一個選擇：VLM主干網(wǎng)絡(luò)具有通用性但速度不快，機(jī)器人視覺運(yùn)動策略速度快但通用不足。而 Helix 通過兩個互補(bǔ)的系統(tǒng)解決了這一權(quán)衡，這兩個系統(tǒng)經(jīng)過端到端的訓(xùn)練，可以實(shí)現(xiàn)通信：

系統(tǒng) 2 (S2)：一個機(jī)載互聯(lián)網(wǎng)預(yù)訓(xùn)練的 VLM，以 7-9 Hz 的頻率運(yùn)行，用于場景理解和語言理解，從而實(shí)現(xiàn)跨對象和上下文的廣泛概括。
系統(tǒng) 1 (S1)：一種快速反應(yīng)的視覺運(yùn)動策略，將 S2 產(chǎn)生的潛在語義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動作。

這種解耦架構(gòu)允許每個系統(tǒng)在其最佳時間尺度上運(yùn)行。S2 可以“慢慢思考”高級目標(biāo)，而 S1 可以“快速思考”以實(shí)時執(zhí)行和調(diào)整動作。

Figure 所采用的分層式的架構(gòu)具備分而治之的優(yōu)勢，能對不同任務(wù)模塊進(jìn)行獨(dú)立優(yōu)化和迭代。目前業(yè)內(nèi)分層式架構(gòu)和一體式架構(gòu)并存，后者有 1X Technologies、星動紀(jì)元等機(jī)器人廠商代表。這兩種方案并無顯著優(yōu)劣之分，都還在探索階段。

與現(xiàn)有方法相比，Helix 的設(shè)計有幾個主要優(yōu)勢：

速度和泛化：Helix 匹配專門的單任務(wù)行為克隆策略的速度，同時將零樣本推廣到數(shù)千個新穎的測試對象。
可擴(kuò)展性：Helix 直接輸出高維動作空間的連續(xù)控制，避免了先前 VLA 方法中使用的復(fù)雜動作標(biāo)記方案，這些方案在低維控制設(shè)置（例如二值化并行夾持器）中已取得一些成功，但在高維人形控制中面臨擴(kuò)展挑戰(zhàn)。
架構(gòu)簡單：Helix 使用標(biāo)準(zhǔn)架構(gòu) - 用于系統(tǒng) 2 的開源、開放權(quán)重 VLM 和用于 S1 的簡單的基于變壓器的視覺運(yùn)動策略。
關(guān)注點(diǎn)分離：將 S1 和 S2 解耦，我們可以分別在每個系統(tǒng)上進(jìn)行迭代，而不受尋找統(tǒng)一的觀察空間或動作表示的限制。

Figure表示，Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的泛化能力，一共使用了約 500 小時的高質(zhì)量監(jiān)督數(shù)據(jù)來訓(xùn)練 Helix，僅占此前采集的VLA數(shù)據(jù)集的一小部分（＜5%），而且不依賴機(jī)器人實(shí)體收集數(shù)據(jù)或多階段訓(xùn)練。

盡管數(shù)據(jù)要求相對較小，但 Helix 可以擴(kuò)展到更具挑戰(zhàn)性的動作空間，即完整的上半身人形控制，具有高速率、高維度的輸出。

視頻來源&參考鏈接：https://www.figure.ai/news/helix

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章