0
本文作者: 吳華秀 | 2025-02-26 10:54 |
兩周前,F(xiàn)igure 宣布停止與 Open AI 的聯(lián)姻,并丟下一個(gè)預(yù)告,將會(huì)未來 30 天內(nèi)推出“人形機(jī)器人上從未見過的東西”。
勾起不少人好奇心的 Figure,這回終于丟出了一個(gè)重磅:將首個(gè)自研具身模型 Helix 裝入機(jī)器人Figure。Figure 創(chuàng)始人兼 CEO Brett Adcock 表示,有了大腦 Helix 的加持,機(jī)器人能夠拾取任何家庭物品。
視頻畫面中,一臺(tái)桌子,一臺(tái)冰箱,兩個(gè)機(jī)器人合伙一同整理物品,將它們從未見過的物品挨個(gè)分門別類放好。動(dòng)作全程行云流水,無比絲滑。
尤其是兩機(jī)器人傳遞物品時(shí)抬頭的那一對(duì)望,讓不少網(wǎng)友直呼機(jī)器人仿佛有了意識(shí),“原來這就是心電感應(yīng)”。
這得益于 Helix 對(duì)機(jī)器人上半身的全控制,其中涵蓋手腕、軀干、頭部和各個(gè)手指,能夠?qū)C(jī)器人上半身進(jìn)行高速率的連續(xù)控制。
同時(shí),視頻中還罕見地展示了多個(gè)機(jī)器人間的協(xié)作與配合?!岸鄼C(jī)協(xié)作是一個(gè)亮點(diǎn),不過這次 Figure 機(jī)器人之間的協(xié)作任務(wù)還比較簡(jiǎn)單?!币晃粡臉I(yè)者告訴 AI 科技評(píng)論,多機(jī)協(xié)作的交互和規(guī)劃會(huì)是一個(gè)重要課題,但目前優(yōu)先級(jí)還是讓單一機(jī)器人能真正落地干活,這也是當(dāng)下機(jī)器人廠商普遍的發(fā)力點(diǎn)。
在具體任務(wù)的執(zhí)行上,F(xiàn)igure 表示,只要向機(jī)器人發(fā)話,機(jī)器人便能拾取各種各樣從未見過的家庭用品。比如拾取生活中的各種物品,玩具,杯子等等。
不過,正和其他機(jī)器人廠商一樣,目前 Helix 仍還處在比較早期的階段。
Helix 是一個(gè)通用的“視覺-語言-感知”(VLA)模型,將感知、語言理解和學(xué)習(xí)控制統(tǒng)一起來,取得一系列首創(chuàng):
整個(gè)上身控制:首次對(duì)人形機(jī)器人上半身(包括手腕、軀干、頭部和各個(gè)手指)進(jìn)行高速率連續(xù)控制的VLA。
多機(jī)器人協(xié)作:首個(gè)同時(shí)在兩個(gè)機(jī)器人上運(yùn)行的VLA,能夠使用從未見過的物品解決共享的遠(yuǎn)程操作任務(wù)。
拿起任何東西:只需按照自然語言提示,就能拿起幾乎任何小型家居物品,包括數(shù)千種它們從未遇到過的物品。
一個(gè)神經(jīng)網(wǎng)絡(luò):與之前的方法不同,使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為(挑選和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互),而無需任何針對(duì)特定任務(wù)的微調(diào)。
已做好商業(yè)準(zhǔn)備:首款完全在嵌入式低功耗 GPU 上運(yùn)行的 VLA,可立即進(jìn)行商業(yè)部署。
在對(duì)機(jī)器人上半身的控制上,Helix 能以 200Hz 頻率協(xié)調(diào) 35 自由度動(dòng)作空間,讓機(jī)器人的上半身從手指、手腕到頭部的動(dòng)作流暢高效。頭部與軀干控制存在獨(dú)特挑戰(zhàn)——當(dāng)頭部移動(dòng)時(shí),將會(huì)改變機(jī)器人的接觸距離和視線范圍,以往這種變化會(huì)導(dǎo)致機(jī)器人不穩(wěn)定。
視頻中,機(jī)器人用頭部平穩(wěn)地跟蹤雙手,同時(shí)調(diào)整軀干以獲得最佳范圍,同時(shí)保持精確的手指控制以抓握物品。Figure 表示,此前還沒有 VLA 能展示這種程度的實(shí)施協(xié)調(diào),同時(shí)保持多任務(wù)泛化能力。
Figure 還嘗試了將 Helix 運(yùn)用在一個(gè)高難度多智能體操作場(chǎng)景中:兩臺(tái) Figure 機(jī)器人之間協(xié)作實(shí)現(xiàn)零樣本雜貨存放。這兩臺(tái)機(jī)器人都采用了相同的 Helix 模型權(quán)重進(jìn)行操作,不再需要對(duì)機(jī)器人進(jìn)行訓(xùn)練或分配角色,它們之間能通過自然語言進(jìn)行合作。
如下面視頻中所展示的,“將一袋餅干遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人那里接過一袋餅干并將餅干放在打開的抽屜里”,兩臺(tái)機(jī)器人能靈活協(xié)同處理問題。
搭載 Helix 的機(jī)器人還展現(xiàn)出了強(qiáng)大的泛化能力。只要一個(gè)簡(jiǎn)單的“拿起 [X]”命令,機(jī)器人幾乎能拿起所有的小型家庭用品。在系統(tǒng)測(cè)試中,機(jī)器人成功處理了雜亂無章的數(shù)千件新物品),不需要任何事先演示或自定義編程。
更難得的是,Helix 能彌合語言理解與機(jī)器控制之間的距離。例如,當(dāng)指示機(jī)器人“撿起沙漠物品”時(shí),Helix 不僅能識(shí)別出玩具仙人掌,還能選擇最近的手去抓住物品。這種通用的“語言到動(dòng)作”的掌握能力,讓機(jī)器人部署在非結(jié)構(gòu)化環(huán)境中有了新可能。
Figure 創(chuàng)始人 Brett Adcock 表示,團(tuán)隊(duì)花了一年多的時(shí)間研發(fā)出了 Helix,讓人形機(jī)器人無需經(jīng)過任何訓(xùn)練、代碼,就能抓取幾乎任何家庭用品。
Helix 是首創(chuàng)的“系統(tǒng) 1、系統(tǒng) 2”VLA 模型,可對(duì)人形機(jī)器人的整個(gè)上半身進(jìn)行高速、靈巧的控制。
先前的方法面臨著一個(gè)選擇:VLM主干網(wǎng)絡(luò)具有通用性但速度不快,機(jī)器人視覺運(yùn)動(dòng)策略速度快但通用不足。而 Helix 通過兩個(gè)互補(bǔ)的系統(tǒng)解決了這一權(quán)衡,這兩個(gè)系統(tǒng)經(jīng)過端到端的訓(xùn)練,可以實(shí)現(xiàn)通信:
系統(tǒng) 2 (S2):一個(gè)機(jī)載互聯(lián)網(wǎng)預(yù)訓(xùn)練的 VLM,以 7-9 Hz 的頻率運(yùn)行,用于場(chǎng)景理解和語言理解,從而實(shí)現(xiàn)跨對(duì)象和上下文的廣泛概括。
系統(tǒng) 1 (S1):一種快速反應(yīng)的視覺運(yùn)動(dòng)策略,將 S2 產(chǎn)生的潛在語義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動(dòng)作。
這種解耦架構(gòu)允許每個(gè)系統(tǒng)在其最佳時(shí)間尺度上運(yùn)行。S2 可以“慢慢思考”高級(jí)目標(biāo),而 S1 可以“快速思考”以實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。
Figure 所采用的分層式的架構(gòu)具備分而治之的優(yōu)勢(shì),能對(duì)不同任務(wù)模塊進(jìn)行獨(dú)立優(yōu)化和迭代。目前業(yè)內(nèi)分層式架構(gòu)和一體式架構(gòu)并存,后者有 1X Technologies、星動(dòng)紀(jì)元等機(jī)器人廠商代表。這兩種方案并無顯著優(yōu)劣之分,都還在探索階段。
與現(xiàn)有方法相比,Helix 的設(shè)計(jì)有幾個(gè)主要優(yōu)勢(shì):
速度和泛化:Helix 匹配專門的單任務(wù)行為克隆策略的速度,同時(shí)將零樣本推廣到數(shù)千個(gè)新穎的測(cè)試對(duì)象。
可擴(kuò)展性:Helix 直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前 VLA 方法中使用的復(fù)雜動(dòng)作標(biāo)記方案,這些方案在低維控制設(shè)置(例如二值化并行夾持器)中已取得一些成功,但在高維人形控制中面臨擴(kuò)展挑戰(zhàn)。
架構(gòu)簡(jiǎn)單:Helix 使用標(biāo)準(zhǔn)架構(gòu) - 用于系統(tǒng) 2 的開源、開放權(quán)重 VLM 和用于 S1 的簡(jiǎn)單的基于變壓器的視覺運(yùn)動(dòng)策略。
關(guān)注點(diǎn)分離:將 S1 和 S2 解耦,我們可以分別在每個(gè)系統(tǒng)上進(jìn)行迭代,而不受尋找統(tǒng)一的觀察空間或動(dòng)作表示的限制。
Figure表示,Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的泛化能力,一共使用了約 500 小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)來訓(xùn)練 Helix,僅占此前采集的VLA數(shù)據(jù)集的一小部分(<5%),而且不依賴機(jī)器人實(shí)體收集數(shù)據(jù)或多階段訓(xùn)練。
盡管數(shù)據(jù)要求相對(duì)較小,但 Helix 可以擴(kuò)展到更具挑戰(zhàn)性的動(dòng)作空間,即完整的上半身人形控制,具有高速率、高維度的輸出。
視頻來源&參考鏈接:https://www.figure.ai/news/helix
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。