李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

本文作者：劉潔

2024-09-06 17:09

導語：機器人比你還懂家務！這就是未來的生活方式。

倒茶、疊衣服、整理書籍、丟垃圾，現(xiàn)在的家務機器人干活真是越來越熟練了。

不過，也不是每個家務機器人都能做到像動圖里那么流暢的。

熟練家務的背后，是李飛飛團隊琢磨出來的一種新辦法。

他們把任務動作拆解后標記出幾個關鍵點，再給到具體規(guī)則讓機器人知道這些點之間有什么聯(lián)系，要怎么操作比較好。除此之外，機器人還能自主學習，越練習越厲害。

以倒茶這個動作為例，機器人會先用攝像頭確定茶杯茶壺等的位置、形狀等要素，再識別出關鍵點，比如茶杯的中心點和把手的中心點，ReKep 會給機器人編寫出一系列規(guī)則，告訴它要用什么角度、怎么拿怎么傾倒、用多大力氣等，機器人只要按照規(guī)則行動就能成功倒茶了。

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

不得不說，這么一個簡單的動作想讓機器人做好是真的是太難了。要是沒有 ReKep 技術，想看到機器人熟練地干各種家務活還不知道要等到猴年馬月。

畢竟今年三月份的時候，李飛飛團隊的家務機器人還是這樣的，只會擦擦桌子切個水果：

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

而半年后的今天，就已經進化成全能選手了：

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

目前，李飛飛團隊關于 ReKep 技術的論文已在 arXiv 公開，代碼也已開源。

論文標題：ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

論文地址：https://arxiv.org/pdf/2409.01652

項目網站：https://rekep-robot.github.io/

項目代碼：github.com/huangwl18/ReKep

論文概述

研究問題和動機

李飛飛團隊旨在解決與機器人操作任務相關的挑戰(zhàn)，這些任務涉及多個空間關系和時間依賴階段，需要對復雜的空間和時間關系進行編碼。

他們希望開發(fā)一個廣泛適用的框架，能夠適應需要多階段、野外環(huán)境、雙手操作和反應行為的任務，通過基礎模型的進展在獲取約束方面具有可擴展性，并能夠實時優(yōu)化以產生復雜的操作行為。

難點與挑戰(zhàn)

現(xiàn)有的使用剛體變換表示操作任務約束的方法缺乏幾何細節(jié)，要求預定義的物體模型，并且無法處理可變形物體。

在視覺空間中直接學習約束的數(shù)據(jù)驅動方法也在收集訓練數(shù)據(jù)時面臨挑戰(zhàn)，因為約束的數(shù)量在物體和任務方面呈組合增長。

技術創(chuàng)新

李飛飛團隊提出了一種名為關系關鍵點約束（ReKep）的方法，用于機器人操作。

ReKep 將操作任務編碼為約束，連接機器人與其環(huán)境，而無需手動標注。該方法利用Python函數(shù)將一組語義上有意義的三維關鍵點映射為數(shù)值成本，從而能夠表示復雜的空間和時間關系。

該框架旨在通過大型視覺模型和視覺-語言模型自動生成約束，實現(xiàn)從自然語言指令和RGB-D觀測中高效地指定任務。

他們還提出了一種算法實例，可以實時高效地解決優(yōu)化問題。

真實實驗

實驗涉及多個任務，包括倒茶、回收罐、整理書籍、打包盒子、折疊衣物、裝鞋盒和協(xié)作折疊等。這些任務被設計來測試系統(tǒng)在不同方面的性能，如空間和時間依賴性、對環(huán)境的適應性、雙手協(xié)調和與人類的互動。

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

輪式單臂平臺和固定式雙臂平臺的成功率

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

兩個機器人平臺在外部干擾下的成功率

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

ReKep 用于折疊不同類別服裝的新型雙臂策略及其成功率

實驗結果顯示，ReKep在多種任務上的成功率較高，證明了其在自動化操控任務中的潛力。成功率根據(jù)任務的不同而有所差異，但總體上表現(xiàn)良好。

技術解讀

關系關鍵點約束（ReKep）

首先，他們定義了單個ReKep實例，并且假設已經指定了一組 ? 個關鍵點。每個關鍵點 ??∈?3 指的是場景表面上的一個 3D 點，其坐標依賴于任務語義和環(huán)境（例如，手柄上的抓取點，壺嘴）。

本質上來說，一個 ReKep 實例編碼了關鍵點之間的一個期望的空間關系，這些關系可能屬于機器人手臂、物體部分或其他代理。

然而，一個操作任務通常涉及多個空間關系，并且可能具有多個時間上依賴的階段，每個階段都涉及不同的空間關系。為此，他們將任務分解為 ? 個階段，并為每個階段 ?∈{1,…,?} 使用 ReKep 來指定兩類約束：

子目標約束

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

路徑約束

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

其中 ?sub-goal (?) 編碼階段 ? 結束時需要達到的關鍵點關系，而 ?path (?) 編碼階段 ? 內部需要滿足的關鍵點關系。

如下圖所示的傾倒任務由三個階段組成：抓取、對齊和傾倒。

階段 1 的子目標約束拉動末端執(zhí)行器向茶壺手柄靠近。階段 2 的子目標約束指定壺嘴需要位于杯口上方，階段 2 的路徑約束確保茶壺直立，以避免傾倒時溢出。最后，階段 3 的子目標約束指定傾倒角度。

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

操縱任務作為ReKep約束優(yōu)化問題

他們將末端執(zhí)行器姿態(tài)表示為 e∈ SE（3），將操控任務表述為一個優(yōu)化問題，目標是找到一系列滿足ReKep約束的末端執(zhí)行器（end-effector）姿態(tài)，并將控制問題表述如下：

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

對于每個階段，優(yōu)化算法需要找到滿足子目標約束的末端執(zhí)行器姿態(tài)，以及實現(xiàn)這些子目標的路徑。

分解與算法即時實例化

為了實時求解優(yōu)化問題，他們采用了分解方法，僅優(yōu)化下一個子目標及其對應的路徑。

子目標問題：首先解決子目標問題，確定當前階段的末端執(zhí)行器目標姿態(tài)。
路徑問題：在獲得子目標姿態(tài)后，解決路徑問題，規(guī)劃從當前姿態(tài)到子目標姿態(tài)的軌跡。
回溯：如果發(fā)現(xiàn)任何子目標約束不再滿足，系統(tǒng)可以回溯到之前的階段進行重新規(guī)劃。

關鍵點提議和ReKep生成

為了使系統(tǒng)能夠在給定自由形式任務指令的情況下執(zhí)行野外任務，他們設計了一個使用大型視覺模型和視覺語言模型進行關鍵點提議和ReKep生成的管道，并分成了兩個部分：

關鍵點提議

使用大型視覺模型（LVM），如DINOv2，來提取場景中的特征，并利用這些特征來識別潛在的關鍵點。這些關鍵點通常是場景中具有語義意義的3D點，例如物體的邊緣、角落或特定物體部分的中心。

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

ReKep生成

結合關鍵點和任務指令，使用視覺-語言模型（VLM）來生成ReKep，這些約束將用于指導機器人的動作規(guī)劃和執(zhí)行。這一步驟利用了視覺模型對場景的理解以及語言模型對指令的解釋能力。

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

團隊成員

李飛飛

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

李飛飛博士是斯坦福大學計算機科學系首任紅杉教授，也是斯坦福以人為本的人工智能研究所的聯(lián)席主任，曾擔任擔任谷歌副總裁和首席科學家，在多家上市公司或私營公司擔任董事會成員或顧問。

李飛飛主導的斯坦福AI實驗室、斯坦福視覺與學習實驗室(SVL)和斯坦福以人為本人工智能研究院涌現(xiàn)出大量優(yōu)秀人才，包括 OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy、國內內第一個堅探索具身智能的盧策吾、前Google AI中國中心總裁李佳、前阿里自動駕駛掌舵人王剛等。

她目前的研究興趣包括認知啟發(fā)式人工智能、機器學習、深度學習、計算機視覺、機器人學習和人工智能+醫(yī)療，尤其是用于醫(yī)療保健的環(huán)境智能系統(tǒng)。

Wenlong Huang

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

Wenlong Huang 是斯坦福大學計算機科學專業(yè)的博士生，由李飛飛指導，也是斯坦福視覺與學習實驗室（SVL）的成員。他于 2018 年獲得加州大學伯克利分校計算機科學學士學位，指導老師是 Deepak Pathak、Igor Mordatch 和 Pieter Abbeel。

他的研究目標是賦予機器人廣泛的泛化能力，使其能夠執(zhí)行開放世界操控任務，尤其是在家庭環(huán)境中。研究興趣包括：

開發(fā)能夠充分利用互聯(lián)網規(guī)模數(shù)據(jù)或基于這些數(shù)據(jù)進行訓練的模型的抽象概念

開發(fā)能夠表現(xiàn)出廣泛泛化行為的運動技能

Chen Wang（王辰）

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

Chen Wang是斯坦福計算機科學學院的博士生，導師是李飛飛和 C. Karen Liu。他本科就讀于上海交通大學計算機科學專業(yè)，是第一批加入盧策吾團隊研究機器人具身智能的學生之一。

他的研究目標是制造出具有與人類一樣的靈活性和處理日常任務能力的機器人，因此專注于機器人學習，以實現(xiàn)靈巧操作、模仿人類動作以及長期規(guī)劃和控制。

Yunzhu Li

李飛飛團隊再造黑科技！機器人自學家務樣樣精通，開源代碼了解一下？

Yunzhu Li現(xiàn)在是哥倫比亞大學計算機科學助理教授，曾是斯坦福視覺與學習實驗室 (SVL）的博士后，與李飛飛、Jiajun Wu 一起工作。北京大學本科畢業(yè)后，他在麻省理工學院計算機科學與人工智能實驗室（CSAIL）獲得博士學位，導師是 Antonio Torralba 和 Russ Tedrake。

目前他在機器人感知、交互和學習實驗室（RoboPIL）進行機器人技術、計算機視覺和機器學習的交叉研究，專注于機器人學習，特別是直觀物理學、具身智能、多模式感知三個方向，旨在顯著擴展機器人的感知和物理交互能力。