0
本文作者: 劉潔 | 2024-09-06 11:52 |
斯坦福大學的 Chelsea Finn 團隊又出新成果了。
Chelsea Finn 團隊一直是斯坦福走在具身智能研究前沿的團隊之一,之前火遍全網的 ALOHA 炒菜機器人就是出自這個團隊之手。團隊領頭人 Chelsea Finn 的創(chuàng)業(yè)公司 Pi 更是創(chuàng)立不到一個月就拿下來自紅杉資本、OpenAI 等公司的7000萬美元融資。雷峰網雷峰網(公眾號:雷峰網)
最近,Chelsea Finn 團隊在研究中發(fā)現(xiàn),雖然延長動作塊能夠提升策略捕捉時間依賴性的能力,但這樣做會減少對機器人近期狀態(tài)的觀察,導致在隨機環(huán)境中更容易出錯。
為了克服這個難題,他們開發(fā)了一種雙向解碼(Bidirectional Decoding, BID)新型算法。BID 能將動作塊化與閉環(huán)操作相結合,通過在每個時間步采樣多個預測并尋找最優(yōu)化的一個,增強擴展序列的時間一致性,同時在隨機環(huán)境中實現(xiàn)自適應重新規(guī)劃。
為了驗證 BID 算法的效果,他們在 Franka Kitchen 數(shù)據(jù)集上進行了模擬測試,發(fā)現(xiàn)機器人在家庭環(huán)境中的表現(xiàn)還不錯。他們還用 Franka Panda 機器人做了真實實驗,結果顯示 BID 顯著提高了機器人在目標移動時的放置成功率。
這些測試不由得讓人聯(lián)想到了他們之前做的炒菜機器人,也許這個團隊正計劃把 BID 應用在 ALOHA 上,準備給家務機器人來個全面的技術升級。
值得一提的是,這個團隊中有一半都是華人面孔,之前開發(fā) ALOHA 的也全是華人學生。
目前,論文已在arXiv公開,相關代碼也已開源。
論文標題:Bidirectional Decoding:Improving Action Chunking via Closed-Loop Resampling
論文地址:https://bid-robot.github.io/static/BID_paper.pdf
項目網站:https://bid-robot.github.io/
代碼地址:https://github.com/YuejiangLIU/bid_diffusion
https://github.com/Jubayer-Hamid/bid_lerobot
本文旨在解決機器人學習中的挑戰(zhàn),特別關注動作分塊,即在沒有中間重新規(guī)劃的情況下預測和執(zhí)行動作序列的過程,這些序列通常來源于人類示范。面臨的挑戰(zhàn)包括在捕捉時間依賴性與對隨機環(huán)境中意外變化的反應之間的權衡,以及不同示范之間的風格變異性較大。
該研究的動機在于通過對動作分塊進行更深入的分析和提供實用的解碼算法,來增強機器人系統(tǒng)的學習和執(zhí)行過程。所要解決的問題包括:
動作分塊中時間依賴性與反應性之間的權衡
不同示范之間的風格變異性較大
需要一種實用的解碼算法以提升機器人行為克隆的性能。
本文提出了雙向解碼(BID)方法。
BID 是一種推理算法,將動作分塊與機器人學習中的閉環(huán)操作相結合。它在每個時間步采樣多個預測,并基于向后一致性(與先前決策的對齊)和向前對比(與更強策略的結果的接近度)來優(yōu)化選擇。
這種綜合方法增強了長動作序列的時間一致性,同時保持了適應動態(tài)環(huán)境變化的靈活性。BID在各種機器人任務中顯著優(yōu)于現(xiàn)有的閉環(huán)方法,代表了機器人系統(tǒng)學習和執(zhí)行過程的重大改進。
本文在三個數(shù)據(jù)集上進行了實驗:Push-T、RoboMimic 和 Franka Kitchen。
對于Push-T數(shù)據(jù)集,本文在七個任務上評估了所提出的雙向解碼(BID)算法,包括將物體放入人類手持的杯子中。實驗中使用的機器人是Franka Panda,配備了兩臺相機,提供256 x 256像素分辨率的視覺觀察。本文還評估了BID在大批量和現(xiàn)有推理方法下的可擴展性和兼容性。
對于RoboMimic數(shù)據(jù)集,本文使用了五個任務,即Lift、Can、Square、Transport和Tool Hang。每個任務的訓練數(shù)據(jù)集包含300個從多個人類演示中收集的回合。
對于Franka Kitchen數(shù)據(jù)集,本文在涉及四個或更多物體的測試案例上評估了學習到的策略,這是一個具有挑戰(zhàn)性但在家庭環(huán)境中實際應用的機器人操作任務。
本文還通過兩項現(xiàn)實世界實驗進一步評估了提出的 BID。
他們共收集了150個演示回合,包括50個干凈且一致的演示和100個嘈雜且多樣的演示。實驗中使用的機器人是 Franka Panda,并采用基于視覺的擴散策略進行操作。
機器人的任務是將其抓手中的物體送入人類手中的杯子中。每次演示包括四個主要階段:(a) 隨機初始化機器人位置,(b) 接近目標杯子,(c) 在目標杯子附近減速,(d) 釋放物品。目標杯子的位置可能會在演示過程中發(fā)生變化。
值得注意的是,BID 在動態(tài)設置中的成功率與靜態(tài)設置相似,這表明它有可能將動作塊擴展到不確定環(huán)境中。
本文評估了不同方法的性能,包括普通的開環(huán)和閉環(huán)采樣、BID 的開環(huán)和閉環(huán)采樣,以及 EMA 的閉環(huán)采樣。
機器人的任務是拿起一個杯子,并將其放在附近的碟子上。四個主要階段是:(a) 初始化機器人,(b) 接近目標杯子,(c) 抓住目標杯子,(d) 拿起杯子,(e) 將杯子放到目標碟子上。目標杯子的位置可能會在一個過程中發(fā)生變化。
結果表明,在動態(tài)環(huán)境中,相比其他方法,BID 的成功率至少提高了2倍,同時在靜態(tài)環(huán)境中保持了其性能。
動作分塊有利于對演示中的時間依賴性建模,但卻犧牲了對隨機環(huán)境中意外狀態(tài)的反應能力。他們選擇通過閉環(huán)操作銜接長的動作塊來解決這一問題。
他們的主要假設是,雖然任何一對樣本共享相同潛在策略的概率很低,但從大量樣本中找到一致的一對樣本的可能性要高得多。這種直覺促使他們將閉環(huán)動作分塊問題理解為在每個時間步采樣的一批計劃中尋找最優(yōu)動作。
其中 ? 是動作塊集合,?? 和 ?? (B和F都是下標,飛書文檔打不出來)是兩個衡量時間依賴性的標準,接下來將會詳細描述這兩個標準。
?B 指的是逆向一致性。
這里,ρ 是一個衰減超參數(shù),用于解釋不確定性隨時間增長而增加的情況。這種后向損失鼓勵相鄰步驟之間采用類似的潛在策略,同時允許逐步適應不可預見的過渡動態(tài)。
?F 指的是正向對比度。
其中 ?+=??{?} 是強策略 ? 預測的正集合,?? 是弱策略 ?′ 預測的負集合,而 ? 是樣本大小。
下圖展示了逆向一致性和正向對比度標準對樣本選擇的影響。
由于 BID 中的所有步驟都可以并行計算,因此在現(xiàn)代 GPU 設備上,總體計算成本仍然適中。
Chelsea Finn 博士畢業(yè)于加州大學伯克利分校,師從Sergey Levine。她曾在 Google DeepMind 工作過 6 年,現(xiàn)在擔任斯坦福大學計算機科學與電子工程系的助理教授,也是 Pi 的聯(lián)合創(chuàng)始人。
Chelsea Finn 的研究興趣是機器人和其他代理通過學習和交互發(fā)展廣泛智能行為的能力。她的實驗室 IRIS 專注研究大規(guī)模機器人交互智能,隸屬于 SAIL 和 ML Group。
團隊其他三位華人學生包括:
Yuejiang Liu 是 IRIS 實驗室的博士后,博士畢業(yè)于瑞士洛桑聯(lián)邦理工學院。他專注于研究自監(jiān)督學習、因果表征學習和測試時間適應,并將其應用于計算機視覺和多代理系統(tǒng)。
Annie Xie 畢業(yè)于加州大學伯克利分校,曾在伯克利人工智能研究 (BAIR)實驗室和 Sergey Levine 一起工作,現(xiàn)在是 Chelsea Finn 指導的博士生。她的研究重點是開發(fā)在最少人工監(jiān)督下學習的機器人系統(tǒng)。
Maximilian Du 今年學士畢業(yè)于斯坦福大學,主修計算機科學、心理學(輔修)和創(chuàng)意寫作(輔修),在 Chelsea Finn 的 IRIS 實驗室從事機器人學習工作,現(xiàn)在是 Chelsea Finn 即將入學的博士生。雷峰網雷峰網
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。