0
本文作者: 劉潔 | 2024-11-14 14:21 |
來自清華大學(xué)的高陽團隊在最新一屆機器人頂級會議 CoRL 2024(Conference on Robot Learning)中榮獲 X-Embodiment Workshop 最佳論文獎。
CoRL 是全球機器人學(xué)習(xí)領(lǐng)域的頂級學(xué)術(shù)會議,每年匯聚來自全球頂尖學(xué)府的創(chuàng)新研究,評選出的最佳論文通常代表著前沿技術(shù)與重大突破。
清華團隊此次獲獎的論文標(biāo)題為《Data Scaling Laws in Imitation Learning for Robotic Manipulation》,關(guān)注的是數(shù)據(jù)規(guī)模定律在機器人操作中的模仿學(xué)習(xí)中的應(yīng)用,尤其是能否通過適當(dāng)?shù)臄?shù)據(jù)規(guī)模來實現(xiàn)零樣本泛化。
研究團隊收集了超過 40,000 次演示,并進行了 15,000 多次機器人實測。結(jié)果表明,策略的泛化能力主要依賴于環(huán)境和對象的多樣性,而非單純的演示數(shù)量。
在此基礎(chǔ)上,他們設(shè)計了一種高效的數(shù)據(jù)收集方案,僅需四個采集者花一下午便能獲取足夠數(shù)據(jù),使兩個任務(wù)在新環(huán)境和新對象上的成功率達到約 90%。
隨后,團隊將機器人部署在各種野外環(huán)境中,包括火鍋店、咖啡館、電梯、噴泉和其他以前未收集數(shù)據(jù)的地方。結(jié)果顯示,模型在這些全新的環(huán)境中展現(xiàn)出極好的泛化能力,超出預(yù)期。
這篇論文的作者是來自清華大學(xué)交叉信息研究院的高陽和他的學(xué)生林凡淇、胡英東、盛平岳、Chuan Wen、游嘉誠,其中林凡淇、胡英東、Chuan Wen 同屬于上海期智學(xué)院和上海人工智能實驗室。
論文鏈接:https://data-scaling-laws.github.io/paper.pdf
項目網(wǎng)址:https://data-scaling-laws.github.io/
代碼:https://github.com/Fanqi-Lin/Data-Scaling-Laws
數(shù)據(jù):https://huggingface.co/datasets/Fanqi-Lin/Processed-Task-Dataset/tree/main
研究團隊選擇使用手持夾持器(UMI)在不同環(huán)境中收集人類演示數(shù)據(jù),并使用擴散策略(Diffusion Policy)對數(shù)據(jù)進行建模,主要研究了策略的泛化性能如何隨著訓(xùn)練環(huán)境數(shù)量、物體數(shù)量和演示數(shù)量的變化而變化。
實驗選擇了 Pour Water(倒水)和 Mouse Arrangement(鼠標(biāo)移動)作為案例研究任務(wù),并在此基礎(chǔ)上擴展到 Fold Towels(疊毛巾)和 Unplug Charger(拔掉充電器)任務(wù),收集了超過 40,000 次演示,并在超過 15,000 次實際機器人操作中進行了評估。
具體的實驗任務(wù)分為對象泛化、環(huán)境泛化以及跨環(huán)境和對象泛化三種類型,分別針對同一環(huán)境下的不同物體、不同環(huán)境下的同一物體和不同環(huán)境下的不同物體收集演示,隨機選擇部分演示進行訓(xùn)練,并評估策略在未知情況下的的表現(xiàn)。每個實驗設(shè)置下,策略在 8 個未見過的環(huán)境中進行評估,每個環(huán)境有 5 次試驗。
實驗結(jié)果表明,策略的泛化能力與訓(xùn)練物體數(shù)量、環(huán)境數(shù)量和訓(xùn)練環(huán)境-物體對數(shù)關(guān)系密切,符合冪律分布。
對象泛化
隨著訓(xùn)練物體數(shù)量的增加,策略在未見過的物體上的表現(xiàn)顯著提高。當(dāng)訓(xùn)練物體數(shù)量達到 32 時,策略在未見過的物體上的表現(xiàn)超過了 0.9。
環(huán)境泛化
增加訓(xùn)練環(huán)境數(shù)量顯著提高了策略在未見過的環(huán)境上的表現(xiàn)。即使演示數(shù)量保持不變,環(huán)境擴展仍然有效。
跨環(huán)境和對象泛化
同時增加環(huán)境和物體數(shù)量顯著提高了策略的泛化能力。與單獨擴展環(huán)境或物體相比,同時擴展兩者的效果更好,且額外的演示對性能的提升更快飽和。
林凡淇,清華大學(xué)交叉信息研究院 (IIIS) 的一年級博士生,指導(dǎo)老師是高陽教授。此前在清華大學(xué)計算機科學(xué)與技術(shù)系獲得學(xué)士學(xué)位。
他的研究重點是 Embodied AI(具身智能),這是一個集成機器人、計算機視覺和自然語言處理的跨學(xué)科領(lǐng)域。具體來說,他的目標(biāo)是使機器人能夠通過大規(guī)模數(shù)據(jù)實現(xiàn)人類水平的操作能力。同時,他還熱衷于利用基礎(chǔ)模型來增強機器人的能力。
胡英東,清華大學(xué)交叉信息研究院 (IIIS) 的四年級博士生,指導(dǎo)老師是高陽教授。此前在北京郵電大學(xué) (BUPT) 獲得學(xué)士學(xué)位。
他的研究重點也是具身智能,他研究了開發(fā)通用機器人系統(tǒng)的基本挑戰(zhàn),這些系統(tǒng)可以在各種非結(jié)構(gòu)化的現(xiàn)實世界環(huán)境中有效地適應(yīng)和推廣其學(xué)習(xí)行為。
盛平岳,清華大學(xué)交叉信息科學(xué)研究院 (IIIS) 姚班的一名本科生。他的研究興趣集中在機器人技術(shù)、模仿學(xué)習(xí)和算法上。
Chuan Wen,清華大學(xué)交叉信息科學(xué)研究院 (IIIS) 的博士生,指導(dǎo)老師是高陽教授,同時與賓夕法尼亞大學(xué) GRASP 實驗室的 Dinesh Jayaraman 教授密切合作。此前在上海交通大學(xué)電子工程系獲得學(xué)士學(xué)位,師從張亞教授和王新兵教授。他目前還是伯克利人工智能研究 (BAIR) 的訪問學(xué)者,由 Pieter Abbeel 教授和林星宇博士指導(dǎo)。
游嘉誠,清華大學(xué)交叉信息研究院 (IIIS) 的一年級博士生。
高陽,上海期智研究院 PI,清華大學(xué)交叉信息研究院助理教授。于美國加州大學(xué)伯克利分校獲得博士學(xué)位,師從 Trevor Darrell 教授。在獲得博士學(xué)位后,于加州伯克利大學(xué)與 Pieter Abbeel 等人合作完成了博士后研究。研究方向為強化學(xué)習(xí)與機器人。
高陽博士目前主持具身視覺與機器人實驗室 (Embodied Vision and Robotics,簡稱EVAR Lab),專注于利用人工智能技術(shù)賦能機器人,致力于打造通用的具身智能框架。
本次 CoRL 2024 也已經(jīng)宣布了最佳論文的獲獎名單,分別為來自 Kuo-Hao Zeng 等人的《PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators》,和來自 Franck Djeumou 等人的《One Model to Drift Them All》。
論文作者:Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
論文摘要:研究團隊提出了 POLIFORMER(Policy Transformer),這是一個僅使用 RGB 的室內(nèi)導(dǎo)航代理,通過端到端的強化學(xué)習(xí)在規(guī)模上進行訓(xùn)練,并且能夠在沒有適應(yīng)的情況下泛化到現(xiàn)實世界。
POLIFORMER 使用了一個基礎(chǔ)的視頻變壓器編碼器和因果變壓器解碼器,實現(xiàn)了長期記憶和推理能力。它經(jīng)過數(shù)億次交互,在各種環(huán)境中進行了訓(xùn)練,利用并行化和多機部署以實現(xiàn)高效訓(xùn)練和高吞吐量。
POLIFORMER 是一個精通的導(dǎo)航器,在兩個不同的實施例中——LoCoBot 和 Stretch RE-1機 器人,以及四個導(dǎo)航基準(zhǔn)測試中都產(chǎn)生了最先進的結(jié)果。它突破了以往工作的局限,實現(xiàn)了 CHORES-S 基準(zhǔn)測試中前所未有的 85.5% 的成功率,絕對成功率提高了 28.5%。
POLIFORMER 還可以輕松擴展到多種下游應(yīng)用,如物體跟蹤、多對象導(dǎo)航和開放詞匯導(dǎo)航,無需微調(diào)。
論文作者:Franck Djeumou, Thomas Jonathan Lew, NAN DING, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits
論文摘要:如果使自動駕駛車輛能夠在輪胎力飽和的極限條件下可靠運行,將提高它們的安全性,特別是在緊急避障或惡劣天氣等場景中。然而,解鎖這一能力由于任務(wù)的動態(tài)本質(zhì)和對道路、車輛及其動態(tài)相互作用的不確定屬性的高敏感性而具有挑戰(zhàn)性。
受到這些挑戰(zhàn)的啟發(fā),研究團隊提出了一個框架,利用包含不同環(huán)境中不同車輛軌跡的無標(biāo)簽數(shù)據(jù)集,學(xué)習(xí)用于高性能車輛控制的條件擴散模型。
研究團隊設(shè)計的擴散模型能通過物理信息驅(qū)動的動力學(xué)模型的多模態(tài)參數(shù)分布來捕捉復(fù)雜數(shù)據(jù)集的軌跡分布。通過在生成過程中進行在線測量,將擴散模型集成到實時模型預(yù)測控制框架中,用于在極限條件下駕駛,并展示了它能夠即時適應(yīng)給定的車輛和環(huán)境。
在豐田Supra和Lexus LC 500上的廣泛實驗表明,單個擴散模型在操作時能夠在不同輪胎和不同道路條件下可靠地實現(xiàn)自動駕駛漂移。
該模型在特定任務(wù)上的專家模型的性能匹配,同時在泛化到未見條件方面表現(xiàn)優(yōu)于它們,為自動駕駛在處理極限下的通用、可靠方法鋪平了道路。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。