2021年11月12日凌晨,遲遲未公布的CoRL 2021論文獎名單終于揭曉。備受關(guān)注的論文大獎全部被華人學(xué)者包攬。來自麻省理工大學(xué)的Tao Chen, Jie Xu, Pulkit Agrawal(導(dǎo)師)拿下最佳論文獎;來自哥倫比亞大學(xué)的Huy Ha, 宋舒然(導(dǎo)師)拿下最佳系統(tǒng)論文獎。
本次獲提名獎的共有七篇論文,四篇最佳論文獎提名,三篇最佳系統(tǒng)論文提名。七篇佳作皆有華人學(xué)者參與。占比42.3%。
CoRL于11月8日——11日在倫敦舉行。同時在網(wǎng)絡(luò)上也開設(shè)了虛擬會場以饗諸位:PheedLoop主題演講、指導(dǎo)性建議和論文演講;gather.town 用于海報會議和交流。即使不能到現(xiàn)場的同學(xué),也不用擔心錯過關(guān)注論文的演講了。
官網(wǎng)鏈接:https://www.robot-learning.org/program/awards_2021
Youtube直播鏈接:https://www.youtube.com/watch?v=5KjpZS4_RBs
榮獲CoRL 2021最佳論文獎的是:

麻省理工學(xué)院《A System for General In-Hand Object Re-Orientation》

論文鏈接:https://openreview.net/forum?id=7uSBJDoP7tY
作者:Tao Chen, Jie Xu, Pulkit Agrawal
論文介紹:
由于高維驅(qū)動空間以及手指與物體之間接觸狀態(tài)的頻繁變化,手持物體重新定向一直是機器人技術(shù)中難攻克的問題。Tao Chen等人提出一個簡單的框架,框架的核心是無模型強化學(xué)習(xí):可被稱為“師生關(guān)系”的訓(xùn)練法、重力課程設(shè)置和物體穩(wěn)定初始化。它可以解決復(fù)雜的問題,用機械手學(xué)習(xí)重新定向,讓2000多個不同物體的系統(tǒng)面朝上和朝下。該系統(tǒng)不需要物體或機械手模型、接觸動力學(xué)和任何特殊的感官觀察預(yù)處理。
過去的一些方法,如使用強大軌跡優(yōu)化法分析模型,雖然解決了重新定向問題,但結(jié)果主要是在模擬簡單的幾何形狀,無法拓展到現(xiàn)實中推廣到新對象,結(jié)果差強人意。
Tao Chen他們的研究首先在模擬中對“老師”無模型強化學(xué)習(xí)(model-free Reinforcement Learning)進行有關(guān)物體和機器人信息的訓(xùn)練,為了確保機器人可在現(xiàn)實中運作,模擬中缺失的信息如指間的位置,強化學(xué)習(xí)智能體接受的知識被轉(zhuǎn)化為模擬外可用的數(shù)據(jù),像攝像機捕獲的深度圖像等。為了提高性能,機器人先在零重力空間里學(xué)習(xí),再在正常的重力環(huán)境中適應(yīng)調(diào)控器??此七`反直覺,但單個控制器可以重新定向大量它以前從未見過的物體。
作者介紹:

Chen Tao, 麻省理工學(xué)院EECS & CSAIL 博士,師從Pulkit Agrawal教授。本科畢業(yè)于上海交通大學(xué)機械工程及自動化專業(yè),期間在普渡大學(xué)機械工程學(xué)院交換。讀研之前,Chen Tao曾是上海LX Robotics的研究工程師,從事目標檢測、圖像分割、機器人深度強化學(xué)習(xí)、SLAM等方面的研究。研究生畢業(yè)于卡內(nèi)基梅隆大學(xué)機器人學(xué)院,師從Abhinav Gupta 教授。主要研究機器人學(xué)習(xí)、操作和導(dǎo)航的交叉領(lǐng)域 。
個人主頁:https://taochenshh.github.io/

Jie Xu, 麻省理工學(xué)院CSAIL博士,師從計算設(shè)計和制造組(CDFG)的Wojciech Matusik教授。本科畢業(yè)于清華大學(xué)計算機科學(xué)與技術(shù)系。
研究主要方向機器人、仿真、機器學(xué)習(xí)的交叉領(lǐng)域。感興趣的主題: 機器人控制、強化學(xué)習(xí)、基于可微分物理的仿真、機器人控制和設(shè)計協(xié)同優(yōu)化、模擬現(xiàn)實。
個人主頁:https://people.csail.mit.edu/jiex/
Pulkit Agrawal, 麻省理工學(xué)院EECS助理教授。所在實驗室是計算機科學(xué)和人工智能實驗室(CSAIL)的一部分,隸屬于信息和決策系統(tǒng)實驗室(LIDS),并與美國國家科學(xué)基金會人工智能和基本交互研究所(IAIFI)合作。
首要研究興趣是構(gòu)建能夠自動且持續(xù)地了解其環(huán)境的機器。希望這種學(xué)習(xí)的最終結(jié)果將類似于人類所謂的常識的發(fā)展。Pulkit Agrawal將這方向的工作稱為“計算感覺運動學(xué)習(xí)”,它包括計算機視覺、機器人技術(shù)、強化學(xué)習(xí)和其他基于學(xué)習(xí)的控制方法。個人主頁:https://people.csail.mit.edu/pulkitag/榮獲CoRL 2021最佳系統(tǒng)論文獎的是:哥倫比亞大學(xué)的《FlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding》論文鏈接:https://openreview.net/pdf?id=0QJeE5hkyFZ高速動態(tài)動作(如,亂扔或用力拋擲)通過提高自身效率和有效擴展物理接觸范圍,在我們與可變形物體的日常互動中發(fā)揮著至關(guān)重要的作用。但之前的大多數(shù)工作都是使用單臂準靜態(tài)動作處理布料操作,這需要大量的交互來挑戰(zhàn)初始布料配置,并嚴格限制機器人可及范圍的最大布料尺寸。Huy Ha等人使用自監(jiān)督學(xué)習(xí)框架FlingBot演示了布料展開動態(tài)投擲動作的有效性。這個方法從從視覺觀察開始雙臂設(shè)置,學(xué)習(xí)如何展開一塊織物,從任意的初始配置使用拾取,拉伸,并投擲。最終系統(tǒng)在新布料上3個動作就能達到80%以上的覆蓋范圍,可以展開比系統(tǒng)覆蓋范圍更大的布料,雖然只在矩形布料上訓(xùn)練過,但可以推廣到T恤上等。研究者們還在真實世界的雙臂機器人平臺上對FlingBot進行了微調(diào)。FlingBot的布料覆蓋面積比準靜態(tài)基線增加了4倍以上。FlingBot的簡單性和它優(yōu)于準靜態(tài)基線的性能證明了動態(tài)動作對可變形物體操作是十分有效的。Huy Ha, 哥倫比亞大學(xué)計算機科學(xué)系博士。師從宋舒然教授,是哥倫比亞人大學(xué)工智能與機器人 (CAIR) 實驗室的成員。個人主頁:https://www.cs.columbia.edu/~huy/宋舒然, 目前是哥倫比亞大學(xué)計算機科學(xué)系的助理教授, 本科就讀于香港科技大學(xué)計算機工程專業(yè),碩士和博士均畢業(yè)于普林斯頓大學(xué)計算機科學(xué)系。研究重點是計算機視覺和機器人技術(shù)的交叉領(lǐng)域,研究興趣是開發(fā)能使智能系統(tǒng)在與物理世界的交互中學(xué)習(xí)、并自主獲得執(zhí)行復(fù)雜任務(wù)和協(xié)助人們的感知和操縱技能的算法。個人主頁:https://www.cs.columbia.edu/~shurans/- 達姆施塔特工業(yè)大學(xué)和華為英國研發(fā)中心合作的《Robot Reinforcement Learning on the Constraint Manifold》
論文鏈接:https://openreview.net/pdf?id=zwo1-MdMl1P作者:Puze Liu, Davide Tateo, Haitham Bou-Ammar and Jan Peters許多實際問題,像安全、機械約束和磨損等,在機器人技術(shù)中運用強化學(xué)習(xí)十分具有挑戰(zhàn)性。這些問題通常在機器人學(xué)習(xí)文獻中沒有被充分考慮到。在現(xiàn)實中應(yīng)用強化學(xué)習(xí)的關(guān)鍵點在于安全探索,在整個學(xué)習(xí)過程中滿足物理和安全約束至關(guān)重要。要在這樣的安全環(huán)境中探索,利用諸如機器人模型和約束條件等已知信息,能更好地提供強有力的安全保障。Puze Liu等人提出了一種在模擬中能有效學(xué)習(xí)機器人任務(wù)的方法,能滿足學(xué)習(xí)過程中需要的約束條件。研究提出了作用于約束流形的切線空間新方法(ATACOM),智能體探索約束流形的切線空間,如圖中所示。它可以將約束強化學(xué)習(xí)問題轉(zhuǎn)化為典型的無約束強化學(xué)習(xí)問題。這個方法可以讓我們利用任何無模型 RL算法,同時能讓約束保持在容差以下。ATACOM 的優(yōu)點可以概括如下:(i) 它可以處理等式和不等式約束。每個時間步的所有約束都保持在容差以下。(ii) 不需要初始可行的策略,智能體可以從零開始學(xué)習(xí)。(iii) 不需要手動安全備份策略將系統(tǒng)移回安全區(qū)域。(iv)它可以應(yīng)用于任何使用確定性和隨機策略的無模型強化學(xué)習(xí)算法。(v) 探索可以集中在低維流形上,而不是探索原始動作空間中的等式約束。(vi) 它具有更好的學(xué)習(xí)性能,因為不等式約束僅限于較小的可行狀態(tài)-動作空間。- 卡內(nèi)基梅隆大學(xué)的《Learning Off-Policy with Online Planning》
論文鏈接:https://openreview.net/pdf?id=1GNV9SW95eJ作者:Harshit Sikchi, Wenxuan Zhou, David Held低數(shù)據(jù)和風(fēng)險敏感領(lǐng)域中的強化學(xué)習(xí)需要靈活高性能的部署策略,這些策略可以在部署過程中輕松整合約束。一類是半?yún)?shù)H步前瞻策略,它使用軌跡優(yōu)化對具有終值函數(shù)的固定范圍的動態(tài)模型進行軌跡優(yōu)化選擇動作。在這項工作中,Harshit Sikchi等人研究了一種新的 H步前瞻實例化,其中包含一個學(xué)習(xí)模型和一個由無模型離策略算法學(xué)習(xí)的終端值函數(shù),名為 Learning Off-Policy with Online Planning (LOOP)。理論分析建議模型誤差和值函數(shù)誤差之間進行權(quán)衡,從經(jīng)驗而言這種權(quán)衡有利于深度強化學(xué)習(xí)。這篇論文還確定了該框架中的“Actor Divergence”問題,提出Actor 正則化控制 (ARC),這是一種改進的軌跡優(yōu)化程序。研究人員在一組用于離線和在線強化學(xué)習(xí)機器人任務(wù)上評估LOOP。LOOP 在部署期間展示了將安全約束與導(dǎo)航環(huán)境結(jié)合起來的靈活性。由此證明 LOOP 是一個理想的機器人應(yīng)用框架,基于它在各種重要的強化設(shè)置中的強大性能。- 斯坦福大學(xué)、谷歌機器人和加州大學(xué)伯克利分校合作的《XIRL: Cross-embodiment Inverse Reinforcement Learning》
論文鏈接:https://openreview.net/pdf?id=RO4DM85Z4P7作者:Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi本文研究了視覺跨實體模仿設(shè)置,其中智能體從其他智能體(例如人類)的視頻中學(xué)習(xí)策略,演示相同的任務(wù),但他們在實施中存有明顯差異——形狀、動作、末端效應(yīng)器動力學(xué)等。本文證明了從對差異具有魯棒性的跨實體演示視頻中自動發(fā)現(xiàn)和學(xué)習(xí)基于視覺的獎勵函數(shù)。通過提出跨實體逆強化學(xué)習(xí) (XIRL) 的自監(jiān)督學(xué)習(xí),利用時間周期一致性約束來學(xué)習(xí)深度視覺嵌入,這些嵌入可以從多個專家代理的離線演示視頻中捕獲任務(wù)進展,每個智能體執(zhí)行相同的任務(wù)因具體化而不同。此前,從自監(jiān)督嵌入產(chǎn)生獎勵通常需要與參考軌跡對齊,在實施差異下可是很難獲得的。如果嵌入了解任務(wù)進度,在學(xué)習(xí)的嵌入空間中簡單地取當前狀態(tài)和目標狀態(tài)之間的負距離作為強化學(xué)習(xí)訓(xùn)練策略的獎勵是有作用的。研究證明學(xué)習(xí)獎勵函數(shù)不僅適用訓(xùn)練期間看到的實施例,更可以推廣到全新的實施例。此外,當將真實世界的人類演示轉(zhuǎn)移到模擬機器人時,研究發(fā)現(xiàn)XIRL比當前的最佳方法更有效果。獲得CoRL 2021最佳系統(tǒng)論文提名的有:- 華盛頓大學(xué)和偉英達公司合作的《SORNet: Spatial Object-Centric Representations for Sequential Manipulation》
論文鏈接:https://openreview.net/pdf?id=mOLu2rODIJF作者:Wentao Yuan, Chris Paxton, Karthik Desingh順序操作任務(wù)要求機器人感知環(huán)境狀態(tài),并計劃一系列行動以達到預(yù)期的目標狀態(tài),其中從原始傳感器輸入推斷對象實體之間空間關(guān)系的能力至關(guān)重要。之前的工作依賴于明確的狀態(tài)估測,對新任務(wù)和對象端到端地學(xué)習(xí)對抗。在這項工作中,Wentao Yuan等人提出了SORNet(空間對象中心表示網(wǎng)絡(luò)),它從以興趣對象的規(guī)范視圖為條件的RGB 圖像中提取以對象為中心的表示。結(jié)果表明,在空間關(guān)系分類、技能前提分類和相對方向回歸三種空間推理任務(wù)中,通過SORNet學(xué)習(xí)的對象嵌入方法可以將零樣本擴展到未見的對象實體,并顯著優(yōu)于基線。此外,我們進行了真實世界的機器人實驗,證明了學(xué)習(xí)對象嵌入在順序操作任務(wù)規(guī)劃中的使用。- 華盛頓大學(xué)和谷歌機器人合作的《Fast and Efficient Locomotion via Learned Gait Transitions》
論文鏈接:https://openreview.net/pdf?id=vm8Hr9YJHZ1作者:Yuxiang Yang, Tingnan Zhang, Erwin Coumans, Jie Tan, and Byron Boots本文主要研究四足機器人節(jié)能控制器的研制問題。動物可以用不同的速度主動切換步態(tài),以降低能量消耗。在本文中,Yuxiang Yang等人設(shè)計了一個層次學(xué)習(xí)框架,在這個框架中,獨特的運動步態(tài)和自然的步態(tài)轉(zhuǎn)換以能量最小化獎勵自動出現(xiàn)。研究人員使用進化策略(ES)訓(xùn)練高級步態(tài)策略,指定每只腳的步態(tài)模式,而低水平凸MPC控制器優(yōu)化電機命令,使機器人可以用期望步態(tài)模式的速度行走。在一個四足機器人上測試了這個學(xué)習(xí)框架,演示了隨著機器人速度的增加,從步行到小跑再到飛小跑的自動步態(tài)轉(zhuǎn)換。結(jié)果表明,學(xué)習(xí)層次控制器消耗的能量遠少于基線控制器在大范圍的運動速度。在CoRL官網(wǎng),組委會這樣描述舉辦CoRL的緣由:CoRL是一個新的以機器人學(xué)和機器學(xué)習(xí)為主題的年度國際會議。第一次會議已于2017年11月13日至15日在加利福尼亞州山景城舉行,旨在匯聚約250名從事機器人學(xué)和機器學(xué)習(xí)領(lǐng)域的最優(yōu)秀的研究者參會。機器人技術(shù),自主感知和控制領(lǐng)域正在經(jīng)歷一場機器學(xué)習(xí)革命,現(xiàn)在正是時候提供一個將機器學(xué)習(xí)的基本進展與機器人應(yīng)用和理論的實證研究相結(jié)合的場所。我們的目標是使CoRL成為機器人(機器)學(xué)習(xí)研究的首選大會。
大會的組織者包括來自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企業(yè)的研究者和從業(yè)者,同時CoRL大會的舉辦還得到了機器人國際機構(gòu)“三巨頭”之一的國際機器人研究基金會(IFRR)和機器學(xué)習(xí)領(lǐng)域最好的期刊之一JMLR(Journal of Machine Learning Research)的支持。機器人學(xué)習(xí)大會(CoRL)自2017年推出以來,已迅速成為機器人技術(shù)與機器學(xué)習(xí)交叉領(lǐng)域的全球頂級學(xué)術(shù)盛會之一:“針對機器人學(xué)習(xí)研究的大會,涵蓋了機器人技術(shù)、機器學(xué)習(xí)和控制等廣泛主題,包括理論和應(yīng)用各方面?!?/span>
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。