0
今年的CoRL落下帷幕,這個專注于機器人領域的新秀,再一次將機器人前端研究推至大眾面前。
今年的機器人研究有哪些看點?公開展示的11個機器人研究和最佳論文獎到底有何突破?與往年相比,今年的機器人研究有哪些不同?后續(xù)將會影響哪些產(chǎn)業(yè)?
帶著這些問題,AI科技評論深剖了今年的CoRL會議,與大家共同探討 「2021年最前沿的機器人研究」。
在公布今年最佳論文獎之前,CoRL展示了11個機器人項目,透露了本年度最受關注的機器人研究方向。
demo鏈接:https://www.robot-learning.org/program/demos
在性能上,它們都利用了機載本體感受和外感受反饋,將感官信息和所需的速度命令映射到腳步計劃中,實時、在線地適應未見過的地形環(huán)境,表現(xiàn)顯著優(yōu)于其他腿式機器人。除此之外,它們還能在一系列運動步態(tài)之間隨意切換,以最小化其能量消耗。
而它們背后的無模型強化學習,也一舉成為腿式機器人運動控制器開發(fā)中的最優(yōu)方法。
具體來說,無模型強化學習指智能體與環(huán)境進行實時交互和探索,并直接對得到的經(jīng)驗數(shù)據(jù)進行學習,最終實現(xiàn)累積收益最大化或達到特定目標。它不需要擬合環(huán)境動態(tài)模型,只要與環(huán)境的實時交互,就可以保證智能體漸近收斂得到最優(yōu)解。
擁有這種模型的四足機器狗,不僅能順利走出實驗室,還能在更復雜的場景中自我決策,成就名副其實的--“跟著感覺走”。
接著,在機器人感知領域,視覺領域的項目有兩項,即1,3;觸覺領域有三項,即6,8,9。
在CV領域,實時密集三維映射稱為密集SLAM(Simultaneous localization and mapping,同步定位與建圖),一直是機器人技術的主要挑戰(zhàn)之一,問題包括估計傳感器的自由度位姿和環(huán)境的三維重建。盡管目前存在RGB-D映射解決方案,但深度值不能簡單地從傳感器讀取并融合,單目攝像機成為性價比最高的方案。
TANDEM框架的創(chuàng)新之處在于,它在攝像機跟蹤方面優(yōu)于其他基于學習的單目視覺里程計(VO)方法,并展現(xiàn)出實時三維重建的性能。
具體來說,它采用了一種新的跟蹤前端,該前端使用由密集深度預測增量構(gòu)建的全局模型渲染的深度圖來執(zhí)行密集直接圖像對齊。其次,為了預測稠密的深度圖,作者提出了級聯(lián)視圖聚合MVSNet (CVA-MVSNet),能夠利用整個活動關鍵幀窗口,通過分層構(gòu)造具有自適應視圖聚合的3D成本量來平衡關鍵幀之間的不同立體基線。最后,將預測的深度圖融合為一致的全局圖,并以截斷的帶符號距離函數(shù)(TSDF)體素網(wǎng)格表示。
而iMAP模型,則是第一個使用神經(jīng)隱式場景表示的 SLAM 系統(tǒng),能夠MLP 在沒有先驗數(shù)據(jù)的情況下在實時操作中進行訓練,構(gòu)建一個密集的、特定于場景的隱式 3D 占用和顏色模型。
除了視覺研究,機器人的觸覺研究也在今年展現(xiàn)出不俗的研究勢頭。
其中,ReSkin是一款利用機器學習和磁傳感技術的觸覺軟傳感器,能實現(xiàn)無源共形接觸(conformal contact),又能根據(jù)傳感器特性提供主動接觸數(shù)據(jù),可視化地表現(xiàn)其接觸定位和力預測。
此外,為解決長期以來軟傳感器壽命短、退化快的問題,ReSkin在設計中將磁傳感將電子電路從被動接口中分離出來,便于更換接口。
雖然目前的皮膚感知難以起步,但在現(xiàn)階段,研究者不約而同將目光聚焦在“指尖感應”上,通過深度學習解讀高分辨率的觸覺數(shù)據(jù),可實現(xiàn)對手持物體的精細控制和輕而穩(wěn)的抓取。
最后,在機械臂運動規(guī)劃的研究中,模仿學習成為今年熱點。
視覺模仿學習可以建模為一個狀態(tài)估計問題,狀態(tài)定義為對象交互開始時末端執(zhí)行器的姿勢。因此在學習中,無需使用大量演示或強化學習來明確學習策略,也無需儲存對與之交互的對象的任何先驗知識,而是訓練一個自我監(jiān)督的姿態(tài)估計器,可從單個人類演示中學習各種技能,同時還產(chǎn)生一個穩(wěn)定且可解釋的控制器。
而重頭戲--最佳論文獎,則將研究聚焦在“靈巧手”上。
團隊三人來自麻省理工學院計算機科學與人工智能實驗室 (MIT CSAIL),分別為陳濤、徐捷,以及陳濤的博導Pulkit Agrawal。
巧的是,陳濤與徐捷同為2016年本科畢業(yè),分別畢業(yè)于上海交通大學的機械工程及自動化專業(yè)與清華大學計算機科學與技術系。目前,兩人同在MIT CSAIL實驗室,各自師從于Improbable AI實驗室的Pulkit Agrawal教授與計算設計和制造組(CDFG)的Wojciech Matusik教授。
在研究方向上,兩人各有側(cè)重,陳濤擅長機器人學習、操作和導航;徐捷擅長機器人仿真、設計協(xié)同優(yōu)化與模擬現(xiàn)實,這為兩人在靈巧手的合作上奠定了最基本的優(yōu)勢。
從左至右為陳濤、徐捷、Pulkit Agrawal
在CoRL會后,AI科技評論聯(lián)系到陳濤,對項目的研究思路和三人的工作做了詳細的了解。陳濤談到,這個項目最大的貢獻是為大家提供了一種研究思路:如何用強化學習和模仿學習訓練靈巧手控制器,并且展示了機械手在最為極端的情況(手面朝下)下轉(zhuǎn)動形狀任意的物體。研究還發(fā)現(xiàn),當靈巧手控制器足夠魯棒時,即使不知道物體形狀信息,也可以以高成功率轉(zhuǎn)動任意物體到指定朝向。
論文中表示,這個靈巧手有 24 個自由度,已通過無模型框架重新定位了超2000個形狀各異的物體,具有非常高的通用性。
對于許多小的圓形物體,比如蘋果、網(wǎng)球、彈珠,成功率接近 100%,對于更復雜的物體,如勺子、螺絲刀或剪刀,則接近 30%。研究發(fā)現(xiàn),成功率因物體形狀而異,接下來還要基于對象形狀來訓練模型來。
在性能上,這個靈巧手不僅能夠借助桌子平臺上向上和向下重定向物體,還能免除桌子支撐,在空中重定向,表現(xiàn)接近人手。
左邊為物體應該定向的姿勢,右邊為定向演示。該圖為借助桌子支撐的重定向展示
空中重定向,且手掌向下,需要考慮重力因素
空中重新定向,且手掌向上,物體的形狀復雜性加大??催@個靈活度,很適合盤核桃
在靈巧手研究領域,國內(nèi)外都不乏研究者,但是目前使用最多的控制器,形式上無非是真空式吸盤或者平行夾爪。性能上,它們的優(yōu)點在于抓取速度快且裝載系統(tǒng)的成本低,但缺點在于自由度有限,靈活度不高。
陳濤舉了一個例子:如果人手是鉗子的形狀,那么我們只能控制手部的打開和閉合,這種情況下,我們還能使用我們家里的很多工具嗎,比如剪刀,螺絲刀等。而這,就是“靈巧手”研究所在。
“我們希望未來能進入人們?nèi)粘I畹臋C器人,能夠幫我們處理最基本的家務,比如說清理餐具,打掃廚房客廳, 收拾衣物等。那么我們現(xiàn)有的機器人具有這個能力嗎?顯然是還不具備的。這個涉及到很多原因,其中一個物理條件就是是缺少靈巧的機械手?!标悵劦健?/span>
那為什么要研究靈巧手重定向物體呢(轉(zhuǎn)動物體到目標朝向)?其實這是一個很實用的技能:在我們生活中,擰螺絲,擰瓶蓋等動作都可以描述為物體在手上發(fā)生位移,由一開始的水平朝向變?yōu)樨Q直朝向,如果用靈巧手來實現(xiàn)這一高頻技能,機器人就會使用更多的工具,解決了大部分的場景應用問題。
從機器人面向復雜場景的應用到靈巧的末端控制器重定向研究,整個研究的轉(zhuǎn)向是極其自然又合理的。陳濤談到,靈巧手的研究源于自己和導師Pulkit Agrawal的一次飯后閑聊,隨后快速推進,前后周期不過三、四個月。但因為期間還給導師新開的一門課程做助教花費了大量的時間,所以實際周期要更短。
在項目推進中,徐捷的加入則使得整個研究更加健備。囿于當時疫情情況,想要在真實機械手上模擬成為難題,于是研究物理仿真的徐捷輔助搭建環(huán)境,解決了靈巧手在仿真環(huán)境中的棘手問題。
涉及靈巧手的研究方法,陳濤談到,靈巧手的自由度很高,如果用傳統(tǒng)的控制理論以及建立動力學模型的方法,項目將很難推進。
靈巧手本身是一個高維度的控制系統(tǒng),是否能跳過建立模型這一步,直接采用無模型的強化學習來訓練靈巧手完成任務。
在一系列實驗后,他們發(fā)現(xiàn),如果只給控制器提供物體姿態(tài),手指關節(jié)角,物體目標朝向的信息,那么控制器學習訓練過程非常慢,而且最后訓練完成后的成功率也不夠高。所以他們又想到,如何能加快控制器的訓練?
受2019年CoRL的一篇研究自動駕駛的論文的啟發(fā),他們想到,雖然最后測試過程中我們想要一個只依賴于物體姿態(tài),手指關節(jié)角,物體目標朝向信息的控制器,但是訓練過程中我們并不應該受限于只使用這些信息。也就是說,在訓練過程中,我們可以使用更多的輔助信息來幫助加快控制器的訓練。等到控制器學會這個技能后,再考慮去掉這些輔助信息。
陳濤又舉了個例子,我們駕校學車的時候,科目二訓練場地會有一些輔助線或者輔助桿幫助學員掌握側(cè)方停車的技能。這些輔助線就是訓練過程中的輔助信息,學員可以更快掌握側(cè)方停車的方法,隨后應用到現(xiàn)實世界中。
所以在陳濤他們的研究中也采用了相似的思路。
首先在訓練過程中,給控制器提供了許多額外的狀態(tài)信息,比如物體的速度信息。這些輔助信息的加入極大地加速控制器的訓練。當訓練好這樣一個控制器后,就需要考慮怎么讓控制器沒有這些額外輔助信息也能工作。這時就用到了知識蒸餾(Knowledge Distillation) 或者說模仿學習(Imitation Learning)的技術。
他們把之前訓練好的控制器作為“教師”,然后訓練第二個控制器,即”學生”?!皩W生”控制器不需要使用額外的輔助信息作為輸入,但通過模仿學習去模仿“教師”控制器的行為。最終,將獲得一個聰明的“學生”控制器,也就是可以用來訓練機械手轉(zhuǎn)動大量形狀不一的物體。在測試中,陳濤他們一共重定向了2000多個形狀不同的物體。
解決了靈巧手學習框架的問題,接下來就是模擬現(xiàn)實應用。在真實場景中,手做任務時會有各種朝向,其中最極端的一種情況就是手掌朝下:不僅要操縱物體,還要避免重力因素導致物體脫落。
陳濤談到,經(jīng)過實驗測試,我們發(fā)現(xiàn)現(xiàn)有的框架依然是夠用的,只是需要在每次轉(zhuǎn)物體開始前給物體姿態(tài)和手指關節(jié)角提供一個好的初始值,而非隨機初始化。這里好的初始值是指能在初始時刻讓手指觸碰到物體,但是因為物體形狀的復雜多樣,靈巧手的高維狀態(tài)空間,所以很難通過經(jīng)典方法比如運動學逆解來獲取這些好的初始值。
為了解決這一問題,他們首先訓練了一個借助桌子而向下抓取物體的控制器。那么抓起之后,自然而然就獲得了一個好的初始姿態(tài)設定。在此基礎上,就可以用之前提到的框架去訓練控制器。
通過這樣的訓練后,他們發(fā)現(xiàn)靈巧手朝下轉(zhuǎn)動物體成功率僅有50%左右,實際上,即使與人相比,這個成功率已經(jīng)很高了。陳濤說到,想象一下,你在閉眼時手掌朝下將一個任意形狀的物體轉(zhuǎn)到特定朝向,你的成功率有多高呢?
“但是我們依舊想進一步提高成功率,由此想到物體重力的影響。這就啟發(fā)了我們下一個提高成功率的技巧:我們首先讓機械手在真空(無重力)環(huán)境下訓練,等到它學會怎么轉(zhuǎn)東西了之后,我們逐漸增加重力加速度,并繼續(xù)訓練控制器直到它能在正常的重力環(huán)境下轉(zhuǎn)動物體。我們稱這個技巧為 「Gravity Curriculum」(重力課程)?!?/span>
最終,整個項目最出乎意料的發(fā)現(xiàn)是:無論是機械手朝上或朝下,都能成功訓練一個控制器,使它在不知道物體形狀的情況下還能夠任意轉(zhuǎn)動形狀各異的物體。即論文中所說的“無感官預訓練”。
最后,陳濤談到:靈巧手是在機器人領域尚未被充分研究的的一項研究,希望我們的工作能讓更多人關注到靈巧手操作這一領域,有更多人能進入這一領域共同促進靈巧手的發(fā)展。
但會議落幕,研究尚未結(jié)束。陳濤表示目前還會做一些拓展工作,比如將當前在仿真器里訓練好的控制器遷移到真實的機械手上。“我們希望能在真實機械手上也能實現(xiàn)轉(zhuǎn)動許多不同物體的目標。如果之后有其他人在這款靈巧手中加入視覺的信息或觸覺的信息,使它的成功率更高,也要看在真實環(huán)境中的測試?!?/span>
未來,這款機械手可以轉(zhuǎn)移到真實機器人系統(tǒng),或應用到物流和制造業(yè)中,比如物體打包,插槽裝配等;或應用于家庭場景中,處理雜物等??傊鼘⑹沟脵C器人距離我們更近。
總結(jié)來看,今年的CoRL中的研究有兩種:一、基于無模型強化學習+模仿學習的機器人;二、基于視覺觸覺等感知的機器學習系統(tǒng)。
為何“無模型強化學習+模仿學習”組了CP?
說到底,這是研究者們更加重視機器人在環(huán)境中的進化結(jié)果。
比如,和ANYmal機器狗在現(xiàn)實環(huán)境中在線進化不同,陳濤團隊的靈巧手研究首先在仿真環(huán)境中訓練,然后通過模仿學習一步一步提高泛化能力,并最終在真實的機械手上觀測遷移性能。
同樣,與陳濤團隊的研究路徑相比,ANYmal機器狗強調(diào)在現(xiàn)實環(huán)境中進化,從而獲得更合適的反饋,比如得到更適合機器“狗”的反饋數(shù)據(jù)。
總之,無論是用有模型的訓練框架,還是用無模型的訓練框架;是在真實環(huán)境內(nèi)中訓練、在仿真環(huán)境中訓練,各種方法并無優(yōu)劣,而是是否適配特定的機器本體(仿人,仿狗等等)。
拿無模型強化學習來說,它成為今年的CoRL會議上頻出的研究方法,其優(yōu)勢為何?
要解釋何為無模型強化學習,首先要看向強化學習。
在定義中,強化學習作為機器學習領域中與監(jiān)督學習、無監(jiān)督學習并列的第三種學習范式,它是通過與環(huán)境進行交互來學習,最終將累積收益最大化。而強化學習算法分為模型化強化學習和無模型強化學習。
基于模型的強化學習算法是智能體通過與環(huán)境交互獲得數(shù)據(jù),根據(jù)數(shù)據(jù)學習和擬合模型,智能體根據(jù)模型利用強化學習算法優(yōu)化自身的行為。
基于模型的強化學習算法的優(yōu)點:由于智能體利用數(shù)據(jù)進行模型的擬合,因此智能體將數(shù)據(jù)進行了充分的利用,因為模型一旦擬合出來,那么智能體就可以根據(jù)模型來推斷智能體從未訪問過的區(qū)域。因為數(shù)據(jù)得到了最高的利用效率。智能體與環(huán)境之間的交互次數(shù)會急劇減少。用一個詞來概括基于模型的強化學習算法就是Data efficiency。
從基于模型的強化學習算法的過程我們也可以很容易看到它的缺點:擬合的模型存在偏差,因此基于模型的強化學習算法一般不能保證最優(yōu)解漸近收斂。
而在無模型強化學習中,智能體通過與環(huán)境進行實時交互學習收斂得到最優(yōu)策略。由于沒有擬合環(huán)境模型,所以智能體對環(huán)境的感知和認知只能通過與環(huán)境之間不斷的交互。這個交互量多大呢?在陳濤的研究中使用了2000個形狀各異的物體做仿真訓練。如此多的交互次數(shù)使得無模型的強化學習算法效率很低,而且難以應用到實際物理世界中。
然而,跟基于模型的強化學習算法相比,無模型的強化學習算法有一個很好的性質(zhì),該性質(zhì)是漸近收斂。也就是說,無模型的強化學習算法經(jīng)過無數(shù)次與環(huán)境的交互可以保證智能體得到最優(yōu)解。
然后從這點出發(fā),再尋找提高訓練速度的方法,比如添加更多的輔助信息,然后再通過知識蒸餾方法去掉輔助信息。先做加法、
隨之而來的還有泛化問題,從仿真環(huán)境到現(xiàn)實環(huán)境,訓練出在某個問題上泛化能力強的模型,才是機器學習最根本的目的。師生模仿學習成為這一階段的利器。
此外,為何小數(shù)據(jù)模型受到追捧,或許還能從近年來的技術研究范式看出端倪:
一方面,科學家們逐漸厭惡大數(shù)據(jù)研究,累瀆般的數(shù)據(jù)搬運和數(shù)據(jù)標記,勞神費力又泛化能力弱。另一方面,隨著認知神經(jīng)科學等學科的參與,生物進化思想滲透到智能體迭代的研究中,科學家們逐漸認識到:機器人研究,一端朝向“機器”,一端朝向“人”,只有將機器人置于環(huán)境中進化,才能學到人類最根本的學習范式:經(jīng)驗學習。
反思機器人與自己的數(shù)據(jù)化生存,成為研究者走出研究囹圄的第一步。
然而,技術并非抽象生存,將機器人置于環(huán)境進化中,其背后的科學家處于何種浪潮?
后疫情時代,很多故事圍繞機器人。但不樂見的是,疫情并未結(jié)束,不時以一種幽怨的方式臨場。兩年來,這種非常態(tài)化的社會環(huán)境,如何籠罩機器人的前端研究?
以應用場景劃分,機器人劃分為工業(yè)、服務、醫(yī)療三大領域,隨著機器人硬件市場規(guī)模持續(xù)增長與迭代,機器人的底層研發(fā)邏輯也在改變:第一階段,機器人以“機械”名義入場,成為人類感官的延伸,如醫(yī)療手術機器臂。
第二階段,受疫情特殊社會化環(huán)境影響,機器人以“車”的形式再度登場,并發(fā)揮組織調(diào)度能力,延伸人的四肢,比如用于倉儲分類,干線運輸,清潔服務等機器人。也是從這一階段開始,機器人玩家發(fā)力生活服務的最后一公里,愈發(fā)越接近人的環(huán)境,由此引出第三階段:面向非結(jié)構(gòu)化復雜場景的機器人。
隨著第三階段的到來,機器人的研發(fā)模式也在變化,一面是鋼鐵本體的擬人化,出現(xiàn)更多的仿生機器人,模仿生物的骨骼和外形結(jié)構(gòu);一面是機器人智力的融合化,開始調(diào)動“耳目口舌”等多模態(tài)信息并與環(huán)境交互。
目前,機器人本體控制和軟件算法的快速耦合正在擴大機器人能夠自主執(zhí)行的任務范圍,換句話說,也就是機器人的可商業(yè)化場景。
回頭來看,非常態(tài)化的疫情環(huán)境更像是為機器人研發(fā)建構(gòu)了一間屋子,加快前端研發(fā)沿著多模態(tài)和環(huán)境進化的方向發(fā)展。而機器人玩家在這個時間點瘋狂入局,更是為這階段的技術研發(fā)打了一道墻,既將機器人產(chǎn)業(yè)的視線縮小在“最后一公里”,又迫使前端科學家專注于機器人技術的可用性,盡快完成機器人智力的升級。
房間里打墻,除了更狹塞,也會更聚焦。往前往后沒有出路,只有喚醒體內(nèi)所有暗流,鼓裂頭頂上的一點。
在疫情后的第二年,CoRL也驗證了這一點:多模態(tài)是通向機器人智慧的一條新路,無模型框架才能讓技術盡快走出實驗室。
說到底,技術是為人服務的。最后一公里的競爭,會更細分,也更有想象力。
億歐智庫曾對中國商用服務機器人及各細分市場均進行測算,預期2025年中國商用服務機器人市場將突破1000億元規(guī)模,商用清潔機器人將呈現(xiàn)持續(xù)高增長至約749億元,終端配送(不含室外)機器人約達348億元,講解引導機器人約達62億元。
相比工業(yè)機器人來說,服務機器人離人更近,應用范圍更廣,商業(yè)化程度也更高。
雖然疫情沒有消失,甚至自2019年12月后轉(zhuǎn)為常態(tài)化,但后疫情時代,產(chǎn)業(yè)端是否會再打一堵墻,都不再撼動機器人的前端研究。
然而,無模型強化學習通常需要大量的訓練樣本和訓練時間,如何提高數(shù)據(jù)利用率和學習效率成為無模型強化學習的研究重點。
所以,總體來看,CoRL中的三種研究模式各有側(cè)重:仿生機器狗的重點是測試無模型強化學習在環(huán)境交互中的收斂性能,靈巧手則是推進最容易嫁接到機器人系統(tǒng)中的封裝模塊,視覺觸覺研究則是推進多模態(tài)研究中的重要一環(huán)。
明年機器人會出現(xiàn)哪些重要的產(chǎn)學研發(fā)展,其實都離不開這三塊。
https://36kr.com/p/1467495756712960
https://zhuanlan.zhihu.com/p/28563483
CoRL論文鏈接:
https://arxiv.org/pdf/2012.03094.pdf
https://openreview.net/pdf?id=eIk6eBz3Wlt
https://openreview.net/pdf?id=wK2fDDJ5VcF
https://openreview.net/pdf?id=vm8Hr9YJHZ.
https://www.robot-learning.uk/coarse-to-fine-imitation-learning
https://openreview.net/pdf?id=p-TBwVowXRH
https://openreview.net/forum?id=7uSBJDoP7tY
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。