0
作者 | 賴文昕
編輯 | 陳彩嫻
與位于宇宙中心硅谷灣區(qū)的伯克利、斯坦福不同,被視為銹帶區(qū)復興唯一希望的卡內(nèi)基梅隆大學(以下簡稱“CMU”)坐落在上世紀的工業(yè)重鎮(zhèn)匹茲堡。
計算機科學學院的機器人研究所(以下簡稱“RI”)成立于1979年,是世界上第一個致力于機器人研究的大學級研究所。
這座機器人搖籃在 45 年間誕生了無數(shù)耀眼成就,但在如今技術更迭到由 AI 方向領銜、以仿真與強化學習算法方為“技術先進”之際,以傳統(tǒng)機器人學見長的 CMU 能否跟上具身智能的熱潮?
答案毋庸置疑:有人加入了最前沿熱門的企業(yè),或在OpenAI研究機器人基礎模型,或到特斯拉參與人形機器人Optimus 的研發(fā);有人選擇了創(chuàng)業(yè),賓通智能、星猿哲、木牛、雅可比,涵蓋工廠、物流、商超場景;有人走進了高校,在北大、中大、USCD 等大學繼續(xù)具身智能的研究。
回到紐維爾·西蒙樓,一切才剛剛開始。
堅守「傳統(tǒng)」Robotics
人形機器人控制算法的演進分為三個階段:一是經(jīng)典模型控制,如 LIPM+ZMP,以 ASIMO 為代表;二是高級模型控制,即如 MPC+WBC 的動態(tài)模型和最優(yōu)控制算法,以 Atalas 為代表;三是仿真和強化學習的結(jié)合。前兩者均基于模型(Model-Based),第三代則轉(zhuǎn)為基于學習(Learning-Based)。
一般而言,“技術先進”指技術出現(xiàn)得更晚、更年輕。在這個概念上,由 CS、AI 人才主導的第三代算法可以說最為先進,基于模型的方法也逐漸被稱為“傳統(tǒng)機器人學”。但同時也有很多人認為,在現(xiàn)實的應用中,世界上只有一種先進的技術,那就是行得通的技術。
2017年正值學習萌芽之際,機器人頂會ICRA中約40%的論文都與之相關,對于是否轉(zhuǎn)向,侯一凡與導師Matthew T. Mason有過一番對話:
Mason問他是否考慮轉(zhuǎn)向,侯一凡深思好久后回答,目前對機器人學習(Robot Learning)興趣不大,自己關注的重點在解決操作,而非用學習解決操作——他不在乎方法或流派,只關注效果,哪種方法對解決問題最有效,就會嘗試——當時學習的成本及效果上限都遠不及基于模型。
回到2015年,侯一凡從清華自動化系畢業(yè),來到CMU成為了剛卸任RI所長、機器人操作(Manipulation)先驅(qū)Matthew T. Mason的學生。
二人的互選緣于12年進組的周佳驥:計劃讀博的侯一凡看到師兄周佳驥在知乎回答了不少CMU與機器人的問題,便主動私信探討課題,就此結(jié)為好友。侯一凡覺得周佳驥做的研究很有意思,來到CMU后在周的介紹下和Mason見面也相談甚歡,就進組開工了。
曾為清華火神隊隊長的侯一凡,2014年曾帶隊參加RoboCup,拿到了人形組AdultSize第三名,擅長運動控制和步態(tài)規(guī)劃。在CMU深入探索機器人系統(tǒng)后,他逐漸領悟到,要讓機器人變得實用,最大的瓶頸在于手部的操作能力,而非腿部的移動,便改變了研究重點。
侯一凡
操作和移動在理論知識上有許多共通之處,尤其是在運動規(guī)劃和軌跡優(yōu)化方面,因此侯一凡起初打算將移動的思路應用于操作上。
在第一個手內(nèi)操作(In-hand Manipulation)的項目中,他試圖將模型做得盡可能精確,花了半年時間研究摩擦力模型,以深入理解操作中的摩擦力。
然而,兩者在實際應用上差異顯著。對人類來說簡單的動作,想要精確建模卻異常困難。嚴格來說,摩擦力并沒有完美的模型,許多操作的模型也是如此。過分追求模型的精確性,往往導致模型過于復雜,限制了分析和控制規(guī)劃方法的應用,反而效果不佳。
漸漸地,侯一凡形成了對操作的清晰思路:若需建模,應選擇簡單模型,并以此設計出魯棒的控制和規(guī)劃方法。模型簡單則可利用強大的方法獲得魯棒的解決方案,再利用這些解決方案的魯棒性去應對實際環(huán)境中的不確定性和復雜性,而非試圖將所有復雜性和不確定性精確描述出來——這種偏向工程的思維,實際上非常有效。
受Mason的影響,侯一凡對操作的取舍也很明確。靈巧手多年來未廣泛應用并非因為技術難以實現(xiàn),而是因為難以找到成本效益高的應用方法。傳統(tǒng)上,機器人主要用于工業(yè),一旦確定了具體應用,通常能找到比靈巧手更適用的系統(tǒng)。
因此在研究手內(nèi)操作時,侯一凡決定簡化手指的自由度,采用基本的兩指結(jié)構(gòu),微調(diào)硬件以便于在各種姿態(tài)下進行操作。他廣泛使用了“外部靈巧度”概念,即機器人通過與環(huán)境互動來彌補手部自由度的不足,如二指夾爪也能通過與地面的接觸來豎立一本書。
接著,侯一凡轉(zhuǎn)向了更具通用性的3D物品重定向問題,專注于規(guī)劃。但很快,他發(fā)現(xiàn)控制才是瓶頸——即使提供了精確的軌跡,當時的算法也很難執(zhí)行動作,尤其是在多接觸點操作中。
操作通過接觸傳遞力,每個接觸都有其模式(Contact Mode),如粘著、滑動或脫離。即使是粘著接觸,也分為點到面、邊到面或邊到邊等多種類型,這些離散狀態(tài)與運動的連續(xù)性形成鮮明對比。
在操作中,接觸模式的任何變化都可能導致環(huán)境約束和物體動力學的突變。如果控制器不能迅速適應這些變化,操作就會失敗。盡管一些機器人具有柔性控制,但往往只保證一般安全性,缺乏精細操作任務對機器人柔性的具體要求,難以在多接觸任務中有效應對不確定性。
簡而言之,如果能穩(wěn)健地執(zhí)行接觸模式,就能顯著提高操控控制的穩(wěn)定性。
因此,侯一凡的博士研究分為三個步驟:首先,提出了量化接觸模式魯棒性的方法,通過精確計算接觸點位置和姿態(tài)來評估系統(tǒng)在不同控制下的穩(wěn)定性;其次,基于這種魯棒性評估,優(yōu)化柔性控制策略以增強操作的抗干擾性;最后,在量化魯棒性并優(yōu)化底層控制后,將控制度量納入高級機器人規(guī)劃中,尋找一條從始至終都極為魯棒的軌跡。
侯一凡發(fā)表的論文讓機器人能夠規(guī)劃并穩(wěn)定執(zhí)行一系列接觸模式變化復雜的動作,而非簡單的抓取pick and place,這些動作能夠在模型并不準確的情況下做到穩(wěn)定多次重復,而以往這些動作即使完成一次都很困難。同行也傳來了積極反饋,稱這套方法不僅算法簡單,而且效果顯著。
彼時,在CMU同樣選擇傳統(tǒng)robotics的還有剛完成RoboMaster 2018總決賽的前大疆技術總監(jiān)楊碩。
早在2016年底,一直想讀博但工作繁忙的楊碩就申請過不需提交托福和GRE成績的伯克利,并在次年初收到秋季入學的錄取通知。因想先完成好手頭的事,楊碩又推遲到2018年再入學。
2017年,楊碩在大疆深入研究了深度神經(jīng)網(wǎng)絡和強化學習,既為了探索新領域的知識,也為了籌備2018年的RoboMaster AI挑戰(zhàn)賽。
在研究深度強化學習(DRL)時,楊碩常感到一種難以名狀的挫敗:算法難以穩(wěn)定收斂,結(jié)果波動大,對參數(shù)極為敏感,稍有調(diào)整就可能導致截然不同的輸出,且調(diào)整缺乏理論支持。
尤其讓楊碩不適的是,DRL忽視了機器人學的核心——能量轉(zhuǎn)換和系統(tǒng)建模。在機器人領域,電能和磁能轉(zhuǎn)化為動能、力的傳遞產(chǎn)生運動,是一個復雜但可預測的系統(tǒng)。然而,在DRL中,這些原理被邊緣化,調(diào)整參數(shù)或神經(jīng)網(wǎng)絡結(jié)構(gòu)時,依據(jù)的竟并非牛頓運動定律。
楊碩
3月,楊碩受邀到CMU RI介紹大疆的無人機技術和RoboMaster,然后又去伯克利參加了給博士生組織的校園開放日。
兩地的探訪經(jīng)歷讓楊碩意識到,自己在工業(yè)界的經(jīng)驗和編程技能,更適合以產(chǎn)學合作和大型項目執(zhí)行能力強著稱的CMU。而且,匹茲堡作為美國傳統(tǒng)工業(yè)重鎮(zhèn),總讓楊碩想起自己的家鄉(xiāng)太原——兩者都曾因煤炭和鋼鐵而繁榮,也都在國家發(fā)展新階段中面臨挑戰(zhàn)。
種種因素影響下,楊碩在2018年來到了CMU,成為了Howie Choset的學生,研究主線是足式機器人的長距離定位,應用在四足和人形機器人上。
讀博的頭兩年里,楊碩機器人做得很好,卻一直未能發(fā)論文:他先是在六足機器人Daisy上面做狀態(tài)估計,優(yōu)化了卡爾曼濾波器以更準確地估算機器人在空間中的行進距離;接著做了個兩自由度的猴子機器人,并利用iLQR算法快速驗證了不同構(gòu)型機器人的性能,輔助進行了機器人參數(shù)的選擇。
“花了兩年時間讓六足機器人上樓梯,但做出樓梯上得好的機器人不是一個科學問題,解釋清楚為什么能上樓梯才是?!睏畲T意識到,自己是重新解決了一遍已被人解決過的問題,再用較強的工程能力提升機器人性能,呈現(xiàn)的結(jié)果雖好,卻沒有解決某個新的科學問題。
茅塞頓開后,楊碩的第一篇論文推進的很順利,和過去重工程的工作不同,這是個非常數(shù)學且具理論性的工作,從有了想法到完成,只用了短短兩三個月。
2020年8月,楊碩復現(xiàn)了幾種帶約束的LQR算法,意識到這類問題是領域內(nèi)的挑戰(zhàn),并萌生了將約束LQR與SLAM中的圖優(yōu)化技術相結(jié)合的創(chuàng)新想法。他和SLAM圖優(yōu)化先驅(qū) Frank Dellaert 及其學生合作,用因子圖求解有約束的最優(yōu)控制問題,并成功發(fā)表在ICRA 2021上。
2021年初,楊碩邀請RI新來的年輕教授Zachary Manchester做他的另一位導師。Zach最初從事航天研究,其博導曾任NASA首席科學家,后來Zach將航天和衛(wèi)星控制中的數(shù)學和優(yōu)化理論應用于機器人問題,取得了顯著成效。
在Zach的指導下,楊碩深入掌握了航天及機器人領域幾十年基于模型的控制方法,還花了半年系統(tǒng)性地學習了機器人軌跡規(guī)劃的各種知識,特別加深了對非線性優(yōu)化、LQR和DDP的理解。至此,他把足式機器人的建模、狀態(tài)估計、底層控制、軌跡規(guī)劃每個環(huán)節(jié)都摸了一遍。
“所謂的傳統(tǒng)方法并不等同于過時,二者是平行的,只是側(cè)重點不同,并無先進與否之分?!蓖瑯邮菑拇蠼紺MU的邱迪聰告訴雷峰網(wǎng),“CS的人更傾向于基于學習的方法,認為它能解決所有問題,但實際上并非如此?!?/p>
回到2013年,在中山大學軟件工程系讀大三的邱迪聰就開始探索強化學習,并認為這是機器人技術中不可或缺的一環(huán)。
作為非傳統(tǒng)機器人領域出身且十分推崇強化學習的一員,邱迪聰卻覺得,自己真正深入研究機器人始于CMU。2017年,他來到CMU讀研,由“大白之父”Christopher Atkeson和場地機器人之父、自動駕駛先驅(qū)William(Red)Whittaker指導,研究多步優(yōu)化決策和人形機器人的雙臂靈巧操作。
在實踐中,邱迪聰發(fā)現(xiàn)RL存在時代的局限性,并不能立即廣泛應用,應將強化學習與優(yōu)化或基于模型的方法結(jié)合起來,以適應更復雜的決策和技能學習, “畢竟目前純基于學習方法的機器人還沒實現(xiàn)任何落地,而無論黑貓白貓,能抓到老鼠的就是好貓?!?/p>
邱迪聰
進軍 Learning
在學術研究是否轉(zhuǎn)向數(shù)據(jù)驅(qū)動的學習方法的十字路口,CMU機器人研究所(RI)中也有學者選擇了不同的道路。
2017年夏,林星宇從北京大學信息科學系畢業(yè),進入 CMU 讀博士學位。本科階段,他主要研究三維視覺。然而,在實時觀看AlphaGo戰(zhàn)勝李世石的比賽后,他深受啟發(fā):基于搜索的機器學習算法不僅能夠創(chuàng)造自己的策略,還可能推動通用人工智能(AGI)的實現(xiàn)。
林星宇意識到,這種算法的潛力不應僅限于棋賽或游戲,而應應用于更實用的領域——機器人。
此時,機器人學與強化學習的交叉領域尚處于起步階段。伯克利人工智能實驗室(BAIR)剛成立,全球從事此方向的研究者尖指可敲。恰逢此時,CMU機器人研究所進入了一位新加入的助理教授——剛從伯克利Pieter Abbeel組完成博士后的David Held。
林星宇被David的研究吸引,主動聯(lián)系了進一步面談。兩人在第一次見面時一拍即合,就樣本效率、從圖像中學習獎勵函數(shù)等關鍵問題展開了深入討論。幾天后,林星宇正式加入研究團隊,成為了David的大弟子。
初入實驗室時,林星宇開發(fā)了一種新算法,通過增加探索獎勵,使強化學習智能體能夠快速適應新環(huán)境,無需人工干預。
2017年圣誕前夜,在空蕩蕩的校園里,他獨自進行實驗。當實驗首次取得成功時,他激動得從凳子上跳了起來。這部分科研成果的發(fā)表之路卻比較坎坷,幾次被會議拒稿后才發(fā)表在ICRA上。
在這個過程中,林星宇感到了些許挫折,但逐漸意識到了在機器人領域,有影響力的工作最終需要體現(xiàn)在學習新的機器人技能上。
林星宇
到2020年博士三年時,林星宇開始研究機器人對柔性物體的操作。
機器人操作領域?qū)W習算法的態(tài)度仍存在疑慮:傳統(tǒng)方法在處理復雜任務時表現(xiàn)出艱艷,研究者不理解為何要轉(zhuǎn)向數(shù)據(jù)驅(qū)動的強化學習算法。
面對這種疑問,林星宇決定創(chuàng)建一個針對柔性物體的Benchmark,這也是該領域的首個此類基準測試。
“柔性物體的研究使機器人學更加完整。傳統(tǒng)機器人學假設操作對象是剛性物體,并在此基礎上做出了對物體狀態(tài)估計和動態(tài)估計的各種假設。柔性物體的操作挑戰(zhàn)幾乎打破了所有這種假設,是構(gòu)建通用機器人的必經(jīng)之路。” 林星宇解釋他聚焦柔性物體的原因,“假如這能解決,就相當于解決了最難的方向,能以相同的算法或系統(tǒng)解決其他機器人任務,把成果遷移過去。
通過多種算法試驗,林星宇發(fā)現(xiàn)一種簡單的搜索算法——Cross-Entropy效果卓越。該算法基于試錯優(yōu)化動作,其關鍵假設是:如果有仿真器能夠預測動作結(jié)果,就可以通過簡單的優(yōu)化方式選擇最佳動作,無需依賴對復雜動力學的強化學習。這一發(fā)現(xiàn)使他認識到,學習世界模型或動力學是機器人學中最基礎也是最困難的任務。
此后,他將研究重點轉(zhuǎn)向數(shù)據(jù)驅(qū)動的方法,通過將柔性物體視為粒子集合,借助圖神經(jīng)網(wǎng)絡模擬粒子間的相互作用和動態(tài),為機器人完成復雜任務(如平整痕褶衣物)提供了可能性。
林星宇的博士研究逐漸聚焦于構(gòu)建柔性物體的世界模型。
他認識到,領域內(nèi)真正缺乏的是具有挑戰(zhàn)性的任務,而非傳統(tǒng)方法也能解決的簡單問題。通過建立Benchmark,他進一步意識到數(shù)據(jù)驅(qū)動的核心在于預測和動力學建模,一旦掌握了動力學建模,優(yōu)化就相對簡單,可以通過搜索不斷提升模型的能力。
“從這個角度,機器人領域走在了自然語言前面,因為語言模型是從預訓練ma慢慢走向測試時計算(Test Time Computing),而機器人作為一個決策任務,從一開始就必須要做搜索。”林星宇認為,在處理復雜任務和實時決策方面,機器人可能比語言模型更早地面臨和著手了類似的挑戰(zhàn)。
除了林星宇的博導David Held外,CMU RI中的兩位印度教授、Skild AI創(chuàng)始人Abhinav Gupta和Deepak Pathak在AI+Robotics領域也十分活躍,但后者比較年輕,2020年9月才入職,所帶的博士生們都尚未畢業(yè)。
資深的Abhinav Gupta涉獵領域廣泛,多做視覺,也涉及機器人學與語言,是現(xiàn)UCSD助理教授王小龍的博導。
2014年,王小龍從中山大學來到CMU讀博,延續(xù)碩士時師從林倞的研究,繼續(xù)做計算機視覺,利用視覺數(shù)據(jù)的冗余性進行深度學習的無監(jiān)督學習和視頻識別。
讀博期間,王小龍曾在FAIR實習,由何愷明和Ross Girshick指導,在CVPR 2018發(fā)表了了非局部神經(jīng)網(wǎng)絡(Non-local Network)的工作,通過其創(chuàng)新的全局上下文聚合和自注意力機制,在視頻分類、語義分割、目標檢測等多個領域內(nèi)提升了模型的性能,并且由于其計算效率高和易于集成的特點備受關注,至今引用量已近1.2萬。
2018年,隨著導師Abhinav創(chuàng)立了Facebook的匹茲堡實驗室與機器人組,王小龍也開始接觸機器人導航、操作等相關研究,并在ICLR 2019發(fā)表了自己的首個RL+Robotics的工作。
這是關于將語義先驗知識融入語義導航任務的研究。人類能利用多年來建立的語義或先驗知識來高效搜索和導航,比如找杯子時會搜索咖啡機附近的櫥柜,找水果時則會查看冰箱。為了讓機器人具備相似的導航能力,王小龍通過融合語義先驗知識到深度強化學習框架中,利用圖卷積網(wǎng)絡提升智能體在新場景中導航至目標物體的性能和泛化能力。
2019年9月,博士畢業(yè)的王小龍在BAIR做了一年博士后,受Alexei Efros和Trevor Darrell指導,期間也和彼時在OpenAI的吳翼一起指導過多智能體強化學習的論文。
次年7月,王小龍加入UCSD視覺計算中心任教,帶領實驗室研究視覺與機器人技術,后者側(cè)重于研究機器人手部操作、腿部移動的學習和低層控制(Low-level Control)。
王小龍
除了王小龍外,在CMU從視覺切入具身智能的研究者還有梁小丹與仉尚航。
梁小丹2013年起在中山大學讀博,是林倞的首位博士生,和王小龍是同門。
博士期間,梁小丹主要研究人物解析,提出的庫在當時是人物解析領域最大的,連續(xù)五年舉辦的workshop和比賽也吸引了眾多參與者,許多人像分割、解析和編輯的研究也都基于其方法和數(shù)據(jù)。在分割算法后,因?qū)煂碗s推理特別感興趣,梁小丹就轉(zhuǎn)向推理相關的研究。
視覺研究更側(cè)重于解決具體問題,如架構(gòu)和圖像模型的構(gòu)建及因果關系的分析,她在申請博士后時希望體驗不同技術方向,特意選擇了與之前導師關聯(lián)甚少的邢波(Eric Xing),想在CMU的機器學習系(MLD)開闊視野,探索底層和基礎問題。
邢波也希望有些偏視覺的工作,梁小丹便在2016年7月來到CMU,成為當時組里唯一一個視覺方向的博士后,延續(xù)圖像分割的工作。
在CMU,梁小丹主要做機器人視覺語言導航。從軟到硬的轉(zhuǎn)變十分絲滑,讓機器人到達某位置最關鍵的是視覺導航,而視覺導航再往下就是對場景的分割理解、物體檢測問題,就是自己的老本行。
“很多分割算法都被用在搜索或編輯中,但跟機器人交互其實是非常自然的過渡,所以就是從 2D 走到 3D 世界和機器人交互。”
在梁小丹看來,具身智能并非從天而降,“30年前SLAM也可以理解為具身智能,而現(xiàn)在的具身智能考慮落地應用,普遍認為抓取很難,SLAM等導航算法非常成熟,其實是上一代的技術已被應用,現(xiàn)在開始想下一代的應用場景,探索下一代的技術?!?/p>
梁小丹
2018年底,在婉拒OpenAI、CMU與騰訊AI Lab等多個offer后,梁小丹回到母校中山大學任教。回國后,梁小丹也開始接觸真機,并與智能工程學院里的同僚們合作交流,特別是擅長硬件與控制的同事。
目前,梁小丹正帶領團隊做具身大模型,希望把多模態(tài)大模型加上3D感知能力,做具身智能領域的GPT-4o。
此外,為了改善之前仿真環(huán)境缺乏真實感和細節(jié)的問題,梁小丹團隊還發(fā)布了仿真平臺InfiniteWorld,能通過簡單拍照將現(xiàn)實場景如咖啡廳等精確復制到虛擬環(huán)境中,實現(xiàn)物品的交互功能,以促進機器人在復雜環(huán)境中的泛化能力。
“以前的仿真平臺場景不太真實,也缺少紋理,因為在真機上訓練測試性能不佳,很少能被機器人廠商使用,所以首先得把虛擬環(huán)境的真實感提升上去。”
仉尚航也是在2013年開始讀博,她從北京大學讀完研到CMU,收到了博導José Moura教授(美國工程院院士、美國發(fā)明院院士、IEEE/AAAS Fellow、前IEEE主席)給的難題:對整個紐約市各路口監(jiān)控視頻中的車輛進行檢測計數(shù)與流量分析。
面對缺乏具體數(shù)據(jù)集和思路的挑戰(zhàn),仉尚航自己定義研究問題,開啟了領域自適應(Domain Adaptation)的研究。此時正值深度學習初興之際,經(jīng)過調(diào)研后,她提出了基于深度學習的解決方案。剛開始時,José不太信任此方法,在她匯報時經(jīng)常一句接一句地提出質(zhì)疑,讓她不停在白板上推公式。
因?qū)焾猿植捎梅巧疃葘W習方法低秩回歸(Low Rank Regression),仉尚航便采取了一個工作量倍增但“兩全其美”的解決方案:對同一個問題和同樣的數(shù)據(jù),同時設計深度學習和非深度學習兩種方法進行研究,一年后均取得成功并發(fā)表在CVPR上。經(jīng)歷了該工作從問題定義到數(shù)據(jù)收集與標注,從傳統(tǒng)機器學習方法到深度學習方法的完整過程,仉尚航的科研能力得到了很大提升。
此后,José就對她特別信任和贊賞,無論她提出什么想法,總會頻頻點頭認可、大力稱贊,在此鼓勵下,她愈發(fā)敢于探索新方法、嘗試新研究,后來做科研也越來越順利,產(chǎn)出也越來越多,沿著模型泛化、領域自適應、有限樣本學習的方向繼續(xù)推進。
此時正是自動駕駛的火熱時期,仉尚航也通過高通創(chuàng)新競賽將研究場景從車輛檢測計數(shù)過渡到自動駕駛,并使用深度學習方法研究自動駕駛的泛化視覺感知,關注領域自適應和有限樣本學習的難題。
因其一直對機器人方向很感興趣,來CMU的最大動力也是因為其RI久負盛名,讀博期間,她經(jīng)常跑到RI與在Matthew T. Mason組做博士后的北大師兄萬偉偉(現(xiàn)大阪大學副教授)和在John Dolan組讀博的董馳宇、許聞達探討,也發(fā)表了一篇關于機器人操作的工作。
仉尚航
2018年博士畢業(yè)后,仉尚航來到了“夢寐以求”的灣區(qū),在Eric Xing的創(chuàng)企Petuum做了一年科研后,更加堅定了做教職的決心,就來到伯克利的 Berkeley AI Research Lab(BAIR)做了兩年博士后,在Trevor Darrell和Kurt Keutzer的指導下進行開放世界泛化學習的研究,包括領域自適應、零樣本學習等,主要應用場景是自動駕駛。
Trevor是BAIR的Director,同時和Kurt一起帶領Berkeley Deep Drive,在伯克利期間,仉尚航參與了DARPA、BDD等多個項目并和多位教授展開合作,此經(jīng)歷成為她日后擔任教職的重要基石。
一直以來都有教職夢的仉尚航,經(jīng)歷了灣區(qū)的工作和伯克利的博士后研究后,更加堅定了回國任教的決心。而且她驚喜地發(fā)現(xiàn)教課、做報告和登臺主持有異曲同工之妙,能滿足自己曾經(jīng)有過的媒體夢(她很喜歡主持,曾在CMU多次擔任過華人春晚主持人)。
博士導師José十分支持她的決定,其妻子Manuela Veloso是CMU RI教授與RoboCup創(chuàng)始人之一,IEEE/AAAS/ACM/AAAI Fellow,曾任CMU Machine Learning Department Head,也很關注她的研究,專門參加她在CMU的博士答辯,對其很欣賞,夫妻二人在給她的教職推薦時贊揚“尚航能去世界上任何一所TOP10大學”。
現(xiàn)在想起José、Kurt和Trevor三位老師的指導和鼓勵,以及Manuela的支持,仉尚航還很感動,正是這些優(yōu)秀的學者給她樹立了榜樣,讓她堅定了踏實科研、勇于探索、教書育人的決心。
2022年初,仉尚航回到北京大學任教,加入了碩士曾就讀的計算機學院視頻與視覺技術國家工程研究中心,辦公室就在當年讀研的工位旁,讓她更有“勿忘初心,方得始終”的歸屬感。加入北大后,她開始專注于具身智能領域的研究,將之前在自動駕駛、泛化學習、多模態(tài)大模型方向積累的經(jīng)驗轉(zhuǎn)化到具身智能研究中,在此方向迅速成長。
今年夏天,仉尚航還成為北京智源人工智能研究院的智源學者,帶領具身多模態(tài)大模型研究中心專注于面向具身智能的多模態(tài)大模型與大數(shù)據(jù)構(gòu)建,目前正在研究4D世界模型。她于近期發(fā)布了大規(guī)模多構(gòu)型智能機器人數(shù)據(jù)集RoboMind,是世界上集中采集的最大規(guī)模數(shù)據(jù)集,捕捉機器人面對復雜環(huán)境、長程任務時的各種交互和經(jīng)驗,從而促進能夠掌握不同操作策略的通用模型的訓練。RoboMIND包含5萬5千條機器人軌跡數(shù)據(jù),涉及279項不同的任務,涵蓋了高達61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務場景,將打造具身智能領域的ImageNet時刻。
系統(tǒng)見長
2014年秋,走進地下負一層沒有窗戶的生物機器人實驗室,龔超慧得知了自己的蛇形機器人工作登上《Science》雜志的好消息。
四年前,2010年,龔超慧從哈工大畢業(yè)來到CMU RI讀博。下屬計算機學院的 RI 做機器人較偏算法化,在機器人算法三要素感知規(guī)劃決策的閉環(huán)系統(tǒng)頗有建樹。
在各實驗室輪轉(zhuǎn)上課時,龔超慧意識到,機器人自動化遠比自己的機械式理解更廣泛,除了預設程序與硬件外,不僅包括通過傳感器進行感知和數(shù)據(jù)采集,還涉及到基于數(shù)據(jù)的智能化控制和復雜規(guī)劃。
對規(guī)劃著迷的龔超慧決定加入此領域頂尖學者Howie Choset的小組。Howie除了在RI任教外,也是生物醫(yī)學工程、電氣與計算機工程的教授,研究蛇形機器人、工業(yè)機器人與醫(yī)療機器人。
第一次正式見面時,龔超慧在Howie的辦公室磕磕絆絆地分享了自己對規(guī)劃的一些基礎研究和文獻調(diào)研工作,感受到他的熱情后,Howie建議龔超慧嘗試參與組內(nèi)課題。在蛇形機器人平臺上進行軟件開發(fā)并迅速取得研究成果后,龔超慧順利開啟了PhD階段,成為了Howie的首位華人學生。
龔超慧
進組后,龔超慧有兩個并行項目:一是研究蛇形機器人的運動,如控制轉(zhuǎn)彎、行進方向;二是定位和建圖的 SLAM 項目, 基于拓撲學的數(shù)學理論,研究如何通過機器人之間的信息交互,包括不斷設計新的行進方向,快速地把未知環(huán)境的拓撲結(jié)構(gòu)描述出來。
龔超慧從本科就開始“手搓”機器人,跟周谷越(清華AIR副教授、前大疆CV總監(jiān))同為哈工大機器人隊的主力成員。此前龔超慧的做事方式偏工程化,喜歡去實現(xiàn)機器人的某個功能,Howie卻告訴他,如果要成為一個PhD,必須對能認知、改變世界的方法論上形成新的觀點和突破,否則只是位工程師。
因此,龔超慧的研究核心放在了高維度數(shù)學空間的規(guī)劃問題,即如何找到最優(yōu)解。
假設機器人有無窮個關節(jié),那面對無窮個自由度,該如何控制變量才能讓它形成有效運動的最低能量,且運動速度最快?
這其實是一個非常抽象的數(shù)學問題,所以在做研究時,龔超慧接近數(shù)學方法論,專注于在高維空間中尋找高效的低維子流形(Submanifold)。通過降低機器人的維度,在更低維的空間中快速進行計算,并利用這一理論框架,研究生物和機器人的運動,從高維統(tǒng)計數(shù)據(jù)中提取低維特征和模式。
導師Howie對學術有著近乎變態(tài)的苛刻,對于任何一個公式的推導,每個上下角標是否準確,每項異常數(shù)據(jù)如何解讀歸因,都要求嚴謹準確。在他的指導下,龔超慧陸續(xù)在機器人頂會ICRA、IROS以及《科學》雜志和美國科學院刊上發(fā)表論文。
到博士后期時,龔超慧開始對廣義機器人的規(guī)劃與任務分配軟件感興趣,認為AI 和 Robotics 技術會在制造業(yè)里有廣泛應用的機會,“工業(yè) 4.0讓物理實體設備具有結(jié)合數(shù)據(jù)技術使其更智能化的機會,而設備智能化后也是一種機器人?!?/p>
因此,龔超慧在2016年初繼續(xù)留校做博士后,除了收尾PhD時的工作外,也開始把研究重點往智能制造的方向轉(zhuǎn)變。
在每周五下午的午餐會上,RI各組學生都會聚在一起喝咖啡閑聊,龔超慧結(jié)識了小兩屆的周佳驥,二人常討論機器人的商業(yè)化問題。
周佳驥本科畢業(yè)于東南大學吳健雄學院,2012年來到CMU讀研,次年在RI開啟其博士階段,師從Matthew T. Mason與視覺教授Drew Bagnell,研究抓取操作與視覺感知規(guī)劃。
2016年,周佳驥發(fā)表的平面滑動運動模型工作獲得了當年ICRA全會最佳論文,成為了ICRA創(chuàng)辦30年來第三位以第一作者身份獲獎的華人。
周佳驥與Matthew T. Mason
在兩位學術成果頗為優(yōu)秀的年輕人中,更早產(chǎn)生創(chuàng)業(yè)念頭的是龔超慧。每次討論機器人時,周佳驥更關注深入的學術問題,龔超慧則更關注應用場景。
彼時富士康到美國找研究團隊合作,VP戴佳鵬資助了龔超慧團隊,龔超慧就開始研究如何讓生產(chǎn)更柔性和智能,包括生產(chǎn)設備網(wǎng)絡化、智能化后的集群管理,以及AGV等設備有移動能力后的調(diào)度來連接生產(chǎn)環(huán)節(jié)。
在同富士康交流的過程中,龔超慧發(fā)現(xiàn),制造業(yè)中傳統(tǒng)的管理方法、技術都有大量的信息不對稱,在數(shù)據(jù)的全面性、運算的智能化、計算能力都有瓶頸,生產(chǎn)線上大量設備也沒有自適應能力,導致生產(chǎn)效率不足。
看到產(chǎn)業(yè)機會后,此前認為自己肯定會走學術路線的龔超慧向Howie提出了自己的創(chuàng)業(yè)計劃。Howie非常驚訝,沒想到龔超慧會在學術做得不錯、有教職機會的情況下,還想要創(chuàng)業(yè)。
龔超慧向Howie解釋,學術研究存在的目的是解決實踐中遇到的問題,把它抽象出來突破,但既然部分機器人和AI 結(jié)合的技術已經(jīng)到了可以工程應用和產(chǎn)業(yè)化的階段,更大的機會和空間應該在產(chǎn)業(yè)界而非學術界中。
龔超慧的想法得到了Howie的認可,再加上當時組里的碩士生任中強(現(xiàn)上海交大AP),師徒三人于2017年1月在匹茲堡一起成立了賓通智能(Bito Intelligence)。
很快,周佳驥也決定創(chuàng)業(yè)。他與在麻省理工大學(MIT)讀博的俞冠廷相識,后者師從操作與機制實驗室負責人Alberto Rodriguez,曾作為技術架構(gòu)總負責人帶領MIT-Princeton聯(lián)隊在2015-2017連續(xù)三年參加亞馬遜揀選挑戰(zhàn)賽,均獲全球前三,并且獲得2017年裝載任務冠軍。
通過亞馬遜挑戰(zhàn)賽,他們意識到視覺揀選領域已接近可商用化的程度,便于2018年4月在波士頓一起創(chuàng)辦了星猿哲(XYZ Robotics),為物流及工業(yè)自動化提供更好更快的機器人解決方案,周佳驥的導師Drew Bagnell也參與了種子輪的投資。
不難發(fā)現(xiàn),兩位CMU學子對產(chǎn)業(yè)機會極其敏銳,果斷抓住了機器人的第一波創(chuàng)業(yè)機會。伯克利的Pieter Abbeel與三位華人學生成立的Covariant,也是在同一時期誕生,并同樣以物流場景起步。(伯克利故事詳見https://mp.weixin.qq.com/s/iqiKeMgGIsCuvoNtyi-yaw)
說起各高校的機器人人才,業(yè)內(nèi)普遍認為,若想讓機器人達成商業(yè)目標、落地,CMU是首選,若關注具體算法,則選伯克利和斯坦福。
據(jù)羅瑞琨介紹,CMU 學子多對機器人工程落地的全鏈條有系統(tǒng)性認知,從課程體系起,就要求學生除了必修數(shù)學和本專業(yè)外,感知、規(guī)劃、運動各方向都上夠?qū)W分,了解機器人整個系統(tǒng)。而且工程師和科學家協(xié)作制度完善,教授也分研究型和工程型兩類;RI 雖屬計算機學院,但卻很重視跨學科交叉,吸收了很多機械工程、電氣工程等專業(yè)的學生一起科研做項目,而非以單一的計算機專業(yè)為主。
2012年,羅瑞琨畢業(yè)于清華的機械工程自動化系,來到CMU讀研。起初他打算申博研究納米機器人,后因聯(lián)系的教授在歐洲,面試安排不定,擔心錯過截止日期的他就先接受了碩士項目的錄取。
因?qū)θ藱C交互感興趣,羅瑞琨加入了做多智能體與高層次規(guī)劃的Katia Sycara小組,研究人體動作學習和預測,通過結(jié)合動作識別和活動學習,優(yōu)化學習的準確性,并預測下一步行為。此方向當時非常熱門,其應用前景包括使機器人能預測人類行為,從而決定自己的行動,例如幫助做家務和做飯。
羅瑞琨
Katia不會干預學生的研究興趣,但對論文寫作尤為細致,帶著羅瑞琨從頭到尾改完了他的第一篇論文。項目資金結(jié)束后,羅瑞琨又做了點 SLAM 及多智能體的工作,便在14年順利畢業(yè)了。
在伍斯特理工與密歇根大學讀博期間,羅瑞琨專注于人機協(xié)作的實際應用,如工廠中的共同作業(yè)、問題檢查和裝配協(xié)助。他曾與蘋果供應鏈專家探討,發(fā)現(xiàn)機器人執(zhí)行效率低,不如全自動化或人工作業(yè),許多需求在實際應用中不切實際,是偽需求。
權(quán)衡過各類機會后,羅瑞琨以CTO的身份在2021年加入創(chuàng)企木牛機器人。他認為,過往積累的機器人交互的多領域知識、實踐經(jīng)驗與對系統(tǒng)的了解,在大廠難以充分發(fā)揮優(yōu)勢,聚焦工業(yè)場景落地的木牛更適合自己,加入后帶隊開發(fā)了一套從伺服驅(qū)動控制到上層感知決策的底層框架。
新與舊共舞
今年10月,特斯拉「We,Robot」發(fā)布會上,人形機器人TeslaBot(前Optimus)列隊出場,化身“酒保”走入人群調(diào)酒、猜拳、合照、蹦迪,現(xiàn)場儼然成為了一場賽博大派對。
發(fā)布會后,楊碩站在TeslaBot旁,和它合照了一張。
就在去年3月,即將博士畢業(yè)的楊碩看到Optimus項目在擴張,便在領英上與團隊取得了聯(lián)系。很快,HR發(fā)來了面試邀請,在兩輪現(xiàn)場手寫C++代碼和推公式的面試后,楊碩拿到了offer。
可以說,讀博時精進的工程能力,讓楊碩具備獨自完成推公式、仿真、做硬件、上真機實驗、處理數(shù)據(jù)全流程的能力,特別是對C++解決機器人控制和估計的鉆研,使他成為了最匹配的候選人。
特斯拉讓楊碩盡快入職,導師Zach了解情況后非常開明地同意了,讓楊碩努努力再整理投出一篇論文即可畢業(yè)。 7月,楊碩正式加入,參與機器人控制核心算法模塊的開發(fā)。
今年初,團隊發(fā)現(xiàn)第二代Optimus機器人的一項關鍵指標需遠超行業(yè)標準才能穩(wěn)定運行。一次雙周會議上,Elon Musk對項目進展表示不滿。會后,楊碩主動提出在十天內(nèi)開發(fā)一個新的算法模塊,兩千行代碼加上后情況迅速有改善,便在下次會議上向馬斯克現(xiàn)場演示。
在特斯拉的一年半里,楊碩慢慢轉(zhuǎn)移到用深度學習、AI 的方法做機器人,過往對傳統(tǒng)機器人學的理解讓轉(zhuǎn)變十分絲滑。
“做機器人得不斷推翻自己之前形成的固有思維,之前無人機做久了我選擇去研究新東西,博士期間做傳統(tǒng)的方法,來到特斯拉又推翻,用比較主流的AI技術?!睏畲T告訴雷峰網(wǎng),“ 對基于模型的方法有深刻理解后,對無模型的AI方法,通過數(shù)據(jù)讓神經(jīng)網(wǎng)絡自己發(fā)掘模型,是更有幫助的。”
除了楊碩,侯一凡對新方法的態(tài)度也發(fā)生了轉(zhuǎn)變。
2021年博士畢業(yè)時,侯一凡認為科研問題已解決,自己完整的操作方案需要在實際場景中驗證效果,便加入了有著世界上最大的操作場景的亞馬遜機器人部門,研究物流場景中的儲存任務,負責自動化存儲過程中的柔性控制和運動規(guī)劃設計。
在亞馬遜的三年間,侯一凡意識到自己提出的解決方案效果不錯,但受限于建模的需求,在應對不斷出現(xiàn)的新場景(長尾效應)或者難以預先建模的家庭服務類場景時往往需要巨量的工程投入來解決。因此,如何在模型質(zhì)量高度不確定時提高操作的成功率和效率,成為一個全新的挑戰(zhàn)。
一直關注著學術進展的侯一凡發(fā)現(xiàn),機器人學習已進入激動人心的階段,盡管目前成果距離解決實際問題還有很大差距,但已完成了從0到1的轉(zhuǎn)變,讓非機器人背景的人也能快速做出demo。
不過,侯一凡認為,在接下來的5年或更長時間內(nèi),學習方法仍無法替代某些問題的最佳解決方案,特別是在機器人需要快速、高成功率地應對高度不確定場景時,因為這些問題用模型來處理更容易獲得可預測,解釋和調(diào)節(jié)的結(jié)果。
他意識到,后續(xù)想讓demo變得通用和魯棒既需要機器學習的泛化能力,也需要對機器人問題的理解和分析——機器人學習與傳統(tǒng)機器人學的結(jié)合有巨大的機會,而探索這些機會的最佳場所是學校,而非工業(yè)界。
侯一凡讀博時,因參加亞馬遜挑戰(zhàn)賽的MIT-普林斯頓隊中有導師Mattew的學生Alberto Rodrigue,雙方交流密切,就此認識了隊里的宋舒然。
加上近些年自己最喜歡研究都來自其團隊,考慮重返學術界時,侯一凡便聯(lián)系了宋舒然,兩人討論非常投機,侯一凡就在今年3月來到斯坦福做博士后,依舊沿著解決操作的主線。
“以前認為解決操作的方法和學習關聯(lián)不大,所以做模型和優(yōu)化,隨著對問題的了解和不同方法的演化,現(xiàn)在覺得是基于模型與learning的結(jié)合。”
同樣支持兩者結(jié)合的邱迪聰,在2018年碩士畢業(yè)后,先進入了更成熟的自動駕駛領域。
他同時接到了英偉達與MIT創(chuàng)企ISee的offer,在面對他“公司要做什么”的提問時,雙方給出了不同的答案:英偉達想構(gòu)建一個能在特定場景下工作的自動駕駛系統(tǒng);ISee則致力于開發(fā)具有人性化思考的AI,目標不僅是自動駕駛。
ISee的愿景更符合邱迪聰?shù)囊?guī)劃,在他看來,自動駕駛是當時最接近智能化機器人的實例,其他技術要么不夠先進,要么雖能落地但缺乏革命性。
三年后,邱迪聰又先后加入了如祺出行與PIX Moving,負責搭建自動駕駛團隊,探索商業(yè)化落地。到了23年4月,在意識到開放推理能力開始有解決方案后,邱迪聰與CMU LTI(語言技術研究室)的師兄梁俊衛(wèi)合作,共同創(chuàng)立了雅可比機器人,采取輪式方案,重點在操作以及機器人對開放世界和開放物品的理解。
雅可比以商超為切入點,下一步是餐飲服務、辦公場景,最終進入到養(yǎng)老以及家庭場景?!斑@樣每個場景積累的知識和經(jīng)驗能直接應用于新場景,比如機器人在商超場景中學會識別鍋碗瓢盆等物品,當轉(zhuǎn)移到餐飲場景時,如清理餐桌,就已具備基礎能力,幾乎無需額外專用化投入,甚至能實現(xiàn)零樣本遷移?!?/p>
至于一開始就篤定learning路線的林星宇,則在2022年從CMU畢業(yè)。答辯前,David Held專門開了個告別組會,讓林星宇給學弟學妹們分享建議,還把二人的郵件往來與合照放在一起,配文“this is how we started”。
林星宇來到伯克利在Pieter Abbeel的組里做博士后,從博士期間注重解決不同任務,如柔性物體的一個個建模,轉(zhuǎn)變?yōu)樽龈ㄓ玫幕A模型,研究如何利用基礎模型讓任務更通用,以及構(gòu)建一個屬于機器人學的基礎模型。
在伯克利,林星宇和高陽的學生汶川合作,利用互聯(lián)網(wǎng)人類視頻訓練機器人大模型,發(fā)表了RSS 2024的滿分論文。
林星宇發(fā)現(xiàn),許多視頻預測模型專注于紋理的真實感,卻忽略了物理真實性,就提出了學習微粒軌跡模型的想法,用于預測空間中每個點隨時間變化的軌跡。例如,當拿起并傾倒一杯水時,杯中水的微粒會沿著不同的路徑移動。最重要的是,這一模型能夠直接從視頻數(shù)據(jù)中學習。
今年8月,OpenAI風傳已久的機器人組終于重啟,林星宇成為了創(chuàng)始成員之一。
OpenAI成立初期,機器人技術就是其主攻方向之一,聯(lián)創(chuàng)Wojciech Zaremba領導的團隊最初試圖打造一個通用機器人,并在2019年發(fā)表了一篇工作,分享了他們?nèi)绾斡柧毶窠?jīng)網(wǎng)絡使用單只機械手復原魔方。但在2020年10月,因缺乏訓練數(shù)據(jù),機器人組解散。
加入OpenAI重整旗鼓的機器人組,林星宇經(jīng)過了不短的思考:首先,OpenAI有研究機器人的經(jīng)驗,重啟說明時機已經(jīng)成熟;再者,產(chǎn)業(yè)界研究能比學術界更易于拓展。
更重要的是,很多機器人學的問題在于boot strapping(自舉,指機器人或AI系統(tǒng)通過自我學習和自我改進來提高其性能和能力),缺乏數(shù)據(jù)導致系統(tǒng)性能不佳,無法產(chǎn)出產(chǎn)品,數(shù)據(jù)積累陷入停滯,形成惡性循環(huán)——視覺語言模型能有效緩解這一問題,而OpenAI擁有最頂尖的視覺語言模型。
來到OpenAI,林星宇將繼續(xù)探索機器人基礎模型,“我一開始是想訓練一個模型做好可變形物體的任務,但逐漸發(fā)現(xiàn)真正需要的是海量數(shù)據(jù),需要不同數(shù)據(jù)間有各種積極的遷移轉(zhuǎn)化,最終希望有一個模型來理解物理、空間來完成各種任務?!?/p>
結(jié)語
站在是否轉(zhuǎn)向的十字路口,沒有all in機器人學習的CMU似乎慢了一步。
與從純仿真出發(fā)、始于圖像或游戲的模式不同,工業(yè)合作伙伴眾多的CMU攜帶著工程師基因,對解決實際問題習以為常,做項目的重要意義之一就是將技術真正應用于某個具體場景中。
可以說,如果將機器人學的研究工作分為0-1(概念創(chuàng)新)、1-99(技術發(fā)展)和99-100(產(chǎn)品成熟)三個階段,CMU更擅長1到99%的推進,甚至能夠制造出接近實用的高完成度機器人。
除了擅長實際工程落地外,CMU的強項還在于對基礎問題以及整個系統(tǒng)的深入理解。憑借對傳統(tǒng)方法的深厚積累,CMU人才們能夠輕松而順暢地過渡到基于學習的方法。
楊碩、林星宇、王小龍、仉尚航、梁小丹、龔超慧、周佳驥、羅瑞琨、侯一凡、邱迪聰......成長于基于模型方法的CMU一派,用“傳統(tǒng)機器人學”搭起堅實地基,以學習為梯,讓機器人邁向了下一個階梯。
在具身智能產(chǎn)學結(jié)合緊密的趨勢下,補上學習拼圖后的CMU派系,逐漸從傳統(tǒng)走近了全面。
此刻的他們,正搭建著下一塊臺階。
關于具身智能領域的更多精彩群像故事,歡迎添加雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者微信 anna042023 交流。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。