0
本文作者: 賴文昕 | 2025-04-18 11:05 |
作者 | 賴文昕
編輯 | 陳彩嫻
「?jìng)ゴ蟮氖虑閺膩聿皇且粋€(gè)人做的,而是由一群人做的?!?/p>
智駕向左,具身向右
2015 年的一天,趙行走出 MIT的實(shí)驗(yàn)室,收到了浙大本科同級(jí)朋友董思遠(yuǎn)的消息,向同樣涉足過光學(xué)的他了解 CSAIL 里各位教授的具體研究方向,也想到 MIT 里做些 CV 的工作。
兩年前,這兩位青年從浙大畢業(yè)后赴美深造,都圍著視覺打轉(zhuǎn):趙行到 MIT讀博,先后師從Ramesh Raskar和Antonio Torralba教授,研究計(jì)算成像和多模態(tài)學(xué)習(xí);董思遠(yuǎn)到康涅狄格大學(xué)讀研,師從鄭國(guó)安,研究傅里葉疊層成像技術(shù)。
在接下來的十年里,兩位從 CV 出發(fā)的年輕人都面對(duì)著同一個(gè)問題:做自動(dòng)駕駛還是做智能機(jī)器人?
迄今為止,他們已回答過兩遍這個(gè)問題,做出了兩次不同的選擇。
在 MIT 的頭兩年里,趙行意識(shí)到,計(jì)算成像的應(yīng)用,尤其是拍照的社會(huì)影響力不夠大——而自己想做能在現(xiàn)實(shí)世界產(chǎn)生價(jià)值、提高生產(chǎn)力的事。
2015 年,趙行決定不做計(jì)算成像后,開始參與多個(gè)項(xiàng)目探索自己感興趣的方向,首先找到了 MIT Cheetah 系列四足機(jī)器人的負(fù)責(zé)人 Sangbae Kim教授,提出做其機(jī)器人課的助教。
MIT Cheetah 是仿生機(jī)器人領(lǐng)域的里程碑式成果,通過全電機(jī)驅(qū)動(dòng)系統(tǒng)和高性能控制算法,實(shí)現(xiàn)了高速奔跑(最高時(shí)速達(dá)48 km/h)、復(fù)雜地形適應(yīng)(如閉眼攀爬樓梯)以及動(dòng)態(tài)平衡(如抗干擾穩(wěn)定),推動(dòng)了四足機(jī)器人從實(shí)驗(yàn)室向?qū)嶋H場(chǎng)景(如救援、軍事巡檢)的落地,其在 2019 年開源的 Mini Cheetah,其中的準(zhǔn)直接驅(qū)動(dòng)器的設(shè)計(jì),更是影響了一波中國(guó)機(jī)器人企業(yè)的誕生與成長(zhǎng)。
彼時(shí) Sangbae Kim 組里有液壓的人形和五個(gè)電驅(qū)機(jī)器狗,從硬件、結(jié)構(gòu)到控制均為團(tuán)隊(duì)自研,研發(fā)成本奇高。因系統(tǒng)不夠魯棒容易損壞,上飛機(jī)需要安排貨運(yùn),參加一次展會(huì)的成本大約是 3 萬美元,團(tuán)隊(duì)往往只得放棄展示機(jī)會(huì)。
2015 年發(fā)布的 Cheetah 2
在Cheetah2項(xiàng)目里,趙行負(fù)責(zé)搭建感知系統(tǒng),是唯一的華人成員。他曾向 Sangbae 力推深度學(xué)習(xí),但當(dāng)時(shí)深度學(xué)習(xí)在控制領(lǐng)域效果遠(yuǎn)不及模型預(yù)測(cè)控制(MPC),因此控制派學(xué)者并不認(rèn)可,「做傳統(tǒng)控制的老師們都非常厲害且堅(jiān)信自己的道路,所以幾乎都看不上沒有數(shù)學(xué)保證的深度學(xué)習(xí)?!?/p>
后一年,趙行開始接觸自動(dòng)駕駛,參與John Leonard教授發(fā)起的 Duckietown 項(xiàng)目,開發(fā)自動(dòng)駕駛的研究和教學(xué)平臺(tái),團(tuán)隊(duì)有來自不同實(shí)驗(yàn)室的十幾人,包括兩名博士生、博士后和老師,開設(shè)課程教授學(xué)生自駕系統(tǒng)各模塊的知識(shí)。
項(xiàng)目鏈接:https://hangzhaomit.github.io/papers/duckietown.pdf
具體來說,他們自己搭建一個(gè)微縮版的城市交通,并且自己設(shè)計(jì)低成本的輪式小車,裝上傳感器和計(jì)算單元,就實(shí)現(xiàn)了自動(dòng)駕駛車的硬件系統(tǒng)。軟件上,搭建一個(gè) ROS 中間件,通過它定義自駕各模塊的接口,如感知、建圖、定位、導(dǎo)航、規(guī)劃、控制、人機(jī)共駕、多機(jī)協(xié)同、車路協(xié)同等。之后,各模塊的開發(fā)工作將分配給不同團(tuán)隊(duì)的成員,最后大家共享專業(yè)知識(shí),共同構(gòu)建一個(gè)多智能體的自動(dòng)駕駛交通系統(tǒng)。
作為助教,趙行負(fù)責(zé)搭建整個(gè)平臺(tái),并參與深度學(xué)習(xí)感知模塊。該課程后來作為機(jī)器人系統(tǒng)的實(shí)踐課程,被全球 250 多個(gè)大學(xué)和 160 多個(gè)公司所采用。
而在多模態(tài)學(xué)習(xí)方面,趙行在Antonio的課題組提出了視覺-聲音跨模態(tài)學(xué)習(xí)方法 Sound of Pixels,解決語音領(lǐng)域長(zhǎng)久以來的“雞尾酒問題”;和隔壁組的趙明民(現(xiàn) UPenn 助理教授)合作提出視覺-WiFi 跨模態(tài)學(xué)習(xí)方法 RF-Pose,用WiFi實(shí)現(xiàn)人體姿態(tài)識(shí)別。兩項(xiàng)工作都是多模態(tài)學(xué)習(xí)領(lǐng)域的典范,獲得了 NBC、BBC、Science 等媒體的廣泛報(bào)道。
2019 年趙行畢業(yè)時(shí),他的求職目標(biāo)很明確:自己擅長(zhǎng)的視覺和多模態(tài)學(xué)習(xí)對(duì)自駕和機(jī)器人很有價(jià)值。而既然機(jī)器人行業(yè)未成形,那便進(jìn)入最有價(jià)值、最硬核的自駕行業(yè)。
加上自駕車輛配備如毫米波雷達(dá)、激光雷達(dá)、相機(jī)、夜視儀等多種傳感器,為多模態(tài)學(xué)習(xí)提供了廣闊的應(yīng)用空間,如果能去頭部的 Waymo工作和學(xué)習(xí), 將這些技術(shù)應(yīng)用于自駕汽車,他就不再考慮其他機(jī)會(huì)。
當(dāng)時(shí)的Waymo如日中天,眾多頂尖人才齊聚于此。例如,坐在趙行身邊的 PointNet 作者 Charles Qi,VoxelNet 的作者周寅,還有自駕領(lǐng)域最早開展模仿學(xué)習(xí)工作 ChauffeurNet 的作者 Mayank Bansal 等人。
在 Waymo 研究院,趙行主要聚焦兩個(gè)方向。
一是多模態(tài)感知,涉及視覺、激光雷達(dá)、毫米波雷達(dá)和聲音等多傳感器數(shù)據(jù)融合;二是學(xué)習(xí)驅(qū)動(dòng)的預(yù)測(cè)規(guī)劃,主要建模車輛與環(huán)境的交互。
很快趙行便結(jié)識(shí)了自己的最強(qiáng)搭檔高繼揚(yáng),他早三個(gè)月加入 Waymo,其自驅(qū)力在公司內(nèi)尤為突出:既能高效開發(fā)產(chǎn)品,又主動(dòng)推進(jìn)研究,幾乎是一人擔(dān)兩職。
彼時(shí)谷歌組織架構(gòu)高度扁平化,內(nèi)部合作極為靈活,二人便聯(lián)合 Google Research 的孫晨(高繼揚(yáng)學(xué)長(zhǎng),曾引薦其師從 Ram Nevatia),三人跨三組合作自駕軌跡預(yù)測(cè)的系列工作 VectorNet 和 TNT。
另一邊,在趙行逐步深入自駕行業(yè)之際,董思遠(yuǎn)也在 2015 年來到 MIT 讀博,先是加入了正從視覺向觸覺傳感轉(zhuǎn)型的 Ted Adelson 小組,意外開啟了觸覺與機(jī)器人的研究,跟著師姐原文禎學(xué)習(xí) GelSight 傳感器的原理和制作。
博二時(shí)因組里經(jīng)費(fèi)緊張,Ted 建議董思遠(yuǎn)和其他老師多交流以實(shí)現(xiàn)聯(lián)合培養(yǎng)。
恰好此時(shí)亞馬遜要舉辦第二屆機(jī)器人揀選挑戰(zhàn)賽(Amazon Picking Challenge),由傳統(tǒng)控制大牛 Alberto Rodriguez 帶領(lǐng)的 MIT 隊(duì)決定同普林斯頓大學(xué)宋舒然團(tuán)隊(duì)組成 MIT-普林斯頓聯(lián)隊(duì)參賽,因需設(shè)計(jì)一個(gè)基于觸覺反饋的抓取平臺(tái),便提出同 Ted 合作。
董思遠(yuǎn)得以參與其中,逐漸轉(zhuǎn)到 Alberto 小組,開始聚焦操作領(lǐng)域(Manipulation),通過將觸覺信息融合至控制器與規(guī)劃器,系統(tǒng)性提升機(jī)器人任務(wù)執(zhí)行效能。
到了博四,董思遠(yuǎn)與 Ted 團(tuán)隊(duì)合作自己最具代表性的成果——觸覺反饋夾爪的線纜操作研究,并獲得機(jī)器人頂會(huì) RSS 2020 最佳論文提名獎(jiǎng)。
針對(duì)柔性物體難以物理建模的挑戰(zhàn)——理論上具有無限自由度,無法像剛體用六維位姿描述——該研究創(chuàng)新性利用觸覺反饋?zhàn)粉櫨€纜姿態(tài),僅憑觸覺感知即可實(shí)現(xiàn)從線纜一端到另一端的精準(zhǔn)操控,突破了傳統(tǒng)視覺方案對(duì)柔性物體建模的復(fù)雜度瓶頸。
論文鏈接:https://arxiv.org/pdf/1910.02860
受深度學(xué)習(xí)浪潮影響,董思遠(yuǎn)開始探索其在機(jī)器人操作中的應(yīng)用。但因兩位導(dǎo)師都并非深度學(xué)習(xí)領(lǐng)域,尤其 Alberto 傾向基于模型的方法,所以在 MIT 的最后一年,董思遠(yuǎn)自行鉆研機(jī)器人學(xué)習(xí)在插拔任務(wù)中的應(yīng)用,開發(fā)了基于強(qiáng)化學(xué)習(xí)的高維觸覺控制框架。
強(qiáng)化學(xué)習(xí)在處理高維傳感器輸入(如視覺觸覺融合數(shù)據(jù))的獨(dú)特優(yōu)勢(shì)得以展現(xiàn)——通過深度網(wǎng)絡(luò)構(gòu)建端到端控制器,突破了基于牛頓力學(xué)的傳統(tǒng)控制范式對(duì)低維抽象物理量的依賴,為高復(fù)雜度接觸敏感型任務(wù)提供了數(shù)據(jù)驅(qū)動(dòng)的解決方案。
論文鏈接:https://drive.google.com/file/d/15FSgNIV9BfjqL9Yekx0ui1kfzJb3NBSf/view
2020 年,想繼續(xù)鉆研 RL 的董思遠(yuǎn)來到華盛頓大學(xué)做博士后,與 Byron Boots 合作,研究將學(xué)習(xí)算法應(yīng)用在四足狗上,使其在惡劣環(huán)境也能跑得更快,還幫助 Byron 帶著學(xué)生做了不少機(jī)器人操作與觸覺傳感的探索。
2022 年 6 月,董思遠(yuǎn)回國(guó)加入華為的終端部門,先是在機(jī)器人和具身智能方向做了些探索,但他很快意識(shí)到,機(jī)器人離大規(guī)模商用仍十分遙遠(yuǎn),就連最頭部的特斯拉也僅是公布了 Optimus 的原型機(jī)。
一年后董思遠(yuǎn)所在部門面臨重組,他便帶著團(tuán)隊(duì)去了離具身智能機(jī)器人最近的自動(dòng)駕駛部門,加入了華為車 BU,真正地走進(jìn)自駕領(lǐng)域。
過去做科研時(shí),董思遠(yuǎn)需獨(dú)立搭建含控制器、規(guī)劃器等從軟到硬的整套系統(tǒng),而更成熟的自駕領(lǐng)域則分工明確,僅需負(fù)責(zé)其中某模塊;自駕重感知的模式也讓其技術(shù)棧也得以更新,點(diǎn)亮了過去并非自己強(qiáng)項(xiàng)的感知算法。
最近,董思遠(yuǎn)又轉(zhuǎn)向端到端框架,直接將傳感器信號(hào)映射為規(guī)劃指令,繞過模塊分工實(shí)現(xiàn)「感知-控制閉環(huán)」,回歸自己感興趣及擅長(zhǎng)的領(lǐng)域,把機(jī)器人學(xué)習(xí)算法運(yùn)用在自駕領(lǐng)域。
在他看來,機(jī)器人與自駕在技術(shù)底層已高度趨同——當(dāng)端到端架構(gòu)興起后,車輛本質(zhì)上已成為具身智能在物理世界的延伸載體,二者的核心邏輯都是通過海量示范數(shù)據(jù)訓(xùn)練控制器,使系統(tǒng)能模仿人類行為:自駕追求「類人化」的安全決策,機(jī)器人則需完成疊衣、烹飪等家庭場(chǎng)景任務(wù)。
差異僅在于任務(wù)復(fù)雜度,自駕面對(duì)的是規(guī)則化道路環(huán)境,而具身智能需應(yīng)對(duì)開放動(dòng)態(tài)空間中的精細(xì)操作,這對(duì)硬件與數(shù)據(jù)提出了更苛刻的要求。
自駕之所以率先商業(yè)化,源于數(shù)據(jù)獲取門檻低和硬件生態(tài)成熟的兩大優(yōu)勢(shì)。反觀機(jī)器人,操作任務(wù)的示范數(shù)據(jù)采集極其困難,需依賴高成本遙操作或雇傭?qū)H松蓴?shù)據(jù),且硬件層面仍缺乏能精準(zhǔn)復(fù)現(xiàn)人手靈活性的執(zhí)行器,更難以說服消費(fèi)者為高溢價(jià)卻低實(shí)用性的家用機(jī)器人買單。
「雖然具身智能創(chuàng)業(yè)熱潮涌動(dòng),但核心缺失在于涉及更復(fù)雜的物理交互與價(jià)值閉環(huán)的操作能力,唯有攻克,機(jī)器人才能真正創(chuàng)造人類可感知的應(yīng)用價(jià)值,這也是具身智能商業(yè)化落地的必經(jīng)之路?!?/p>
盡管決定繼續(xù)扎根自駕領(lǐng)域,董思遠(yuǎn)卻不認(rèn)為自己離開了具身智能,「我反而覺得當(dāng)前用海量數(shù)據(jù)去做學(xué)習(xí)訓(xùn)練的經(jīng)歷是非常寶貴的,這遠(yuǎn)比實(shí)驗(yàn)室小規(guī)模仿真更具工程價(jià)值,而且對(duì)于未來如果再做操作等具身智能任務(wù),也非常有借鑒意義?!?/p>
與董思遠(yuǎn)相向而行,趙行則是從自動(dòng)駕駛轉(zhuǎn)向機(jī)器人。
在 Waymo 的一年多后,趙行在 2020 年回國(guó)加入清華任教。因意識(shí)到深度學(xué)習(xí)使各領(lǐng)域邊界持續(xù)消融,他創(chuàng)立 MARS 實(shí)驗(yàn)室,希望不局限于單一研究方向,而做更廣泛的 AI研究,包括多模態(tài)學(xué)習(xí)、自動(dòng)駕駛和機(jī)器人。
剛回國(guó)后,趙行與剛上任理想汽車算法負(fù)責(zé)人的浙大師弟王軼倫討論起自駕的技術(shù)進(jìn)展,基于共同興趣開展了視覺感知和無圖自動(dòng)駕駛的研究,后來發(fā)展為了與理想的正式合作。
到了 2023 年,之前在Waymo的合作者高繼揚(yáng)這時(shí)候找到他聊起創(chuàng)業(yè),他們感覺到具身智能領(lǐng)域的創(chuàng)業(yè)時(shí)機(jī)成熟,一切恰如 2016 年自駕的起步階段,并于年中正式成立星海圖智能。
二人再次成為搭檔合作尤其順暢,最初計(jì)劃開發(fā)輪式機(jī)器人,但在許華哲加入后,經(jīng)過深入探討,決定以仿人形雙臂輪式機(jī)器人作為首款產(chǎn)品,最終確定了產(chǎn)品形態(tài)。(許華哲加入星海圖的故事詳情在伯克利具身智能圖譜:深度強(qiáng)化學(xué)習(xí)浪尖上的中國(guó) 90 后們)
「自駕和 AR/VR 是我畢業(yè)時(shí)最火的倆方向,兩者技術(shù)都有難度但自駕因社會(huì)意義大,盡管過去十年一直在燒錢,一直有社會(huì)各界的支持?!冠w行認(rèn)為做技術(shù)須兼具前沿性與社會(huì)價(jià)值,「相信具身智能機(jī)器人同樣是各方會(huì)持續(xù)投入人力和財(cái)力推動(dòng)發(fā)展的行業(yè)。」
看似殊途的趙行和董思遠(yuǎn),或許會(huì)在未來再次同行。
GelSight 的演進(jìn)
在董思遠(yuǎn)加入 Ted Adelson 組讀博的 2015 年,團(tuán)隊(duì)已從 CV 向視觸覺轉(zhuǎn)型,專攻 GelSight 的視觸覺研究和機(jī)器人應(yīng)用的發(fā)展。
長(zhǎng)久以來,觸覺感知總被視為具身智能操作(Manipulation)的「最后一公里」,讓機(jī)器人在黑暗中也能「看見」物體的形狀、硬度與紋理,如同人類指尖在閉目時(shí)描繪世界的輪廓。
作為前沿中的前沿,觸覺感知的技術(shù)路線自然未收斂,但在一眾方案中,近年來受到最廣泛關(guān)注和認(rèn)可的觸覺傳感器 GelSight 正是誕生于 Ted Adelson 團(tuán)隊(duì)。
從聚焦視覺觀測(cè)的傳感器到結(jié)合上機(jī)器人觸覺感知的「完全體」,GelSight 的演進(jìn)離不開兩個(gè)關(guān)鍵人物:李瑞和原文禎。
回到 2009 年,視覺認(rèn)知和計(jì)算機(jī)視覺領(lǐng)域的泰斗、美國(guó)兩院院士 Edward (Ted) Adelson 和其博后 Micah Kimo Johnson 在 CVPR 上首次提出 GelSight,其命名直指技術(shù)內(nèi)核:通過有均勻反射涂層的透明凝膠材料形變捕捉信息,再利用光學(xué)成像和光度立體算法還原出接觸面的高精度三維形狀。
最初的 GelSight 是個(gè)邊長(zhǎng)為 50 厘米的大盒子,跟機(jī)器人的觸覺毫無關(guān)系,更多是用來做物體表面微觀結(jié)構(gòu)的檢測(cè),比如說表面的紋理和凸起等。
同年,在新加坡南洋理工大學(xué)畢業(yè)的李瑞來到 MIT 讀博,從 2005 年起他就開始做機(jī)器人和計(jì)算機(jī)視覺方面的研究。
2011 年秋,想繼續(xù)鉆研自己感興趣的機(jī)器人和 CV 領(lǐng)域的李瑞在一次和 Ted 的交談中討論起做機(jī)器人也能用的傳感器,幫助機(jī)器人更好實(shí)現(xiàn)類人的手眼協(xié)同操作,二人想法一致,便轉(zhuǎn)組加入了團(tuán)隊(duì),成為其機(jī)器人方向的第一位畢業(yè)的 PhD。
2011 年,Ted 和 Kimo 二人在 SIGGRAPH 上展示了更強(qiáng)大的第二代 GelSight:通過優(yōu)化凝膠材料與多角度照明設(shè)計(jì),將空間分辨率提升至驚人的 2 微米,甚至能無懼物體表面的光學(xué)特性(如反光或透明材質(zhì))捕捉幾何細(xì)節(jié)——此時(shí)的 GelSight 用上了單反相機(jī)、已具備手持設(shè)備的雛形,但仍和機(jī)器人觸覺無關(guān),離機(jī)器人實(shí)際應(yīng)用仍有較大差距。Kimo 也于同年創(chuàng)立了 GelSight Inc.公司,將 GelSight 技術(shù)主要應(yīng)用于缺陷檢測(cè)領(lǐng)域,但也與機(jī)器人并無關(guān)系。
彼時(shí)機(jī)器人操作領(lǐng)域的工作多是與視覺的結(jié)合,李瑞十分認(rèn)可第一性原理,認(rèn)為機(jī)器人若要像人一樣操作,觸覺不可或缺,極為重要。結(jié)合 GelSight 自身形變等特性,在 CV 領(lǐng)域深耕多年的李瑞和 Ted 設(shè)想將其改造成機(jī)器人觸覺傳感器。
李瑞從人的觸覺獲取靈感:一是能感知如紋理、形狀的物體本身性質(zhì);二是可獲取接觸狀態(tài)、反映在人的手指形變里的信息。
「此前的觸覺傳感器其實(shí)更應(yīng)該叫壓力傳感器,僅能獲取很稀疏的法向力信息,而 GelSight 接觸物體時(shí)會(huì)像手指一樣發(fā)生形變,我要做的就是通過攝像頭捕捉多維的實(shí)時(shí)的形變信息,再用 CV 方法反推出觸覺信息。這樣其中一大好處就是可以獲得超高分辨率的多維觸覺信息?!?/p>
項(xiàng)目牽扯到硬件、軟件、算法等多方面的綜合,起初李瑞和 Ted 對(duì)能否成功都沒有十足把握,不過隨著李瑞完成視觸覺傳感器 Fingertip GelSight 雛形,他們對(duì)此路線愈發(fā)堅(jiān)定。2010-2015 年間,Ted 圍繞該方向陸續(xù)招收 3 名博士生,其他方向鮮少招人。隨著組內(nèi)其他學(xué)生陸續(xù)畢業(yè),資源自然向視觸覺研究集中。
看看 Fingertip GelSight 的研發(fā)過程。
2011 年,GelSight 已有的幾個(gè)原型設(shè)備體積大、質(zhì)量重、運(yùn)行緩慢,用在機(jī)器人上既不實(shí)用也不合適,因此無論是電路、光路還是系統(tǒng)集成,都需要重新設(shè)計(jì)。
若僅算重大改動(dòng),主導(dǎo)項(xiàng)目的李瑞至少完成了二三十次版本迭代:為了兼顧滿足性能需求、成本低廉、反應(yīng)快速與尺寸小巧,測(cè)試了 40 多種攝像頭;光路設(shè)計(jì)也歷經(jīng)多次迭代,涉及諸多光源、彈性體、支撐板、導(dǎo)光板的選型等細(xì)節(jié)調(diào)整;軟件和算法上也要做到非常實(shí)時(shí)和精準(zhǔn)。
這些組件組合方式繁多,難以確定最佳方案,甚至不確定能否正常運(yùn)行,探索空間極大。他要在有限時(shí)間內(nèi),研發(fā)出性能適配的傳感器及算法。
李瑞還跟 Ted 討論過是否將其更名為「GelFinger」以跟之前的 GelSight 作區(qū)分,最后師徒二人還是決定沿用原名,但加了個(gè)前綴「Fingertip」。
在 CVPR 2013 上,李瑞發(fā)布了包含 40 種觸覺紋理的數(shù)據(jù)庫(kù),使傳感器能夠通過接觸識(shí)別多種不同的布料、砂紙、木材等材質(zhì)。
2014 年,在機(jī)器人領(lǐng)域頂會(huì) IROS 上,GelSight 迎來了歷史性跨越,進(jìn)化為現(xiàn)在大家所熟知的形態(tài):李瑞與 Ted 推出全球首款超高分辨率的視觸覺傳感器 Fingertip GelSight(GelSight 指尖傳感器,也稱 GelSight 2014),其尺寸僅如人類指尖,是個(gè)邊長(zhǎng)約為 3 厘米的立方體。
論文鏈接:https://dspace.mit.edu/handle/1721.1/88136
這一設(shè)計(jì)讓機(jī)器人實(shí)現(xiàn)類人手指精細(xì)操作,如插拔 USB 接口、自適應(yīng)抓取等。大部分人類操作需手眼同時(shí)參與,即「手眼協(xié)同」,這對(duì)機(jī)器人實(shí)現(xiàn)類人通用操作同樣關(guān)鍵。借助視覺-觸覺閉環(huán)控制,機(jī)器人模仿人類「手眼協(xié)同」作業(yè)邏輯,完成精細(xì)操作:視覺粗定位與引導(dǎo),觸覺精細(xì)化閉環(huán)控制,二者相輔相成,缺一不可。
李瑞展示的機(jī)器人插拔 USB 的操作,使用的是早期重復(fù)定位精度只是毫米級(jí)的協(xié)作機(jī)器人 Baxter,但通過 Fingertip GelSight 實(shí)現(xiàn)亞豪米級(jí)的精準(zhǔn)閉環(huán)操作,還展示了自適應(yīng)抓取雞蛋、薯片、樹葉等脆弱或柔性物體,機(jī)器人可依據(jù)多維力反饋動(dòng)態(tài)調(diào)整動(dòng)作,而無須事先設(shè)定好每個(gè)物體力的大小,實(shí)現(xiàn)類人的通用自適應(yīng)抓取能力,大大提升了機(jī)器人操作的能力上限。GelSight Inc.公司于 2022 年所推出的 GelSight Mini 傳感器,正是在這版設(shè)計(jì)上改進(jìn)而成。
除了傳感器自身的軟硬件和算法升級(jí)外,GelSight 技術(shù)在機(jī)器人觸覺感知的應(yīng)用也在不斷突破,為此從無到有搭建起體系并奠定了關(guān)鍵基礎(chǔ)的人,除了李瑞,還有晚一年進(jìn)組的原文禎。
原文禎本科就讀于清華機(jī)械工程系,在張文增指導(dǎo)下參與靈巧手和器械結(jié)構(gòu)設(shè)計(jì)項(xiàng)目,負(fù)責(zé)用視覺做手勢(shì)識(shí)別來控制靈巧手,參與過大量編程算法相關(guān)的軟件工作。她發(fā)現(xiàn),打造出色的機(jī)器人離不開智能軟件與硬件的協(xié)同,希望找到二者最佳的結(jié)合方式,以此制造智能機(jī)器人。
因此,2012 年來到 MIT 后,對(duì)感知領(lǐng)域產(chǎn)生了濃厚興趣的原文禎主動(dòng)和多位研究人類認(rèn)知科學(xué)與機(jī)械認(rèn)知科學(xué)融合的教授交流,其中便有 Ted。
Ted 稱自己已從視覺研究轉(zhuǎn)向觸覺,并向她展示了 GelSight,說打算做機(jī)器人觸覺傳感器,這與她想融合硬件與感知的想法不謀而合,遂決定加入團(tuán)隊(duì)。
作為一名機(jī)械系學(xué)生,原文禎進(jìn)組后受到了不小的沖擊。
GelSight 的核心硬件是帶涂層的透明軟膠,涉及化學(xué)流程,要親自準(zhǔn)備材料、做模具、融合材料,表面噴涂難度極大。
Ted 把原文禎帶到實(shí)驗(yàn)室,指著一堆瓶瓶罐罐,讓她抄錄,說是要做軟膠觸膜的噴涂。身旁 GelSight 方向的大師姐賈曉丹一邊教一邊說自己即將離開,之后這屋子和全組的軟膠研發(fā)制作就由她繼承了。看著滿屋子化學(xué)器材,原文禎直接懵了,「本來想多寫寫代碼,結(jié)果卻先來搞化學(xué)了?!?/p>
在專注硬件開發(fā)之外,原文禎開展了 GelSight 力學(xué)建模研究,試圖從根本上理解測(cè)量信號(hào)的本質(zhì)。
原文禎以傳統(tǒng)機(jī)械工程思維開啟研究,聚焦機(jī)器人觸覺的核心問題——接觸力測(cè)量。面對(duì)復(fù)雜力學(xué)建模的挑戰(zhàn),她通過大量實(shí)測(cè)建立基礎(chǔ)理論框架時(shí),開創(chuàng)性地在物體表面配置黑色標(biāo)記點(diǎn),意外發(fā)現(xiàn)這些標(biāo)記點(diǎn)的信號(hào)變化與抓取滑動(dòng)(Slip)高度關(guān)聯(lián)。
在與副導(dǎo)師、觸覺先驅(qū) Mandayam Srinivasan 的深度探討中,她敏銳捕捉到解決「物體滑落」這一抓取難題的關(guān)鍵:將 GelSight 傳感器的高維信號(hào)優(yōu)勢(shì)(精度較傳統(tǒng)觸覺設(shè)備提升兩個(gè)數(shù)量級(jí))與幾何學(xué)結(jié)合,耗時(shí)兩年最終構(gòu)建出基于標(biāo)記點(diǎn)的滑動(dòng)檢測(cè)模型,并發(fā)表于 ICRA 2015,師兄李瑞也參與其中。
檢測(cè)抓取失敗、物體滑落是機(jī)器人觸覺領(lǐng)域的第一重要課題。此工作加上 2017 年同董思遠(yuǎn)的合作,系統(tǒng)性地研究、論證了全新的基于觸覺檢測(cè)機(jī)器人抓取后物體滑落的方法——比起傳統(tǒng)方法更普適、更穩(wěn)定,能真正地應(yīng)用于機(jī)器人上。
論文鏈接:https://ieeexplore.ieee.org/abstract/document/7139016
此時(shí)正值機(jī)器人觸覺領(lǐng)域低谷,受限于傳感器硬件、機(jī)器人算法及傳統(tǒng)傳感器價(jià)格穩(wěn)定性問題,行業(yè)認(rèn)為觸覺應(yīng)用天花板已至且實(shí)用價(jià)值有限,原文禎所發(fā)的文章也曾只有個(gè)位數(shù)的引用量、在會(huì)議上無人問津,甚至一度成為實(shí)驗(yàn)室唯一的學(xué)生。
對(duì)未來感到迷茫的她通過跨領(lǐng)域的交流與反思,認(rèn)識(shí)到關(guān)鍵在于「感知(Perception)」本身,要向整個(gè)機(jī)器人領(lǐng)域證明,高精度觸覺傳感器本身如何將物理本質(zhì)和認(rèn)知結(jié)構(gòu)結(jié)合起來,實(shí)現(xiàn)從未有過的認(rèn)知能力——這種新式傳感器能否催生新的感知范式?
她將目光投向硬度檢測(cè)這一傳統(tǒng)難題:傳統(tǒng)傳感器和純視覺方案均無法有效解決,是因?yàn)槲矬w軟硬度必須通過接觸才能感知。
而基于對(duì) GelSight 信號(hào)的物理直覺,她設(shè)計(jì)系列實(shí)驗(yàn)驗(yàn)證猜想,成功實(shí)現(xiàn)復(fù)雜工況下的硬度檢測(cè)(接觸受力未知、物體形狀隨機(jī)且存在干擾力),并衍生出對(duì)布料/衣服等復(fù)雜可形變物體的感知工作。
這項(xiàng)探索分兩階段推進(jìn):她先嘗試描述物理現(xiàn)象并進(jìn)行小規(guī)模測(cè)試,在化學(xué)實(shí)驗(yàn)室手工制作不同硬度硅膠球后,通過分析 GelSight 接觸信號(hào),采用手動(dòng)提取特征方法,構(gòu)建出能很好描述信號(hào)的低維物理模型,這篇發(fā)表于 IROS 2016 的研究雖僅適用標(biāo)準(zhǔn)球體,但驗(yàn)證了理論可行性。
彼時(shí) Ted 的辦公點(diǎn)仍在視覺圖形組,同 William Freeman 和 Antonio Torralba 為鄰,正趕上深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域跨越式發(fā)展的時(shí)刻,原文禎便常和周博磊(UCLA AP)、吳佳?。ㄋ固垢?AP)、薛天帆(港中文 AP)等做視覺、圖像的同學(xué)交流,學(xué)習(xí)最新的視覺領(lǐng)域進(jìn)展,從中獲得靈感。
為了實(shí)現(xiàn)廣泛應(yīng)用、測(cè)試任意物體的硬度,她與 William 組的 Andrew Owens 合作,將物理洞察與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合——前者確保模型具備可解釋性,后者利用 CNN 和 RNN 處理高維信號(hào)的優(yōu)勢(shì),最終實(shí)現(xiàn)對(duì)任意形狀物體的通用硬度檢測(cè),并發(fā)表于 ICRA 2017。這項(xiàng)研究也讓原文禎成為了最早融合觸覺與深度學(xué)習(xí)的學(xué)者之一。
論文鏈接:https://arxiv.org/pdf/1704.03955
之后,原文禎積極探索其他將深度學(xué)習(xí)和高精度觸覺結(jié)合起來以增強(qiáng)觸覺感知的方式,比如以不同形式將觸覺和視覺結(jié)合在一起,使用深度學(xué)習(xí),來獲取對(duì)布料、衣服的深入感知。
在 ICRA 2018 的工作中,她展示了機(jī)器人通過視覺定位主動(dòng)抓取衣物,結(jié)合動(dòng)態(tài)觸覺與深度學(xué)習(xí),不僅能識(shí)別紋理,還能推斷厚度、蓬松度、光滑度等物理屬性,以及適用季節(jié)、洗滌方式等智能理解信息,初步實(shí)現(xiàn)了 Ted「做一個(gè)機(jī)器人在家里給衣服分類洗滌」的愿景。
「最早我認(rèn)為做好機(jī)器人,要靠精妙的機(jī)械結(jié)構(gòu)和用于感知和控制的優(yōu)秀算法,但事實(shí)證明機(jī)器人前沿發(fā)展的推動(dòng)力,也依賴材料科學(xué)以及先進(jìn)的制造技術(shù)?!乖牡澑袊@,「機(jī)器人是一門綜合性很強(qiáng)的學(xué)科?!?/p>
對(duì) GelSight 作出重要貢獻(xiàn)的二人至今仍在用不同方式探索著視觸覺領(lǐng)域,李瑞選擇了創(chuàng)業(yè),原文禎則留在了學(xué)術(shù)界。
李瑞一直有著通用機(jī)器人的夢(mèng)想,博士畢業(yè)論文里開篇提到的場(chǎng)景就是未來的機(jī)器人可以在家里和工廠里幫人類做各種各樣的事,而視觸覺傳感器和手眼協(xié)同便是其中重要的一環(huán)。
2015 年李瑞博士畢業(yè)時(shí),Ted 問他要不要拿 GelSight 去創(chuàng)業(yè),但他覺得時(shí)機(jī)未成熟,選擇在硅谷創(chuàng)立了無人配送小車公司 Robby Technologies,進(jìn)軍更成熟的自駕領(lǐng)域,研發(fā)了純視覺和無需依賴高精地圖的技術(shù),與特斯拉的技術(shù)路徑不謀而合,項(xiàng)目也入選了硅谷創(chuàng)業(yè)加速器Y Combinator(YC),并得到了 OpenAI 董事等的投資。
直到去年 1 月,一直密切關(guān)注視觸覺領(lǐng)域發(fā)展的李瑞認(rèn)為機(jī)器人創(chuàng)業(yè)時(shí)機(jī)已到,便在國(guó)內(nèi)成立了緯鈦科技,以通用機(jī)器人為目標(biāo),計(jì)劃根據(jù)核心視觸覺傳感器、視觸覺靈巧手、整機(jī)的漸進(jìn)式路徑研發(fā),近 20 年跨領(lǐng)域的積累得以充分發(fā)揮,離其在博士論文中對(duì)通用機(jī)器人的愿景更近了一步,「做真正心靈手巧的機(jī)器人?!?/p>
原文禎則在斯坦福做了一年博士后之后,在 2019 年入職了 CMU RI,先是帶學(xué)生做出了難度極大的觸覺傳感器仿真器。她們同步推進(jìn)基于學(xué)習(xí)的方法和物理建模的方法 ,都取得了很好的效果,后續(xù)還把它與機(jī)器人仿真結(jié)合,實(shí)現(xiàn)了仿真到現(xiàn)實(shí)的遷移。
來到 UIUC 任教后,原文禎還針對(duì)觸覺傳感器硬件差異導(dǎo)致數(shù)據(jù)異構(gòu)的難題,提出基于深度學(xué)習(xí)的跨硬件統(tǒng)一表征網(wǎng)絡(luò),通過仿真器生成萬級(jí)異構(gòu)傳感器數(shù)據(jù)集訓(xùn)練編碼器,實(shí)現(xiàn)跨硬件觸覺信息的標(biāo)準(zhǔn)化表達(dá),為觸覺大模型奠定數(shù)據(jù)基礎(chǔ)。
上月,她也因在機(jī)器人觸覺領(lǐng)域的突出成就和宋舒然、朱玉可與劉暢流等學(xué)者一同獲得了 IEEE RAS 2025 的早期學(xué)術(shù)生涯獎(jiǎng)。從畢業(yè)時(shí)只有少數(shù)頭部院校發(fā)教職 offer 到 GelSight 成為當(dāng)下最廣泛流行的觸覺傳感技術(shù),原文禎感嘆,「這也算是當(dāng)年的堅(jiān)持受到了時(shí)代的肯定了?!?/p>
Learning「登堂入室」
MIT 的機(jī)器人研究曾長(zhǎng)期由傳統(tǒng)方法主導(dǎo)——基于剛體動(dòng)力學(xué)與精密控制,波士頓動(dòng)力創(chuàng)始人 Marc Raibert 的早期工作(如動(dòng)態(tài)平衡單足機(jī)器人)便是典范,加上 Russ Tedrake、Alberto Rodriguez 等大牛坐鎮(zhèn),在學(xué)習(xí)方法展示出其能力前,自是沒必要顛覆過去的深厚積累。
但隨著環(huán)境復(fù)雜度提升,學(xué)習(xí)范式崛起之風(fēng)也逐漸吹向了 MIT,這從 Alberto 和 Russ 二位的學(xué)生的研究便可窺得一二。
Alberto 曾師從操作泰斗 Mathew Mason,屬于傳統(tǒng)機(jī)器人學(xué)一派,在 MIT 機(jī)械系帶領(lǐng)著操作與機(jī)械實(shí)驗(yàn)室(MCube),研究自主靈巧操作和機(jī)器人自動(dòng)化,在 2023 年到波士頓動(dòng)力領(lǐng)導(dǎo)機(jī)器人操作后,依舊同 MCube 合作緊密。
2015 至 2017 年,亞馬遜連續(xù)舉辦了三屆機(jī)器人挑戰(zhàn)賽(APC),旨在推動(dòng)倉(cāng)儲(chǔ)自動(dòng)化中機(jī)器人無序分揀技術(shù)的突破,賽事瞄準(zhǔn)機(jī)器人操作領(lǐng)域的「圣杯問題」——Bin Picking(從雜亂箱體中抓取物體)。
Alberto 所帶領(lǐng)的 MIT 隊(duì)連續(xù)參與了三屆且均穩(wěn)居前三,其中組里的學(xué)生俞冠廷(Peter Yu) 作為「三朝元老」與技術(shù)架構(gòu)總負(fù)責(zé)人自然功不可沒。
赴美前,俞冠廷先后在臺(tái)灣交通大學(xué)和臺(tái)灣國(guó)立大學(xué)讀完了計(jì)算機(jī)本科和碩士,并于 2013 年到 MIT 機(jī)械工程系讀博,師從精通靈巧操作的 Alberto Rodriguez 和擅長(zhǎng)視覺導(dǎo)航的 John Leonard。
加入 MIT 的俞冠廷顯然是個(gè)比賽型人才。
2013 年,資助過十年無人車比賽的美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)轉(zhuǎn)而舉辦人形機(jī)器人挑戰(zhàn)賽,博一的俞冠廷加入 MIT 隊(duì),也積極參與其中。
比賽賽程十分緊張:8 個(gè)月內(nèi)準(zhǔn)備虛擬機(jī)器人挑戰(zhàn)賽,暑假過后收到 Atlas 機(jī)器人,又要在短短 4 個(gè)月內(nèi)憑借真機(jī)再度參賽。MIT 隊(duì)從零開發(fā)了大量系統(tǒng)組件,比如兼容優(yōu)化的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)引擎、完整用戶界面,還集成了現(xiàn)有復(fù)雜軟件,其中俞冠廷主要負(fù)責(zé)研究感知問題。
2015 年再次參與 DARPA 機(jī)器人挑戰(zhàn)賽的同時(shí),俞冠廷也開始參與亞馬遜機(jī)器人挑戰(zhàn)賽,擔(dān)任感知和軟件負(fù)責(zé)人。
比賽場(chǎng)景設(shè)定在一個(gè)類似自動(dòng)化倉(cāng)儲(chǔ)的倉(cāng)庫(kù)中,機(jī)器人有 20 分鐘的時(shí)間從貨架上揀選物品,并將其放入塑料托盤中。貨架上的 12 個(gè)貨箱里存放著 25 種產(chǎn)品,每個(gè)貨箱都有一個(gè)目標(biāo)物品。機(jī)器人若成功揀選到目標(biāo)物品,可獲得 10 分的基礎(chǔ)分,若貨箱雜亂或物品難以處理,還能獲得額外加分;若揀選了錯(cuò)誤的物品、損壞或掉落物品,則會(huì)被扣分。
在 26 支隊(duì)伍中,MIT 最終以揀選 7 件物品、獲得 88 分的成績(jī)位居第二。不過在首屆賽事中,他們?nèi)圆捎脗鹘y(tǒng)感知-規(guī)劃-執(zhí)行架構(gòu),重點(diǎn)解決物體識(shí)別、抓取規(guī)劃和軌跡計(jì)算問題,通過集成有限的傳感器反饋(視覺、壓力)實(shí)現(xiàn)部分任務(wù)級(jí)驗(yàn)證,但尚未達(dá)到完全的實(shí)時(shí)閉環(huán)控制。
因此在第二年他們決定和 Ted 組合作加上觸覺反饋以直接確認(rèn)抓取狀態(tài),同時(shí)還和普林斯頓組成聯(lián)隊(duì)一起參賽。
最終 MIT-普林斯頓隊(duì)獲得 Stowing Task(裝載任務(wù))第三名、挑揀任務(wù)的第四名,并提出一種基于多視角 RGB-D 數(shù)據(jù)的自監(jiān)督深度學(xué)習(xí)方法,通過全卷積神經(jīng)網(wǎng)絡(luò)分割場(chǎng)景并匹配 3D 模型,無需手動(dòng)標(biāo)注即可生成訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)復(fù)雜場(chǎng)景下 6D 物體姿態(tài)的可靠估計(jì)。
論文鏈接:https://arxiv.org/pdf/1609.09475
第三年,MIT-普林斯頓隊(duì)再得裝載任務(wù)冠軍與 ICRA 2018 最佳系統(tǒng)論文獎(jiǎng)。
值得一提的是,團(tuán)隊(duì)所設(shè)計(jì)的機(jī)器人抓取-識(shí)別系統(tǒng)核心突破在于實(shí)現(xiàn)了對(duì)未知物體的零樣本操作能力。
該系統(tǒng)包含多可供性抓取框架與跨域圖像匹配框架,前者基于全卷積網(wǎng)絡(luò),無需物體分割和分類就能規(guī)劃抓取動(dòng)作;后者利用雙流卷積網(wǎng)絡(luò),無需額外訓(xùn)練即可識(shí)別新物體——在比賽中以 100% 成功率完成倉(cāng)儲(chǔ)任務(wù),成為賽事史上首個(gè)在限定時(shí)間內(nèi)精確處理所有已知與未知物體的解決方案。
論文鏈接:https://arxiv.org/pdf/1710.01330
2018 年 6 月,俞冠廷在博士畢業(yè)后,和同年畢業(yè)于 CMU 的好友周佳驥一起,在波士頓創(chuàng)立星猿哲(XYZ Robotics),為物流及工業(yè)自動(dòng)化提供更好更快的機(jī)器人解決方案,成為最早一批機(jī)器人創(chuàng)業(yè)者。(周佳驥與CMU的故事詳情請(qǐng)看:CMU 具身智能風(fēng)云榜:從傳統(tǒng)到全面)
深度學(xué)習(xí)對(duì)機(jī)器人領(lǐng)域的影響更劇烈地發(fā)生在了 Russ Tedrake 的小組里。
2017 年,李昀燭從北大計(jì)算機(jī)系畢業(yè)來到 MIT 讀博,科研方向正從 CV 向深度強(qiáng)化學(xué)習(xí)拓展。想做智能體與環(huán)境交互研究的他自然想到了機(jī)器人技術(shù)同 CV 的結(jié)合,而 Russ 和 Antonio Torralba(也是趙行導(dǎo)師)正好也想共同指導(dǎo)學(xué)生,三人就匹配成功了。
Russ 側(cè)重基于物理的模型及模型優(yōu)化,Antonio 關(guān)注計(jì)算機(jī)視覺、深度學(xué)習(xí)和生成模型,雙方的應(yīng)用領(lǐng)域和方法大相徑庭,讓李昀燭在博士階段初期協(xié)調(diào)起來頗為吃力,需在不同思路間周旋。但另一方面,這也是難得的成長(zhǎng)契機(jī),他得以同時(shí)接觸機(jī)器人和計(jì)算機(jī)視覺兩個(gè)領(lǐng)域的前沿成果和視角。
一開始,李昀燭啟動(dòng)了視觸覺研究,探索視覺與觸覺之間的相互預(yù)測(cè),側(cè)重多模態(tài)交互。朱俊彥(現(xiàn) CMU AP)在加入 Antonio 組擔(dān)任博士后后也參與其中,協(xié)助李昀燭在模型訓(xùn)練、調(diào)試與設(shè)計(jì)等方面,推動(dòng)項(xiàng)目順利開展并完成。隨后,兩人又與 Wojciech Matusik 的團(tuán)隊(duì)合作,開展觸覺手套項(xiàng)目,李昀燭主要負(fù)責(zé)模型與學(xué)習(xí)相關(guān)部分。
為投稿《自然》雜志,他們解答了為何選擇研發(fā)觸覺手套而非其他形式的觸覺傳感器:手是人體與環(huán)境交互的核心部位,觸覺手套不僅能實(shí)現(xiàn)技術(shù)突破、捕捉多模態(tài)交互信息,還能推動(dòng)人類手部行為的科學(xué)研究,進(jìn)一步啟發(fā)機(jī)器人領(lǐng)域的發(fā)展。
投稿后不久,評(píng)審就給出了非常詳盡的反饋?!高@是我收到過最高質(zhì)量的審稿意見,沒有之一,」李昀燭感嘆道。意見中提出了許多他們?cè)谕陡迩耙芽紤]到和尚未想到的問題。看到論文有望被接受,幾位作者多次召開長(zhǎng)達(dá)四小時(shí)的會(huì)議,深入頭腦風(fēng)暴如何恰當(dāng)回應(yīng)評(píng)審意見。最終,該工作成功發(fā)表在 2019 年的《自然》雜志上。
被展示在 MIT 博物館中的觸覺手套
論文鏈接:https://www.nature.com/articles/s41586-019-1234-z
此后,李昀燭持續(xù)深入觸覺研究領(lǐng)域,與 Wojciech 團(tuán)隊(duì)的羅亦悅(現(xiàn)華盛頓大學(xué) AP)合作,研發(fā)用于多模態(tài)大數(shù)據(jù)采集的觸覺織物與觸覺地毯,并推進(jìn)柔性、可擴(kuò)展的觸覺傳感器設(shè)計(jì)。與 GelSight 的實(shí)現(xiàn)方法不同,他們希望通過超薄且可擴(kuò)展的結(jié)構(gòu),使傳感器能夠適應(yīng)人手、機(jī)械手的抓握部位及機(jī)器人皮膚等多種復(fù)雜表面。
觸覺以外,李昀燭更重要的研究主線是如今的熱點(diǎn)——彼時(shí)被稱為「Intuitive Physics(直覺物理)」的世界模型(World Models)。
這一研究起源于李昀燭與 Russ 關(guān)于建模方法的深入討論:我們究竟應(yīng)采用基于物理的建模與優(yōu)化,還是應(yīng)從數(shù)據(jù)中學(xué)習(xí)動(dòng)力學(xué)模型?在具身智能交互中,每個(gè)系統(tǒng)都涉及機(jī)器人狀態(tài)與環(huán)境狀態(tài)的協(xié)同演化。相較而言,獲取機(jī)器人的狀態(tài)較為容易,因?yàn)槠鋫鞲衅飨到y(tǒng)可由設(shè)計(jì)者主動(dòng)配置;而環(huán)境狀態(tài)及其動(dòng)態(tài)變化則更難觀測(cè)與建模。人類對(duì)環(huán)境的物理理解正是通過與環(huán)境長(zhǎng)期交互中逐步學(xué)習(xí)獲得的。因此,李昀燭希望能夠?qū)W習(xí)環(huán)境的動(dòng)態(tài)模型,即所謂的“世界模型”——這一方向也正是他與兩位導(dǎo)師共同關(guān)注的研究重點(diǎn)。
彼時(shí) MIT 內(nèi)吳佳俊和其導(dǎo)師 Joshua Tenenbaum 在該領(lǐng)域成果顯著,李昀燭便向他們請(qǐng)教,恰好吳佳俊也對(duì)直覺物理在機(jī)器人領(lǐng)域的運(yùn)用很感興趣,雙方便開始了長(zhǎng)期合作,共同研究環(huán)境的動(dòng)態(tài)模型與世界模型。
博一下學(xué)期,李昀燭與吳佳俊合作提出了動(dòng)態(tài)粒子交互網(wǎng)絡(luò)(DPI-Nets),以粒子作為環(huán)境表征,統(tǒng)一建模剛體、流體與可變形物體,并通過圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)粒子間的動(dòng)力學(xué)關(guān)系。該研究發(fā)表于 ICLR 2019,為解決物理模擬與現(xiàn)實(shí)之間的偏差問題提供了新思路。DPI-Nets 能夠?qū)鞲衅鲾?shù)據(jù)轉(zhuǎn)換為粒子表示,從而實(shí)現(xiàn)多種物體動(dòng)力學(xué)的高效模擬與控制,支撐機(jī)器人在復(fù)雜環(huán)境中操控不同材質(zhì)物體,完成多樣化的操作任務(wù)。
論文鏈接:https://arxiv.org/pdf/1810.01566
作為一個(gè)復(fù)雜的系統(tǒng)工程項(xiàng)目,DPI-Nets 涵蓋仿真和現(xiàn)實(shí)世界兩部分,而那時(shí)的仿真技術(shù)的實(shí)現(xiàn)遠(yuǎn)不如現(xiàn)在成熟,很多須用 C++ 和 CUDA 編寫。
為了將仿真與深度學(xué)習(xí)算法接起來,李昀燭還給英偉達(dá)的仿真器編寫 C++ 包裝層,使其內(nèi)部 API 能與 Python 對(duì)接;并搭建仿真環(huán)境,在其中進(jìn)行數(shù)據(jù)收集、模型學(xué)習(xí)、模型配置、控制規(guī)劃;仿真環(huán)節(jié)后又再將整套流程遷移到現(xiàn)實(shí)機(jī)器人上。
對(duì)他而言,這是一次絕佳的鍛煉:全程涉及圖形學(xué)、基于物理的模擬、模型學(xué)習(xí)、基于機(jī)器人模型的優(yōu)化與規(guī)劃,以及模擬到現(xiàn)實(shí)的遷移,讓他對(duì)機(jī)器人系統(tǒng)有了更深刻的理解。
當(dāng)時(shí),吳佳俊在模型設(shè)計(jì)和項(xiàng)目規(guī)劃等方面提供了諸多建議,而 Russ 剛從人形機(jī)器人轉(zhuǎn)向操作研究,實(shí)驗(yàn)室也剛開始搭建現(xiàn)實(shí)世界中的機(jī)器人操作系統(tǒng),整體架構(gòu)尚不成熟。通過這個(gè)項(xiàng)目,李昀燭不僅積累了大量實(shí)踐經(jīng)驗(yàn),還系統(tǒng)性地認(rèn)識(shí)到感知、學(xué)習(xí)、建模與 Sim2Real 等關(guān)鍵問題,研究視野由此顯著拓展,選題也變得更加順暢,其中不少思路至今仍在延續(xù)。
李昀燭的一系列工作讓 Russ 看到學(xué)習(xí)算法在環(huán)境建模中的潛力;組里 Peter Florence 和 Lucas Manuelli 的論文《視覺運(yùn)動(dòng)策略學(xué)習(xí)中的自監(jiān)督對(duì)應(yīng)關(guān)系》又讓 Russ 相信學(xué)習(xí)還能進(jìn)一步用于策略制定;最后在豐田研究院,Russ 同宋舒然(現(xiàn)斯坦福 AP)團(tuán)隊(duì)合作的基于擴(kuò)散模型的機(jī)器人動(dòng)作生成策略「Diffusion Policy」則讓這位堅(jiān)定的「Model-Based 信徒」真正轉(zhuǎn)向了學(xué)習(xí)一派。
如今,李昀燭與 Russ 會(huì)在會(huì)議中偶然碰面,二人的討論發(fā)生了有趣的變化:李昀燭向 Russ 提出應(yīng)在學(xué)習(xí)系統(tǒng)中添加恰當(dāng)結(jié)構(gòu)以提升泛化性與樣本效率;Russ 卻主張構(gòu)建機(jī)器人基礎(chǔ)模型,像 VLA 模型和大型行為模型等,已然 all in 端到端的機(jī)器人基礎(chǔ)模型研究。Russ 還感慨,自己都未曾料到會(huì)有如此轉(zhuǎn)變 。
2021 年,李昀燭和許華哲、吳佳俊等人合作了 RoboCraft 項(xiàng)目:許華哲在吳佳俊組里做博士后,二人經(jīng)討論認(rèn)為動(dòng)力學(xué)模型學(xué)習(xí)(Dynamics Model Learning)是個(gè)不錯(cuò)的方向,想起李昀燭之前做的 DPI-Nets 也是相關(guān)工作,便提出了合作。
次年李昀燭畢業(yè),來到斯坦福,在李飛飛和吳佳俊組里做博士后,順著 RoboCraft 繼續(xù)推進(jìn) RoboCook 工作,和史浩辰(斯坦福 PhD)合作,通過圖神經(jīng)網(wǎng)絡(luò)和預(yù)測(cè)控制算法讓機(jī)械臂學(xué)會(huì)操控各種軟體材料,比如借助工具完成包餃子任務(wù),最終獲得了 CoRL 2023 的最佳系統(tǒng)論文獎(jiǎng)。
論文鏈接:https://arxiv.org/abs/2306.14447
接著,李昀燭還和黃文龍、吳佳俊、李飛飛等人一起合作了 VoxPoser 項(xiàng)目。
一作黃文龍(斯坦福 PhD)曾在谷歌大腦參與 PaLM-E 項(xiàng)目,研究語言與機(jī)器人操作的融合問題。博士入學(xué)后,他在斯坦福與李昀燭等人展開深入討論,認(rèn)為盡管基礎(chǔ)模型在高層次任務(wù)上表現(xiàn)出色,但在生成機(jī)器人動(dòng)作等低層次控制上,仍需結(jié)合結(jié)構(gòu)化框架以提升可靠性與可控性。
鑒于李昀燭之前在模型學(xué)習(xí)、基于模型的優(yōu)化和規(guī)劃方面有諸多經(jīng)驗(yàn),便建議將基礎(chǔ)模型的高層次能力與低層次優(yōu)化相結(jié)合,從而充分發(fā)揮兩者優(yōu)勢(shì),由此產(chǎn)生了 VoxPoser 的想法。
項(xiàng)目鏈接:https://voxposer.github.io/
VoxPoser 將大模型接入機(jī)器人,把復(fù)雜指令轉(zhuǎn)化為具體行動(dòng)規(guī)劃,無需額外數(shù)據(jù)與訓(xùn)練;還結(jié)合大語言模型同視覺語言模型,在 3D 空間中分析目標(biāo)及需繞過的障礙,以零樣本的方式合成軌跡為機(jī)器人規(guī)劃行動(dòng)。
盡管仍處于實(shí)驗(yàn)室演示階段,與實(shí)際商業(yè)應(yīng)用尚有不小差距,該工作首次展示了機(jī)器人在更通用場(chǎng)景中,基于語言指令與視覺觀測(cè)完成多種復(fù)雜操作任務(wù)的能力。論文發(fā)表在 CoRL 2023 后,迅速引發(fā)學(xué)術(shù)界、工業(yè)界及風(fēng)投圈的廣泛關(guān)注。此后幾乎每周都有多位投資人主動(dòng)聯(lián)系作者團(tuán)隊(duì),尋求進(jìn)一步交流與合作。
離開斯坦福后,李昀燭先后在 UIUC 和哥倫比亞大學(xué)任職,帶領(lǐng)學(xué)生持續(xù)推進(jìn)世界模型(World Models)、多模態(tài)感知(Multi-Modal Perception)與基礎(chǔ)模型應(yīng)用(Foundation Models for Robotics)三大方向的研究,「核心目標(biāo)是讓機(jī)器人能像人一樣,更加靈活通用地感知環(huán)境并與之交互?!?/p>
具身智能進(jìn)行時(shí)
2019 年初,MIT 開始籌備成立一個(gè)虛擬組織——具身人工智能研究小組(Embodied AI Group,簡(jiǎn)稱 EI 小組)。
「在 EI 小組成立前,具身智能并不是一個(gè)熱詞?!乖诶铌罓T的回憶里,此前大家更關(guān)心基于模型的方法,小組成立后合作交流更緊密。
EI 小組把研究計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器人控制、機(jī)器人任務(wù)規(guī)劃等方面的老師聚集到一起,既方便申請(qǐng)資金,又組織講座等多種活動(dòng)。
整個(gè) EI 基本都在 Stata Center 的三樓,各個(gè)實(shí)驗(yàn)室的距離都在百米內(nèi),老師們有單獨(dú)辦公室,而不同實(shí)驗(yàn)室的學(xué)生則三兩交叉、混雜分布在不同辦公室里,以便更好地日常交流。
這年的錄取結(jié)果公布后,收到 offer 的陳濤到 MIT 實(shí)地交流時(shí),就已經(jīng)了解到 EI 小組的不少安排:每學(xué)期會(huì)辦約八場(chǎng)講座,外部嘉賓和內(nèi)部交流五五開,還設(shè)一對(duì)一交流和共進(jìn)午餐等不同的機(jī)會(huì);各大頂會(huì)前辦研討會(huì),各組學(xué)生齊聚一堂互相分享討論投稿論文。
陳濤本科在上海交通大學(xué)的機(jī)械工程與自動(dòng)化系,大四開始自學(xué)編程、機(jī)器學(xué)習(xí)、慢慢接觸 AI,畢業(yè)后先在人形機(jī)器人創(chuàng)企嶺先機(jī)器人工作了一年,探索室內(nèi)導(dǎo)航的 SLAM 系統(tǒng)搭建、強(qiáng)化學(xué)習(xí)上真機(jī)、物體檢測(cè)等方向,把機(jī)器人系統(tǒng)所用的 AI 技術(shù)摸了個(gè)遍。
確定想研究用 AI 方法尤其是強(qiáng)化學(xué)習(xí)去控制機(jī)器人系統(tǒng)后,陳濤便決定出國(guó)深造,在 2017 年到 CMU 讀研,師從 FAIR 機(jī)器人部門研究負(fù)責(zé)人、現(xiàn) Skild AI 創(chuàng)始人 Abhinav Gupta,做了關(guān)于智能體無任務(wù)獎(jiǎng)勵(lì)下自主探索現(xiàn)實(shí)復(fù)雜 3D 環(huán)境的工作。
兩年后,想拓展新圈子、跟隨年輕老師的陳濤來到 MIT 讀博,師從剛從伯克利畢業(yè)后到 MIT 任教的 Pulkit Agrawal,成為其首位博士生,二人共同感興趣的方向。此前 MIT 的機(jī)器人探索更偏「硬核」,在傳統(tǒng)控制和硬件研發(fā)上成果斐然,Pulkit 加入后,則新添了深度強(qiáng)化學(xué)習(xí)的色彩。
進(jìn)組后,作為組里少數(shù)了解真機(jī)的成員,陳濤先是負(fù)責(zé)搭建真機(jī)平臺(tái)及 Infra,用 Python 寫 AI的控制軟件及脫離 ROS、以少量代碼實(shí)現(xiàn)機(jī)器人交互的庫(kù)。
接著陳濤又做強(qiáng)化學(xué)習(xí)打視頻游戲的研究,但因?qū)嶒?yàn)室計(jì)算資源有限,沒能擴(kuò)大規(guī)模;同時(shí)因 Pulkit 和 Sangbae Kim 的合作并行開啟了對(duì)四足機(jī)器人的探索,研究用強(qiáng)化學(xué)習(xí)算法讓四足機(jī)器人跳過溝壑,帶著本科生寫代碼;還會(huì)協(xié)助 Pulkit 備課,他首次在 MIT 熬夜便是幫 Pulkit 準(zhǔn)備編程作業(yè)。
博一接近尾聲時(shí),陳濤終于找到了自己最感興趣的領(lǐng)域:機(jī)器人操作與靈巧手控制。
2019 年 10 月,OpenAI 發(fā)布的機(jī)器人轉(zhuǎn)魔方工作引起轟動(dòng),陳濤因此也有了做靈巧手的想法,于是在完成手頭的項(xiàng)目后,決定解決靈巧手中最難的控制問題,聚焦到把靈巧手做得更泛化(朝向任意方向),突破 OpenAI 靈巧手只能朝上的局限。
起初實(shí)驗(yàn)室沒有靈巧手,陳濤便在仿真器上開始探索,用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練靈巧手控制器,并且展示了靈巧手在手面朝下此最極端的情況下也能轉(zhuǎn)動(dòng)任意形狀的物體,而且還通過無模型框架重新定位了超 2000 個(gè)形狀各異的物體,具有非常高的通用性。
他們還發(fā)現(xiàn),當(dāng)靈巧手控制器足夠魯棒時(shí),即使不知道物體形狀信息,也可以以高成功率轉(zhuǎn)動(dòng)任意物體到指定朝向。
論文鏈接:https://proceedings.mlr.press/v164/chen22a/chen22a.pdf
彼時(shí)靈巧手控制領(lǐng)域十分冷門,傳統(tǒng)模型方法和遙操作方法各有難以逐一建模和數(shù)據(jù)不足的問題,用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)突破的 OpenAI 也裁撤了其機(jī)器人團(tuán)隊(duì),直到陳濤用強(qiáng)化學(xué)習(xí)完成遠(yuǎn)超以往難度、眾人未曾設(shè)想的靈巧手控制任務(wù)——此工作獲得了 CoRL 2021 的最佳論文獎(jiǎng)。
除了用強(qiáng)化學(xué)習(xí)訓(xùn)練模型使機(jī)器人學(xué)習(xí)有用信息外,團(tuán)隊(duì)還將原本需數(shù)月的訓(xùn)練時(shí)長(zhǎng)縮短至兩天內(nèi)以提升效率,并將模型從依賴大量設(shè)備、成本高達(dá)幾十萬美金的 OpenAI 早期模式轉(zhuǎn)變?yōu)閮H用一個(gè)幾百美金相機(jī)、一張 3090 顯卡及一周左右即可完成訓(xùn)練,通過網(wǎng)絡(luò)架構(gòu)優(yōu)化提出新框架,極大簡(jiǎn)化整機(jī)部署系統(tǒng),提升數(shù)據(jù)采集效率 。
推進(jìn)此工作時(shí)陳濤也意識(shí)到,仿真器中充足的質(zhì)量、材質(zhì)、摩擦系數(shù)等信息其實(shí)屬于「作弊信息」,盡管做了大規(guī)模的理論驗(yàn)證說明它可以被遷移到真機(jī)上,但依舊難以在真機(jī)上部署,因此下一步得訓(xùn)練出在真實(shí)世界里能夠部署的解決方案,便緊接著發(fā)表第二篇論文解決在真機(jī)上實(shí)現(xiàn)時(shí)遇到的問題,投在了期刊雜志《Science Robotics》上。
有了這個(gè)魯棒的機(jī)器人控制器框架后,陳濤開展了大量應(yīng)用工作,解決如靈巧手抓物重定向、削水果蔬菜等問題,還制作觸覺傳感器用于機(jī)器人在桌面或封閉空間精準(zhǔn)定位目標(biāo)物體。
2024 年博士畢業(yè),一直對(duì)創(chuàng)業(yè)很熱衷的陳濤拉上了上交大小兩級(jí)的師弟秦譽(yù)哲,一起在加州成立了 Dexmate,主攻機(jī)器人的靈巧操作。
秦譽(yù)哲在 UCSD 讀博,博導(dǎo)正是陳濤在 CMU 的學(xué)長(zhǎng)王小龍,兩人通過王小龍認(rèn)識(shí)后發(fā)現(xiàn)經(jīng)歷十分相似,同樣從機(jī)械系轉(zhuǎn)到 AI,并專攻相對(duì)小眾的靈巧手,因此思路非常契合。
目前,Dexmate 的產(chǎn)品已迭代至接近穩(wěn)定的狀態(tài),即將進(jìn)行小規(guī)模量產(chǎn)。區(qū)別于一般的人形機(jī)器人,他們選擇「輪式底盤+雙臂雙手」的操作形態(tài),但沒有設(shè)計(jì)胸腔,而是讓機(jī)器人既可以蜷縮、折疊,也能展開到兩米多高。
「我們奉行實(shí)用主義,機(jī)器人要具備像人一樣的操作能力,而不需形態(tài)上像人,靈巧手也不一定是五指結(jié)構(gòu)?!?/p>
而在陳濤讀博的最后一年,算得上是我國(guó)本土培養(yǎng)的首位具身智能博士方浩樹也來到 Pulkit 組做博士后。
方浩樹在 2013 年入讀上海交大,是個(gè)在本科期間就嶄露頭角并敢于嘗試的年輕人。他在大三參加本科生研究計(jì)劃時(shí)跟隨閻威武學(xué)習(xí)機(jī)器學(xué)習(xí)知識(shí)后終于找到感興趣的研究方向,即神經(jīng)網(wǎng)絡(luò)和 CV;之后看到盧策吾的實(shí)習(xí)生招聘廣告,因興趣契合投遞簡(jiǎn)歷并通過面試,就在大三結(jié)束后休學(xué),在不同的科技公司實(shí)習(xí),也去了UCLA訪問,同時(shí)一邊跟著盧策吾做實(shí)驗(yàn)。
休學(xué)兩年間,方浩樹聚焦 CV 陸續(xù)以一作發(fā)表四篇頂會(huì)論文,又在 2019 年本科畢業(yè)時(shí),拿到多個(gè)北美知名實(shí)驗(yàn)室的 PhD offer,不過,他最終選擇直博到吳文俊人工智能博士班,繼續(xù)留在盧策吾團(tuán)隊(duì)。(盧策吾的具身智能故事請(qǐng)看:3D 視覺派:斯坦福具身智能人物關(guān)系圖)
過往的研究讓方浩樹對(duì)機(jī)器人越來越感興趣,便決定從視覺切入,先做抓取,開啟了基于二指夾爪的通用物體抓取工作 AnyGrasp,期間也提出了 GraspNet-1Billion 標(biāo)準(zhǔn)數(shù)據(jù)集。
耗時(shí)三年,方浩樹和團(tuán)隊(duì)終于在 TRO 2022上發(fā)表了 AnyGrasp:它能高效生成準(zhǔn)確、全自由度、密集且時(shí)間平滑的抓取姿態(tài),面對(duì)較大深度傳感噪聲時(shí)運(yùn)行穩(wěn)??;清理裝有 300 多個(gè)未知物體的箱子,成功率達(dá) 93.3%,與受控條件下的人類表現(xiàn)相當(dāng);單臂系統(tǒng)上處理速度超每小時(shí) 900 個(gè)物體;在動(dòng)態(tài)抓取方面,還成功展示了水中捕獲游動(dòng)機(jī)器魚的過程。
項(xiàng)目鏈接:https://graspnet.net/anygrasp.html
這是機(jī)器人首次在任意場(chǎng)景抓取任意物體時(shí),表現(xiàn)出堪比人類的能力,既無需物體 CAD 模型和檢測(cè),對(duì)硬件構(gòu)型、相機(jī)也無限制。 因此,AnyGrasp 被很多研究者當(dāng)作抓取的通用模型使用。
除了抓取外,方浩樹也在思考如何用新范式做機(jī)器人操作。
2021 年 GPT-3 問世后,他發(fā)現(xiàn)采用序列建模,若數(shù)據(jù)充足,可借鑒 GPT 思路進(jìn)行機(jī)器人學(xué)習(xí)。研究 GPT 及此前模仿學(xué)習(xí)方向文章,他們注意到從 GPT-1 到 GPT-2 有重大思想轉(zhuǎn)變:GPT-1 時(shí)語言模型各任務(wù)需分開訓(xùn)練,GPT-2 則將不同任務(wù)作為輸入網(wǎng)絡(luò),使一個(gè)網(wǎng)絡(luò)能同時(shí)處理不同任務(wù),還引用了在機(jī)器人學(xué)習(xí)領(lǐng)域率先提出的單模型多任務(wù)的元學(xué)習(xí)(Meta Learning)論文,證明在大規(guī)模數(shù)據(jù)下多任務(wù)學(xué)習(xí)的可行性。
這讓方浩樹想用同樣方法研究機(jī)器人學(xué)習(xí)。他還參考腦科學(xué)文章,發(fā)現(xiàn)人類處理語言和日常操作的腦區(qū)高度重合,主要負(fù)責(zé)序列建模,且考古學(xué)文章表明語言因操作需求而產(chǎn)生,用于傳遞操作經(jīng)驗(yàn),因此認(rèn)為語言建模方式適用于機(jī)器人操作。
但當(dāng)時(shí)更關(guān)鍵的是缺少合適的數(shù)據(jù)集,為此方浩樹和團(tuán)隊(duì)花數(shù)年采集 RH20T 數(shù)據(jù)集,包含了超過 11 萬機(jī)器人操作序列,提供了視覺、力、音頻、運(yùn)動(dòng)軌跡、演示視頻和自然語言指令等多種數(shù)據(jù)模態(tài),發(fā)布后不久便收到了谷歌的邀請(qǐng),成為大中華區(qū)最早參與 Open X-Embodiment 數(shù)據(jù)集的一支隊(duì)伍。
項(xiàng)目鏈接:https://rh20t.github.io/
推進(jìn) RH20T 時(shí),方浩樹發(fā)現(xiàn)基于遙操的數(shù)據(jù)采集方式并非最適合擴(kuò)大規(guī)模的方式,從 2021 年起便開始用外骨骼代替遙操作,開發(fā)了雙臂外骨骼設(shè)備 AirExo,讓人能穿著直接采集數(shù)據(jù)。
對(duì)硬件和靈巧操作的深入探索讓方浩樹意識(shí)到了觸覺的重要性,便打算再讀個(gè)博士后。恰好妹妹方曉霖在 MIT 讀博,同樣研究 AI 和機(jī)器人,她描述的MIT的研究風(fēng)格深深吸引了方浩樹。在跟董思遠(yuǎn)聊了之后,他認(rèn)為視觸覺大牛 Ted Adelson 組的研究與他之前的研究十分互補(bǔ)。
方浩樹給 Ted 發(fā)郵件表達(dá)了自己對(duì)用于操作的觸覺很感興趣,Ted 十分高興,但是稱自己只做觸覺不做操作,之后又聯(lián)系上了在MIT主攻機(jī)器人操作方向的教授 Pulkit。就這樣,方浩樹在 2023 年末前往 MIT,在兩位導(dǎo)師的指導(dǎo)下做博士后。
他先是作為共同一作負(fù)責(zé)學(xué)習(xí)算法的部分,在 IROS 2024 上發(fā)表了 EyeSight Hand,用模仿學(xué)習(xí)做靈巧操作,讓配備了視觸覺傳感器的三指靈巧手能完成切橡皮泥、單手開蓋等操作,這篇文章也獲得IROS 2024 RoboCup最佳論文提名。隨后,方浩樹也開始探索硬件設(shè)計(jì)。
項(xiàng)目鏈接:https://eyesighthand.github.io/
目前,方浩樹在 MIT 主要圍繞著靈巧操作研究,既設(shè)計(jì)靈巧手、外骨骼硬件和傳感器,也鉆研新的數(shù)據(jù)采集方式和學(xué)習(xí)方法。 MIT的研究經(jīng)歷讓他逐漸從一個(gè) Learning 背景的研究者轉(zhuǎn)變?yōu)閷?duì)軟件硬件都有深刻見解的學(xué)者。
「不少靈巧手的功能與二指夾爪類似,主要用于抓取,電機(jī)數(shù)量的增加卻不能帶來能力上的提升。」方浩樹認(rèn)為靈巧操作中仍存在許多待解決的科學(xué)問題,「市面上靈巧手雖多,但關(guān)于哪種手的結(jié)構(gòu)、手指數(shù)量、自由度配置、觸覺傳感器的密度、靈敏度及排布方式更適合日常操作等問題均未得到妥善解答。」
結(jié)語
在 2019 年 EI 小組誕生前,MIT 就已經(jīng)孕育了好幾撥具身智能的探索者。
他們或從傳感器出發(fā),或先探索更成熟的自駕領(lǐng)域,或在傳統(tǒng)控制方法上深深扎根。十年光陰,AI 和 Robotics 終于開始雙向奔赴。
趙行和董思遠(yuǎn)最早從視覺出發(fā),如今前者在清華叉院和星海圖推進(jìn)機(jī)器人研究,后者在華為車 BU 鉆研自駕,以不同的路徑探索著具身智能;
李瑞和原文禎讓 GelSight 成為真正意義上的機(jī)器人視觸覺傳感器,現(xiàn)在一位創(chuàng)立緯鈦科技從傳感器開始做機(jī)器人,一位則在 UIUC 任教、探索觸覺大模型;
俞冠廷和李昀燭親歷 Learning 深刻改變機(jī)器人領(lǐng)域,目前前者仍在用心經(jīng)營(yíng)星猿哲機(jī)器人,后者則在哥倫比亞大學(xué)任職推進(jìn)世界模型與多模態(tài)感知。
而在 EI 小組成立后來到 MIT 的陳濤和方浩樹則搭乘上最新的浪潮,無論是成立 Dexmate 研發(fā)機(jī)器人,還是作為博士后繼續(xù)科研,都在攻克著靈巧操作這一核心難題。
「分層系統(tǒng)與端到端 VLA 并不矛盾,當(dāng)前因端到端控制存在速度慢、閉環(huán)能力差等致命缺陷,可行方案是采用大模型規(guī)劃 + 端到端執(zhí)行的分層設(shè)計(jì)。」趙行認(rèn)為,未來具身智能的研究方向是將端到端與大模型融合為一個(gè)系統(tǒng),「強(qiáng)調(diào)結(jié)合動(dòng)作模型與視覺語言模型以提升執(zhí)行能力,這在自駕和機(jī)器人領(lǐng)域的思路都是一致的。」
MIT 的校訓(xùn)是拉丁語「Mens et Manus(Minds and Hands)」,譯為「手腦并用」。巧合的是,具身智能同樣追求「心靈手巧」。
這些 「?jìng)鲃?dòng)軸」們的故事或許會(huì)成為新的啟示:在 AI 與機(jī)器人的交叉地帶,真正的「心靈手巧」從來不是某個(gè)天才的靈光一現(xiàn),而是一群攻堅(jiān)者們?cè)邶X輪咬合處的持續(xù)深耕——他們擰合的不僅是技術(shù)鏈條,更是讓智能從「云端」落地「指尖」的時(shí)代齒輪。
地基夯實(shí),大廈將起。
(對(duì)于 MIT 派系及具身智能明星們的更多故事細(xì)節(jié),歡迎添加雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作者 anna042023 交流)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。