0
本文作者: 吳華秀 | 2025-05-11 15:14 |
五年前,在浙大控制科學(xué)與工程學(xué)院一間會(huì)議室里,剛從劍橋微軟研究院回國(guó)的葉琦,向課題組描繪了她的長(zhǎng)聘故事:五年之后,她希望把機(jī)器人拉來(lái)答辯會(huì)現(xiàn)場(chǎng),由機(jī)器人為在座評(píng)委們逐一端茶倒水。
機(jī)器人、靈巧手、端茶倒水,這在當(dāng)時(shí)還是一個(gè)頗有難度的研究任務(wù)。非機(jī)器人科班出身的葉琦,面臨著跨界探索的挑戰(zhàn):她此前從未研究過(guò)機(jī)器人,還得從頭開(kāi)始學(xué)新知識(shí),“再當(dāng)一回博士”。
在此之前,她一直沿著計(jì)算機(jī)視覺(jué)路徑開(kāi)展研究。2008年本科畢業(yè)于北京師范大學(xué)后,她前往清華大學(xué)讀研,2014 年進(jìn)入英國(guó)帝國(guó)理工學(xué)院攻讀博士學(xué)位。博士期間,她在學(xué)術(shù)頂會(huì)上分享的手勢(shì)識(shí)別相關(guān)工作,讓她得到了一位學(xué)術(shù)大牛 Jamie Shotton 的盛情邀約。
Jamie Shotton 彼時(shí)擔(dān)任劍橋微軟研究院微混合現(xiàn)實(shí)與人工智能實(shí)驗(yàn)室負(fù)責(zé)人,他邀請(qǐng)葉琦前往研究院進(jìn)行交流。還未意識(shí)到這是一場(chǎng)面試的葉琦,在輕松的交談氛圍中與團(tuán)隊(duì)聊得很是投緣,直到最后,她才發(fā)現(xiàn)原來(lái)是“招賢令”。
在與 Jamie Shotton 1v1 的飯桌上,葉琦有些拿不準(zhǔn)究竟是加入微軟團(tuán)隊(duì),還是回到學(xué)術(shù)界做科研。葉琦面對(duì)著 Jamie Shotton,一個(gè)她讀研時(shí)??吹恼撐淖髡撸贿€有一位中途臨時(shí)加入飯局的 Christopher M. Bishop,是經(jīng)典教材 Computer Vision and Pattern Recognition 的作者,這兩人都是她大為敬佩的前輩。
能夠與讀書(shū)時(shí)候就一直欽佩的學(xué)術(shù)大拿們共事,而且還是她當(dāng)時(shí)看好的技術(shù)方向——MR/VR 技術(shù),她心中的天平開(kāi)始向著微軟研究院傾斜,“不管三七二十一,先去干兩年再說(shuō)?!比~琦隨后加入 Jamie Shotton 團(tuán)隊(duì)。
彼時(shí) MR/VR 技術(shù)升溫,數(shù)百企業(yè)開(kāi)始涉足相關(guān)領(lǐng)域,AR 眼鏡、頭顯設(shè)備涌現(xiàn)。2019 年,微軟發(fā)布的第二代 Hololens headset 頭戴 MR 設(shè)備,正是由葉琦所在的的團(tuán)隊(duì)所負(fù)責(zé) 。葉琦深度參與了 Hololens2 手勢(shì)跟蹤算法的開(kāi)發(fā),后來(lái)也參與到數(shù)字人研究。
一年多后,因?yàn)楦鼰釔?ài)自由探索前沿技術(shù),葉琦選擇回到浙大任職。浙大給予她充分的自由,讓她能夠自行選擇研究方向。最終,葉琦選擇轉(zhuǎn)向機(jī)器人領(lǐng)域,聚焦于靈巧手研究,為此,她也做好了“惡補(bǔ)”一番的準(zhǔn)備。
只是她沒(méi)想到,機(jī)器人領(lǐng)域突然升溫,此前稍顯冷清的靈巧手領(lǐng)域,一下子涌進(jìn)許多聰明腦袋。她留意到,靈巧手的研究進(jìn)度明顯在加快。2024年,她們課題組一篇關(guān)于靈巧操作的論文剛被 ICRA 收錄,博士生還未來(lái)得及推進(jìn)下一步,一篇基于他們工作的新論文很快投稿到 2025 IROS 并掛在 arxiv 上,“太快了,馬上就有人把我們計(jì)劃做的工作給做了?!?/p>
而原先頗有挑戰(zhàn)的課題任務(wù),隨著大模型的發(fā)展以及技術(shù)的不斷磨合,開(kāi)始變得有些輕松了。
這在此前是難以想象的。當(dāng)初葉琦轉(zhuǎn)向靈巧手時(shí),她一度苦惱于這一領(lǐng)域形同荒地開(kāi)墾。一面,她作為新人,得和學(xué)生一同學(xué)習(xí)機(jī)器人知識(shí)、解決問(wèn)題;另一面,五爪相關(guān)研究較少、研究者也少,意味著一篇文章能有的引用量上限并不會(huì)太高。
之所以選擇迎難而行,是因?yàn)榭匆?jiàn)機(jī)會(huì)。計(jì)算機(jī)視覺(jué)出身的葉琦,曾目睹過(guò)計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)的融合,新技術(shù)方向隨之而生,3D 領(lǐng)域的論文也由此成為頂會(huì)???。彼時(shí)她堅(jiān)信,未來(lái)機(jī)器人與計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)會(huì)融合在一起,催生出一個(gè)新領(lǐng)域,歷史將再度重演。
葉琦的預(yù)言在當(dāng)下得到了驗(yàn)證。具身智能熱潮下,不同學(xué)科背景的人陸續(xù)匯聚在新的交叉口上,影響開(kāi)始顯現(xiàn)。例如,原先機(jī)器人領(lǐng)域缺乏統(tǒng)一標(biāo)準(zhǔn),難以衡量工作好壞、復(fù)現(xiàn)他人代碼,更別提在他人工作基礎(chǔ)上進(jìn)行迭代。現(xiàn)在,不少原計(jì)算機(jī)視覺(jué)、圖形學(xué)的人才加入具身智能社區(qū),和機(jī)器人領(lǐng)域的研究者們一起開(kāi)始搭建屬于機(jī)器人領(lǐng)域的“Benchmark”,推動(dòng)著機(jī)器人邁向更為開(kāi)放的社區(qū)。
今年 1 月,葉琦課題組發(fā)布并開(kāi)源了大規(guī)模靈巧手抓取動(dòng)作數(shù)據(jù)集 GraspM3。它包含超 100 萬(wàn)條抓取軌跡,涵蓋 8000 多個(gè)物體,軌跡自然流暢,有詳盡語(yǔ)義標(biāo)注,且經(jīng)兩個(gè)仿真環(huán)境驗(yàn)證,為機(jī)器人抓取研究和應(yīng)用提供了全面的數(shù)據(jù)資源。
兩天后,葉琦又在社交平臺(tái)上推出了視觸預(yù)訓(xùn)練與靈巧操作的數(shù)據(jù)集與基準(zhǔn)。她們收集了 10 個(gè)人類(lèi)操作的日常任務(wù)與 182 個(gè)物體視覺(jué)-觸覺(jué)數(shù)據(jù)集,還提出了一種新穎的基準(zhǔn)用于檢驗(yàn)工作效果。這一工作也將會(huì)陸續(xù)開(kāi)源。
“等所有代碼、平臺(tái)開(kāi)源之后,靈巧手整個(gè)領(lǐng)域,大家的進(jìn)入門(mén)檻會(huì)低很多?!比~琦告訴 AI 科技評(píng)論。
談及研究目目標(biāo),葉琦希望實(shí)現(xiàn)的核心是:讓任何配備觸覺(jué)傳感器或其他傳感器的靈巧手,都能自主完成各類(lèi)操作任務(wù)。她的研究聚焦于靈巧操作的智能化技術(shù),較少涉及硬件設(shè)計(jì)本身。
以下是 AI 科技評(píng)論與葉琦的交流。
AI 科技評(píng)論:你的研究興趣非常豐富,是在本科階段就對(duì)計(jì)算機(jī)視覺(jué)、圖形學(xué)與機(jī)器人交叉領(lǐng)域產(chǎn)生興趣了嗎?聊聊你的研究經(jīng)歷吧。
葉琦:大四時(shí),我接觸了圖像處理相關(guān)課程,發(fā)現(xiàn)圖像處理與其他領(lǐng)域有所不同,它能給予明確反饋,像算法優(yōu)劣、圖像去噪效果以及高斯平滑算子應(yīng)用于圖像后的成效等,你所做的任何工作都可以直接獲得反饋與對(duì)比,我覺(jué)得還挺有趣,所以從本科畢設(shè)開(kāi)始做的就是圖像相關(guān)。
在清華讀研期間,研究方向依舊與圖像相關(guān),導(dǎo)師專(zhuān)注于數(shù)字手寫(xiě)、數(shù)字字符識(shí)別領(lǐng)域。本科及碩士階段,我側(cè)重于圖像處理中的算法與算子研究,例如經(jīng)典的 SIFT 算子,主要從改進(jìn)算子的角度去探究問(wèn)題。到博士階段,我從事手勢(shì)跟蹤研究,通過(guò)圖像或深度點(diǎn)云來(lái)恢復(fù)手的三維骨骼,這對(duì)人機(jī)交互意義重大,如今 Meta、Apple的頭顯設(shè)備中,手勢(shì)跟蹤不可或缺。此外,博士工作還涉及人工提取特征,運(yùn)用隨機(jī)森林開(kāi)展,我的博士課題則圍繞深度神經(jīng)網(wǎng)絡(luò)進(jìn)行研究。
后來(lái),我前往微軟亞洲研究院實(shí)習(xí),實(shí)習(xí)內(nèi)容也是圖像相關(guān),側(cè)重安全方面。大家會(huì)看到部分網(wǎng)站利用含有歪歪扭扭字符的圖片來(lái)防范惡意訪問(wèn)。這些字符設(shè)計(jì)目的是讓機(jī)器無(wú)法識(shí)別,卻可被人識(shí)別。我們的研究旨在探究這樣的設(shè)計(jì)機(jī)制是否真的能防止機(jī)器自動(dòng)識(shí)別,為此我們嘗試對(duì)圖片進(jìn)行分割、分析,再交由OCR引擎識(shí)別,看它的安全性、魯棒性表現(xiàn)如何。
AI 科技評(píng)論:你離開(kāi)微軟后加入浙江大學(xué),從產(chǎn)業(yè)界轉(zhuǎn)向?qū)W術(shù)界,是出于什么考慮?
葉琦:在劍橋微軟研究院工作時(shí),正值疫情期間,一個(gè)人在劍橋呆著挺孤單,加上家人都希望我回來(lái)。
另外,去了工業(yè)界后發(fā)現(xiàn),做產(chǎn)品與開(kāi)展前沿技術(shù)研究之間存在很大的 gap。產(chǎn)品落地會(huì)涉及很多工程化問(wèn)題,過(guò)程中需要解決大量難題。雖然劍橋微軟團(tuán)隊(duì)非常好,但工作內(nèi)容更偏向產(chǎn)品側(cè)一些,難以完全自主地去做研究。在公司里,研究方向往往由高層決定,但我特別喜歡自己去深入鉆研,只要覺(jué)得特別有意思的,我就特別想去做。但在公司里并沒(méi)有這樣充分的自主決定權(quán),可能還得向領(lǐng)導(dǎo)論證你所選的方向,說(shuō)服他們認(rèn)可其可行性及落地可能。
經(jīng)過(guò)這些體驗(yàn),我發(fā)現(xiàn)自己更喜歡在高校從事研究工作。我進(jìn)入浙大后,并沒(méi)有人告訴我你要做什么方向,我可以根據(jù)自己的興趣來(lái)進(jìn)行研究方向的選擇。
AI 科技評(píng)論:你自己選擇了機(jī)器人領(lǐng)域?
葉琦:是的。
AI 科技評(píng)論:為什么決定轉(zhuǎn)向機(jī)器人?一個(gè)看似和你此前研究經(jīng)歷并不太相關(guān)的方向,是看到什么新變量嗎?
葉琦:我進(jìn)微軟前,CV(計(jì)算機(jī)視覺(jué))和 CG(計(jì)算機(jī)圖形學(xué))相對(duì)而言是兩個(gè)不同且方向相反的學(xué)科,很少交集。CV 旨在從視覺(jué)角度理解并重構(gòu)物理世界;而 CG 則是假定存在一個(gè)虛擬世界,去給它做渲染,基于成像原理計(jì)算出一個(gè)物理世界圖像。
那時(shí)候這兩個(gè)學(xué)科基本不會(huì)融合于同一領(lǐng)域,但在2018、2019年參加 CVPR 時(shí),我看到一篇論文將圖像渲染過(guò)程設(shè)為可微(differentiable)過(guò)程,當(dāng)時(shí)我就跟導(dǎo)師探討,覺(jué)得未來(lái) CV 和 CG 會(huì)融合成一個(gè)方向。
CG 研究的是從模型到圖像,以往采用光線(xiàn)追蹤(Ray Tracing)等方案,因其各種復(fù)雜計(jì)算過(guò)程,不一定是非常好的可微可導(dǎo),導(dǎo)致難以實(shí)現(xiàn)從圖像到模型,再?gòu)哪P偷綀D像的回環(huán)。
舉個(gè)例子,用手勢(shì)圖像重構(gòu)出三維手勢(shì),再將該三維手勢(shì)渲染回手勢(shì)圖像,以往這一過(guò)程可能是割裂的。以前要評(píng)價(jià)一個(gè)重建的三維模型好不好,靠的是人為標(biāo)注數(shù)據(jù)。后來(lái)部分工作將三維模型渲染回圖像的過(guò)程變?yōu)榭晌⑦^(guò)程,這樣一來(lái),渲染圖像就能夠直接與輸入圖像對(duì)比,不一定需要人力標(biāo)注。
通過(guò)這一過(guò)程,可以實(shí)現(xiàn)從視覺(jué)推理三維世界、再?gòu)娜S世界渲染回圖形,也就是完成 2D 到 3D、3D 到 2D 的回環(huán)。畢竟有正過(guò)程與逆過(guò)程之分,CV 與 CG 天然具備共同研究的基礎(chǔ)。以前 CV、CG 領(lǐng)域各自為政,較少邁進(jìn)彼此的領(lǐng)域,但現(xiàn)在可以看到一個(gè)二者共同參與的新興研究領(lǐng)域。
例如,隨著可微渲染和后續(xù)NeRF等工作出現(xiàn),整個(gè)三維視覺(jué)領(lǐng)域蓬勃發(fā)展起來(lái)。觀察 CVPR 這類(lèi)頂會(huì)的論文投稿量便能發(fā)現(xiàn),過(guò)去以 Segemantation(分割)、Tracking(跟蹤)、Classification(分類(lèi))為主,近五年則變成了三維重建、新視角渲染等 3D 相關(guān)話(huà)題,還包括當(dāng)下熱門(mén)的憑幾張圖片直接重建或者生成一個(gè)三維場(chǎng)景的研究。
鑒于不同學(xué)科、底層技術(shù)的新融合會(huì)催生出新的研究方向與結(jié)合點(diǎn),當(dāng)時(shí)我覺(jué)得這或許是個(gè)機(jī)會(huì)?;谶^(guò)往經(jīng)驗(yàn),我轉(zhuǎn)入機(jī)器人領(lǐng)域,就是因?yàn)轭A(yù)見(jiàn)機(jī)器人未來(lái)會(huì)和 CG、CV 相融合,就像當(dāng)初 CV 與 CG 融合一樣。
所以我經(jīng)常跟我的學(xué)生講,我是在圖形學(xué)、機(jī)器人以及視覺(jué)的交叉方向上開(kāi)展研究,這三個(gè)領(lǐng)域是相互貫通 的。
AI 科技評(píng)論:機(jī)器人領(lǐng)域有很多方向,為什么偏偏是靈巧手?
葉琦:當(dāng)時(shí)選擇研究靈巧手時(shí),我心里也有些打怵、不太確定。在2020、2021年前后,雖然世界上也有一些做靈巧手的機(jī)構(gòu),但遠(yuǎn)不像計(jì)算機(jī)視覺(jué)領(lǐng)域那般熱門(mén)。當(dāng)時(shí)做“二指夾爪”的單位不少,但著手做“五爪”的卻非常少,而且那時(shí)機(jī)器人領(lǐng)域整體也尚未大熱。
我走訪了很多企業(yè)進(jìn)行調(diào)研,以按摩機(jī)器人為例,每進(jìn)行一項(xiàng)按摩操作,可以更換不同按摩頭;在工業(yè)分揀應(yīng)用方面,二指夾爪不行時(shí)就換個(gè)吸盤(pán),靠著二指夾爪與吸盤(pán)的相互配合,基本上就能完成大部分工作了。
既然如此,我當(dāng)時(shí)就一直在問(wèn)自己一個(gè)問(wèn)題:既然二指夾爪就能抓起很多東西,那我們?yōu)槭裁催€要去做靈巧手?是不是為了解決問(wèn)題而解決問(wèn)題、為了難而難?
因?yàn)楦咦杂啥鹊撵`巧手,其操作難度相當(dāng)于五個(gè)機(jī)械臂協(xié)同工作,這么難的問(wèn)題并沒(méi)有受到廣泛的關(guān)注。當(dāng)時(shí)我之所以決定研究機(jī)器人靈巧手,正是因?yàn)樗€沒(méi)有被很好解決,而且很少有人去鉆研,我覺(jué)得這其中還有很多問(wèn)題待攻克,于是便開(kāi)始研究。說(shuō)實(shí)話(huà),我當(dāng)時(shí)也沒(méi)看到它有多大的價(jià)值。
AI 科技評(píng)論:選擇去解決困難的問(wèn)題,這需要坐冷板凳。
葉琦:對(duì)我們而言,這冷板凳也不是那么好坐。五年前我剛進(jìn)入浙大時(shí),給我們課題組描繪的愿景是:五年之后,我會(huì)拉來(lái)一個(gè)機(jī)器人,讓它給在座的各位評(píng)審們端茶倒水。但我此前沒(méi)有機(jī)器人研究基礎(chǔ),這相當(dāng)于我要從頭開(kāi)始鉆研機(jī)器人,其難度不亞于再讀一回博士。
AI 科技評(píng)論:從你深耕的原研究領(lǐng)域跨界到新研究方向,這個(gè)轉(zhuǎn)型過(guò)程中,在知識(shí)體系重構(gòu)、研究方法適配等方面,有遇到哪些超出預(yù)期的挑戰(zhàn)嗎?
葉琦:肯定是有挑戰(zhàn)的。如果我繼續(xù)深耕原來(lái)的研究方向,那我還能夠持續(xù)發(fā)論文。可一旦轉(zhuǎn)換到新領(lǐng)域,我要和學(xué)生一同成長(zhǎng),那這一兩年的時(shí)間里,我或許就無(wú)法產(chǎn)出論文,或者相比同齡人而言,產(chǎn)出速度會(huì)慢一些。
像我以前從事視覺(jué)領(lǐng)域,我很少接觸強(qiáng)化學(xué)習(xí)以及機(jī)器人硬件相關(guān)內(nèi)容。而轉(zhuǎn)向機(jī)器人領(lǐng)域后,我得跟學(xué)生一起 debug(解決問(wèn)題)。我經(jīng)常跟我學(xué)生說(shuō),在這個(gè)新方向上,我不懂,你們也不懂,那我們就一起學(xué)。這個(gè)過(guò)程并不輕松,壓力巨大。
例如,購(gòu)置機(jī)器人設(shè)備并不像買(mǎi)服務(wù)器那般簡(jiǎn)單,我們從英國(guó)采購(gòu)一臺(tái)機(jī)械手,光買(mǎi)設(shè)備這一環(huán)節(jié)可能都得耗時(shí)一兩年;建設(shè)實(shí)驗(yàn)室更是要完全從零開(kāi)始,哪怕是購(gòu)買(mǎi)每一個(gè)傳感器,都會(huì)與自己的學(xué)生一起討論。前期要投入大量精力與資源,到了后期,要讓自己盡量不被其他人影響,得時(shí)刻提醒自己,這沒(méi)什么問(wèn)題,我所選擇的是新方向,要允許自己和學(xué)生在這段時(shí)間內(nèi)即便沒(méi)有成果產(chǎn)出,也要去大膽嘗試一些新事物。
對(duì)學(xué)生而言,轉(zhuǎn)向機(jī)器人領(lǐng)域的過(guò)程同樣會(huì)給他們帶來(lái)壓力。機(jī)器人領(lǐng)域與視覺(jué)領(lǐng)域并不同。在視覺(jué)領(lǐng)域,大部分視覺(jué)算法的代碼都是公開(kāi)的,不僅有源代碼,而且平臺(tái)也搭建好了,各項(xiàng)參數(shù)都已調(diào)試妥當(dāng),只需從 GitHub 上把代碼下載過(guò)來(lái),就能直接運(yùn)行,隨后在其基礎(chǔ)上做些修改就可以。不少學(xué)生覺(jué)得,那我做計(jì)算機(jī)視覺(jué)相關(guān)工作,就不用調(diào)試硬件,自己只需要在別人已經(jīng)完成的基礎(chǔ)工作上接著做就行。
AI 科技評(píng)論:在這種壓力下,五年前你向?qū)W院課題組提出的讓“機(jī)器人端茶倒水”的任務(wù)難度會(huì)不會(huì)很高?
葉琦:其實(shí)沒(méi)那么難,當(dāng)時(shí)我想的是,五六年時(shí)間,我應(yīng)該能夠達(dá)到預(yù)期程度。但我沒(méi)想到機(jī)器人操作突然會(huì)這么火。如今火了之后,發(fā)展速度確實(shí)加快了,尤其是這兩年的發(fā)展,讓我覺(jué)得這件事變得更加簡(jiǎn)單了。
AI 科技評(píng)論:怎么理解這種簡(jiǎn)單?
葉琦:因?yàn)橛泻芏嗳嗽谧?。之前我研究五爪時(shí),整個(gè) Community (社區(qū))中做相關(guān)工作的人相對(duì)較少。人少,大家推進(jìn)的速度就慢。現(xiàn)在人多了,速度也就快了。
比如我們 2024 年在 ICRA 發(fā)表的一篇論文,很快就有人據(jù)此開(kāi)展工作并投稿至 2025 年 IROS。因?yàn)槲也┦可τ谄渌聞?wù),本想讓他順著該論文繼續(xù)后續(xù)工作,沒(méi)想到論文剛發(fā)表就有人 follow 了,把我們 2025 年計(jì)劃做的事做了。說(shuō)明這個(gè)領(lǐng)域真的匯聚了很多聰明的腦袋,大家一起在推動(dòng)這個(gè)領(lǐng)域向前發(fā)展。
隨著 VLA、多模態(tài)大模型等技術(shù)發(fā)展,不少人嘗試技術(shù)融合,進(jìn)行上層平臺(tái)、基礎(chǔ)模型相關(guān)工作。我們?nèi)〉玫讓蛹寄芡黄坪?,將上下層能力結(jié)合時(shí),我發(fā)現(xiàn)不用再?gòu)念^做上層工作,已經(jīng)有不少的工作可作基礎(chǔ),讓我們省力不少。我們把所做的數(shù)據(jù)集開(kāi)源,對(duì)他人而言,也省去了從頭收集數(shù)據(jù)的麻煩。
等代碼、平臺(tái)全部開(kāi)源后,靈巧手領(lǐng)域的進(jìn)入門(mén)檻會(huì)大幅降低。此前我會(huì)覺(jué)得五六年實(shí)現(xiàn)端茶倒水任務(wù)較難,但經(jīng)過(guò)這幾年發(fā)展,你會(huì)發(fā)現(xiàn)它變得容易多了。
AI 科技評(píng)論:你提到靈巧手的發(fā)展加快,有人表示靈巧手在過(guò)去很長(zhǎng)一段時(shí)間里一直沒(méi)有什么實(shí)際性進(jìn)展,現(xiàn)在也還有很多問(wèn)題沒(méi)突破,比較悲觀,并不看好靈巧手的發(fā)展。你怎么看待這一觀點(diǎn)?
葉琦:有悲觀的聲音很正常,但我覺(jué)得技術(shù)的發(fā)展并非線(xiàn)性過(guò)程,而是經(jīng)歷轉(zhuǎn)折點(diǎn)后迎來(lái)爆發(fā)式發(fā)展。
為什么靈巧手在過(guò)去幾十年間發(fā)展緩慢?一方面,靈巧手的硬件研發(fā)難度高,相當(dāng)于要將五個(gè)機(jī)械臂集成于狹小空間內(nèi)。硬件機(jī)械結(jié)構(gòu)高度集成化,能否實(shí)現(xiàn)高自由度是個(gè)難題。現(xiàn)在靈巧手多是5、6個(gè)自由度,也有一些宣稱(chēng)十幾、二十個(gè)自由度的靈巧手,但我還沒(méi)接觸到。在我們經(jīng)費(fèi)可承受范圍內(nèi),目前還難以買(mǎi)到非常好用的靈巧手,而我們的研究又依賴(lài)于本體。沒(méi)有硬件基礎(chǔ),那研究基本無(wú)從談起。
另一方面,近年來(lái)圖形學(xué)領(lǐng)域中關(guān)于人手操作生成的工作數(shù)量不少,而操作生成離不開(kāi)對(duì)于手的數(shù)字化描述。Michael J. Black 團(tuán)隊(duì) 2017 年提出了針對(duì)手的參數(shù)化描述—— MANO 模型??梢钥吹?,即便在純圖形仿真層面,這樣高質(zhì)量且便于使用的開(kāi)源手模型,也是直至2017年才提出。
此外,以往采用模型預(yù)測(cè)控制(MPC)等傳統(tǒng)控制優(yōu)化算法來(lái)求解,這需要對(duì)手進(jìn)行精確建模,涉及摩擦、運(yùn)動(dòng)等方面,操作難度極大。即便完成建模,相關(guān)技能也很難泛化到其他場(chǎng)景,對(duì)應(yīng)的研究方法較少。如果你說(shuō)傳統(tǒng)方法不好,轉(zhuǎn)用強(qiáng)化學(xué)習(xí),這也可以,但問(wèn)題是強(qiáng)化學(xué)習(xí)需要訓(xùn)練場(chǎng),即一個(gè)可交互的三維虛擬世界。然而要?jiǎng)?chuàng)建這樣一個(gè)虛擬世界也不容易,需要借助仿真平臺(tái)。
總體而言,算法方面存在限制,若采用更先進(jìn)的學(xué)習(xí)算法,又得依賴(lài)于仿真平臺(tái)和圖形處理器(GPU)。過(guò)去,從算法到機(jī)械本體,再到軟件平臺(tái),各方面都存在不足,導(dǎo)致導(dǎo)致靈巧手很難取得良好發(fā)展。
現(xiàn)在人形機(jī)器人火熱,國(guó)家也在積極推動(dòng),從政策扶持到經(jīng)費(fèi)撥付,都給了有力支持 。經(jīng)費(fèi)往這一方向傾斜,促使我們的研究也更側(cè)重這塊領(lǐng)域,相當(dāng)于吸引了更多人才投身其中。今年,我們還與機(jī)械系老師共同申請(qǐng)了浙江省相關(guān)項(xiàng)目,就是研究靈巧手。
隨著大模型的進(jìn)步、硬件的優(yōu)化,加上 3D 生成技術(shù)能夠?yàn)槲覀兲峁┯?xùn)練場(chǎng),我覺(jué)得用不了多久,只需給定語(yǔ)言輸入,便可生成任意廚房的排布情況,這相當(dāng)于為機(jī)器人提供了訓(xùn)練場(chǎng),能讓數(shù)百個(gè)機(jī)器人在數(shù)百個(gè)廚房里高速并行計(jì)算與探索。如今看來(lái),這個(gè)問(wèn)題似乎也沒(méi)有那么難了。
AI 科技評(píng)論:聽(tīng)起來(lái)靈巧手領(lǐng)域出現(xiàn)了不少新變量,正在重構(gòu)行業(yè)。
葉琦:我看好靈巧手方向。雖然在未來(lái)五年內(nèi),想要妥善解決靈巧手相關(guān)問(wèn)題有些難度,但我個(gè)人秉持樂(lè)觀態(tài)度。
受益于機(jī)械本體的不斷進(jìn)步、大模型的蓬勃發(fā)展、3D生成技術(shù)的日益成熟,再結(jié)合強(qiáng)化學(xué)習(xí)以及諸多底層能力的集成,在未來(lái) 5 到 10 年,靈巧手會(huì)是一個(gè)極具 promising(發(fā)展前景)的方向。在一些限制性場(chǎng)景下,針對(duì)部分特定需求,機(jī)器人是能夠完成大部分操作的,比如疊衣服這類(lèi)任務(wù),肯定是能實(shí)現(xiàn)的。
然而,要想在十年內(nèi)讓機(jī)器人實(shí)現(xiàn)與人并排行走,并且可以在非結(jié)構(gòu)化的空間中自由地與人交互,我認(rèn)為會(huì)有挑戰(zhàn)。但若是極為常規(guī)化的工作,像把碗放置到池子里,或者將瓶瓶罐罐擺放整齊,我覺(jué)得機(jī)器人是能夠做到的。
AI 科技評(píng)論:作為一名跨界研究者,哪些底層理論或方法論的遷移讓你產(chǎn)生了新理解?原領(lǐng)域的思維慣性有帶來(lái)哪些新視野嗎?
葉琦:原先機(jī)器人領(lǐng)域存在一個(gè)問(wèn)題,大家的硬件系統(tǒng)并不一樣,也沒(méi)有公開(kāi)統(tǒng)一的 Benchmark、數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn),沒(méi)法很好對(duì)比不同算法。過(guò)往研究往往局限于單一問(wèn)題,通過(guò)采集小規(guī)模數(shù)據(jù)、針對(duì)特定任務(wù)展開(kāi),完成后就結(jié)束了,難以客觀評(píng)價(jià)算法優(yōu)劣。多數(shù)情況下,就是用一個(gè)實(shí)物機(jī)器人去做一個(gè)demo,去跑一跑,看著效果還不錯(cuò)。
但就我自己來(lái)看,我的東西和別人的東西雖然看起來(lái)差不多,但我很難知道哪個(gè)更好。
當(dāng)我從視覺(jué)領(lǐng)域轉(zhuǎn)向機(jī)器人研究時(shí),我會(huì)覺(jué)得很奇怪,因?yàn)橐曈X(jué)領(lǐng)域會(huì)有公開(kāi)的 Benchmark,能夠衡量算法好壞,也有大量數(shù)據(jù)集可以做 Learning,但機(jī)器人沒(méi)有。機(jī)器人本體異構(gòu)性是該領(lǐng)域獨(dú)特的挑戰(zhàn)。
盡管如此,這一兩年里,你可以看到無(wú)論是學(xué)界還是產(chǎn)業(yè)界,都在著力構(gòu)建數(shù)據(jù)集、VLA及公開(kāi)平臺(tái),試圖將分散的數(shù)據(jù)集整合統(tǒng)一平臺(tái),降低使用門(mén)檻。
從計(jì)算機(jī)視覺(jué)領(lǐng)域跨界而來(lái)的研究者,正將“視覺(jué)方法論”引入機(jī)器人領(lǐng)域:建立公開(kāi) Benchmark、共享平臺(tái)以及標(biāo)準(zhǔn)化評(píng)測(cè)任務(wù),讓大家能夠基于此開(kāi)展評(píng)測(cè),可以更直觀比較算法優(yōu)劣。在這一基礎(chǔ)上,機(jī)器人領(lǐng)域才能夠更好地快速發(fā)展,不然會(huì)很難復(fù)現(xiàn)別人的代碼,也就沒(méi)法在上面持續(xù)迭代優(yōu)化。
AI 科技評(píng)論:聽(tīng)說(shuō)你們?cè)跀?shù)據(jù)集的構(gòu)建上有很多創(chuàng)新性突破,你們最初設(shè)計(jì)數(shù)據(jù)集的核心動(dòng)機(jī)是什么?
葉琦:我們很早在做數(shù)據(jù)集,GraspM3 數(shù)據(jù)集的生成算法在 2024 年 ICRA 上發(fā)布了。ICRA24 的工作提出,主要是因?yàn)榘l(fā)現(xiàn)現(xiàn)有的抓取動(dòng)態(tài)動(dòng)作的數(shù)據(jù)在數(shù)量和軌跡上都比較有限,所以我們想自己先做一個(gè)數(shù)據(jù)集。因?yàn)椴幌脒M(jìn)行人工標(biāo)注和采集,所以我們?cè)O(shè)計(jì)可以自動(dòng)生成抓取軌跡算法,通過(guò)仿真獲得數(shù)據(jù)集。
我們有兩個(gè)數(shù)據(jù)集在推進(jìn)中,有一個(gè)論文已經(jīng)被 ICLR25 錄用。我們采集了十幾個(gè)人類(lèi)操作的任務(wù),涵蓋擰瓶蓋、插拔等二爪難以完成的復(fù)雜操作,這也是業(yè)界首次實(shí)現(xiàn)帶觸覺(jué)的靈巧手操作數(shù)據(jù)?;谶@一數(shù)據(jù),我們訓(xùn)練了 6 個(gè)任務(wù),能實(shí)現(xiàn)兩個(gè)靈巧手間物體拋接、擰瓶蓋、傳遞薯片等任務(wù)。
通過(guò)我們初步的帶有視覺(jué)、觸覺(jué)的訓(xùn)練數(shù)據(jù)集,經(jīng)過(guò)預(yù)訓(xùn)練后顯著提升對(duì)下游任務(wù)的執(zhí)行效果。在完成上述復(fù)雜操作任務(wù)時(shí),當(dāng)前成功率已經(jīng)能達(dá)到 80%。關(guān)鍵是,我們沒(méi)有采用任務(wù)的supervision,只使用了 MAE 自監(jiān)督方式去學(xué)習(xí),發(fā)現(xiàn)學(xué)習(xí)出來(lái)的 attention 機(jī)制可以直接注意到手指接觸物體的瞬間,比如注意到手指打開(kāi)盒子時(shí)的那一瞬間。我跟學(xué)生說(shuō)這太牛了,我壓根沒(méi)想到居然可以學(xué)習(xí)到這種程度。
AI 科技評(píng)論:這個(gè)現(xiàn)象為什么讓你這么詫異?
葉琦:我們對(duì)比的只有視覺(jué),沒(méi)有觸覺(jué)。以何凱明的 Masked Auto Encoder(掩碼自動(dòng)編碼器)工作為例,通過(guò)預(yù)訓(xùn)練可以助力下一個(gè)工作,但如果沒(méi)有觸覺(jué)信號(hào)輔助監(jiān)督,是根本不會(huì) attention 到物體將要發(fā)生變化的區(qū)域,也不會(huì) attention 到手指的區(qū)域。我們沒(méi)有引入任何監(jiān)督信號(hào),只是做了個(gè)多模態(tài)的自動(dòng)編碼器(Autoencoder,AE),也只有一個(gè)圖像和觸覺(jué)信號(hào),沒(méi)想到實(shí)驗(yàn)效果非常出乎意外。
我最近在看腦認(rèn)知領(lǐng)域的一些工作,發(fā)現(xiàn)人腦也有類(lèi)似機(jī)制:通過(guò)神經(jīng)元將人的動(dòng)作與觸覺(jué)、視覺(jué)進(jìn)行聯(lián)合處理。而我們的研究表明,引入觸覺(jué)模態(tài)后,網(wǎng)絡(luò)能夠自動(dòng)集中在物體動(dòng)態(tài)區(qū)域,并且我們都沒(méi)有用多幀、只是單幀形式。從實(shí)驗(yàn)情況來(lái)看,這與神經(jīng)科學(xué)中的部分理論形成了印證,這也是我自己在這些工作中感到很驚喜的瞬間。
也是因?yàn)檫@些成果,讓我們更加堅(jiān)定要走這條路,從觸覺(jué)-動(dòng)作態(tài)關(guān)聯(lián)入手,通過(guò)視頻采集更多人類(lèi)操作數(shù)據(jù),逐步推進(jìn)上半身及全身操作的工作。
AI 科技評(píng)論:從你們之前發(fā)布的靈巧手操作視頻中可以看到物品抓取流暢,這項(xiàng)工作主要是解決什么問(wèn)題?
葉琦:主要是解決靈巧手抓取異形物體的難題。以抓取杯子為例,人類(lèi)習(xí)慣手持杯柄,而現(xiàn)有靈巧手 demo 中大多抓取杯身;抓取高腳杯時(shí),人類(lèi)傾向于握持底部,靈巧手依然還是抓杯身,它抓底部可能就握不穩(wěn)了。
靈巧手的抓取與二爪可能有點(diǎn)像。反觀工業(yè)領(lǐng)域的二指夾爪技術(shù),上海交通大學(xué)盧策吾教授于 2020 年發(fā)布的 GraspNet-1Billion 數(shù)據(jù)集,已經(jīng)實(shí)現(xiàn)對(duì)各類(lèi)物體抓取策略的全覆蓋,能夠解決工業(yè)領(lǐng)域大部分“拾取-放置”(pick and place)工作。二指夾爪相關(guān)工作,盧老師已經(jīng)做得很好了。
未來(lái)人形機(jī)器人的操作,無(wú)論是二爪還是五爪,重點(diǎn)其實(shí)不在 pick and place上,而是 pick 之后要去完成某個(gè)任務(wù),比如把杯子抓起來(lái)后,還能遞給別人,或者是能夠在一些比較挑戰(zhàn)的區(qū)域把物體順滑抓起來(lái)。這不是簡(jiǎn)單“拾取與放置”,得去服務(wù)于特定目標(biāo)。
我們希望通過(guò)我們這一數(shù)據(jù)集實(shí)現(xiàn)靈巧手對(duì)物體難握區(qū)域的流暢抓取。純粹依賴(lài)強(qiáng)化學(xué)習(xí)策略,只是將物體抓起來(lái)。因?yàn)閯?dòng)作行為是由 reward 機(jī)制驅(qū)動(dòng),難以精準(zhǔn)定義一個(gè)“優(yōu)雅抓取”的動(dòng)作特質(zhì)(如目標(biāo)抓取方位等),也就難以設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)機(jī)制。
為此,我們數(shù)據(jù)集的構(gòu)建方法是:通過(guò)靜態(tài)抓取手勢(shì),比如我知道大部分人是抓取杯子把柄,那最后我生成軌跡就是針對(duì)這一行為生成動(dòng)態(tài)手勢(shì),讓靈巧手的操作更符合人類(lèi)的自然抓取習(xí)慣。
AI 科技評(píng)論:在構(gòu)建數(shù)據(jù)集時(shí),你們優(yōu)先采用的核心數(shù)據(jù)采集策略是什么?更側(cè)重真實(shí)場(chǎng)景實(shí)操采集、仿真環(huán)境批量生成,還是虛實(shí)結(jié)合的混合方案?
葉琦:遙操作獲取數(shù)據(jù)是有價(jià)值的,但我認(rèn)為比較便捷的數(shù)據(jù)來(lái)源還是人類(lèi)自身行為數(shù)據(jù)。這基于兩點(diǎn)依據(jù):其一,以 GPT 為例,其核心能力源于對(duì)人類(lèi)問(wèn)答數(shù)據(jù)的學(xué)習(xí),先通過(guò)大規(guī)模人類(lèi)數(shù)據(jù)訓(xùn)練,再借助強(qiáng)化學(xué)習(xí)優(yōu)化 reward 機(jī)制。同理, 我認(rèn)為要賦予實(shí)體機(jī)器人或人形機(jī)器人以通用操作能力,其數(shù)據(jù)也應(yīng)該是來(lái)自于人類(lèi)。
其二,遙操作依賴(lài)人類(lèi)操控機(jī)械臂采集數(shù)據(jù),盡管數(shù)據(jù)質(zhì)量高,但成本太昂貴了。像馬斯克一套采集設(shè)備可能都得幾十萬(wàn)、一百萬(wàn),而一個(gè)工廠里可能需要幾百套設(shè)備,按每小時(shí) 50 美元的人工成本計(jì)算,開(kāi)銷(xiāo)巨大。
盡管未來(lái)硬件可能降價(jià)實(shí)現(xiàn)降本,但遙操作多采用二爪或五爪機(jī)械臂,數(shù)據(jù)遷移時(shí)會(huì)面臨操作末端的異構(gòu)性問(wèn)題,要進(jìn)行動(dòng)作數(shù)據(jù)重定向。如果人手可視為一種抽象的異構(gòu)機(jī)械臂,為何不直接從人類(lèi)行為數(shù)據(jù)中學(xué)習(xí)?通過(guò)視頻采集人類(lèi)操作,既能以更低成本獲取海量數(shù)據(jù),又能支持大規(guī)模訓(xùn)練,為機(jī)器人注入通用能力。
我的研究思路是:不一定通過(guò)機(jī)器人遙操作數(shù)據(jù)采用 VLA 方式,而是通過(guò)解析人類(lèi)視頻信息(如動(dòng)作軌跡、觸覺(jué)位置)提取操作先驗(yàn),將其與機(jī)器人自主探索訓(xùn)練相結(jié)合。例如,通過(guò)視頻重建操作場(chǎng)景、定位人手運(yùn)動(dòng)軌跡,這些是能直接訓(xùn)練機(jī)器人的數(shù)據(jù)。具體而言,機(jī)器人技能訓(xùn)練分為兩個(gè)部分:一是通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化靈巧手底層控制策略,提升執(zhí)行精度;二是從視頻中重建場(chǎng)景,理解人類(lèi)在真實(shí)場(chǎng)景中的操作邏輯。
我們的數(shù)據(jù)集價(jià)值在于實(shí)現(xiàn)“無(wú)遙操作的人類(lèi)經(jīng)驗(yàn)遷移”,直接從視頻中最大程度提取人類(lèi)經(jīng)驗(yàn)學(xué)習(xí),再結(jié)合仿真環(huán)境進(jìn)行技能校準(zhǔn)與泛化。這一思路也符合人類(lèi)學(xué)習(xí)本質(zhì):并非別人的動(dòng)作是什么,我們觀察后每一步都能做到精確復(fù)現(xiàn)(我們也無(wú)法精確復(fù)現(xiàn)每一步)。就像小孩學(xué)習(xí),媽媽先通過(guò)演示教一遍,后面還是小孩自己一步步與環(huán)境交互后逐漸掌握技能,要是沒(méi)抓住東西掉了,那就再抓緊一點(diǎn)。
AI 科技評(píng)論:盡管基于視頻的視覺(jué)模仿學(xué)習(xí)在效率上有著顯著優(yōu)勢(shì),但現(xiàn)在可以看到很多企業(yè)還是會(huì)選擇通過(guò)遙操方式進(jìn)行數(shù)據(jù)采集。
葉琦:我覺(jué)得選擇遙操方式是他們壓力所在,遙操可以直接通過(guò)監(jiān)督學(xué)習(xí)快速得到一個(gè)不錯(cuò)的操作demo。一開(kāi)始我們課題組有老師專(zhuān)門(mén)做遙操,我嘗試后發(fā)現(xiàn)遠(yuǎn)程操控靈巧手抓取物體很難,更別提大規(guī)模高效地采集類(lèi)似擰開(kāi)瓶蓋等任務(wù)。我發(fā)現(xiàn)這條路線(xiàn)搞不動(dòng),馬上就放棄了,決定轉(zhuǎn)向視頻數(shù)據(jù)采集。
我去參觀一些企業(yè)時(shí),體驗(yàn)了他們的遙操作系統(tǒng),我發(fā)現(xiàn)需要來(lái)來(lái)回回操作好多次才能把物體抓起來(lái)、放下去。 一個(gè)人經(jīng)過(guò)訓(xùn)練后可以快速上手,但如果未經(jīng)過(guò)特定培訓(xùn),一個(gè)簡(jiǎn)單的“抓取-放下”動(dòng)作,一分鐘都不一定能夠完成。
AI 科技評(píng)論:相較于遙操作,通過(guò)視頻獲取人類(lèi)學(xué)習(xí)數(shù)據(jù)時(shí),主要面臨哪些獨(dú)特的技術(shù)難點(diǎn)?
葉琦:如果是有每一步的動(dòng)作數(shù)據(jù),算法相對(duì)會(huì)更直接一些。視頻數(shù)據(jù)肯定是沒(méi)有那么精確的,會(huì)有噪聲,沒(méi)法直接做 VLA 模仿學(xué)習(xí),從這一層面看,算法挑戰(zhàn)會(huì)更大,但它帶來(lái)的潛力也可能會(huì)更大,因?yàn)樗阋?,?guī)模量可以上去,而且更自然。
我不知道最后是 VLA 更強(qiáng),還是從人類(lèi)視頻學(xué)習(xí)路線(xiàn)更強(qiáng),因?yàn)?VLA 也可以迭代,剛開(kāi)始是采集小數(shù)據(jù),特別是對(duì)工業(yè)界來(lái)講,可以先在一些有限場(chǎng)景里操作起來(lái),后面通過(guò)批量賣(mài)出機(jī)器人,能利用采集回來(lái)的更多數(shù)據(jù)進(jìn)行訓(xùn)練。但對(duì)于高校研究而言,沒(méi)法在工業(yè)里實(shí)現(xiàn)數(shù)據(jù)迭代。不過(guò)這兩條技術(shù)路線(xiàn)在未來(lái)是可以融合在一起,相當(dāng)于低質(zhì)量數(shù)據(jù)與高質(zhì)量數(shù)據(jù)相結(jié)合。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。