丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
機(jī)器人 正文
發(fā)私信給吳華秀
發(fā)送

0

浙大葉琦:建立機(jī)器人 Benchmark,為算法提供公平“競技場”

本文作者: 吳華秀   2025-05-11 15:14
導(dǎo)語:未來機(jī)器人的操作重心將超越單純的 pick and place,更注重“pick”后任務(wù)。

五年前,在浙大控制科學(xué)與工程學(xué)院一間會議室里,剛從劍橋微軟研究院回國的葉琦,向課題組描繪了她的長聘故事:五年之后,她希望把機(jī)器人拉來答辯會現(xiàn)場,由機(jī)器人為在座評委們逐一端茶倒水。

機(jī)器人、靈巧手、端茶倒水,這在當(dāng)時還是一個頗有難度的研究任務(wù)。非機(jī)器人科班出身的葉琦,面臨著跨界探索的挑戰(zhàn):她此前從未研究過機(jī)器人,還得從頭開始學(xué)新知識,“再當(dāng)一回博士”。

在此之前,她一直沿著計算機(jī)視覺路徑開展研究。2008年本科畢業(yè)于北京師范大學(xué)后,她前往清華大學(xué)讀研,2014 年進(jìn)入英國帝國理工學(xué)院攻讀博士學(xué)位。博士期間,她在學(xué)術(shù)頂會上分享的手勢識別相關(guān)工作,讓她得到了一位學(xué)術(shù)大牛 Jamie Shotton 的盛情邀約。

Jamie Shotton 彼時擔(dān)任劍橋微軟研究院微混合現(xiàn)實與人工智能實驗室負(fù)責(zé)人,他邀請葉琦前往研究院進(jìn)行交流。還未意識到這是一場面試的葉琦,在輕松的交談氛圍中與團(tuán)隊聊得很是投緣,直到最后,她才發(fā)現(xiàn)原來是“招賢令”。

在與 Jamie Shotton 1v1 的飯桌上,葉琦有些拿不準(zhǔn)究竟是加入微軟團(tuán)隊,還是回到學(xué)術(shù)界做科研。葉琦面對著 Jamie Shotton,一個她讀研時??吹恼撐淖髡?;還有一位中途臨時加入飯局的 Christopher M. Bishop,是經(jīng)典教材 Computer Vision and Pattern Recognition 的作者,這兩人都是她大為敬佩的前輩。

能夠與讀書時候就一直欽佩的學(xué)術(shù)大拿們共事,而且還是她當(dāng)時看好的技術(shù)方向——MR/VR 技術(shù),她心中的天平開始向著微軟研究院傾斜,“不管三七二十一,先去干兩年再說?!比~琦隨后加入 Jamie Shotton 團(tuán)隊。

彼時 MR/VR 技術(shù)升溫,數(shù)百企業(yè)開始涉足相關(guān)領(lǐng)域,AR 眼鏡、頭顯設(shè)備涌現(xiàn)。2019 年,微軟發(fā)布的第二代 Hololens headset 頭戴 MR 設(shè)備,正是由葉琦所在的的團(tuán)隊所負(fù)責(zé) 。葉琦深度參與了 Hololens2 手勢跟蹤算法的開發(fā),后來也參與到數(shù)字人研究。

一年多后,因為更熱愛自由探索前沿技術(shù),葉琦選擇回到浙大任職。浙大給予她充分的自由,讓她能夠自行選擇研究方向。最終,葉琦選擇轉(zhuǎn)向機(jī)器人領(lǐng)域,聚焦于靈巧手研究,為此,她也做好了“惡補(bǔ)”一番的準(zhǔn)備。

只是她沒想到,機(jī)器人領(lǐng)域突然升溫,此前稍顯冷清的靈巧手領(lǐng)域,一下子涌進(jìn)許多聰明腦袋。她留意到,靈巧手的研究進(jìn)度明顯在加快。2024年,她們課題組一篇關(guān)于靈巧操作的論文剛被 ICRA 收錄,博士生還未來得及推進(jìn)下一步,一篇基于他們工作的新論文很快投稿到 2025 IROS 并掛在 arxiv 上,“太快了,馬上就有人把我們計劃做的工作給做了?!?/p>

浙大葉琦:建立機(jī)器人 Benchmark,為算法提供公平“競技場”

而原先頗有挑戰(zhàn)的課題任務(wù),隨著大模型的發(fā)展以及技術(shù)的不斷磨合,開始變得有些輕松了。

這在此前是難以想象的。當(dāng)初葉琦轉(zhuǎn)向靈巧手時,她一度苦惱于這一領(lǐng)域形同荒地開墾。一面,她作為新人,得和學(xué)生一同學(xué)習(xí)機(jī)器人知識、解決問題;另一面,五爪相關(guān)研究較少、研究者也少,意味著一篇文章能有的引用量上限并不會太高。

之所以選擇迎難而行,是因為看見機(jī)會。計算機(jī)視覺出身的葉琦,曾目睹過計算機(jī)視覺、計算機(jī)圖形學(xué)的融合,新技術(shù)方向隨之而生,3D 領(lǐng)域的論文也由此成為頂會??汀1藭r她堅信,未來機(jī)器人與計算機(jī)視覺、計算機(jī)圖形學(xué)會融合在一起,催生出一個新領(lǐng)域,歷史將再度重演。

葉琦的預(yù)言在當(dāng)下得到了驗證。具身智能熱潮下,不同學(xué)科背景的人陸續(xù)匯聚在新的交叉口上,影響開始顯現(xiàn)。例如,原先機(jī)器人領(lǐng)域缺乏統(tǒng)一標(biāo)準(zhǔn),難以衡量工作好壞、復(fù)現(xiàn)他人代碼,更別提在他人工作基礎(chǔ)上進(jìn)行迭代?,F(xiàn)在,不少原計算機(jī)視覺、圖形學(xué)的人才加入具身智能社區(qū),和機(jī)器人領(lǐng)域的研究者們一起開始搭建屬于機(jī)器人領(lǐng)域的“Benchmark”,推動著機(jī)器人邁向更為開放的社區(qū)。

今年 1 月,葉琦課題組發(fā)布并開源了大規(guī)模靈巧手抓取動作數(shù)據(jù)集 GraspM3。它包含超 100 萬條抓取軌跡,涵蓋 8000 多個物體,軌跡自然流暢,有詳盡語義標(biāo)注,且經(jīng)兩個仿真環(huán)境驗證,為機(jī)器人抓取研究和應(yīng)用提供了全面的數(shù)據(jù)資源。

兩天后,葉琦又在社交平臺上推出了視觸預(yù)訓(xùn)練與靈巧操作的數(shù)據(jù)集與基準(zhǔn)。她們收集了 10 個人類操作的日常任務(wù)與 182 個物體視覺-觸覺數(shù)據(jù)集,還提出了一種新穎的基準(zhǔn)用于檢驗工作效果。這一工作也將會陸續(xù)開源。

“等所有代碼、平臺開源之后,靈巧手整個領(lǐng)域,大家的進(jìn)入門檻會低很多?!比~琦告訴 AI 科技評論。

浙大葉琦:建立機(jī)器人 Benchmark,為算法提供公平“競技場”

談及研究目目標(biāo),葉琦希望實現(xiàn)的核心是:讓任何配備觸覺傳感器或其他傳感器的靈巧手,都能自主完成各類操作任務(wù)。她的研究聚焦于靈巧操作的智能化技術(shù),較少涉及硬件設(shè)計本身。

以下是 AI 科技評論與葉琦的交流。

正因為難,才要做靈巧手

AI 科技評論:你的研究興趣非常豐富,是在本科階段就對計算機(jī)視覺、圖形學(xué)與機(jī)器人交叉領(lǐng)域產(chǎn)生興趣了嗎?聊聊你的研究經(jīng)歷吧。

葉琦:大四時,我接觸了圖像處理相關(guān)課程,發(fā)現(xiàn)圖像處理與其他領(lǐng)域有所不同,它能給予明確反饋,像算法優(yōu)劣、圖像去噪效果以及高斯平滑算子應(yīng)用于圖像后的成效等,你所做的任何工作都可以直接獲得反饋與對比,我覺得還挺有趣,所以從本科畢設(shè)開始做的就是圖像相關(guān)。

在清華讀研期間,研究方向依舊與圖像相關(guān),導(dǎo)師專注于數(shù)字手寫、數(shù)字字符識別領(lǐng)域。本科及碩士階段,我側(cè)重于圖像處理中的算法與算子研究,例如經(jīng)典的 SIFT 算子,主要從改進(jìn)算子的角度去探究問題。到博士階段,我從事手勢跟蹤研究,通過圖像或深度點(diǎn)云來恢復(fù)手的三維骨骼,這對人機(jī)交互意義重大,如今 Meta、Apple的頭顯設(shè)備中,手勢跟蹤不可或缺。此外,博士工作還涉及人工提取特征,運(yùn)用隨機(jī)森林開展,我的博士課題則圍繞深度神經(jīng)網(wǎng)絡(luò)進(jìn)行研究。

后來,我前往微軟亞洲研究院實習(xí),實習(xí)內(nèi)容也是圖像相關(guān),側(cè)重安全方面。大家會看到部分網(wǎng)站利用含有歪歪扭扭字符的圖片來防范惡意訪問。這些字符設(shè)計目的是讓機(jī)器無法識別,卻可被人識別。我們的研究旨在探究這樣的設(shè)計機(jī)制是否真的能防止機(jī)器自動識別,為此我們嘗試對圖片進(jìn)行分割、分析,再交由OCR引擎識別,看它的安全性、魯棒性表現(xiàn)如何。

AI 科技評論:你離開微軟后加入浙江大學(xué),從產(chǎn)業(yè)界轉(zhuǎn)向?qū)W術(shù)界,是出于什么考慮?

葉琦:在劍橋微軟研究院工作時,正值疫情期間,一個人在劍橋呆著挺孤單,加上家人都希望我回來。

另外,去了工業(yè)界后發(fā)現(xiàn),做產(chǎn)品與開展前沿技術(shù)研究之間存在很大的 gap。產(chǎn)品落地會涉及很多工程化問題,過程中需要解決大量難題。雖然劍橋微軟團(tuán)隊非常好,但工作內(nèi)容更偏向產(chǎn)品側(cè)一些,難以完全自主地去做研究。在公司里,研究方向往往由高層決定,但我特別喜歡自己去深入鉆研,只要覺得特別有意思的,我就特別想去做。但在公司里并沒有這樣充分的自主決定權(quán),可能還得向領(lǐng)導(dǎo)論證你所選的方向,說服他們認(rèn)可其可行性及落地可能。

經(jīng)過這些體驗,我發(fā)現(xiàn)自己更喜歡在高校從事研究工作。我進(jìn)入浙大后,并沒有人告訴我你要做什么方向,我可以根據(jù)自己的興趣來進(jìn)行研究方向的選擇。

AI 科技評論:你自己選擇了機(jī)器人領(lǐng)域?

葉琦:是的。

AI 科技評論:為什么決定轉(zhuǎn)向機(jī)器人?一個看似和你此前研究經(jīng)歷并不太相關(guān)的方向,是看到什么新變量嗎?

葉琦:我進(jìn)微軟前,CV(計算機(jī)視覺)和 CG(計算機(jī)圖形學(xué))相對而言是兩個不同且方向相反的學(xué)科,很少交集。CV 旨在從視覺角度理解并重構(gòu)物理世界;而 CG 則是假定存在一個虛擬世界,去給它做渲染,基于成像原理計算出一個物理世界圖像。

那時候這兩個學(xué)科基本不會融合于同一領(lǐng)域,但在2018、2019年參加 CVPR 時,我看到一篇論文將圖像渲染過程設(shè)為可微(differentiable)過程,當(dāng)時我就跟導(dǎo)師探討,覺得未來 CV 和 CG 會融合成一個方向。

CG 研究的是從模型到圖像,以往采用光線追蹤(Ray Tracing)等方案,因其各種復(fù)雜計算過程,不一定是非常好的可微可導(dǎo),導(dǎo)致難以實現(xiàn)從圖像到模型,再從模型到圖像的回環(huán)。

舉個例子,用手勢圖像重構(gòu)出三維手勢,再將該三維手勢渲染回手勢圖像,以往這一過程可能是割裂的。以前要評價一個重建的三維模型好不好,靠的是人為標(biāo)注數(shù)據(jù)。后來部分工作將三維模型渲染回圖像的過程變?yōu)榭晌⑦^程,這樣一來,渲染圖像就能夠直接與輸入圖像對比,不一定需要人力標(biāo)注。

通過這一過程,可以實現(xiàn)從視覺推理三維世界、再從三維世界渲染回圖形,也就是完成 2D 到 3D、3D 到 2D 的回環(huán)。畢竟有正過程與逆過程之分,CV 與 CG 天然具備共同研究的基礎(chǔ)。以前 CV、CG 領(lǐng)域各自為政,較少邁進(jìn)彼此的領(lǐng)域,但現(xiàn)在可以看到一個二者共同參與的新興研究領(lǐng)域。

例如,隨著可微渲染和后續(xù)NeRF等工作出現(xiàn),整個三維視覺領(lǐng)域蓬勃發(fā)展起來。觀察 CVPR 這類頂會的論文投稿量便能發(fā)現(xiàn),過去以 Segemantation(分割)、Tracking(跟蹤)、Classification(分類)為主,近五年則變成了三維重建、新視角渲染等 3D 相關(guān)話題,還包括當(dāng)下熱門的憑幾張圖片直接重建或者生成一個三維場景的研究。

鑒于不同學(xué)科、底層技術(shù)的新融合會催生出新的研究方向與結(jié)合點(diǎn),當(dāng)時我覺得這或許是個機(jī)會?;谶^往經(jīng)驗,我轉(zhuǎn)入機(jī)器人領(lǐng)域,就是因為預(yù)見機(jī)器人未來會和 CG、CV 相融合,就像當(dāng)初 CV 與 CG 融合一樣。

所以我經(jīng)常跟我的學(xué)生講,我是在圖形學(xué)、機(jī)器人以及視覺的交叉方向上開展研究,這三個領(lǐng)域是相互貫通 的。

AI 科技評論:機(jī)器人領(lǐng)域有很多方向,為什么偏偏是靈巧手?

葉琦:當(dāng)時選擇研究靈巧手時,我心里也有些打怵、不太確定。在2020、2021年前后,雖然世界上也有一些做靈巧手的機(jī)構(gòu),但遠(yuǎn)不像計算機(jī)視覺領(lǐng)域那般熱門。當(dāng)時做“二指夾爪”的單位不少,但著手做“五爪”的卻非常少,而且那時機(jī)器人領(lǐng)域整體也尚未大熱。

我走訪了很多企業(yè)進(jìn)行調(diào)研,以按摩機(jī)器人為例,每進(jìn)行一項按摩操作,可以更換不同按摩頭;在工業(yè)分揀應(yīng)用方面,二指夾爪不行時就換個吸盤,靠著二指夾爪與吸盤的相互配合,基本上就能完成大部分工作了。

既然如此,我當(dāng)時就一直在問自己一個問題:既然二指夾爪就能抓起很多東西,那我們?yōu)槭裁催€要去做靈巧手?是不是為了解決問題而解決問題、為了難而難?

因為高自由度的靈巧手,其操作難度相當(dāng)于五個機(jī)械臂協(xié)同工作,這么難的問題并沒有受到廣泛的關(guān)注。當(dāng)時我之所以決定研究機(jī)器人靈巧手,正是因為它還沒有被很好解決,而且很少有人去鉆研,我覺得這其中還有很多問題待攻克,于是便開始研究。說實話,我當(dāng)時也沒看到它有多大的價值。

AI 科技評論:選擇去解決困難的問題,這需要坐冷板凳。

葉琦:對我們而言,這冷板凳也不是那么好坐。五年前我剛進(jìn)入浙大時,給我們課題組描繪的愿景是:五年之后,我會拉來一個機(jī)器人,讓它給在座的各位評審們端茶倒水。但我此前沒有機(jī)器人研究基礎(chǔ),這相當(dāng)于我要從頭開始鉆研機(jī)器人,其難度不亞于再讀一回博士。

建立機(jī)器人 Benchmark 很有必要

AI 科技評論:從你深耕的原研究領(lǐng)域跨界到新研究方向,這個轉(zhuǎn)型過程中,在知識體系重構(gòu)、研究方法適配等方面,有遇到哪些超出預(yù)期的挑戰(zhàn)嗎?

葉琦:肯定是有挑戰(zhàn)的。如果我繼續(xù)深耕原來的研究方向,那我還能夠持續(xù)發(fā)論文??梢坏┺D(zhuǎn)換到新領(lǐng)域,我要和學(xué)生一同成長,那這一兩年的時間里,我或許就無法產(chǎn)出論文,或者相比同齡人而言,產(chǎn)出速度會慢一些。

像我以前從事視覺領(lǐng)域,我很少接觸強(qiáng)化學(xué)習(xí)以及機(jī)器人硬件相關(guān)內(nèi)容。而轉(zhuǎn)向機(jī)器人領(lǐng)域后,我得跟學(xué)生一起 debug(解決問題)。我經(jīng)常跟我學(xué)生說,在這個新方向上,我不懂,你們也不懂,那我們就一起學(xué)。這個過程并不輕松,壓力巨大。

例如,購置機(jī)器人設(shè)備并不像買服務(wù)器那般簡單,我們從英國采購一臺機(jī)械手,光買設(shè)備這一環(huán)節(jié)可能都得耗時一兩年;建設(shè)實驗室更是要完全從零開始,哪怕是購買每一個傳感器,都會與自己的學(xué)生一起討論。前期要投入大量精力與資源,到了后期,要讓自己盡量不被其他人影響,得時刻提醒自己,這沒什么問題,我所選擇的是新方向,要允許自己和學(xué)生在這段時間內(nèi)即便沒有成果產(chǎn)出,也要去大膽嘗試一些新事物。

對學(xué)生而言,轉(zhuǎn)向機(jī)器人領(lǐng)域的過程同樣會給他們帶來壓力。機(jī)器人領(lǐng)域與視覺領(lǐng)域并不同。在視覺領(lǐng)域,大部分視覺算法的代碼都是公開的,不僅有源代碼,而且平臺也搭建好了,各項參數(shù)都已調(diào)試妥當(dāng),只需從 GitHub 上把代碼下載過來,就能直接運(yùn)行,隨后在其基礎(chǔ)上做些修改就可以。不少學(xué)生覺得,那我做計算機(jī)視覺相關(guān)工作,就不用調(diào)試硬件,自己只需要在別人已經(jīng)完成的基礎(chǔ)工作上接著做就行。

AI 科技評論:在這種壓力下,五年前你向?qū)W院課題組提出的讓“機(jī)器人端茶倒水”的任務(wù)難度會不會很高?

葉琦:其實沒那么難,當(dāng)時我想的是,五六年時間,我應(yīng)該能夠達(dá)到預(yù)期程度。但我沒想到機(jī)器人操作突然會這么火。如今火了之后,發(fā)展速度確實加快了,尤其是這兩年的發(fā)展,讓我覺得這件事變得更加簡單了。

AI 科技評論:怎么理解這種簡單?

葉琦:因為有很多人在做。之前我研究五爪時,整個 Community (社區(qū))中做相關(guān)工作的人相對較少。人少,大家推進(jìn)的速度就慢?,F(xiàn)在人多了,速度也就快了。

比如我們 2024 年在 ICRA 發(fā)表的一篇論文,很快就有人據(jù)此開展工作并投稿至 2025 年 IROS。因為我博士生忙于其他事務(wù),本想讓他順著該論文繼續(xù)后續(xù)工作,沒想到論文剛發(fā)表就有人 follow 了,把我們 2025 年計劃做的事做了。說明這個領(lǐng)域真的匯聚了很多聰明的腦袋,大家一起在推動這個領(lǐng)域向前發(fā)展。

隨著 VLA、多模態(tài)大模型等技術(shù)發(fā)展,不少人嘗試技術(shù)融合,進(jìn)行上層平臺、基礎(chǔ)模型相關(guān)工作。我們?nèi)〉玫讓蛹寄芡黄坪螅瑢⑸舷聦幽芰Y(jié)合時,我發(fā)現(xiàn)不用再從頭做上層工作,已經(jīng)有不少的工作可作基礎(chǔ),讓我們省力不少。我們把所做的數(shù)據(jù)集開源,對他人而言,也省去了從頭收集數(shù)據(jù)的麻煩。

等代碼、平臺全部開源后,靈巧手領(lǐng)域的進(jìn)入門檻會大幅降低。此前我會覺得五六年實現(xiàn)端茶倒水任務(wù)較難,但經(jīng)過這幾年發(fā)展,你會發(fā)現(xiàn)它變得容易多了。

AI 科技評論:你提到靈巧手的發(fā)展加快,有人表示靈巧手在過去很長一段時間里一直沒有什么實際性進(jìn)展,現(xiàn)在也還有很多問題沒突破,比較悲觀,并不看好靈巧手的發(fā)展。你怎么看待這一觀點(diǎn)?

葉琦:有悲觀的聲音很正常,但我覺得技術(shù)的發(fā)展并非線性過程,而是經(jīng)歷轉(zhuǎn)折點(diǎn)后迎來爆發(fā)式發(fā)展。

為什么靈巧手在過去幾十年間發(fā)展緩慢?一方面,靈巧手的硬件研發(fā)難度高,相當(dāng)于要將五個機(jī)械臂集成于狹小空間內(nèi)。硬件機(jī)械結(jié)構(gòu)高度集成化,能否實現(xiàn)高自由度是個難題。現(xiàn)在靈巧手多是5、6個自由度,也有一些宣稱十幾、二十個自由度的靈巧手,但我還沒接觸到。在我們經(jīng)費(fèi)可承受范圍內(nèi),目前還難以買到非常好用的靈巧手,而我們的研究又依賴于本體。沒有硬件基礎(chǔ),那研究基本無從談起。

另一方面,近年來圖形學(xué)領(lǐng)域中關(guān)于人手操作生成的工作數(shù)量不少,而操作生成離不開對于手的數(shù)字化描述。Michael J. Black 團(tuán)隊 2017 年提出了針對手的參數(shù)化描述—— MANO 模型??梢钥吹?,即便在純圖形仿真層面,這樣高質(zhì)量且便于使用的開源手模型,也是直至2017年才提出。

此外,以往采用模型預(yù)測控制(MPC)等傳統(tǒng)控制優(yōu)化算法來求解,這需要對手進(jìn)行精確建模,涉及摩擦、運(yùn)動等方面,操作難度極大。即便完成建模,相關(guān)技能也很難泛化到其他場景,對應(yīng)的研究方法較少。如果你說傳統(tǒng)方法不好,轉(zhuǎn)用強(qiáng)化學(xué)習(xí),這也可以,但問題是強(qiáng)化學(xué)習(xí)需要訓(xùn)練場,即一個可交互的三維虛擬世界。然而要創(chuàng)建這樣一個虛擬世界也不容易,需要借助仿真平臺。

總體而言,算法方面存在限制,若采用更先進(jìn)的學(xué)習(xí)算法,又得依賴于仿真平臺和圖形處理器(GPU)。過去,從算法到機(jī)械本體,再到軟件平臺,各方面都存在不足,導(dǎo)致導(dǎo)致靈巧手很難取得良好發(fā)展。

現(xiàn)在人形機(jī)器人火熱,國家也在積極推動,從政策扶持到經(jīng)費(fèi)撥付,都給了有力支持 。經(jīng)費(fèi)往這一方向傾斜,促使我們的研究也更側(cè)重這塊領(lǐng)域,相當(dāng)于吸引了更多人才投身其中。今年,我們還與機(jī)械系老師共同申請了浙江省相關(guān)項目,就是研究靈巧手。

隨著大模型的進(jìn)步、硬件的優(yōu)化,加上 3D 生成技術(shù)能夠為我們提供訓(xùn)練場,我覺得用不了多久,只需給定語言輸入,便可生成任意廚房的排布情況,這相當(dāng)于為機(jī)器人提供了訓(xùn)練場,能讓數(shù)百個機(jī)器人在數(shù)百個廚房里高速并行計算與探索。如今看來,這個問題似乎也沒有那么難了。

AI 科技評論:聽起來靈巧手領(lǐng)域出現(xiàn)了不少新變量,正在重構(gòu)行業(yè)。

葉琦:我看好靈巧手方向。雖然在未來五年內(nèi),想要妥善解決靈巧手相關(guān)問題有些難度,但我個人秉持樂觀態(tài)度。

受益于機(jī)械本體的不斷進(jìn)步、大模型的蓬勃發(fā)展、3D生成技術(shù)的日益成熟,再結(jié)合強(qiáng)化學(xué)習(xí)以及諸多底層能力的集成,在未來 5 到 10 年,靈巧手會是一個極具 promising(發(fā)展前景)的方向。在一些限制性場景下,針對部分特定需求,機(jī)器人是能夠完成大部分操作的,比如疊衣服這類任務(wù),肯定是能實現(xiàn)的。

然而,要想在十年內(nèi)讓機(jī)器人實現(xiàn)與人并排行走,并且可以在非結(jié)構(gòu)化的空間中自由地與人交互,我認(rèn)為會有挑戰(zhàn)。但若是極為常規(guī)化的工作,像把碗放置到池子里,或者將瓶瓶罐罐擺放整齊,我覺得機(jī)器人是能夠做到的。

AI 科技評論:作為一名跨界研究者,哪些底層理論或方法論的遷移讓你產(chǎn)生了新理解?原領(lǐng)域的思維慣性有帶來哪些新視野嗎?

葉琦:原先機(jī)器人領(lǐng)域存在一個問題,大家的硬件系統(tǒng)并不一樣,也沒有公開統(tǒng)一的 Benchmark、數(shù)據(jù)集和評測標(biāo)準(zhǔn),沒法很好對比不同算法。過往研究往往局限于單一問題,通過采集小規(guī)模數(shù)據(jù)、針對特定任務(wù)展開,完成后就結(jié)束了,難以客觀評價算法優(yōu)劣。多數(shù)情況下,就是用一個實物機(jī)器人去做一個demo,去跑一跑,看著效果還不錯。

但就我自己來看,我的東西和別人的東西雖然看起來差不多,但我很難知道哪個更好。

當(dāng)我從視覺領(lǐng)域轉(zhuǎn)向機(jī)器人研究時,我會覺得很奇怪,因為視覺領(lǐng)域會有公開的 Benchmark,能夠衡量算法好壞,也有大量數(shù)據(jù)集可以做 Learning,但機(jī)器人沒有。機(jī)器人本體異構(gòu)性是該領(lǐng)域獨(dú)特的挑戰(zhàn)。

盡管如此,這一兩年里,你可以看到無論是學(xué)界還是產(chǎn)業(yè)界,都在著力構(gòu)建數(shù)據(jù)集、VLA及公開平臺,試圖將分散的數(shù)據(jù)集整合統(tǒng)一平臺,降低使用門檻。

從計算機(jī)視覺領(lǐng)域跨界而來的研究者,正將“視覺方法論”引入機(jī)器人領(lǐng)域:建立公開 Benchmark、共享平臺以及標(biāo)準(zhǔn)化評測任務(wù),讓大家能夠基于此開展評測,可以更直觀比較算法優(yōu)劣。在這一基礎(chǔ)上,機(jī)器人領(lǐng)域才能夠更好地快速發(fā)展,不然會很難復(fù)現(xiàn)別人的代碼,也就沒法在上面持續(xù)迭代優(yōu)化。

堅持人類視頻數(shù)據(jù)采集路線

AI 科技評論:聽說你們在數(shù)據(jù)集的構(gòu)建上有很多創(chuàng)新性突破,你們最初設(shè)計數(shù)據(jù)集的核心動機(jī)是什么?

葉琦:我們很早在做數(shù)據(jù)集,GraspM3 數(shù)據(jù)集的生成算法在 2024 年 ICRA 上發(fā)布了。ICRA24 的工作提出,主要是因為發(fā)現(xiàn)現(xiàn)有的抓取動態(tài)動作的數(shù)據(jù)在數(shù)量和軌跡上都比較有限,所以我們想自己先做一個數(shù)據(jù)集。因為不想進(jìn)行人工標(biāo)注和采集,所以我們設(shè)計可以自動生成抓取軌跡算法,通過仿真獲得數(shù)據(jù)集。

我們有兩個數(shù)據(jù)集在推進(jìn)中,有一個論文已經(jīng)被 ICLR25 錄用。我們采集了十幾個人類操作的任務(wù),涵蓋擰瓶蓋、插拔等二爪難以完成的復(fù)雜操作,這也是業(yè)界首次實現(xiàn)帶觸覺的靈巧手操作數(shù)據(jù)?;谶@一數(shù)據(jù),我們訓(xùn)練了 6 個任務(wù),能實現(xiàn)兩個靈巧手間物體拋接、擰瓶蓋、傳遞薯片等任務(wù)。

浙大葉琦:建立機(jī)器人 Benchmark,為算法提供公平“競技場”

通過我們初步的帶有視覺、觸覺的訓(xùn)練數(shù)據(jù)集,經(jīng)過預(yù)訓(xùn)練后顯著提升對下游任務(wù)的執(zhí)行效果。在完成上述復(fù)雜操作任務(wù)時,當(dāng)前成功率已經(jīng)能達(dá)到 80%。關(guān)鍵是,我們沒有采用任務(wù)的supervision,只使用了 MAE 自監(jiān)督方式去學(xué)習(xí),發(fā)現(xiàn)學(xué)習(xí)出來的 attention 機(jī)制可以直接注意到手指接觸物體的瞬間,比如注意到手指打開盒子時的那一瞬間。我跟學(xué)生說這太牛了,我壓根沒想到居然可以學(xué)習(xí)到這種程度。

AI 科技評論:這個現(xiàn)象為什么讓你這么詫異?

葉琦:我們對比的只有視覺,沒有觸覺。以何凱明的 Masked Auto Encoder(掩碼自動編碼器)工作為例,通過預(yù)訓(xùn)練可以助力下一個工作,但如果沒有觸覺信號輔助監(jiān)督,是根本不會 attention 到物體將要發(fā)生變化的區(qū)域,也不會 attention 到手指的區(qū)域。我們沒有引入任何監(jiān)督信號,只是做了個多模態(tài)的自動編碼器(Autoencoder,AE),也只有一個圖像和觸覺信號,沒想到實驗效果非常出乎意外。

浙大葉琦:建立機(jī)器人 Benchmark,為算法提供公平“競技場”

我最近在看腦認(rèn)知領(lǐng)域的一些工作,發(fā)現(xiàn)人腦也有類似機(jī)制:通過神經(jīng)元將人的動作與觸覺、視覺進(jìn)行聯(lián)合處理。而我們的研究表明,引入觸覺模態(tài)后,網(wǎng)絡(luò)能夠自動集中在物體動態(tài)區(qū)域,并且我們都沒有用多幀、只是單幀形式。從實驗情況來看,這與神經(jīng)科學(xué)中的部分理論形成了印證,這也是我自己在這些工作中感到很驚喜的瞬間。

也是因為這些成果,讓我們更加堅定要走這條路,從觸覺-動作態(tài)關(guān)聯(lián)入手,通過視頻采集更多人類操作數(shù)據(jù),逐步推進(jìn)上半身及全身操作的工作。

AI 科技評論:從你們之前發(fā)布的靈巧手操作視頻中可以看到物品抓取流暢,這項工作主要是解決什么問題?

葉琦:主要是解決靈巧手抓取異形物體的難題。以抓取杯子為例,人類習(xí)慣手持杯柄,而現(xiàn)有靈巧手 demo 中大多抓取杯身;抓取高腳杯時,人類傾向于握持底部,靈巧手依然還是抓杯身,它抓底部可能就握不穩(wěn)了。

靈巧手的抓取與二爪可能有點(diǎn)像。反觀工業(yè)領(lǐng)域的二指夾爪技術(shù),上海交通大學(xué)盧策吾教授于 2020 年發(fā)布的 GraspNet-1Billion 數(shù)據(jù)集,已經(jīng)實現(xiàn)對各類物體抓取策略的全覆蓋,能夠解決工業(yè)領(lǐng)域大部分“拾取-放置”(pick and place)工作。二指夾爪相關(guān)工作,盧老師已經(jīng)做得很好了。

未來人形機(jī)器人的操作,無論是二爪還是五爪,重點(diǎn)其實不在 pick and place上,而是 pick 之后要去完成某個任務(wù),比如把杯子抓起來后,還能遞給別人,或者是能夠在一些比較挑戰(zhàn)的區(qū)域把物體順滑抓起來。這不是簡單“拾取與放置”,得去服務(wù)于特定目標(biāo)。

我們希望通過我們這一數(shù)據(jù)集實現(xiàn)靈巧手對物體難握區(qū)域的流暢抓取。純粹依賴強(qiáng)化學(xué)習(xí)策略,只是將物體抓起來。因為動作行為是由 reward 機(jī)制驅(qū)動,難以精準(zhǔn)定義一個“優(yōu)雅抓取”的動作特質(zhì)(如目標(biāo)抓取方位等),也就難以設(shè)計一個獎勵機(jī)制。

為此,我們數(shù)據(jù)集的構(gòu)建方法是:通過靜態(tài)抓取手勢,比如我知道大部分人是抓取杯子把柄,那最后我生成軌跡就是針對這一行為生成動態(tài)手勢,讓靈巧手的操作更符合人類的自然抓取習(xí)慣。

AI 科技評論:在構(gòu)建數(shù)據(jù)集時,你們優(yōu)先采用的核心數(shù)據(jù)采集策略是什么?更側(cè)重真實場景實操采集、仿真環(huán)境批量生成,還是虛實結(jié)合的混合方案?

葉琦:遙操作獲取數(shù)據(jù)是有價值的,但我認(rèn)為比較便捷的數(shù)據(jù)來源還是人類自身行為數(shù)據(jù)。這基于兩點(diǎn)依據(jù):其一,以 GPT 為例,其核心能力源于對人類問答數(shù)據(jù)的學(xué)習(xí),先通過大規(guī)模人類數(shù)據(jù)訓(xùn)練,再借助強(qiáng)化學(xué)習(xí)優(yōu)化 reward 機(jī)制。同理, 我認(rèn)為要賦予實體機(jī)器人或人形機(jī)器人以通用操作能力,其數(shù)據(jù)也應(yīng)該是來自于人類。

其二,遙操作依賴人類操控機(jī)械臂采集數(shù)據(jù),盡管數(shù)據(jù)質(zhì)量高,但成本太昂貴了。像馬斯克一套采集設(shè)備可能都得幾十萬、一百萬,而一個工廠里可能需要幾百套設(shè)備,按每小時 50 美元的人工成本計算,開銷巨大。

盡管未來硬件可能降價實現(xiàn)降本,但遙操作多采用二爪或五爪機(jī)械臂,數(shù)據(jù)遷移時會面臨操作末端的異構(gòu)性問題,要進(jìn)行動作數(shù)據(jù)重定向。如果人手可視為一種抽象的異構(gòu)機(jī)械臂,為何不直接從人類行為數(shù)據(jù)中學(xué)習(xí)?通過視頻采集人類操作,既能以更低成本獲取海量數(shù)據(jù),又能支持大規(guī)模訓(xùn)練,為機(jī)器人注入通用能力。

我的研究思路是:不一定通過機(jī)器人遙操作數(shù)據(jù)采用 VLA 方式,而是通過解析人類視頻信息(如動作軌跡、觸覺位置)提取操作先驗,將其與機(jī)器人自主探索訓(xùn)練相結(jié)合。例如,通過視頻重建操作場景、定位人手運(yùn)動軌跡,這些是能直接訓(xùn)練機(jī)器人的數(shù)據(jù)。具體而言,機(jī)器人技能訓(xùn)練分為兩個部分:一是通過強(qiáng)化學(xué)習(xí)優(yōu)化靈巧手底層控制策略,提升執(zhí)行精度;二是從視頻中重建場景,理解人類在真實場景中的操作邏輯。

我們的數(shù)據(jù)集價值在于實現(xiàn)“無遙操作的人類經(jīng)驗遷移”,直接從視頻中最大程度提取人類經(jīng)驗學(xué)習(xí),再結(jié)合仿真環(huán)境進(jìn)行技能校準(zhǔn)與泛化。這一思路也符合人類學(xué)習(xí)本質(zhì):并非別人的動作是什么,我們觀察后每一步都能做到精確復(fù)現(xiàn)(我們也無法精確復(fù)現(xiàn)每一步)。就像小孩學(xué)習(xí),媽媽先通過演示教一遍,后面還是小孩自己一步步與環(huán)境交互后逐漸掌握技能,要是沒抓住東西掉了,那就再抓緊一點(diǎn)。

AI 科技評論:盡管基于視頻的視覺模仿學(xué)習(xí)在效率上有著顯著優(yōu)勢,但現(xiàn)在可以看到很多企業(yè)還是會選擇通過遙操方式進(jìn)行數(shù)據(jù)采集。

葉琦:我覺得選擇遙操方式是他們壓力所在,遙操可以直接通過監(jiān)督學(xué)習(xí)快速得到一個不錯的操作demo。一開始我們課題組有老師專門做遙操,我嘗試后發(fā)現(xiàn)遠(yuǎn)程操控靈巧手抓取物體很難,更別提大規(guī)模高效地采集類似擰開瓶蓋等任務(wù)。我發(fā)現(xiàn)這條路線搞不動,馬上就放棄了,決定轉(zhuǎn)向視頻數(shù)據(jù)采集。

我去參觀一些企業(yè)時,體驗了他們的遙操作系統(tǒng),我發(fā)現(xiàn)需要來來回回操作好多次才能把物體抓起來、放下去。 一個人經(jīng)過訓(xùn)練后可以快速上手,但如果未經(jīng)過特定培訓(xùn),一個簡單的“抓取-放下”動作,一分鐘都不一定能夠完成。

AI 科技評論:相較于遙操作,通過視頻獲取人類學(xué)習(xí)數(shù)據(jù)時,主要面臨哪些獨(dú)特的技術(shù)難點(diǎn)?

葉琦:如果是有每一步的動作數(shù)據(jù),算法相對會更直接一些。視頻數(shù)據(jù)肯定是沒有那么精確的,會有噪聲,沒法直接做 VLA 模仿學(xué)習(xí),從這一層面看,算法挑戰(zhàn)會更大,但它帶來的潛力也可能會更大,因為它更便宜,規(guī)模量可以上去,而且更自然。

我不知道最后是 VLA 更強(qiáng),還是從人類視頻學(xué)習(xí)路線更強(qiáng),因為 VLA 也可以迭代,剛開始是采集小數(shù)據(jù),特別是對工業(yè)界來講,可以先在一些有限場景里操作起來,后面通過批量賣出機(jī)器人,能利用采集回來的更多數(shù)據(jù)進(jìn)行訓(xùn)練。但對于高校研究而言,沒法在工業(yè)里實現(xiàn)數(shù)據(jù)迭代。不過這兩條技術(shù)路線在未來是可以融合在一起,相當(dāng)于低質(zhì)量數(shù)據(jù)與高質(zhì)量數(shù)據(jù)相結(jié)合。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

常常對事好奇,永遠(yuǎn)對人關(guān)懷。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說