0
本文作者: 喬燕薇 | 2024-03-29 13:21 |
“人們對機器人的抓取和操作存在很多誤解,很多研究成果很難推進到實際應(yīng)用環(huán)節(jié)。”
武漢大學(xué)李淼教授介紹,這是他放棄前往麻省理工 MCube Lab(操縱與機制實驗室)Alberto Rodriguez教授團隊做博士后研究,選擇回國創(chuàng)業(yè)的重要原因。
李淼教授博士畢業(yè)于瑞士洛桑聯(lián)邦理工學(xué)院,師從學(xué)習(xí)算法與系統(tǒng)實驗室的創(chuàng)辦者Aude Billard教授,長期致力于機器人學(xué)習(xí)和控制、物體抓取和操作等領(lǐng)域的研究。
他關(guān)于動態(tài)抓取算法研究的博士論文,在瑞士洛桑聯(lián)邦理工學(xué)院獲得了全球每兩年僅一名的瑞士ABB獎(Asea Brown Boveri Ltd. ),也是該獎的唯一華人獲得者。這項研究提出了復(fù)雜物體靈巧操作的魯棒性算法以及成功應(yīng)用于現(xiàn)實世界的機器人操作問題,尤其在機器人抓取、操作方面。
李淼教授回國后依然延續(xù)了這項研究,為抓取算法尋找合適的落地場景。
大模型技術(shù)出現(xiàn)后,李淼教授的研究內(nèi)容也隨之變化,一方面與業(yè)界合作,將大模型技術(shù)應(yīng)用在家庭服務(wù)機器人的產(chǎn)品研發(fā)上;
另一方面,在學(xué)術(shù)研究上,也開始嘗試將擴散模型(Diffusion Policy)和手術(shù)機器人動作生產(chǎn)策略相結(jié)合、將大模型和醫(yī)療影像相結(jié)合。
“我在與團隊成員交流時一直強調(diào),我們要以大模型的視角來看待一切機器人的問題,無論是算法研究還是其他各類工作,如果和大模型不相關(guān),也許5年之內(nèi)就會被淘汰?!?/p>
李淼教授指出,大模型將徹底改變機器人領(lǐng)域的發(fā)展進程。
4月8日(周一)20:00-22:00,雷峰網(wǎng)將舉辦主題為「大模型時代,機器人的技術(shù)革新與場景落地」的線上圓桌論壇,屆時李淼教授將分享更多前沿觀察。
以下為對話(經(jīng)編輯):
01 從理論研究到機器人研究
雷峰網(wǎng):碩士畢業(yè)后,您為什么選擇了瑞士洛桑聯(lián)邦理工學(xué)院讀博?該校的機器人研究有何特色?
李淼:我最開始是在華中科技大學(xué)申請的直博,碩士階段結(jié)束后,考慮到當(dāng)時國外的機器人研究比較領(lǐng)先,所以嘗試申請了國際上機器人專業(yè)排名最高的幾個學(xué)校,也拿到了很多offer,比如美國的約翰·霍普金斯大學(xué)、英國的帝國理工大學(xué)等等。
我希望選擇一個與AI算法結(jié)合更緊密的方向,所以最終去了瑞士洛桑聯(lián)邦理工學(xué)院Aude Billard教授的學(xué)習(xí)算法與系統(tǒng)實驗室(Learning algorithms and systems Laboratory)。
由于我本科、碩士階段的機器人研究方向更加偏向理論,和數(shù)學(xué)、醫(yī)學(xué)、動力學(xué)等學(xué)科的相關(guān)性很高,而Aude Billard教授團隊的研究則更加注重數(shù)據(jù),通過模仿學(xué)習(xí)等手段收集機器人工作過程中的數(shù)據(jù)并進行分析,Aude Billard教授是這一領(lǐng)域的開創(chuàng)者,也是瑞士機器人專題網(wǎng)絡(luò)負(fù)責(zé)人。
除Aude Billard教授的實驗室之外,瑞士洛桑聯(lián)邦理工學(xué)院還有很多技術(shù)領(lǐng)先的機器人研究團隊,如研究仿生機器人的生物機器人實驗室(Biorobotics Laboratory)、發(fā)明了折紙機器人的可重構(gòu)機器人實驗室(Reconfigurable Robotics Lab)等等。
瑞士洛桑聯(lián)邦理工學(xué)院機器人研究的整體風(fēng)格就是小而精,學(xué)校拓展了非常多具體的研究方向和團隊。
雷峰網(wǎng):工業(yè)機器人四大家族之一的ABB也誕生于瑞士,您多次提名和獲得該校的ABB獎,這對您后來的創(chuàng)業(yè)方向有什么影響?
李淼:ABB的總部在瑞士,與瑞士洛桑聯(lián)邦理工學(xué)院有很多合作,ABB在學(xué)校里設(shè)立了的一個獎項(Asea Brown Boveri Ltd. ),每兩年頒布一次,獎勵獎勵能源、自動化、電信等各個領(lǐng)域的原創(chuàng)科學(xué)工作,每次只有一個獲獎名額,競爭非常激烈。
我憑借研發(fā)的復(fù)雜物體靈巧操作的魯棒性算法以及成功應(yīng)用于現(xiàn)實世界的機器人操作問題獲得了2018年的獎項(論文:《Dynamic Grasp Adaptation -- From Humans To Robots》),同時我也是唯一的華人獲得者。
以往的機器人研究中開發(fā)了大量的算法,但是并不能很好地解決實際問題,而我的這項研究第一次成功地應(yīng)用于現(xiàn)實世界的機器人操作問題,尤其在機器人抓取、操作方面。
2016年我離開瑞士洛桑聯(lián)邦理工學(xué)院后之后,發(fā)覺在機器人領(lǐng)域的很多研究成果仍舊很難推進到實際應(yīng)用環(huán)節(jié),人們對機器人的抓取和操作存在很多誤解,所以我決定回國創(chuàng)辦一家公司,將機器人技術(shù)推廣到實際應(yīng)用場景之中。
我回國后的創(chuàng)業(yè)團隊依舊延續(xù)了對這項技術(shù)的探索,將其應(yīng)用在物流、藥房等場景的抓取、操作中,不斷打磨解決方案。
雷峰網(wǎng):2016年您回國創(chuàng)業(yè),從事機器人抓取與智能控制相關(guān)應(yīng)用的研究。為什么決定回國創(chuàng)業(yè)?
李淼:最開始回來時我還是一個fresh PHD,對行業(yè)的認(rèn)知還有限,嘗試為抓取的算法找到合適的落地場景,從物流、工業(yè)到醫(yī)療場景都進行了落地嘗試,最后聚焦到醫(yī)療場景。
這時候我們發(fā)現(xiàn),一個機器人產(chǎn)品不僅僅需要有抓取技術(shù),還需要有很多輔助的硬件設(shè)配相配合,慢慢就形成了綜合的解決方案。
2017年我來到武漢大學(xué)工作后,前期的這些工作也間接影響了我在學(xué)校里的研究方向,使我更加關(guān)注機器人的落地應(yīng)用。
雷峰網(wǎng):早在2022年,您與港中文的陳翡教授就合作發(fā)表過一篇烹飪機器人的論文《Robot Cooking With Stir-Fry: Bimanual Non-PrehensileManipulation of Semi-Fluid Objects》,這篇論文的關(guān)注角度與孫宇教授此前發(fā)布在IJAIRR期刊上的《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》一文有哪些不同?您認(rèn)為在烹飪場景中機器人技術(shù)還有哪些值得探索的方向?
李淼:在廚房這個場景中,對機器人的要求是最綜合的,不論是精細(xì)的運動,還是更高維度的規(guī)劃,以及對不同模塊的理解,烹飪場景都是最豐富的。
甚至在其他場景中鮮少用到的味覺和嗅覺,烹飪場景中也有涉及。
機器人在烹飪場景的工作可以分為兩個大的邏輯,一是上層的任務(wù)規(guī)劃,二是底層的動作規(guī)劃。我和陳翡教授的合作更多是動作層面的規(guī)劃,孫宇教授的研究則是關(guān)于任務(wù)層面的規(guī)劃。
要將上層的任務(wù)規(guī)劃和底層的動作規(guī)劃打通,還需要一個中間層 middle layer,也可以叫做膠水層。
在當(dāng)前的研究領(lǐng)域,針對中間層架構(gòu)的深入探究尚未達到預(yù)期的成熟度。
無論是采用規(guī)劃領(lǐng)域定義語言(Planning Domain Definition Language, PDDL)以形式化地描述和連接自動化規(guī)劃任務(wù),還是依賴于基于規(guī)則的專家系統(tǒng)進行決策支持,亦或是利用神經(jīng)網(wǎng)絡(luò)構(gòu)建的專家系統(tǒng),這些方法在實現(xiàn)高效、可靠的中間層處理能力方面均顯示出了一定的局限性。
這些技術(shù)在處理動態(tài)變化的環(huán)境、提升決策的透明度和解釋性、以及增強系統(tǒng)的泛化能力等方面仍面臨諸多挑戰(zhàn)。
雷峰網(wǎng):在您對機器人領(lǐng)域的研究中,也融合了機器視覺、深度學(xué)習(xí)等不同學(xué)科知識,如何看待機器人研究中跨學(xué)科合作的意義?
李淼:機器人研究可以大體分為四塊:設(shè)計(具身)、感知、規(guī)劃、控制。
我們從感知的角度來看,當(dāng)機器人需要獲取視覺信息時,就需要視覺傳感器的配合;機器人需要獲取觸覺信息時,就需要觸覺傳感器的配合,看起來似乎是多學(xué)科交叉融合的研究。
但是我們從當(dāng)下大模型的視角或數(shù)據(jù)驅(qū)動的視角來看,這些東西本身就是一體的。
不論是具身層面還是感知層面,機器人都是多模態(tài)的。機器人的外觀既可以是人形,也可以是狗形;機器人的獲取的信息既可以是視覺信息,也可以是觸覺信息。我們可以將這些內(nèi)容都看作是機器人研究的一部分。
02 當(dāng)機器人遇上大模型
雷峰網(wǎng):大模型技術(shù)的出現(xiàn)為機器人研究帶來了巨大的影響。在您的研究中對這項技術(shù)進行了哪些應(yīng)用?
李淼:在我和業(yè)界的合作中,已經(jīng)開始嘗試將大模型技術(shù)應(yīng)用在家庭服務(wù)機器人的研發(fā)上。
以掃地機為例,在掃地機的感知中,我們利用大模型進行數(shù)據(jù)生成,合成仿真數(shù)據(jù)以提升真實數(shù)據(jù)的不足;同時又將邏輯推理融入感知中,基于本身的語義地圖,,讓掃地機更智能地進行運動判斷,避免線材、雜物等障礙物的干擾 ;
在清掃報告部分,我們利用大模型生成清掃報告, 同時允許用戶進行報告中內(nèi)容的自定義選項添加,從而更全面的了解家庭情況。
在學(xué)校的研究里我們還沒有用到真實的大模型,但是也已經(jīng)開始向這方面的研究靠近,比如擴散模型(Diffusion Policy)和手術(shù)機器人動作生產(chǎn)策略相結(jié)合、大模型和醫(yī)療影像的結(jié)合等等。
我在與團隊成員交流時,一直強調(diào)我們要以大模型的視角來看待一切機器人的問題,無論是算法研究還是其他各類工作,如果和大模型不相關(guān),也許5年之內(nèi)就會被淘汰。
以前我們做的那些工作,現(xiàn)在從大模型的視角來看,所設(shè)計的模塊一定要足夠大,將其建成“data in、 data out” 的形式,只要輸入不同模態(tài)的數(shù)據(jù),就能得到想要的結(jié)果。
舉一個例子,我的博士論文做的是機器人抓取,主要任務(wù)是消除抓取過程中的不確定性。我當(dāng)時的做法是選擇在機器人的規(guī)劃層和執(zhí)行層分別處理不確定性。
簡單來講,在機器人抓取一個杯子的過程中,規(guī)劃層可能會出現(xiàn)視覺誤差,無法保證手指準(zhǔn)確地抓到杯子上,執(zhí)行層可能會出現(xiàn)重量誤差,無法保證機器人為杯子施加一個合適的力。
所以我將抓取這個杯子過程中存在的不確定性分配到不同的環(huán)節(jié),再分別處理。
和機器人不同的是,人在拿去一個杯子時并不會區(qū)分規(guī)劃層還是執(zhí)行層,二者之間是并行的。
我們將這兩個環(huán)節(jié)合并到一起,就是現(xiàn)在所謂的多模態(tài),數(shù)據(jù)變得更加充沛,無法對其進行特征的抽取,就只能將其轉(zhuǎn)變?yōu)榇竽P偷乃悸穪斫鉀Q,即輸入所有的數(shù)據(jù),讓大模型自動理解這項任務(wù),將規(guī)劃和執(zhí)行融合到一起,輸出一個我們想要的結(jié)論。
雷峰網(wǎng):機器人智能控制這一領(lǐng)域當(dāng)前的發(fā)展趨勢如何?
李淼:機器人控制的發(fā)展最初是基于傳統(tǒng)的示教器示教;后來發(fā)展為模仿學(xué)習(xí),從點對點的模仿學(xué)習(xí)逐漸升級到利用生成模型來做模仿學(xué)習(xí);再到后期又發(fā)展為強化學(xué)習(xí),只要給定一個目標(biāo),設(shè)置reward function(獎勵函數(shù)),機器人即可完成任務(wù)。
隨著任務(wù)越來越復(fù)雜,設(shè)置reward function時需要滿足更多的條件,就逐漸變成的大模型。
當(dāng)機器人對力的訴求、視覺的訴求、觸覺的訴求等不同模態(tài)有人融入其中,就演變?yōu)槎嗄B(tài)、大模型的發(fā)展趨勢。
這個發(fā)展思路也存在缺點,就是隨著對數(shù)據(jù)要求的增加,大模型會變得越來越復(fù)雜,需要更多的參數(shù)。
事實上,我們追求的應(yīng)該是小參數(shù)的計算,也許200個參數(shù)就已經(jīng)是個不小的數(shù)目。
但大模型時代往往都是數(shù)十億、數(shù)百億甚至數(shù)千億級別的參數(shù),這對芯片的算力有很大的要求,尤其是需要在毫秒級得到計算結(jié)果的情況下。
因此,未來需要“端、邊、云”(端:物聯(lián)網(wǎng)中的各種設(shè)備、傳感器、智能硬件等;邊:網(wǎng)絡(luò)邊緣、移動邊緣、物聯(lián)網(wǎng)邊緣等;云:云計算、云存儲、云應(yīng)用等領(lǐng)域)三者相協(xié)同,將大模型部署在云上,在單側(cè)部署時只解決單側(cè)的局部問題。
例如在人形機器人走路的例子中,大家的目光都聚焦在如何讓機器人走地穩(wěn)這個問題上,但是人形機器人從A地到B的長周期導(dǎo)航,目前仍無法解決,我們可以將這個概念具體化:
端(設(shè)備):機器人的傳感器和控制系統(tǒng)可以直接在機器人本體上進行一些簡單的處理,比如即時調(diào)整步伐以保持平衡。
邊(邊緣計算):對于更復(fù)雜的決策,如避開障礙物或規(guī)劃路徑,可以在機器人附近的邊緣計算設(shè)備上進行。這些設(shè)備可以更快地處理數(shù)據(jù),減少延遲,并減輕云端的計算負(fù)擔(dān)。
云(云計算):對于需要大量計算資源的任務(wù),如長時間的導(dǎo)航規(guī)劃,可以在云端進行。云端的強大計算能力可以用來處理和分析大量的數(shù)據(jù),生成詳細(xì)的導(dǎo)航計劃,并將其發(fā)送回機器人。
在這個例子中,邊緣計算的作用是處理那些需要較快響應(yīng)但又不需要云端巨大計算資源的任務(wù)。通過這種方式,可以確保機器人在執(zhí)行長周期導(dǎo)航任務(wù)時,既能保持較低的延遲,又能利用云端的強大計算能力進行復(fù)雜決策的制定。因此人形機器人長周期導(dǎo)航問題,可以通過“端、邊、云”三者協(xié)同的方式來解決。
雷峰網(wǎng):您的研究團隊未來一段時間的研究方向是什么?會側(cè)重哪方面的技術(shù)探索?
李淼:主要還是圍繞機器人的抓取和靈巧操作,以及相關(guān)的行業(yè)應(yīng)用做研究。
機器人行業(yè)的從業(yè)者們以往關(guān)注的更多是表層的應(yīng)用,比如看到現(xiàn)實中有人用手去抓東西,于是就讓機器人來做這項工作,取代人進行體力勞動。
然而,從實際情況而言,我們觀察了很多不同行業(yè),例如在介入手術(shù)、腦外科手術(shù)等應(yīng)用場景中,需要人手能夠完成更加靈巧的操作。
這些靈巧的操作如何用機器人來實現(xiàn)?其中涉及到哪些具體的技術(shù)?都是我們未來關(guān)注的重點。
我們會持續(xù)挖掘這些以往不易被發(fā)現(xiàn)的場景,開發(fā)適應(yīng)場景的相關(guān)技術(shù)。
但未來這些技術(shù)是否能夠在對應(yīng)的場景中真正實現(xiàn)產(chǎn)業(yè)化,還是個未知數(shù)。
我曾經(jīng)評估過腦動脈瘤手術(shù)這個場景,這項手術(shù)的成功率僅為50%,對醫(yī)生的操作經(jīng)驗要求非常高,也許20年內(nèi)都無法實現(xiàn)全自動手術(shù)機器人的產(chǎn)業(yè)化。
但我依然認(rèn)為這項工作對全人類來說是具有長期價值的。
我的團隊目前已經(jīng)開始進行相關(guān)的研究工作,例如觸覺傳感器的研發(fā)。在腦動脈瘤手術(shù)中,觸覺傳感器既要檢測法向力和切向力,又要應(yīng)對極端環(huán)境下的操作。
因此,我們要將機器人的設(shè)計、感知、規(guī)劃、控制等各個環(huán)節(jié)打通,用大模型的方式將這些場景模擬一遍,才能推動研究。
雷峰網(wǎng):從您在工業(yè)界的經(jīng)驗來看,機器人從技術(shù)研發(fā)到場景落地的過程中存在哪些難題?
李淼:目前最大的難題是大模型的核心規(guī)律scaling law(標(biāo)準(zhǔn)律),即很難在機器人方面進行創(chuàng)新,尤其是在工業(yè)場景下,很難達到規(guī)?;某潭?,這也是所有機器人創(chuàng)業(yè)公司面臨的共性問題。
也許做核心零部件、電機、減速器的公司活得還不錯,可一旦涉及到做具體的機器人產(chǎn)品,不論是六軸機器人、四軸機器人或是并聯(lián)機器人,銷量和銷售額都不會很高。
機器人行業(yè)甚至至今都沒有出現(xiàn)一款統(tǒng)一的芯片,又何談規(guī)?;?。
這意味著,機器人本身或許就不具備一個統(tǒng)一的形態(tài)。
我認(rèn)為機器人雖然叫這個名字,但不能將它完全等效為一個人形機器人,如果站在生物的角度來看,其實有更多不同形態(tài)的生物能夠更好地解決問題,比如人的彈跳能力不是最好的,跑動速度不是最快的,甚至還不會飛,所以人形形態(tài)并不是機器人最終的選擇。
拋開具身這個層面,我們也要看機器人的智能層面能否得到很大的提升,只有通過智能層面驅(qū)動其他不同智能產(chǎn)品的迭代,才能解決機器人行業(yè)的共性問題。
例如,智能家居系統(tǒng)可以通過集成更智能的機器人技術(shù)來提供更個性化的服務(wù);自動駕駛汽車可以通過機器人的感知和決策技術(shù)來提高安全性和效率;無人機可以通過機器人的導(dǎo)航和控制技術(shù)來進行更復(fù)雜的任務(wù)等等。(歡迎添加微信icedaguniang,交流認(rèn)知,互通有無。)
GAIR live 圓桌預(yù)告
4月8日,北京時間20:00-22:00,雷峰網(wǎng)將舉辦主題為「大模型時代,機器人的技術(shù)革新與場景落地」的線上圓桌論壇。
本次論壇嘉賓有,南佛羅里達大學(xué)孫宇教授、武漢大學(xué)李淼教授、南方科技大學(xué)張巍教授、優(yōu)必選科技龐建新博士。
“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學(xué)會(CCF)合作創(chuàng)立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)(公眾號:雷峰網(wǎng))“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。
GAIR Live 作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺。
大模型與機器人相關(guān)資料
1.《對話南佛羅里達大學(xué)孫宇教授:當(dāng)大語言模型用于機器人任務(wù)規(guī)劃丨IJAIRR》
2.論文:Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability
IJAIRR正在邀約論文和專題
《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯(lián)合出版的國際學(xué)術(shù)期刊。
作為全球首本專注于人工智能(AI)、機器人技術(shù)(Robotics)以及基礎(chǔ)科學(xué)交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領(lǐng)域研究的權(quán)威發(fā)布平臺。
IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。
我們特別關(guān)注那些在頂級AI會議上發(fā)表并現(xiàn)場展示,但缺乏長期沉淀平臺的優(yōu)秀論文。為了給這些論文及其作者提供一個更廣泛的發(fā)表和推廣渠道,IJAIRR現(xiàn)正積極邀約相關(guān)論文投稿。
如果您在本領(lǐng)域頂級會議上發(fā)表的文章(或即將發(fā)表)不超過一年,我們將協(xié)助您稍作修改后在IJAIRR期刊上發(fā)表。
如果您領(lǐng)導(dǎo)的團隊在頂級會議上有多篇論文發(fā)表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。
如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細(xì)節(jié)。
IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發(fā)展。圖片
聯(lián)系人:IJAIRR創(chuàng)刊主編朱曉蕊博士,xiaorui_zhu@gair.sg
關(guān)于期刊創(chuàng)刊主編等更多信息,可點擊https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
關(guān)于雷峰網(wǎng)、GAIR大會、GAIR研究院(期刊和在線社區(qū))的詳細(xì)介紹,請閱讀朱曉蕊教授的專訪:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主頁鏈接為:https://gairdao.com/journals/ijairr
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。