0
大模型技術(shù)橫空出世,無疑讓機(jī)器人技術(shù)再次成為研究和產(chǎn)業(yè)界的焦點(diǎn)。
這一技術(shù)的核心優(yōu)勢在于,其卓越的數(shù)據(jù)處理和模式識別能力。通過深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷優(yōu)化,大模型能夠高效地處理和分析龐大的數(shù)據(jù)集。
這意味著,機(jī)器人可以在更短的時(shí)間內(nèi)學(xué)習(xí)新技能,更快地適應(yīng)新任務(wù),甚至能夠在沒有明確編程的情況下自主解決問題。不僅如此,在大模型的助力下,機(jī)器人的感知能力變得更加精準(zhǔn),這無疑將極大地拓展其應(yīng)用領(lǐng)域,并增強(qiáng)其在復(fù)雜環(huán)境中的適應(yīng)性和靈活性。
然而,大模型技術(shù)的發(fā)展同樣帶來了挑戰(zhàn)。如何確保機(jī)器人的決策過程透明、可解釋;如何讓機(jī)器人真正融入開放式服務(wù)場景,這些都是亟待解決的技術(shù)難題。
最近,雷峰網(wǎng)舉辦的「大模型時(shí)代,機(jī)器人的技術(shù)革新與場景落地」線上圓桌論壇,匯集了南佛羅里達(dá)大學(xué)的孫宇教授、武漢大學(xué)的李淼教授、逐際動(dòng)力的張巍博士、優(yōu)必選科技的龐建新博士等產(chǎn)研界精英。
他們的見解覆蓋了從理論研究到實(shí)際應(yīng)用,從硬件設(shè)計(jì)到軟件算法,從感知技術(shù)到任務(wù)規(guī)劃,為我們提供了一個(gè)全面而深入的視角,以洞察這一領(lǐng)域的最新發(fā)展和未來趨勢。
孫宇教授,從機(jī)器人學(xué)的角度出發(fā),強(qiáng)調(diào)端到端方法在機(jī)器人學(xué)中的挑戰(zhàn)性,尤其是在運(yùn)動(dòng)規(guī)劃和執(zhí)行方面,真正的端到端控制尚未實(shí)現(xiàn)。同時(shí)他也指出,AI 大模型如 GPT-4 和 CLIP ,在機(jī)器人感知和知識應(yīng)用方面顯著減少了研發(fā)時(shí)間和精力,使得 Demo 制作相對容易。但關(guān)鍵是,機(jī)器人技術(shù)的真正落地和產(chǎn)品的可靠性仍是一個(gè)巨大挑戰(zhàn)。
李淼教授,他重點(diǎn)關(guān)注機(jī)器人規(guī)劃和執(zhí)行層面,提出了利用大型語言模型來簡化任務(wù)表達(dá)的可能性。同時(shí)他也指出,目前機(jī)器人領(lǐng)域缺乏類似于特斯拉 FSD 的統(tǒng)一模型,盡管數(shù)據(jù)驅(qū)動(dòng)方法在機(jī)器人領(lǐng)域被認(rèn)為是關(guān)鍵,但目前尚未得出明確的結(jié)論,即僅僅通過收集足夠的數(shù)據(jù)就能解決所有問題。
張巍教授,他討論了端到端方法和分層方法的優(yōu)劣,強(qiáng)調(diào)端到端方法不僅僅是架構(gòu)問題,更是訓(xùn)練流程。他認(rèn)為,未來機(jī)器人的發(fā)展可能會(huì)采用類似 ChatGPT 背后的 MOE 模型,由多個(gè)專家的小模型組成,通過 agent 連接。同時(shí)他也指出,大語言模型在決策層面上有所幫助,但對于具體的運(yùn)動(dòng)控制,仍然面臨挑戰(zhàn)。
龐建新博士,是從 AI 領(lǐng)域轉(zhuǎn)向機(jī)器人研究的杰出代表,他強(qiáng)調(diào),AI 大模型在機(jī)器人領(lǐng)域最有價(jià)值的部分,是知識推理能力和挖掘事物關(guān)系的能力。同時(shí),他提出了整合大腦、小腦與機(jī)器人本體之間的工作,以及如何將新型傳感器有效利用到機(jī)器人系統(tǒng)中的問題。
以下為本次圓桌對話全文(經(jīng)編輯):
孫宇:歡迎大家齊聚線上,也感謝雷峰網(wǎng)(公眾號:雷峰網(wǎng))的組織。我相信大家和我一樣,都對接下來大模型+機(jī)器人的討論充滿期待。在開始之前,請大家介紹下自己。
李淼:大家好!我是李淼。我本碩畢業(yè)于華中科技大學(xué)機(jī)械工程專業(yè),博士有幸在瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)與 Aude Billard 教授共事,致力于機(jī)器人技術(shù),特別是模仿學(xué)習(xí)領(lǐng)域的研究。
這與我們今天的討論主題息息相關(guān)。
在本科階段,我的研究重點(diǎn)偏向于建模和規(guī)劃。隨著時(shí)間的推移,尤其是在攻讀博士學(xué)位期間,我開始轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的研究方法。在這一時(shí)期,我還與孫宇教授就抓?。╣rasping)領(lǐng)域的多個(gè)問題進(jìn)行了深入討論。
2016年之后,我選擇回國并嘗試創(chuàng)業(yè)。我們的目標(biāo)是打造一個(gè)機(jī)器人操作系統(tǒng),旨在整合機(jī)器人的設(shè)計(jì)、感知、規(guī)劃和執(zhí)行過程。盡管當(dāng)時(shí)的整合主要集中在傳統(tǒng)的軟件層面,以及使工業(yè)軟件的 API 更加易于使用,但這一工作我們堅(jiān)持了許多年,并最終在多個(gè)場景中實(shí)現(xiàn)了落地應(yīng)用。
同年,我也加入了武漢大學(xué),并在工業(yè)科學(xué)研究院領(lǐng)導(dǎo)了一個(gè)機(jī)器人實(shí)驗(yàn)室。
我們專注于將機(jī)器人模仿學(xué)習(xí)應(yīng)用于不同場景,尤其是在工業(yè)和醫(yī)療領(lǐng)域。在這個(gè)過程中,我們逐漸意識到,機(jī)器人任務(wù)規(guī)劃這一高層次的問題缺乏明確的定義。我們通常稱之為TAMP(Task and Motion Planning),即將任務(wù)規(guī)劃、任務(wù)和運(yùn)動(dòng)規(guī)劃混合在一起。但在實(shí)際應(yīng)用中,我們發(fā)現(xiàn)很多任務(wù)難以用具體的方式描述,這帶來了不小的挑戰(zhàn)。
隨著大型語言模型的出現(xiàn),我們開始思考:為何非要在向量空間中規(guī)劃任務(wù)呢?例如“拾取與放置”任務(wù),或者在抓取過程中,只需提供坐標(biāo),就能很好地解釋任務(wù)。但在現(xiàn)實(shí)世界中,用口語描述任務(wù)可能會(huì)更簡單。因此,我們開始將實(shí)驗(yàn)室的部分工作與大型語言模型相結(jié)合,從感知、規(guī)劃到控制,這一領(lǐng)域的進(jìn)展非常迅速。
我們的工作仍在進(jìn)行中,每天都有新的發(fā)現(xiàn)和學(xué)習(xí)。
張?。捍蠹液?!我是張巍。我在中科大完成了自動(dòng)化專業(yè)的本科學(xué)習(xí),之后在美國繼續(xù)深造并從事教學(xué)工作十余年。2019年,我選擇回國,并全職加入了南方科技大學(xué)。
目前,我在南方科技大學(xué)擔(dān)任教職,我的實(shí)驗(yàn)室叫機(jī)器人控制與學(xué)習(xí)實(shí)驗(yàn)室(CLEAR LAB),全稱為 Control & Learning for Robotics and Autonomy,關(guān)注機(jī)器人控制理論與學(xué)習(xí)算法方面的研究。
我早期的研究重點(diǎn)是最優(yōu)控制和運(yùn)動(dòng)規(guī)劃,隨著機(jī)器人硬件的成熟,機(jī)器人領(lǐng)域的研究點(diǎn)日益增多,我的研究重點(diǎn)放在人形機(jī)器人,涵蓋了感知、規(guī)劃、控制以及強(qiáng)化學(xué)習(xí)等多個(gè)相關(guān)領(lǐng)域。
逐際動(dòng)力成立于2022年,我是創(chuàng)始人,主要從事通用機(jī)器人的研發(fā),目前的重點(diǎn)在于人形機(jī)器人的開發(fā),同時(shí)也有四輪足。
龐建新:大家好!我是龐建新,來自優(yōu)必選科技。我的學(xué)術(shù)和職業(yè)道路可能與在座的各位有所不同。
我在中科大攻讀了電子信息工程的本科學(xué)位,那時(shí)我就已經(jīng)開始涉足人工智能相關(guān)的工作。我的本科畢業(yè)設(shè)計(jì)專注于語音信號處理,包括早期的語音識別技術(shù)。在中科大繼續(xù)深造期間,我選擇了計(jì)算機(jī)視覺作為我的碩士和博士研究方向,從事圖像處理和分析的研究。
從本科時(shí)代起,我就一直致力于探索如何將AI技術(shù)與硬件相結(jié)合。
在硬件性能有限的情況下,例如頻率僅為66兆赫茲的處理器上,我嘗試運(yùn)行語音相關(guān)技術(shù)。在研究視覺技術(shù)時(shí),我也在思考如何讓視覺算法在低算力硬件上運(yùn)行。
在我開始職業(yè)生涯時(shí),我加入了一家外企,繼續(xù)探索如何將視覺算法應(yīng)用于低算力硬件。我記得非常清楚,我們曾嘗試在只有100兆赫茲處理器的數(shù)碼相機(jī)中實(shí)現(xiàn)復(fù)雜的算法。在深度學(xué)習(xí)技術(shù)廣泛應(yīng)用之前,我致力于開發(fā)小型算法,解決實(shí)際問題。
2011年,我加入了中國科學(xué)院深圳先進(jìn)技術(shù)研究院,開始探索如何將人工智能技術(shù)與機(jī)器人技術(shù)相結(jié)合。
我們團(tuán)隊(duì)孵化了多個(gè)與機(jī)器人相關(guān)的項(xiàng)目,并與騰訊合作,推出了全球較早的基于云的桌面交互式機(jī)器人產(chǎn)品。2011年,我們的產(chǎn)品發(fā)布后,受到了極大的關(guān)注。隨后,我們繼續(xù)開發(fā)面向交互的智能機(jī)器人產(chǎn)品。
2015年初,我加入了優(yōu)必選科技。那時(shí)公司還處于初創(chuàng)階段,研發(fā)團(tuán)隊(duì)僅有十幾人,剛拿到A輪融資不久。
所以那時(shí)我加入優(yōu)必選科技后,與CTO熊友軍博士一起負(fù)責(zé)整個(gè)公司的研發(fā)工作,并建立了優(yōu)必選研究院。我們還規(guī)劃了人形機(jī)器人的整體布局,成為國內(nèi)最早從事人形機(jī)器人研發(fā)的企業(yè)之一。我們也努力推動(dòng)產(chǎn)業(yè)化進(jìn)程,從最初的小型人形機(jī)器人開始,到大型人形機(jī)器人的研發(fā)和應(yīng)用落地。
在這個(gè)過程中,我得以將軟硬件結(jié)合的能力、人工智能技術(shù)應(yīng)用于機(jī)器人技術(shù)。同時(shí),我也學(xué)習(xí)了許多新知識,包括機(jī)器人控制、運(yùn)動(dòng)規(guī)劃等。
我認(rèn)為,現(xiàn)在的機(jī)器人和大型模型研究已經(jīng)不再局限于單一領(lǐng)域,而是涉及多個(gè)領(lǐng)域的知識。例如,大型語言模型已經(jīng)從基礎(chǔ)的語言知識擴(kuò)展到多個(gè)領(lǐng)域,覆蓋了從感知、理解、任務(wù)拆解和規(guī)劃等多個(gè)層面,已經(jīng)不再是單一技術(shù)。
在當(dāng)前階段,我認(rèn)為既有挑戰(zhàn)也富有研究價(jià)值。我們團(tuán)隊(duì)在優(yōu)必選科技已經(jīng)完成了多輪機(jī)器人的研發(fā),并探索了如何將各種技術(shù)應(yīng)用于機(jī)器人之上。
我們遇到了很多挑戰(zhàn),但現(xiàn)在我們有了新方向,無論是在感知、規(guī)劃還是控制方面,新技術(shù)的出現(xiàn)都將為人形機(jī)器人產(chǎn)業(yè)的發(fā)展帶來巨大變化,希望繼續(xù)抓住這個(gè)機(jī)遇。
孫宇:優(yōu)必選科技自2016年起就開始研發(fā)人形機(jī)器人了,對吧?
龐建新:優(yōu)必選實(shí)際從2012年成立以來就投入人形機(jī)器人核心技術(shù)以及產(chǎn)品的研發(fā)。2016年,我們推出了大型人形機(jī)器人Walker的原型機(jī)。2018年,我們在CES展(國際消費(fèi)類電子產(chǎn)品展覽會(huì))上首次發(fā)布了第一代Walker;到了2019年,我們推出了第二代Walker;2021年我們推出了Walker X;2023年我們研發(fā)了工業(yè)版人形機(jī)器人Walker S。到目前一共是五次迭代。
孫宇:那么,您能介紹一下優(yōu)必選科技目前的人形機(jī)器人發(fā)展到了什么程度嗎?你們主要面向哪些應(yīng)用場景?
龐建新:優(yōu)必選科技在人形機(jī)器人領(lǐng)域的研究經(jīng)歷了多個(gè)階段。最初,我們的人形機(jī)器人更多用在服務(wù)場景,如導(dǎo)覽接待、教育科普等。但從2022年開始,我們開始認(rèn)識到,在工業(yè)制造場景中,人形機(jī)器人可能有更大的應(yīng)用潛力,有可能比商用服務(wù)場景更早實(shí)現(xiàn)落地。因此從去年至今,我們的重點(diǎn)放在了探索人形機(jī)器人在智能制造場景中的應(yīng)用落地。今年年初,Walker S就在蔚來汽車總裝車間進(jìn)行實(shí)訓(xùn)。這是全球首個(gè)人形機(jī)器人在汽車工廠流水線與人類協(xié)作完成汽車裝配及質(zhì)量檢查作業(yè)的嘗試。
孫宇:非常感謝各位的分享。我們剛才討論了AI和機(jī)器人領(lǐng)域的發(fā)展,特別是大語言模型和基礎(chǔ)模型的出現(xiàn),極大地提升了 AI 的能力。這似乎預(yù)示著機(jī)器人技術(shù)再次成為研究和產(chǎn)業(yè)界的焦點(diǎn),因?yàn)槿藗冮_始認(rèn)識到 AI 的能力已經(jīng)能夠讓機(jī)器人執(zhí)行一些非常重要的任務(wù),比如服務(wù)機(jī)器人和工業(yè)機(jī)器人。
我認(rèn)為我們可以利用各自的背景和平時(shí)觀察到的趨勢,為觀眾介紹一些在國內(nèi)外學(xué)術(shù)界和工業(yè)界在機(jī)器人方向上取得的顯著成就,以及這些成就對整個(gè)領(lǐng)域發(fā)展的推動(dòng)作用。
李淼:在當(dāng)前自媒體高度發(fā)達(dá)的時(shí)代,我們經(jīng)常會(huì)在雷峰網(wǎng)等平臺上看到關(guān)于人形機(jī)器人、AI 等相關(guān)領(lǐng)域的最新動(dòng)態(tài)。這些內(nèi)容通過各種渠道廣泛傳播,讓我們對這一領(lǐng)域有了更深入的了解。
對于我個(gè)人而言,我關(guān)注的是機(jī)器人領(lǐng)域的周期性發(fā)展,這是一個(gè)循環(huán)往復(fù)的過程,非常有趣。
回顧龐建新博士之前提到的通用與專用機(jī)器人的話題,我記得在2011年參加 IROS 會(huì)議(國際智能機(jī)器人與系統(tǒng)大會(huì))時(shí),我們討論過所謂的靈巧手(dexterous hand)的問題。
當(dāng)時(shí),許多人認(rèn)為靈巧手并沒有實(shí)際應(yīng)用價(jià)值。我記得 Matei,也就是 GraspIt 軟件(https://graspit-simulator.github.io/)的創(chuàng)作者,曾說過一句著名的話:兩指夾鉗(Gripper)可以解決人類社會(huì)95%的問題,剩下的問題即使有靈巧手也難以解決。
然而,十年后的今天,社會(huì)的觀點(diǎn)發(fā)生了巨大變化。人們開始認(rèn)識到,擁有類似人類的靈巧手,尤其是具有高度靈活性的靈巧手,將會(huì)改變很多事情。
在2010年至2015年期間,我嘗試了許多種靈巧手,相信孫宇教授也有類似的經(jīng)歷。我們使用過Barrett Hand、 Allegro Hand 、Shadow Hand 、iCub Hand 等,但它們的功能在當(dāng)時(shí)受到了硬件和仿真算法的很大限制。
現(xiàn)在,人們可能會(huì)過分強(qiáng)調(diào)人形機(jī)器人與大模型結(jié)合的優(yōu)勢,而忽略了最底層的根本問題,例如在grasping 的Contact(接觸)方面從未被提及。
第二點(diǎn),我們看到大模型本質(zhì)上帶來了什么改變?它改變了我們對任務(wù)表達(dá)的理解。
傳統(tǒng)的機(jī)器人任務(wù)表達(dá)往往簡化為軌跡、pick and place 或者 force / impedance control 等形式,但任務(wù)表達(dá)本身并沒有一個(gè)清晰的定義。隨著大語言模型的引入,我們可以將自然語言這一維度加入到任務(wù)表達(dá)中。
然而,如果我們回顧歷史,早在2010年,人們就已經(jīng)使用知識圖譜等工具進(jìn)行任務(wù)表達(dá)。在歐盟,過去我參與了兩個(gè)相對知名的項(xiàng)目:RoboEarth 和 RoboHow。
RoboEarth 的目標(biāo)是將網(wǎng)上的知識整理成一步步的指令,供機(jī)器人執(zhí)行。
RoboHow 則是2014年歐盟機(jī)器人項(xiàng)目的佼佼者,它將網(wǎng)上的視頻、人的視覺強(qiáng)化學(xué)習(xí)、Wikipedia的知識整合到一個(gè)龐大的知識引擎中,進(jìn)行基于邏輯的推理。
今天的大語言模型從更高的維度、更大的數(shù)據(jù)維度整合了這些知識。我們期待這次能夠在任務(wù)表達(dá)上實(shí)現(xiàn)重大突破。
孫宇:這確實(shí)引發(fā)了一個(gè)問題,靈巧手究竟能有什么用處?
我們當(dāng)時(shí)討論了手內(nèi)操作(in-hand manipulation)的重要性。如果沒有手指,就無法實(shí)現(xiàn)手內(nèi)操作。因此,當(dāng)時(shí)確實(shí)存在一些不確定性,人們不清楚這些手在實(shí)際應(yīng)用中能達(dá)到什么樣的程度。但是,這種研究是逐步推進(jìn)的,李淼老師的觀點(diǎn)非常正確。
張?。?/strong>首先,我依然認(rèn)為兩指夾持器(2-finger Gripper)能夠完成許多任務(wù)。這個(gè)觀點(diǎn)至今仍然成立。
正如我們所見,斯坦福大學(xué)的炒菜機(jī)器人Mobile Aloha ,盡管只是一個(gè)兩指夾持器,但它已經(jīng)能夠完成許多工作。只不過,它還不能自主地完成這些任務(wù)。從夾持器的角度來看,我認(rèn)為兩指夾持器確實(shí)能夠做很多事情。
我想補(bǔ)充一下剛才的討論,提到了大模型和當(dāng)前機(jī)器人技術(shù)的浪潮,以及這些浪潮中的代表性工作。我認(rèn)為,大家都像獲得了一個(gè)新工具,雖然對這個(gè)工具還不太理解,但它帶來了新的希望。目前我們還談不上取得了什么成就,我更傾向于像李淼老師那樣回顧歷史,而不是只關(guān)注現(xiàn)在流量高的工作。
當(dāng)然,現(xiàn)在有很多引人注目的工作,比如谷歌的 Code as Policies,還有李飛飛等學(xué)者的 Vox Poser,以及前段時(shí)間非?;鸨?Mobile Aloha 。這些工作吸引了很多人的關(guān)注,讓人們對操作和大模型結(jié)合的可能性有了新的希望和思考。不過,從本質(zhì)上講,這些進(jìn)展可能都不太實(shí)質(zhì)。
我個(gè)人比較喜歡的是 diffusion policy,這是去年 RSS 會(huì)議(Robotics: Science and Systems)上的一個(gè)工作。
我之前在閱讀李淼老師的一些采訪時(shí)也提到過這些討論,我認(rèn)為這是非常好的工作。關(guān)于如何使用生成模型進(jìn)行模仿學(xué)習(xí),這為我們提供了新的思考方向。
但我更想討論的是,從具身智能和人形機(jī)器人的交叉領(lǐng)域來看,有幾種不同的切入點(diǎn)進(jìn)入這個(gè)領(lǐng)域:
一種是AI領(lǐng)域的人士,他們認(rèn)為 AI 找到了一個(gè)新的應(yīng)用場景,即人工智能的一個(gè)新載體;
另一種是我們這些早期從事機(jī)器人學(xué)的人,我們看到AI提供了新的工具。
這兩個(gè)角度是不同的。我們真正從事的是機(jī)器人學(xué),而不是因?yàn)榇竽P偷某霈F(xiàn)才轉(zhuǎn)向機(jī)器人學(xué)。當(dāng)大模型或其他新工具出現(xiàn)時(shí),我們發(fā)現(xiàn)可能有新的方法可以解決以前難以解決的問題。
從人形機(jī)器人的角度來看,我在這個(gè)領(lǐng)域研究的時(shí)間相對較長,與龐建新博士等學(xué)者有過交流甚至合作。從這個(gè)角度來看,我認(rèn)為確實(shí)有一些非常重要的歷史性成就。雖然這些成就可能不是現(xiàn)在最受媒體關(guān)注的,但我還是想和大家分享一些我認(rèn)為比較關(guān)鍵的實(shí)質(zhì)性進(jìn)展。
對于人形機(jī)器人,我并不認(rèn)為它的開發(fā)是一項(xiàng)難以逾越的挑戰(zhàn)。它本質(zhì)上是一個(gè)極其復(fù)雜的工程項(xiàng)目,關(guān)鍵在于硬件系統(tǒng)和軟件算法之間需要緊密耦合并進(jìn)行迭代。
難點(diǎn)在于,我們無法預(yù)先知曉硬件的性能如何,硬件本身的開發(fā)已經(jīng)是一項(xiàng)艱巨的任務(wù),而我們也無法確定其性能是否達(dá)標(biāo)。同樣,控制算法的優(yōu)劣也無法提前判斷,我們需要一個(gè)優(yōu)秀的平臺來驗(yàn)證這些算法。
這兩個(gè)要素相互依賴,卻往往難以同步發(fā)展,就像左腳和右腳的步伐總是需要交替迭代。
這導(dǎo)致在2012年之前,硬件資源極其匱乏,沒有足夠的時(shí)間和機(jī)會(huì)去迭代和完善軟件算法。因此,那時(shí)我們使用的都是非?;A(chǔ)的算法。
直到2012年,隨著 DARPA Robotics Challenge(DRC)等項(xiàng)目的推進(jìn),以及 Atlas、Cassie等力控機(jī)器人的發(fā)展,我們開始看到了硬件的發(fā)展,這使得軟件算法得以逐步向模型預(yù)測控制(Model Predictive Control, MPC)等更高級的控制框架靠攏。這樣的硬件迭代為整個(gè)領(lǐng)域奠定了基礎(chǔ),為軟件開發(fā)提供了一個(gè)更為堅(jiān)實(shí)的框架。
隨后,從2022年開始,包括特斯拉做人形機(jī)器人,硬件的大量統(tǒng)計(jì)數(shù)據(jù)開始出現(xiàn)。
這個(gè)過程中,我認(rèn)為最關(guān)鍵的兩個(gè)工作。
一個(gè)是 Patrick Wensing 在MIT的工作,也就是他在2017年發(fā)表在TRO的關(guān)于QDD的論文(Quasi-Direct-Drive,準(zhǔn)直驅(qū)關(guān)節(jié))。
這種準(zhǔn)直驅(qū)關(guān)節(jié)設(shè)計(jì)雖非最完美的方案,但它極大地推動(dòng)了整個(gè)行業(yè)的發(fā)展,現(xiàn)在,許多雙足機(jī)器人都采用了QDD方案。這種硬件的可用性至關(guān)重要,而且大家可以迅速收斂到很多算法的迭代,這個(gè)是至關(guān)重要的。
另外, Patrick Wensing 和他的學(xué)生2018年發(fā)表在IROS上的關(guān)于 Convex MPC 的論文也值得一提。這篇論文后來成為了 MIT 開源項(xiàng)目的一部分,為軟件算法的迭代提供了重要的起點(diǎn)。
現(xiàn)如今,四足或雙足式機(jī)器人的控制變得可能,吸引了更多人加入到這個(gè)領(lǐng)域,逐漸形成了現(xiàn)在的社區(qū),并推動(dòng)了像reinforcement learning 這樣的工具的發(fā)展。
這一成就不僅在當(dāng)時(shí)是一個(gè)標(biāo)志性的進(jìn)展,而且對后續(xù)的研究和發(fā)展產(chǎn)生了深遠(yuǎn)的影響。
龐建新:我的研究起點(diǎn)是AI和視覺感知。在我看來,尤其是大型模型出現(xiàn)之后,有幾個(gè)層面對我影響頗深。
首先是多模態(tài)感知技術(shù)。
過去我們開發(fā)的許多機(jī)器人在決策方面面臨一個(gè)重大問題:如何整合各種信息?
雖然我們編寫了大量的規(guī)則,但是從視覺感知到語音感知,獲取的信息往往是孤立的,難以將多維度信息真正融合起來。
隨著大模型的出現(xiàn),我們有可能將環(huán)境信息、歷史信息、上下文信息、語音信息,甚至個(gè)性化屬性等各類信息整合起來,以幫助機(jī)器人進(jìn)行統(tǒng)一的決策。這使得機(jī)器人具備了一種綜合感知外部環(huán)境的能力,類似于人類的多維度感知,這對機(jī)器人而言極為重要。
這是一個(gè)實(shí)際的進(jìn)步,例如VoxPoser這一工作讓我感到非常興奮。通過人的干預(yù),機(jī)器人能夠處理之前未處理過的任務(wù),這大大提升了機(jī)器人的智能水平。這為我們提供了一個(gè)很好的思路,即如何利用大型模型中的推理和知識邏輯。
我特別關(guān)注的第二個(gè)層面是運(yùn)動(dòng)規(guī)劃。
無論是通過學(xué)習(xí)驅(qū)動(dòng)(數(shù)據(jù)驅(qū)動(dòng))的方式,或者是模型驅(qū)動(dòng)的方式,歸根到底是如何去做運(yùn)動(dòng)?
過去,我們已經(jīng)進(jìn)行了許多基于模型的運(yùn)動(dòng)規(guī)劃工作,但我想提出一個(gè)問題:為什么我們需要采用數(shù)據(jù)驅(qū)動(dòng)或?qū)W習(xí)的方式來進(jìn)行規(guī)劃?
目標(biāo)是實(shí)現(xiàn)大腦、小腦與機(jī)器人本體之間的真正連接。
傳統(tǒng)上,研究大腦的是一個(gè)團(tuán)隊(duì),研究小腦的是另一個(gè)團(tuán)隊(duì),而電機(jī)和硬件的開發(fā)則由第三組人負(fù)責(zé)。這些團(tuán)隊(duì)之間的工作往往是孤立的,缺乏有效的整合。我認(rèn)為,我們需要解決的一個(gè)問題:包括如何將這些孤立的系統(tǒng)整合起來。
盡管目前人形機(jī)器人系統(tǒng)已經(jīng)取得了一定的進(jìn)展,但我們的控制系統(tǒng)、決策制定、任務(wù)規(guī)劃以及運(yùn)動(dòng)控制等方面都還有待完善。整個(gè)系統(tǒng)目前還處于一種拼湊狀態(tài),我們需要找到一種方法,可能是基于學(xué)習(xí)或數(shù)據(jù)驅(qū)動(dòng)的方法,來將這些系統(tǒng)串聯(lián)起來,形成一個(gè)連貫的主線。
在當(dāng)前階段的人形機(jī)器人發(fā)展中,我們見證了眾多新型傳感器的涌現(xiàn)。這些傳感器包括力覺傳感器(比如一維力還是六維力傳感器)、慣性傳感器,以及皮膚般的觸覺傳感器等等。
關(guān)鍵在于,我們?nèi)绾斡行У乩眠@些傳感器,使它們與機(jī)器人的運(yùn)動(dòng)控制、決策制定、任務(wù)規(guī)劃和動(dòng)作規(guī)劃有機(jī)地結(jié)合起來。這是一個(gè)極具研究價(jià)值的領(lǐng)域。
比如說,觸覺在許多應(yīng)用中都至關(guān)重要,無論是在抓取、安全還是人機(jī)交互方面。然而,目前我們尚未能夠建立起觸覺與控制之間的高效系統(tǒng)。
作為從企業(yè)角度出發(fā)的研究者,特別是從計(jì)算機(jī)視覺領(lǐng)域轉(zhuǎn)向機(jī)器人學(xué)的人,我傾向于從系統(tǒng)的角度來思考問題。我更喜歡從整體上考慮如何將各個(gè)部分有效地連接起來,而不是僅僅關(guān)注單一的技術(shù)或方法。
孫宇:非常感謝您對多模態(tài)特性的討論,這確實(shí)是一個(gè)至關(guān)重要的領(lǐng)域。隨著像 CLIP 這樣的模型的出現(xiàn),我們現(xiàn)在能夠更有效地將不同類型的模型和信號融合到一個(gè)統(tǒng)一的表示空間中。
這些模型能夠?qū)碜圆煌吹男畔?,如聲音、視頻以及其他傳感器信號,甚至是觸覺信號,整合到一個(gè)統(tǒng)一的嵌入空間中。這種能力對于機(jī)器人的運(yùn)動(dòng)和服務(wù)器方面的應(yīng)用是非常有價(jià)值的。
CLIP 模型的出現(xiàn)似乎在許多實(shí)驗(yàn)室激發(fā)了對多模態(tài)研究的興趣。這些研究不僅關(guān)注聲音和視覺信號的結(jié)合,還探索了如何整合其他類型的傳感器數(shù)據(jù),如觸覺等。這確實(shí)是一個(gè)挑戰(zhàn),因?yàn)闄C(jī)器人領(lǐng)域的硬件正在迅速發(fā)展,新的傳感器不斷涌現(xiàn)。
人類的感覺能力是相對穩(wěn)定的,從出生到現(xiàn)在,甚至幾千年前,我們的感覺方式并沒有太大變化。然而,機(jī)器人的硬件和傳感器技術(shù)變化迅速,今天使用的傳感器可能明天就會(huì)被新的技術(shù)所取代。
這意味著我們今天收集的數(shù)據(jù)可能在未來變得無用,因?yàn)榕c新的傳感器相關(guān)的數(shù)據(jù)可能會(huì)使舊數(shù)據(jù)過時(shí)。因此,我們需要不斷地收集新的數(shù)據(jù)來適應(yīng)這些變化,這是一個(gè)非常有趣的挑戰(zhàn),也是這個(gè)領(lǐng)域獨(dú)特的研究課題。
孫宇:如何從零開始構(gòu)建并部署一套高效的機(jī)器人軟硬件系統(tǒng)?在這一過程中,我們面臨哪些技術(shù)難題,又是如何一一克服的?
李淼:實(shí)際上,我并沒有完整地構(gòu)建過一個(gè)人形機(jī)器人。最近,我們才開始了一個(gè)月的項(xiàng)目,在湖北,我們獲得了湖北省一個(gè)重大項(xiàng)目的支持,目標(biāo)是構(gòu)建一個(gè)具有高爆發(fā)動(dòng)力模態(tài)的人形機(jī)器人。
在整個(gè)設(shè)計(jì)過程中,我們始終圍繞著機(jī)器人系統(tǒng)的概念進(jìn)行。無論是人形機(jī)器人、四足機(jī)器人,還是工業(yè)中使用的抓取工作站,本質(zhì)上它們都是機(jī)器人系統(tǒng)。
作為機(jī)器人系統(tǒng),其核心是完成給定的任務(wù)要求。我們?nèi)绾卧O(shè)計(jì)一個(gè)更有效或更優(yōu)化的系統(tǒng)來滿足這些任務(wù)需求?這與 Matt Mason 對機(jī)器人的一般定義相呼應(yīng),即機(jī)器人是為了實(shí)現(xiàn)特定任務(wù)而設(shè)計(jì)的系統(tǒng)。
根據(jù)系統(tǒng)理論,一個(gè)系統(tǒng)由三個(gè)主要要素組成:目的或功能、元素(包括傳感器等)、以及元素之間的連接。
如果我們將這個(gè)問題抽象化,那么輸入就是所有傳感器的數(shù)據(jù),輸出則是電機(jī)的動(dòng)作。傳感器和電機(jī)之間的連接通過各種結(jié)構(gòu)設(shè)計(jì)來實(shí)現(xiàn)。
無論是汽車、哪吒還是人形機(jī)器人,都是同樣的原則。
但挑戰(zhàn)來自于工程實(shí)踐中的權(quán)衡,以及在科學(xué)問題上的有效選擇。
例如,在當(dāng)前的人形機(jī)器人中,如何選擇最優(yōu)的傳感器組合?
如果我們不考慮預(yù)算或任務(wù)要求,理論上是越多越好。我在最初進(jìn)行示范學(xué)習(xí)時(shí)也有同樣的困惑:為什么我們只使用一個(gè)力傳感器而不是十個(gè)?或者在每個(gè)部位都使用觸覺傳感器?這樣任務(wù)信息不是更豐富嗎,我對任務(wù)的理解不是更深入嗎?那么學(xué)習(xí)出的結(jié)果肯定會(huì)更好。為什么只使用一個(gè)?
比如只用一個(gè)位置傳感器或只用一個(gè)視覺傳感器?在人形機(jī)器人上也是如此,到底多少個(gè)傳感器是最合適的?或者說,是否存在一個(gè)最合適的數(shù)量?
我認(rèn)為,這取決于人形機(jī)器人的具體工作目標(biāo)。
例如,在某些場景中,可能根本不需要視覺傳感器。
在工業(yè)場景下,如果每個(gè)物體的位置都是固定的,那么為什么還需要視覺呢?我只需要專注于執(zhí)行任務(wù)即可。
因此,這又回到了我們之前討論的專用與通用的悖論。
人形機(jī)器人是否是工業(yè)中最好的解決方案?我對此一直持懷疑態(tài)度。我認(rèn)為它可能不是最終的解決方案。
在工業(yè)上,可能更強(qiáng)調(diào)的是專屬性、分工和協(xié)作的概念。在具體設(shè)計(jì)上,我們在感知層面可能已經(jīng)做了很多工作,涉及到算法層面的問題,如何選擇傳感器,以及在規(guī)劃層面的探討,包括我們之后可能還會(huì)討論的規(guī)劃和執(zhí)行層面的問題。
從我的角度來看,目前我們最缺乏的是設(shè)計(jì)層面的創(chuàng)新。
當(dāng)我們給定一個(gè)任務(wù),比如讓機(jī)器人在家做飯,什么樣的機(jī)器人設(shè)計(jì)才是最優(yōu)的?我們是否應(yīng)該選擇人形機(jī)器人、輪式機(jī)器人,或者是安裝在廚房墻上的機(jī)器人,又或者是能在家里飛來飛去的機(jī)器人?
目前還沒有明確的答案。
我們往往只是基于個(gè)人喜好,認(rèn)為人形機(jī)器人看起來不錯(cuò),于是就模仿或借鑒現(xiàn)有的設(shè)計(jì),稍微改進(jìn)性能,制作出一個(gè)能運(yùn)行的原型。但這種做法實(shí)際上并沒有太大意義。
我們應(yīng)該深入思考更根本的問題,如何通過學(xué)習(xí)和進(jìn)化來實(shí)現(xiàn)最優(yōu)設(shè)計(jì)?能否像生物進(jìn)化一樣,僅給定環(huán)境和演變規(guī)律,讓機(jī)器人自然演化出最適合的形式?在我之前教授的一門機(jī)器人課程中,有學(xué)生提出了這樣的觀點(diǎn),這讓我感到非常震驚。
以手為例,不同的手可能適用于不同的任務(wù),比如搬運(yùn)大石頭或繡花。從同一對無指手出發(fā),它們是否會(huì)根據(jù)任務(wù)的不同而演化成完全不同的夾持器?這是目前設(shè)計(jì)中讓所有人困惑的問題。大多數(shù)人在某種程度上都在進(jìn)行復(fù)制和粘貼,而不是深入考慮任務(wù)對設(shè)計(jì)的影響。我們認(rèn)為這是一個(gè)重要且困難的問題。
另一個(gè)我們在設(shè)計(jì)中考慮的問題是觸覺傳感器。在觸覺傳感器的設(shè)計(jì)中,一個(gè)重要的部分是如何選擇合適的敏感材料。
我們通?;诂F(xiàn)有材料的性質(zhì)進(jìn)行選擇,如果它們有效,我們就使用它們。但這并不一定是最好的選擇。我們需要什么樣的靈敏度?我們需要什么樣的敏感度曲線?我們能否通過這樣的曲線,利用AI的方法,找到最適合我們功能需求的材料?我們發(fā)現(xiàn),這一點(diǎn)正是最傳統(tǒng)且最稀缺的領(lǐng)域之一。
如何有效地將數(shù)據(jù)驅(qū)動(dòng)的方法引入到傳統(tǒng)系統(tǒng)設(shè)計(jì)中,尤其是在硬件設(shè)計(jì)方面,這是我一直在探索和合作的方向。這也是我目前感到困惑的地方。
孫宇:確實(shí),每年的ICRA(國際機(jī)器人與自動(dòng)化會(huì)議)和IROS(國際智能機(jī)器人系統(tǒng)會(huì)議)上,都有許多關(guān)于硬件設(shè)計(jì)的論文。近年來,一些實(shí)驗(yàn)室開始利用強(qiáng)化學(xué)習(xí)或其他學(xué)習(xí)技術(shù)來進(jìn)行優(yōu)化,以產(chǎn)生更為優(yōu)化的機(jī)械手設(shè)計(jì)。
然而,我還沒有看到有人根據(jù)實(shí)際需求來決定傳感器的選擇。我看到了一些關(guān)于材料的研究,但是如何根據(jù)需求來選擇最合適的傳感器,這一點(diǎn)似乎還沒有得到足夠的關(guān)注。
這是一個(gè)值得進(jìn)一步探討的領(lǐng)域,我們期待未來能看到更多相關(guān)的研究和創(chuàng)新。
李淼:我注意到宋舒然團(tuán)隊(duì)曾經(jīng)采用優(yōu)化方法來設(shè)計(jì)指尖表面,這是與傳感器設(shè)計(jì)較為相關(guān)的一個(gè)實(shí)踐案例。然而,對于更廣泛的、系統(tǒng)層面的傳感器設(shè)計(jì),尤其是涉及到材料科學(xué)方面的,似乎還沒有太多的進(jìn)展。
孫宇:確實(shí)如此,目前的研究和開發(fā)主要集中在傳感器的具體布局,例如光電傳感器的放置位置,或者機(jī)械臂關(guān)節(jié)中透鏡的設(shè)計(jì)等。
張?。?/strong>關(guān)于從零開始構(gòu)建機(jī)器人軟件系統(tǒng),我非常贊同李淼老師剛才的觀點(diǎn)。
我認(rèn)為,機(jī)器人本質(zhì)上是由一系列關(guān)節(jié)連接而成的。因此,構(gòu)建機(jī)器人系統(tǒng)的關(guān)鍵首先在于理解這些關(guān)節(jié)。
關(guān)節(jié)內(nèi)部包含了許多復(fù)雜的機(jī)制,如電機(jī)、本體傳感器等,這些都是控制關(guān)節(jié)運(yùn)動(dòng)的基礎(chǔ)。每個(gè)關(guān)節(jié)都可以視為機(jī)器人最小的運(yùn)動(dòng)單元,它提供兩種基本功能:
一是提供運(yùn)動(dòng),即關(guān)節(jié)轉(zhuǎn)動(dòng)的角度;二是在腿式機(jī)器人中,關(guān)節(jié)更多地被視為提供力的單元,能夠快速響應(yīng)給定的扭矩要求。
因此,構(gòu)建系統(tǒng)的首要步驟是深入了解這些核心功能和組件,然后精通關(guān)節(jié)的設(shè)計(jì),以達(dá)到極致的性能要求。這是構(gòu)建機(jī)器人的第一步。
接下來,無論我們設(shè)計(jì)的是什么樣的機(jī)器人,本質(zhì)上都是通過結(jié)構(gòu)件連接起來的一系列關(guān)節(jié)。在這些關(guān)節(jié)中,我們布置傳感器,并進(jìn)行運(yùn)動(dòng)控制。在我看來,運(yùn)動(dòng)控制本質(zhì)上是關(guān)于所有關(guān)節(jié)的協(xié)同工作。每個(gè)關(guān)節(jié)提供獨(dú)立的運(yùn)動(dòng)單元,而整個(gè)系統(tǒng)需要這些關(guān)節(jié)之間的協(xié)同。
目前,運(yùn)動(dòng)控制技術(shù)已經(jīng)相對成熟,許多庫和工具都已經(jīng)非常完善,計(jì)算速度也很快。過去,運(yùn)動(dòng)控制是一個(gè)相當(dāng)復(fù)雜的問題,但現(xiàn)在,我們主要關(guān)注的是如何讓關(guān)節(jié)之間的協(xié)同工作更加流暢穩(wěn)定,以及如何通過運(yùn)動(dòng)控制器來實(shí)現(xiàn)這一點(diǎn)。
早期的機(jī)器人通常采用離線編程或示教編程的方式,事先規(guī)劃好動(dòng)作,然后在工業(yè)環(huán)境中重復(fù)執(zhí)行,這種方式不需要與環(huán)境進(jìn)行交互,因此相對成熟。
然而,最具挑戰(zhàn)性的部分是運(yùn)動(dòng)不能事先被編程固定,而需要根據(jù)實(shí)時(shí)感知的環(huán)境情況來決定如何響應(yīng)。這是AI可以發(fā)揮重要作用的前沿領(lǐng)域。
近年來,AI在姿態(tài)識別、抓取識別等方面取得了顯著進(jìn)展,能夠?qū)崟r(shí)處理非預(yù)設(shè)的任務(wù)。而大型語言模型則在場景語義理解和規(guī)劃方面取得了進(jìn)展。技術(shù)突破的難點(diǎn)在于后期的感知和規(guī)劃。
對于早期工程的技術(shù)難點(diǎn),我認(rèn)為主要集中在關(guān)節(jié)的內(nèi)部設(shè)計(jì)上。如果要給出建議,我的原則是,如果你不確定自己是否有能力從零開始構(gòu)建,那么最好不要自己做。最好是購買市場上已有的成熟產(chǎn)品。如果實(shí)在沒有合適的選擇,再考慮按照前面提到的方法自行開發(fā)。從頭開始構(gòu)建整個(gè)系統(tǒng)是一個(gè)漫長且復(fù)雜的過程,需要跨團(tuán)隊(duì)的協(xié)作。
在討論機(jī)器人技術(shù)落地的過程中,我們不得不面對一個(gè)現(xiàn)實(shí):打造一個(gè)穩(wěn)定可靠的機(jī)器人極具挑戰(zhàn)性。
實(shí)際上,將機(jī)器人從概念轉(zhuǎn)變?yōu)閷?shí)際應(yīng)用的過程充滿了困難,這種挑戰(zhàn)之大,以至于許多人對機(jī)器人技術(shù)的落地持謹(jǐn)慎態(tài)度。
他們認(rèn)為機(jī)器人技術(shù)難以實(shí)現(xiàn)商業(yè)化應(yīng)用,這種觀點(diǎn)并非完全沒有道理。
我認(rèn)為,這并非技術(shù)本身的局限,而是目標(biāo)設(shè)定的問題。關(guān)鍵在于,我們是否能夠準(zhǔn)確識別成熟技術(shù)的邊界。許多問題本質(zhì)上屬于探索性質(zhì),正如我們今天討論的內(nèi)容,大部分都屬于探索范疇。探索是發(fā)散的,我們無法預(yù)知最終能否找到解決方案。
制作一個(gè) Demo 相對容易,但要實(shí)現(xiàn)技術(shù)的真正落地則難度極大,兩者之間的差距可能非常巨大,你可能需要投入絕大多數(shù)精力來提高產(chǎn)品最后的可靠性。制作一個(gè)Demo可能只需要一次成功,但產(chǎn)品需要持續(xù)穩(wěn)定地提供功能。這兩者之間的區(qū)別非常明顯。
Demo在學(xué)術(shù)界可以就是一個(gè)可接受的結(jié)果,而在產(chǎn)品界,它只是一個(gè)起點(diǎn)。這是我們需要理解的基本邏輯。
孫宇:確實(shí)如此,我們每年舉辦的 Robotic Grasping and Manipulation Competition,就能清楚地展示出論文中提到的成功率在實(shí)際應(yīng)用中的表現(xiàn)。
你可以看到,實(shí)際中的表現(xiàn)與論文中描述的百分比之間存在哪些差異。在競賽中,許多實(shí)驗(yàn)室還需要搭建各種燈光環(huán)境,這些環(huán)境在實(shí)際應(yīng)用中可能并不那么可靠,這些現(xiàn)象非常有趣。
龐建新:這個(gè)問題確實(shí)非常有趣。正如張老師和李淼老師剛才所討論的,答案已經(jīng)相當(dāng)明確:不建議從零開始打造任意類型的人形機(jī)器人。
因?yàn)闄C(jī)器人與其他產(chǎn)品有所不同,它需要多個(gè)領(lǐng)域的專家共同協(xié)作才能成功研發(fā)出來。
正如我們之前提到的關(guān)節(jié)技術(shù),它本身就不簡單。然后還有本體控制、上層感知,以及各種電子器件和傳感器。處理器也可能涉及多個(gè),有的偏重AI,有的偏重控制。
所以,正如兩位老師所建議的,盡量不要從零開始制作一個(gè)人形機(jī)器人,因?yàn)檫@需要一個(gè)跨領(lǐng)域的專家團(tuán)隊(duì)才能完成這項(xiàng)工作。
這也恰恰是人形機(jī)器人的魅力所在,它是一個(gè)高效的跨領(lǐng)域?qū)<覉F(tuán)隊(duì)共同完成的項(xiàng)目。
無論你是否有一個(gè)明確的目標(biāo),或者你只是想復(fù)現(xiàn)當(dāng)前人形機(jī)器人的水平,無論你的目標(biāo)是面向某個(gè)工業(yè)場景還是服務(wù)場景,實(shí)際上你需要面對的問題都是類似的。
無論是硬件問題、軟件問題、AI問題還是傳感器問題,解決這些復(fù)雜系統(tǒng)的挑戰(zhàn)都是不可避免的,因此這并不適合單一領(lǐng)域的專家或小團(tuán)隊(duì)來承擔(dān)。
可能會(huì)有一些聚焦某一個(gè)領(lǐng)域的嘗試,比如專注于控制部分,那么可能會(huì)通過外部合作的方式來獲取相應(yīng)的硬件。
如果是一個(gè)專注于硬件的團(tuán)隊(duì),那么可能會(huì)尋找一些專注于 AI 的團(tuán)隊(duì)來進(jìn)行合作。
這是基于我自己的理解,也是我多年來從事機(jī)器人研發(fā)工作的一點(diǎn)小體會(huì)。
孫宇:關(guān)于團(tuán)隊(duì)組建,您能否大致估計(jì)一下,一個(gè)致力于研發(fā)人形機(jī)器人的團(tuán)隊(duì)需要多少人力?比如在中國一些知名的公司,資金和人才都不是問題。那么,這樣的團(tuán)隊(duì)?wèi)?yīng)該由哪些方面的人才組成?需要多少人才能做好這方面的工作?
龐建新:我認(rèn)為現(xiàn)在的問題不是資金的問題,也不是人力的問題。從全球范圍來看,成功研發(fā)過人形機(jī)器人的團(tuán)隊(duì)有多少?
人形機(jī)器人的研究投入是比較大的,國內(nèi)很多高校受到科研經(jīng)費(fèi)的限制,如果沒有經(jīng)費(fèi)支持,就無法進(jìn)行持續(xù)研究。最近這一兩年,一些高校才開始獲得這方面的投入。
當(dāng)然,在美國,研發(fā)人形機(jī)器人的團(tuán)隊(duì)也不多,獲得政府資金支持的團(tuán)隊(duì)更是少數(shù)。歐洲除了幾個(gè)知名的團(tuán)隊(duì)外,全球真正從事人形機(jī)器人研發(fā)的團(tuán)隊(duì)并不多。
我認(rèn)為現(xiàn)階段不是投入多少資金就能成功研發(fā)出人形機(jī)器人的問題。如果再過五年或十年,我們積累了足夠的人才,硬件技術(shù)開始收斂,標(biāo)準(zhǔn)化,各種模塊也逐漸成熟,那時(shí)制造人形機(jī)器人的門檻可能會(huì)降低。但到目前為止,制造一臺樣機(jī)的團(tuán)隊(duì)仍然不容易,做一臺軟硬件都可靠的人形機(jī)器人就更難了。
孫宇:明白了,非常感謝。從產(chǎn)業(yè)界的角度來看,這個(gè)挑戰(zhàn)有多大?
龐建新:制作一個(gè)Demo可能只需要找到各個(gè)領(lǐng)域的一兩個(gè)專家,再加上幾個(gè)工程師,就可以完成。但如果要面向?qū)嶋H應(yīng)用場景,做到可靠和穩(wěn)定,那還有很長的路要走。
孫宇:接下來,讓我們繼續(xù)討論大家剛才提到的AI大模型或者是基礎(chǔ)模型(foundation model)的最近進(jìn)展。特別是GPT-4、CLIP 等模型的出現(xiàn),它們在感知(perception)和知識(knowledge)方面的應(yīng)用,大大減少了研發(fā)所需的時(shí)間和精力。
大家可能對這些模型在不同領(lǐng)域的應(yīng)用已經(jīng)相當(dāng)熟悉。能否分享一下您對這方面的理解和感受?
特別是哪些大模型對機(jī)器人學(xué)領(lǐng)域尤為重要,無論是在感知、決策,還是人機(jī)交互方面,大家認(rèn)為目前還缺少哪些元素,以及未來需要在哪些方面進(jìn)行提升?
李淼:我們團(tuán)隊(duì)的研究中,我們主要關(guān)注的是規(guī)劃和執(zhí)行層面,而在感知方面的工作相對較少。在實(shí)際應(yīng)用過程中,我們傾向于將語言大模型視為任務(wù)推理和表達(dá)的工具。通過它,我們可以將復(fù)雜的任務(wù)分解為一系列子任務(wù)或子目標(biāo)。在今年5月份的 ICRA(國際機(jī)器人與自動(dòng)化會(huì)議)上的相關(guān)研討會(huì)上,我們將與香港中文大學(xué)的團(tuán)隊(duì)合作,探討這一主題。
我們將大任務(wù)拆分為多個(gè)子任務(wù)或子目標(biāo),在子任務(wù)層面,我們使用視覺語言模型來識別對應(yīng)的物體狀態(tài)。在這個(gè)過程中,我們結(jié)合了傳統(tǒng)的規(guī)劃語言,如PDDL,試圖構(gòu)建一個(gè)邏輯樹?;旧?,我們分為三層:任務(wù)規(guī)劃層、子任務(wù)規(guī)劃層,以及底層的執(zhí)行和控制。
在子任務(wù)規(guī)劃層,我們會(huì)使用VR、機(jī)器學(xué)習(xí)等技術(shù)。
在執(zhí)行和控制方面,我們會(huì)逐漸采用所謂的缺陷策略(deficient policy),尤其是在執(zhí)行具體任務(wù),如拿起蘋果或咖啡的軌跡規(guī)劃上。
早期我們可能更多地依賴于演示學(xué)習(xí)和 GMM 來表達(dá)軌跡。但現(xiàn)在我們發(fā)現(xiàn),在社交學(xué)習(xí)中,為了更好的泛化性能和與 VR 的結(jié)合,我們逐漸采用缺陷策略,因?yàn)?GMM 需要將軌跡表達(dá)為向量空間,而我們無法僅通過圖像直接得出關(guān)鍵角度。
在一些特定場景下,如使用機(jī)器人進(jìn)行超聲檢查或力控打磨過程中,我們會(huì)將力覺、觸覺等信息引入到缺陷策略中,以執(zhí)行任務(wù)。
目前我們所缺乏的,本質(zhì)上是希望有一個(gè)統(tǒng)一的模型,類似于特斯拉的FSD。左側(cè)是所有傳感器的輸入,右側(cè)是電機(jī)的輸出,輸入和輸出非常具體。我們希望一個(gè)網(wǎng)絡(luò)能夠完全實(shí)現(xiàn)端到端的功能。
但目前在機(jī)器人領(lǐng)域,我們還無法做到這一點(diǎn)。我們只能在一些非常小的任務(wù)中實(shí)現(xiàn)端到端的網(wǎng)絡(luò),但在泛化到更廣泛的任務(wù)時(shí),我們發(fā)現(xiàn)這是不可行的。
這可能仍然是一個(gè)數(shù)據(jù)問題,就像在自動(dòng)駕駛領(lǐng)域一樣。但在機(jī)器人領(lǐng)域,盡管主流觀點(diǎn)傾向于認(rèn)為數(shù)據(jù)是關(guān)鍵,但我們尚未得出明確的結(jié)論,即僅僅通過收集足夠的數(shù)據(jù)就能解決所有問題。
然而,目前大型研究團(tuán)隊(duì)和創(chuàng)業(yè)公司都在朝著這個(gè)方向努力,尋求創(chuàng)造更經(jīng)濟(jì)高效的數(shù)據(jù)采集方法。例如,使用 Aloha 等方法可以低成本地進(jìn)行演示或仿真,甚至通過動(dòng)作捕捉技術(shù)來收集數(shù)據(jù),這些都是為了高效地采集大量數(shù)據(jù)。
在模型層面,我們可能更多地嘗試將自動(dòng)駕駛領(lǐng)域的邏輯適配到機(jī)器人中,提出了所謂的基礎(chǔ)模型(mediplation foundation model),包括操作、導(dǎo)航和感知的基礎(chǔ)模型,并試圖將它們整合應(yīng)用到機(jī)器人中。在實(shí)際測試中,我們也可能會(huì)逐步將自動(dòng)駕駛領(lǐng)域的計(jì)算能力轉(zhuǎn)移到機(jī)器人領(lǐng)域。
我們觀察到,在規(guī)劃層面,大模型的使用依賴于更強(qiáng)大的計(jì)算芯片,可能達(dá)到每秒10次的頻率。在運(yùn)動(dòng)規(guī)劃層面,使用VIM技術(shù)可能將計(jì)算頻率提升至每秒百次。而在最底層,如運(yùn)動(dòng)控制、模型預(yù)測控制(MPC)或力控制,甚至包括機(jī)械臂的穩(wěn)定性,我們可能需要達(dá)到每秒500到1000次的頻率??傮w而言,我們?nèi)匀粫?huì)遵循傳統(tǒng)的分層控制策略。
但是否能夠開發(fā)出一種網(wǎng)絡(luò),能夠同時(shí)實(shí)現(xiàn)規(guī)劃、執(zhí)行和控制這三個(gè)層面的功能?
正如我們從 OpenAI 發(fā)布的 Figure 人形機(jī)器人的視頻中看到的,其中仍然存在“行為選擇”的問題。
Figure 視頻展示:https://www.bilibili.com/video/BV16u4m1M7bL/
這一層的選擇機(jī)制令人困惑,不確定是從神經(jīng)網(wǎng)絡(luò)中自動(dòng)進(jìn)行選擇,還是在不同層之間會(huì)有一個(gè)鏈接層來進(jìn)行選擇。
我相信,在不久的將來,可能在今年年底之前,機(jī)器人領(lǐng)域的整體路線將有一個(gè)非常明確的答案,即端到端的方法是否能夠解決機(jī)器人領(lǐng)域的所有問題。
這可能是所有想要進(jìn)入這個(gè)領(lǐng)域的人需要快速?zèng)Q定的問題:要么專注于端到端的解決方案,要么專注于其中的某一個(gè)特定點(diǎn),如上層的任務(wù)規(guī)劃、中間的運(yùn)動(dòng)規(guī)劃,或底層的傳統(tǒng)控制。最終,所有這些都將融入到一個(gè)更大的網(wǎng)絡(luò)中,形成一個(gè)通用的 pipeline 。
孫宇:端到端的方法確實(shí)頗具挑戰(zhàn)性。在機(jī)器人學(xué)中,端到端通常是指從視覺輸入開始,例如圖像識別抓取點(diǎn)。
但實(shí)際上,這并不是完全的端到端,因?yàn)樽罱K還需要運(yùn)動(dòng)規(guī)劃的參與。因?yàn)槟阈枰M(jìn)行碰撞檢測、避障和運(yùn)動(dòng)規(guī)劃。如何讓夾持器正確地抓取物體,以及如何控制夾持器的開合,實(shí)際上并沒有實(shí)現(xiàn)真正的端到端。
李淼:關(guān)于這個(gè)問題,我想補(bǔ)充一點(diǎn)。在我讀博士期間,我們收集了大量的關(guān)于阻抗控制(impedance control)的數(shù)據(jù)。我自己收集了大約 40 萬個(gè)不同的抓取樣本,并使用數(shù)據(jù)驅(qū)動(dòng)的方法制作了一個(gè)非常好的控制器。
但后來我意識到,在抓取任務(wù)中,我們可能需要的數(shù)據(jù)量還不夠。
如果我們能夠收集到足夠多的數(shù)據(jù),比如 100 億個(gè)抓取樣本,那么所有我們之前討論的碰撞檢測、手指約束,甚至包括更傳統(tǒng)的摩擦約束(friction core)以及力控制(force control)等,這些約束本質(zhì)上都會(huì)在我們收集的大規(guī)模數(shù)據(jù)集中隱含地包含進(jìn)去。
這樣,我們就有可能實(shí)現(xiàn)真正的端到端控制。這只是一個(gè)假設(shè),我提出來與大家分享和討論。
張巍:在討論大模型與機(jī)器人結(jié)合的話題時(shí),我認(rèn)為主要有兩種思路:一種是端到端的方法,另一種是分層的方法。
端到端的代表是 RT 系列,它們通過在廚房環(huán)境中使用機(jī)器人收集數(shù)據(jù),最終希望能夠?qū)崿F(xiàn)直接的控制。
然而,目前來看,端到端方法的擴(kuò)展仍然是一個(gè)挑戰(zhàn)。
至于分層方法,最近Figure的人形機(jī)器人展示出了三層結(jié)構(gòu),雖然具體的分層數(shù)量可能因人而異,但基本思路是相似的。這不一定非得是三層,也可能是四層,或者兩層,這取決于具體情況。
我想分享幾個(gè)觀點(diǎn):
首先,端到端方法不應(yīng)該被視為一個(gè)黑箱或者僅僅是架構(gòu)的問題,它更是一個(gè)訓(xùn)練流程。
人們喜歡端到端方法,并不僅僅是因?yàn)樗缮窠?jīng)網(wǎng)絡(luò)構(gòu)成,而是因?yàn)樗軌蛲ㄟ^數(shù)據(jù)驅(qū)動(dòng)的方式減少對規(guī)則的假設(shè),從而訓(xùn)練起整個(gè)架構(gòu)。
我們構(gòu)建的大多數(shù)架構(gòu),包括特斯拉所使用的,所謂的端到端方法,其實(shí)只是流程中的一部分,許多模塊都是事先經(jīng)過驗(yàn)證的。例如,transformer 和一些 Bird's-Eye-View (BEV)等,這些都是經(jīng)過深入理解的組件,并不是純粹未知的黑箱操作。這是一個(gè)我想要強(qiáng)調(diào)的方面。
至于使用什么樣的模型,我認(rèn)為這是一個(gè)見仁見智的問題。
我同意李淼老師之前的觀點(diǎn),我們也使用缺陷策略和大模型進(jìn)行任務(wù)分解,以及模型學(xué)習(xí)進(jìn)行技能訓(xùn)練。這些流程其實(shí)大同小異。
我想稍微分享一下,關(guān)于模型的底層邏輯,到底什么是模型?大模型好還是小模型好?
實(shí)際上,ChatGPT 背后的核心是 MOE(Mixture of Experts),它并不是一個(gè)單一的巨大網(wǎng)絡(luò),而是由專家網(wǎng)絡(luò)連接而成,通過一些 機(jī)制讓每個(gè)專家發(fā)揮其特定優(yōu)勢。我認(rèn)為未來機(jī)器人的發(fā)展也會(huì)類似,MOE 形式的模型來完成整體任務(wù)。
讓我們回到模型的底層邏輯。所謂的大模型,主要指的是大型語言模型,但無論模型大小,關(guān)鍵在于它們是否有用。
我們經(jīng)常上課給學(xué)生講的第一句話:All models are wrong, but some are useful.(所有的模型都是錯(cuò)誤的,但有些是有用的)
我們使用模型,主要看它們對我們的應(yīng)用是否有用。
模型的本質(zhì)是對數(shù)據(jù)和觀察現(xiàn)象的壓縮,這種壓縮是否對你的應(yīng)用有損害,決定了模型的正確性。
例如,我屋里的空調(diào),我可以用一個(gè)簡單的一階動(dòng)態(tài)系統(tǒng)模型來描述,這很簡單,這是我對應(yīng)用的壓縮。同時(shí),我也可以將所有分子的運(yùn)動(dòng)都描述出來,以了解精確的物理分布。在這種情況下,數(shù)據(jù)量會(huì)非常大。哪種模型更好,取決于是否能夠壓縮和描述這些數(shù)據(jù)。
如果你沒有牛頓定律,這些數(shù)據(jù)你都得記下來,否則你無法將它們聯(lián)系起來。現(xiàn)在我們不需要記住所有數(shù)據(jù),只要知道物理定律就可以了。物理定律是運(yùn)動(dòng)的基礎(chǔ)模型,而語言的基礎(chǔ)模型是概率網(wǎng)絡(luò),即大型語言模型。
語言無法壓縮到更低維度的空間,我們目前找到了一種通過大型語言模型來刻畫的方式,但這并不一定是最好的方法。
因此,大型語言模型對語言、邏輯甚至視覺這類離散數(shù)據(jù)非常有用。它們大大幫助我們進(jìn)行人機(jī)交互和任務(wù)理解規(guī)劃。但是,如果要讓機(jī)器人執(zhí)行任務(wù),特別是與物理世界的交互,目前大型語言模型的幫助還是有限的。
具體來說,大型語言模型可能在決策層面上有所幫助,但對于具體的運(yùn)動(dòng)控制,它仍然面臨挑戰(zhàn)。
總的來說,我更傾向于認(rèn)為 MOE 的方式在機(jī)器人領(lǐng)域可能更有用,就像 ChatGPT 一樣,它由多個(gè)專家的小模型組成,通過一個(gè) agent 的概念將它們連接起來。這可能是未來機(jī)器人發(fā)展的一個(gè)方向。
孫宇:非常好的分享。確實(shí),這兩種方法各有其優(yōu)勢。人類大腦的結(jié)構(gòu)也為我們提供了一個(gè)類比,正如龐博士之前提到的,大腦和小腦協(xié)同工作,各自承擔(dān)不同的功能。
同樣地,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)也可能不會(huì)是單一的,它們可能會(huì)根據(jù)功能的不同而有所區(qū)別。
一種網(wǎng)絡(luò)可能負(fù)責(zé)處理運(yùn)動(dòng)相關(guān)的信息,而另一種則處理更高層次的抽象知識。
這兩種網(wǎng)絡(luò)在結(jié)構(gòu)和功能上都是不同的。這種結(jié)構(gòu)多樣性在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中是非常有價(jià)值的,因?yàn)樗试S我們針對特定任務(wù)優(yōu)化網(wǎng)絡(luò),從而提高整體性能。
龐建新:關(guān)于 AI 大模型的利弊,我想分享一下我自己的看法。
我認(rèn)為,在 AI 大模型中,對于機(jī)器人領(lǐng)域最有價(jià)值的部分之一是,如何有效地挖掘模型中蘊(yùn)含的知識、推理能力,以及挖掘事物之間關(guān)系的能力。
這對于機(jī)器人的感知和決策至關(guān)重要,因?yàn)槿绻麢C(jī)器人缺乏這種能力,就意味著它失去了自主性。這種能力取決于機(jī)器人對外部環(huán)境、人物、事件之間邏輯關(guān)系的理解。
首先,我們需要探討如何挖掘這種能力。
這種能力并不完全取決于挖掘一個(gè)多么大的模型,而是要考慮與場景相關(guān)的數(shù)據(jù)。我們需要構(gòu)建一個(gè)有效的模型,無論是通過調(diào)整大模型的參數(shù),還是專門為這個(gè)場景構(gòu)建一個(gè)小模型,使其具備這種能力。這樣,機(jī)器人就能在特定場景下具備真正的感知能力,并實(shí)現(xiàn)主動(dòng)交互。
這是我們所說的機(jī)器人真正的“感知能力”,能夠?qū)崿F(xiàn)主動(dòng)的交互。
正如李淼老師之前提到的,如果給機(jī)器人一個(gè)指令去做飯,但還需要人的指導(dǎo),那么我們?nèi)绾巫寵C(jī)器人自己能夠去做飯呢?它需要外部環(huán)境的感知能力,來了解當(dāng)前的時(shí)間狀態(tài)和做飯的具體步驟。這就需要大模型的能力,我們認(rèn)為大模型具備這樣的潛力,能夠讓機(jī)器人具備主動(dòng)感知和交互的能力。
另一部分是與人類運(yùn)動(dòng)控制和運(yùn)動(dòng)智能相關(guān)。
其實(shí)人類的很多運(yùn)動(dòng)是無意識的。這部分是為什么我們要考慮使用基于數(shù)據(jù)的方法,因?yàn)槲覀冋也坏阶銐蚝玫臄?shù)學(xué)模型來表達(dá)這些運(yùn)動(dòng)。
例如,在雙足行走的傳統(tǒng)方法中,我們使用的是一個(gè)簡化的物理模型,因?yàn)槲覀冋也坏脚c人類行走匹配的數(shù)學(xué)模型。這時(shí),我們可能會(huì)引入數(shù)據(jù)驅(qū)動(dòng)的模型。
這些模型與基于知識的模型是不同的?;谥R的模型需要很多專家知識和廣泛的顯性知識,而面向運(yùn)動(dòng)的數(shù)據(jù)驅(qū)動(dòng)的模型可能涉及的是隱性知識。這種隱性的知識可以通過構(gòu)建仿真環(huán)境或真實(shí)環(huán)境的數(shù)據(jù)融合進(jìn)行訓(xùn)練來獲得。但這個(gè)模型能否直接應(yīng)用到物理世界中又是另一個(gè)問題。
我們知道,人形機(jī)器人的物理結(jié)構(gòu),無論是機(jī)械部分還是控制部分,與數(shù)字世界中的模型之間總是存在很大差異。那么如何將數(shù)據(jù)驅(qū)動(dòng)的模型應(yīng)用到物理世界中,這是一個(gè)巨大的挑戰(zhàn)。
具體來說,人形機(jī)器人可以定義為三大能力:
1,移動(dòng)能力。
移動(dòng)能力在很多情況下主要依賴于感知技術(shù),但它并不完全與感知緊密相關(guān)。
例如,保持地面平衡主要依賴于力覺反饋或者機(jī)器人自身的運(yùn)動(dòng)平衡控制智能。機(jī)器人的視覺感知可能僅用于識別并避開障礙,如懸崖或雜物。
2,操作能力。
我始終認(rèn)為操作部分有可能實(shí)現(xiàn)真正的端到端控制。我們可以將操作視為一種剛體運(yùn)動(dòng),或者是基于反饋的運(yùn)動(dòng)。這種方法有助于避免許多對感知精度要求很高相關(guān)的問題,使得操作過程更加類似于人類的機(jī)制。
盡管我們?nèi)祟惖囊曈X感知系統(tǒng)無法精確定位物體的絕對位置,我們卻能夠相對精確地感知兩個(gè)物體之間的相對位置。同樣的,現(xiàn)在機(jī)器人有類似的問題,能夠感知到物體之間的相對位置,通過大量的學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的方法,基于視覺感知作為反饋,我們可以實(shí)現(xiàn)端到端的抓取。
此外,在實(shí)現(xiàn)端到端控制的過程中,我們可能并不總是直接控制電機(jī)。如果直接控制電機(jī),可能會(huì)與硬件緊密耦合,這不利于模型的泛化。因此,我可能會(huì)選擇將這個(gè)過程分解為兩個(gè)模型的融合。
正如張巍老師所提到的,多個(gè)模型的組合并不意味著它不是端到端的,這只是為了解決硬件配合的問題,將其分解實(shí)現(xiàn)。
3,適應(yīng)能力。
我們需要處理不同傳感器的輸入和適配不同硬件。因?yàn)槠涮厥鈽?gòu)型,人形機(jī)器人未必是處理單一任務(wù)效率最高的。為了適應(yīng)現(xiàn)實(shí)環(huán)境,人形機(jī)器人有許多通用化的設(shè)計(jì),它在不同環(huán)境和多任務(wù)中的平均效率可能是最優(yōu)的。
我們的目標(biāo)是在特定場景中實(shí)現(xiàn)效率最優(yōu)。這就要求我們的模型具有泛化性,不僅要適應(yīng)不同的環(huán)境,還要適配不同的硬件構(gòu)型。
例如,在工業(yè)場景中,我們不一定需要五指手,也許二指或三指手就能提高手的可靠性和耐用性。因此,我們可以采用分層的方式來滿足場景適配、硬件適配或任務(wù)適配的需求。
大模型為我們提供了許多可能性,但同時(shí)也帶來了許多問題。
首先是成本問題。
在機(jī)器人上運(yùn)行多個(gè)模型會(huì)增加成本。我們需要考慮如何整合這些模型,同時(shí)保證經(jīng)濟(jì)性。我們可能需要專用的硬件設(shè)備,或者考慮運(yùn)營成本。對于一些需要大量知識的復(fù)雜任務(wù),我們可能需要更大的模型,而這些模型可能無法在本地運(yùn)行,需要部署在云端,都涉及成本問題。
其次是效率問題。
在使用 ChatGPT 等工具時(shí),我們發(fā)現(xiàn)很少一次就能成功完成任務(wù),通常需要多次嘗試和調(diào)整輸入。這也是機(jī)器人應(yīng)用中需要避免或解決的問題。在大模型中,尤其是生成式的大模型使用中,這是一個(gè)天然存在的挑戰(zhàn)。
第三個(gè)問題是關(guān)于機(jī)器人使用生成式大模型在交互過程中可能出現(xiàn)的幻覺問題。
在機(jī)器人與人交互時(shí),可能會(huì)產(chǎn)生一些錯(cuò)誤的認(rèn)知或理解。然而,對于用戶來說,機(jī)器人本身并不知道這些幻覺的存在。因此,如何解決信息對齊問題來消除幻覺,確保機(jī)器人的執(zhí)行既可靠又有效,同時(shí)保障安全。
這三個(gè)挑戰(zhàn)是機(jī)器人在實(shí)際應(yīng)用過程中必須面對和解決的。
孫宇:非常感謝龐博士的分享。的確,現(xiàn)在大語言模型和其他模型在傳統(tǒng) AI 領(lǐng)域的應(yīng)用已經(jīng)相當(dāng)廣泛。在這些應(yīng)用中,并不要求模型始終正確無誤。但在機(jī)器人學(xué)領(lǐng)域,情況就有所不同了。
龐建新:是的,我對大模型的應(yīng)用進(jìn)行了分類,分為兩類業(yè)務(wù),這是我個(gè)人的分類,可能不完全準(zhǔn)確:
一類是“非嚴(yán)肅應(yīng)用”,在這些應(yīng)用中,錯(cuò)誤是可以接受的,可以通過人的反饋進(jìn)行糾正。
例如,讓機(jī)器人畫圖或?qū)懺姡踔量偨Y(jié)論文,這些都是可以接受的應(yīng)用場景。
但在“嚴(yán)肅場景”中,比如金融風(fēng)險(xiǎn)控制或關(guān)鍵交互決策,我們就需要非常謹(jǐn)慎,確保信息的準(zhǔn)確對齊。在這些領(lǐng)域,確保輸出信息的可靠,成為了一個(gè)重要的挑戰(zhàn)。
目前的AI技術(shù)仍然受限于特定場景,而實(shí)現(xiàn)真正的泛化和通用人工智能(AGI)仍然是一個(gè)挑戰(zhàn)。如何使機(jī)器人能夠真正走進(jìn)開放式服務(wù)場景的挑戰(zhàn)?倒推企業(yè)和學(xué)術(shù)界應(yīng)該如何協(xié)作?
孫宇:不同的應(yīng)用場景有不同的要求。我們已經(jīng)從更高層次的角度討論了很多內(nèi)容。現(xiàn)在我們從一個(gè)更具體的角度來看待這個(gè)問題。
在當(dāng)前的機(jī)器人領(lǐng)域,還面臨著哪些重大挑戰(zhàn),需要哪些技術(shù)的進(jìn)一步提升?請大家說一些具體的例子。
對于想要進(jìn)入機(jī)器人領(lǐng)域的研究者來說,哪些領(lǐng)域已經(jīng)準(zhǔn)備好落地,不再需要進(jìn)行研究?而哪些領(lǐng)域我們認(rèn)為目前還不夠成熟,可能需要給其他研究者一些方向性的建議?這些挑戰(zhàn)在什么情況下可能得到解決?或者有沒有對未來某個(gè)時(shí)間點(diǎn)的預(yù)測?
從做飯的角度來看,我認(rèn)為最開始的是知識表示,然后是運(yùn)動(dòng)規(guī)劃,接著是控制,最后是執(zhí)行。以及還有一個(gè)問題,那就是錯(cuò)誤處理。
無論是機(jī)器人還是人,在做飯的過程中總會(huì)犯一些錯(cuò)誤,特別是對于剛開始沒有經(jīng)過良好訓(xùn)練的人來說,進(jìn)入廚房做飯犯錯(cuò)誤是非常正常的。那么,我們應(yīng)該如何來處理這些錯(cuò)誤?
李淼:結(jié)合當(dāng)前的需求來看,我曾經(jīng)與港中文的陳翡合作過許多炒菜的例子,包括在 Aude Billard 教授的實(shí)驗(yàn)室也進(jìn)行過許多不消耗資源的項(xiàng)目,比如從冰箱取出食材進(jìn)行烹飪。
在上層規(guī)劃這一層面,因?yàn)橹饕窃诜抡嫫髦羞M(jìn)行,所以成果主要取決于任務(wù)分割的好壞,而這并不涉及太多的破壞性。
我認(rèn)為,任務(wù)分割的好壞沒有客觀的標(biāo)準(zhǔn),但隨著ChatGPT等技術(shù)的發(fā)展,將大任務(wù)分解為小任務(wù)的能力已經(jīng)相對成熟。
進(jìn)一步到具體執(zhí)行層面,我們首先需要感知,例如廚房中的工具位置、刀具和食物的位置。在烹飪過程中,我們需要知道食物的狀態(tài),比如它的味道。在感知層面,尤其是視覺感知,我認(rèn)為已經(jīng)相當(dāng)成熟,因?yàn)樗饕婕罢趽鹾凸饩€問題。隨著視覺相關(guān)競賽研究的進(jìn)展,這一領(lǐng)域逐漸變得成熟。
然而,在多模態(tài)感知方面,除了視覺,還可能包括嗅覺、味覺等。在烹飪過程中,我們不能僅憑顏色判斷食物的好壞。尤其在具體烹飪時(shí),可能需要監(jiān)測火焰溫度或食物的熟度,這些無法僅靠視覺來判斷。
在這一層,除了視覺以外的感知層面,目前研究的人還較少,還沒有人將嗅覺或味覺集成到機(jī)器人的大模型中,或者這方面的傳感器尚未明確。
再往后,就是規(guī)劃和執(zhí)行層面。
在執(zhí)行層面,涉及具體操作和與物理世界的接觸時(shí),成熟度并不高。接觸和非接觸過程中的建模非常困難,尤其是實(shí)際操作中,比如抓取時(shí),手指移動(dòng)一毫米可能導(dǎo)致完全不同的結(jié)果。
在涉及嚴(yán)格接觸的操作,尤其是所謂的靈巧操作時(shí),目前還遠(yuǎn)未準(zhǔn)備好。無論是從硬件、感知還是執(zhí)行層面,都存在許多挑戰(zhàn)。我認(rèn)為,要讓機(jī)器人的這種操作走進(jìn)我們的日常生活,目前成熟度可能只有20%~30%,無論是控制、硬件還是算法、傳感器等方面,都還有很長的路要走。這是我個(gè)人的粗略估計(jì)。
孫宇:感謝分享。物理接觸或者物理交互是一個(gè)相當(dāng)具有挑戰(zhàn)性且尚未成熟的領(lǐng)域。我個(gè)人感覺,以1毫米為例,給我的感覺,似乎表明抓取或者物理接觸本身是一個(gè)非連續(xù)的過程。我不知道這種感覺對不對,請張巍教授分享一下。
張?。?/strong>基本上我同意這個(gè)觀點(diǎn),并且我想稍微補(bǔ)充一些細(xì)節(jié)。關(guān)于什么是“ready”的領(lǐng)域,我們可以大致將其分為三層。
第一層是規(guī)劃(planning),這包括了很多內(nèi)容,如人機(jī)交互、任務(wù)規(guī)劃等。規(guī)劃層面指的是機(jī)器人能夠通過想到就能完成的任務(wù),不需要實(shí)際動(dòng)作,只需要規(guī)劃出要做什么,大概怎么走,這些不需要真實(shí)的運(yùn)動(dòng)過程。
第二層是每個(gè)單元的動(dòng)作或者原始動(dòng)作(motion),涉及到接觸物體、改變物體的姿態(tài)等。例如炒菜過程中的各種動(dòng)作,與接觸相關(guān)的這一層目前是發(fā)展中的。
第三層,即整個(gè)運(yùn)動(dòng)控制底層與硬件的耦合,這一層相對來說比較成熟。
大模型或者多模態(tài)感知對上層規(guī)劃和中間的動(dòng)作執(zhí)行都有幫助,它們都是必需的。目前感知部分,尤其是那些需要計(jì)劃的感知任務(wù),大模型可以提供一定的幫助,但在我看來,這些仍然是非常不成熟的,特別是涉及到接觸或保持接觸的感知任務(wù),這一步相對比較困難。
我認(rèn)為模仿學(xué)習(xí)在數(shù)據(jù)足夠多、任務(wù)足夠簡單的情況下可能會(huì)有一定的效果,但在任務(wù)復(fù)雜且泛化要求高的情況下,這也是未來值得期待的一個(gè)研究聚合點(diǎn)。
孫宇:張老師,你剛才所提及的,最初期的兩個(gè)層次似乎尚未完全準(zhǔn)備就緒,對吧?我指的是從知識層面到運(yùn)動(dòng)規(guī)劃這一階段,也就是最基礎(chǔ)的高層次知識。
張?。?/strong>確實(shí),我在描述上層結(jié)構(gòu)時(shí)并未過分詳細(xì)。你提到的從知識到運(yùn)動(dòng)規(guī)劃這一部分,我認(rèn)為相對來說問題要簡單一些。運(yùn)動(dòng)規(guī)劃方面的問題也相對容易處理。
但是,當(dāng)涉及到任務(wù)規(guī)劃和分配,以及進(jìn)一步拆解工作時(shí),我認(rèn)為這些都是屬于大型模型中 agent 的一部分。大型模型本身的 agent 功能,比如幫我回復(fù)一封電子郵件或者安排一次旅行,這些任務(wù)要準(zhǔn)確無誤地完成還是有挑戰(zhàn)的。
至于機(jī)器人智能體(Robot agent)的發(fā)展,我認(rèn)為還有一段路要走,才能對外推廣。
當(dāng)你將任務(wù)拆解到動(dòng)作層面,比如我要過去拿起一個(gè)手柄,整個(gè)運(yùn)動(dòng)規(guī)劃方面,我認(rèn)為相對來說問題要簡單一些。我們可以看到如何解決這個(gè)問題,只要避免碰撞就可以了。
如果規(guī)劃的目的是為了避免碰撞,那么規(guī)劃就相對容易;如果是為了實(shí)現(xiàn)接觸,那就復(fù)雜了。
孫宇:事實(shí)上,我們之前也認(rèn)為在開放環(huán)境中尋找任務(wù)是非常具有挑戰(zhàn)性的。但是自從引入了GPT-4 之后,我們發(fā)現(xiàn)有許多方法可以有效地提取任務(wù),或者構(gòu)建一個(gè)局部知識圖譜。
通過這兩種方法的結(jié)合,我們能夠使任務(wù)執(zhí)行變得非??煽?。我們有信心能夠?qū)?zhǔn)確度提升到 90% 以上。那么,整個(gè)任務(wù)的執(zhí)行就不會(huì)有問題。
如果你給出 100 個(gè)大型任務(wù),其中 9個(gè)任務(wù)將會(huì)被完全正確地分解。只有在 10% 的情況下,可能在分解過程中的某一步會(huì)出現(xiàn)問題。
即使在大多數(shù)家庭環(huán)境中,這樣的準(zhǔn)確度也是可以接受的。因?yàn)樵诓僮鬟^程中,如果機(jī)器人發(fā)現(xiàn)某一步驟不正確,它可以自我糾正并重新執(zhí)行。所以我認(rèn)為這部分的工作是非常有價(jià)值的。
張?。?/strong>您剛才提到的任務(wù)分解正確率。如果在執(zhí)行一個(gè)子任務(wù)時(shí)出現(xiàn)了錯(cuò)誤,比如我想要煎雞蛋,但機(jī)器人卻不小心打翻了。這種情況是在您所說的 90% 的準(zhǔn)確率之內(nèi),還是屬于另一種情況?這涉及到任務(wù)的泛化能力。
孫宇:是的,這種情況屬于失敗恢復(fù)(failure recovery),這是我們目前正在努力解決的問題,而且這不包括在90% 的準(zhǔn)確率之內(nèi)。
90%的準(zhǔn)確率是指,比如有一個(gè)簡單的食譜,比如說今天早上想吃煎牛排或者煎蛋卷,你告訴機(jī)器人整個(gè)任務(wù),它能夠?qū)⑷蝿?wù)分解為從冰箱取出雞蛋、放置位置、攪拌等十幾到二十個(gè)步驟,并且能夠 100% 正確執(zhí)行。
如果有一步不正確,在機(jī)器人實(shí)際執(zhí)行過程中,它可能會(huì)發(fā)現(xiàn)問題并不容易解決,這時(shí)就會(huì)重新觸發(fā)任務(wù)的再生,從而確保任務(wù)能夠順利完成。
龐建新:技術(shù)與現(xiàn)實(shí)之間存在著不小的差距。
我認(rèn)為,第一個(gè)顯著的分歧尤其在于通用人工智能(AGI)方面。
毫無疑問,當(dāng)前的AI與AGI之間還有很長的距離。這意味著,在開放場景下,基于知識驅(qū)動(dòng)的方法并不十分有效,因?yàn)槲覀儫o法實(shí)現(xiàn)完全的泛化。要真正實(shí)現(xiàn)泛化,我們需要解決兩個(gè)主要問題:第一,實(shí)現(xiàn) AGI;第二,我們需要更先進(jìn)的硬件。
前者是指,當(dāng)前機(jī)器人硬件與尚未達(dá)到 AGI 的 AI 的結(jié)合,這主要用于解決特定問題。
例如處理結(jié)構(gòu)化或半結(jié)構(gòu)化環(huán)境下的特定任務(wù),在有限環(huán)境或半結(jié)構(gòu)化環(huán)境下執(zhí)行有限任務(wù),我們認(rèn)為這在當(dāng)前已經(jīng)具備了可行性。盡管仍需在傳感器、系統(tǒng)工程等多方面進(jìn)行改進(jìn),但這些主要是工程問題,而非理論上的挑戰(zhàn)。
另外,我們是否擁有足夠先進(jìn)的硬件。
例如,我們可能會(huì)需要超越傳統(tǒng)的電機(jī)驅(qū)動(dòng)方案,因?yàn)殡姍C(jī)在功能密度和能量密度上有其天然的限制,可能會(huì)有新的機(jī)械構(gòu)型出現(xiàn)。
再算上AGI的加持,我們的開放場景本質(zhì)上將不再僅僅是處理結(jié)構(gòu)化任務(wù),而是在執(zhí)行這些任務(wù)的過程中處理異常情況。
例如,如何處理突然出現(xiàn)的障礙物或失敗的情況?如何通過多次嘗試學(xué)習(xí)并掌握某種能力?我認(rèn)為這兩個(gè)階段是我們未來發(fā)展的關(guān)鍵。
回到當(dāng)前的現(xiàn)實(shí)情況,實(shí)際上在感知層面,我們也面臨著巨大的挑戰(zhàn)。
我在感知方面的研究較多,但目前的感知技術(shù)主要還是基于二維的。然而,當(dāng)機(jī)器人在移動(dòng)或操作過程中,我們還需要解決的是三維感知問題。
目前,要讓 3D 感知技術(shù)在我們的機(jī)器人本體上有效應(yīng)用,或者在稍微泛化的任務(wù)中發(fā)揮作用,仍然是一個(gè)挑戰(zhàn)。例如,最簡單的情況,如何處理透明或反光物體?當(dāng)然,這可能需要多個(gè)傳感器,通過多視覺傳感器融合來實(shí)現(xiàn)。
再舉一個(gè)例子,前幾天我參加了一個(gè)具身智能的討論會(huì)。他們提到了一個(gè)對人類來說非常簡單,但對于機(jī)器人卻頗具挑戰(zhàn)的場景:如何端有水的杯子?水是流體,會(huì)晃動(dòng),無論如何都會(huì)晃動(dòng)。你如何確保在倒水時(shí)不濺出杯子?在移動(dòng)過程中又如何保證水不濺出?
這對人類來說可能是自然而然的事情,不需要經(jīng)過大腦思考,小腦就可以基于觸覺反饋進(jìn)行自然的運(yùn)動(dòng),感知到重心的變化等。
然而,這一部分恰恰是機(jī)器人目前尚未解決的問題。目前所有的感知和控制大多基于視覺或觸覺感知,但這些傳感器并沒有我們想象的那么有效。它們與我們的控制模型之間還沒有建立起有效的關(guān)系,這也限制了許多可能性的發(fā)展。
我們通常將這類問題歸結(jié)為:算法在特定場景下的應(yīng)用。
以端水這個(gè)簡單的任務(wù)為例,我相信目前大多數(shù)機(jī)器人要成功完成這項(xiàng)任務(wù)還相當(dāng)困難。這個(gè)任務(wù)雖然聽起來簡單,但其實(shí)質(zhì)涉及到從感知到控制,再到?jīng)Q策,甚至還包括視覺感知等多個(gè)層面,是一個(gè)非常復(fù)雜的挑戰(zhàn)。
這里我想強(qiáng)調(diào)的一個(gè)觀點(diǎn)是:目前機(jī)器人還面臨的一個(gè)重大挑戰(zhàn)在于整個(gè)系統(tǒng)的不完整性。我們尚未構(gòu)建出一個(gè)完整且可靠的機(jī)器人系統(tǒng)。如果我們能夠有效地整合各種模塊,實(shí)現(xiàn)它們之間的信息傳遞和控制轉(zhuǎn)換,那么很多問題可能可以迎刃而解。
因此,回到我的理解,我們企業(yè)需要做的工作實(shí)際上是如何在學(xué)術(shù)界的成果基礎(chǔ)上構(gòu)建這樣一套系統(tǒng),逐步實(shí)現(xiàn)傳感器與系統(tǒng)之間的標(biāo)準(zhǔn)化,然后在場景和技術(shù)的雙重推動(dòng)下,使各個(gè)模塊能夠相互連接。
我之前提到過一個(gè)觀點(diǎn):我們現(xiàn)在需要解決的是感知與控制的融合問題,也就是如何將感知和控制結(jié)合成一個(gè)完整的系統(tǒng)。目前這兩者仍然是割裂的。
例如,我們的AI大腦和小腦之間的連接和數(shù)據(jù)傳遞,哪些數(shù)據(jù)能夠?qū)⑺鼈冞B接起來,形成一個(gè)完整的系統(tǒng)?
當(dāng)然,我們也看到了當(dāng)前的現(xiàn)狀,在結(jié)構(gòu)化或半結(jié)構(gòu)化環(huán)境下,一些任務(wù)已經(jīng)具備了基本的應(yīng)用落地可能性。
孫宇:非常感謝。我認(rèn)為有一個(gè)方面非常有趣,那就是無人駕駛技術(shù)之所以能夠迅速發(fā)展,主要是因?yàn)樗妮斎胼敵龆家呀?jīng)標(biāo)準(zhǔn)化了。無論是傳感器還是執(zhí)行器,都是一套相對標(biāo)準(zhǔn)化的系統(tǒng)。雖然有些無人駕駛使用雷達(dá),有些不使用,有些使用攝像頭,有些使用各種不同的設(shè)備,但整體上的差異還是相對較少的。至于視覺行為其實(shí)更少,它基本上是在一個(gè)三維空間中進(jìn)行操作,這個(gè)維度相對較小。
但如果你看看人形機(jī)器人或其他類型的機(jī)器人,它們的操作空間維度就多得多。而且傳感器的穩(wěn)定性也不盡相同。
今天的系統(tǒng)可能增加了一個(gè)觸覺傳感器,明天的系統(tǒng)可能引入了新的視覺效果,或者紅外線傳感器,或者其他類型的傳感器。
這些傳感器的安裝位置也各不相同,有的安裝在手上,有的可能安裝在其他位置。這就導(dǎo)致了系統(tǒng)的復(fù)雜性。
此外,電機(jī)的動(dòng)態(tài)特性也各不相同。
因此,總的來說,人形機(jī)器人系統(tǒng)或類似的系統(tǒng)比無人駕駛系統(tǒng)要復(fù)雜得多。
孫宇:在AI+機(jī)器人領(lǐng)域,未來幾年可能會(huì)出現(xiàn)哪些顛覆性的技術(shù)變革?或者認(rèn)為有哪些方向是大家應(yīng)該注意的?
李淼:因?yàn)槲乙恢痹趶氖伦ト》矫娴难芯?,包括你提到?IROS 挑戰(zhàn)賽,我也連續(xù)參加了好幾次,積累了一些經(jīng)驗(yàn)。
我們普遍認(rèn)為,在人形手部這個(gè)研究方向上,盡管目前許多人在模仿 Optimus 進(jìn)行硬件設(shè)計(jì),但我們一直在思考這個(gè)問題:以往我們在進(jìn)行抓取規(guī)劃時(shí),可能更多地關(guān)注接觸層面。但在所有抓取任務(wù)中,我們實(shí)際上更應(yīng)該建立一個(gè)更加通用和統(tǒng)一的接觸層面解決方案,而不是僅限于特定手部的。
我們應(yīng)該努力構(gòu)建一個(gè)更大、更統(tǒng)一的系統(tǒng),從感知到接觸層面,涵蓋抓取規(guī)劃的全面數(shù)據(jù)集或基準(zhǔn)。我認(rèn)為這可能是我們這個(gè)領(lǐng)域,特別是在未來五年內(nèi)解決操縱問題時(shí),需要努力實(shí)現(xiàn)的目標(biāo)。
這個(gè)過程有點(diǎn)像在自動(dòng)駕駛中,至少需要在路上劃出車道線。如果沒有車道線,那么自動(dòng)駕駛的問題就會(huì)相對復(fù)雜化,沒有任何規(guī)則可循。
因此,我認(rèn)為可以借此機(jī)會(huì)呼吁,在后續(xù)的學(xué)術(shù)交流或與供應(yīng)商的討論中,嘗試構(gòu)建一個(gè)緊湊、豐富、多彩的大一統(tǒng)數(shù)據(jù)集。我認(rèn)為這將是非常必要的一步。
張?。?/strong>關(guān)于開放性的建議或者說個(gè)人體會(huì),我想具體談一談。
目前,AI與機(jī)器人結(jié)合的研究方向無疑是一個(gè)充滿潛力且至關(guān)重要的領(lǐng)域,未來的發(fā)展前景令人期待。鑒于目前從事這一研究的人數(shù),我認(rèn)為這個(gè)領(lǐng)域仍然非常活躍,充滿了創(chuàng)新的可能性。
然而,無論是在學(xué)術(shù)界還是工業(yè)界,我認(rèn)為有一個(gè)需要明確的問題,那就是定位不清。有時(shí)候,學(xué)術(shù)界的人在做工程,而公司里的人在做學(xué)術(shù)研究,這種現(xiàn)象相當(dāng)普遍。
大家共同的產(chǎn)品是一個(gè) Demo ,它既不是一個(gè)產(chǎn)品的起點(diǎn),也不屬于學(xué)術(shù)研究。
我希望從我個(gè)人的角度,無論是在我的團(tuán)隊(duì)還是我們所在的公司中,我們都應(yīng)該明確自己的定位:我們是企業(yè)還是學(xué)術(shù)機(jī)構(gòu)?企業(yè)應(yīng)該做什么,學(xué)術(shù)機(jī)構(gòu)應(yīng)該做什么?
此外,我們當(dāng)前研究的問題是技術(shù)落地和產(chǎn)品化的問題,還是技術(shù)探索的問題?這一點(diǎn)也需要弄清楚。
我注意到,這種現(xiàn)象已經(jīng)存在很長時(shí)間,包括我的學(xué)生在內(nèi),他們認(rèn)為如果某個(gè)領(lǐng)域的 Demo 已經(jīng)有人做過,那么這個(gè)領(lǐng)域似乎就要走到盡頭了。
但我認(rèn)為,這些酷炫的 Demo,我稱之為“萊特兄弟時(shí)刻”,它們只是科研工作的開始。
別人看到一個(gè)令人印象深刻的 Demo,可能會(huì)覺得機(jī)器人領(lǐng)域已經(jīng)沒有什么可做的了,但事實(shí)上,如何設(shè)計(jì)飛行器、真正理解空氣動(dòng)力學(xué)、進(jìn)行實(shí)際測試等深層次的工作,才是科研的真正開始。
這些令人驚嘆的視頻或 Demo,實(shí)際上是科研工作的起點(diǎn)。
孫宇:確實(shí)我們經(jīng)常在各種場合看到一些令人印象深刻的Demo。
Demo 本身往往不會(huì)告訴你背后團(tuán)隊(duì)做了哪些調(diào)整工作,而且Demo是處在一種受控的、確定性的環(huán)境中。
比如 OpenAI 在舞臺展示的一個(gè) Demo,場景被設(shè)置在家庭環(huán)境中,舞臺上面放了一個(gè)蘋果,有人問:“有什么可以吃的?”
那種情況下只有一個(gè)蘋果,機(jī)器人只能拿給他一個(gè)蘋果。
但如果這個(gè)人說:“我不想吃蘋果,你能給我一個(gè)橙子嗎?”這時(shí)我就不知道機(jī)器人會(huì)怎么做。
或者如果有人說:“我不想吃皮,你能幫我把皮剝了嗎?”
我不知道OpenAI的機(jī)器人是否能夠完成這些事情。
很多時(shí)候,一些看起來很酷的 Demo 可能會(huì)產(chǎn)生一定的誤導(dǎo)性。但在工業(yè)界,我們可能也需要意識到,有些東西其實(shí)還沒有完全準(zhǔn)備好。
龐建新:我分享一下我的想法。多年來,我一直致力于人工智能技術(shù)與人、機(jī)器人的融合研究。在此期間,我也有幸與一些學(xué)術(shù)機(jī)構(gòu),包括張巍老師等進(jìn)行過合作。
我一直期望能夠促進(jìn)學(xué)術(shù)界、工業(yè)界之間的深入互動(dòng)。這種互動(dòng)不應(yīng)僅僅局限于特定課題或項(xiàng)目,而是希望學(xué)術(shù)界的老師們能與工業(yè)界的同行們一起,基于某些實(shí)際場景共同探討科學(xué)問題。
我們可以明確分工,共同解決當(dāng)前工業(yè)界和學(xué)術(shù)界面臨的問題。工業(yè)界的同仁們也非常愿意提供相應(yīng)的環(huán)境和場景,以便大家共同探討。這是我向大家發(fā)出的倡議。
孫宇:感謝各位的分享和參與。確實(shí),工業(yè)界與學(xué)術(shù)界的交流能夠帶來許多有趣且具有挑戰(zhàn)性的問題。在實(shí)際應(yīng)用中,我們可以發(fā)現(xiàn)許多尚未解決的資源問題,而工業(yè)界也能從學(xué)術(shù)界獲得新的靈感,了解哪些理念可以落地實(shí)施,以及研究的真正難點(diǎn)所在。
由于時(shí)間關(guān)系,我們今天的討論就到這里結(jié)束。
非常感謝各位嘉賓在本次圓桌論壇中的精彩分享。同時(shí),也感謝雷峰網(wǎng)提供這樣一個(gè)平臺,讓大家有機(jī)會(huì)交流各種觀點(diǎn),特別是關(guān)于當(dāng)前熱點(diǎn)話題——AI與機(jī)器人技術(shù)的多角度洞察和心得體會(huì)。
希望我們的討論,能夠?qū)τ^眾以及未來觀看視頻的朋友們有所幫助,并期待這些交流能夠促成一些實(shí)際的合作。
本文作者 吳彤 長期關(guān)注人工智能、生命科學(xué)和科技一線工作者,習(xí)慣系統(tǒng)完整記錄科技的每一次進(jìn)步,歡迎同道微信交流:icedaguniang
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。