0
大模型技術橫空出世,無疑讓機器人技術再次成為研究和產業(yè)界的焦點。
這一技術的核心優(yōu)勢在于,其卓越的數據處理和模式識別能力。通過深度學習與神經網絡技術的不斷優(yōu)化,大模型能夠高效地處理和分析龐大的數據集。
這意味著,機器人可以在更短的時間內學習新技能,更快地適應新任務,甚至能夠在沒有明確編程的情況下自主解決問題。不僅如此,在大模型的助力下,機器人的感知能力變得更加精準,這無疑將極大地拓展其應用領域,并增強其在復雜環(huán)境中的適應性和靈活性。
然而,大模型技術的發(fā)展同樣帶來了挑戰(zhàn)。如何確保機器人的決策過程透明、可解釋;如何讓機器人真正融入開放式服務場景,這些都是亟待解決的技術難題。
最近,雷峰網舉辦的「大模型時代,機器人的技術革新與場景落地」線上圓桌論壇,匯集了南佛羅里達大學的孫宇教授、武漢大學的李淼教授、逐際動力的張巍博士、優(yōu)必選科技的龐建新博士等產研界精英。
他們的見解覆蓋了從理論研究到實際應用,從硬件設計到軟件算法,從感知技術到任務規(guī)劃,為我們提供了一個全面而深入的視角,以洞察這一領域的最新發(fā)展和未來趨勢。
孫宇教授,從機器人學的角度出發(fā),強調端到端方法在機器人學中的挑戰(zhàn)性,尤其是在運動規(guī)劃和執(zhí)行方面,真正的端到端控制尚未實現。同時他也指出,AI 大模型如 GPT-4 和 CLIP ,在機器人感知和知識應用方面顯著減少了研發(fā)時間和精力,使得 Demo 制作相對容易。但關鍵是,機器人技術的真正落地和產品的可靠性仍是一個巨大挑戰(zhàn)。
李淼教授,他重點關注機器人規(guī)劃和執(zhí)行層面,提出了利用大型語言模型來簡化任務表達的可能性。同時他也指出,目前機器人領域缺乏類似于特斯拉 FSD 的統(tǒng)一模型,盡管數據驅動方法在機器人領域被認為是關鍵,但目前尚未得出明確的結論,即僅僅通過收集足夠的數據就能解決所有問題。
張巍教授,他討論了端到端方法和分層方法的優(yōu)劣,強調端到端方法不僅僅是架構問題,更是訓練流程。他認為,未來機器人的發(fā)展可能會采用類似 ChatGPT 背后的 MOE 模型,由多個專家的小模型組成,通過 agent 連接。同時他也指出,大語言模型在決策層面上有所幫助,但對于具體的運動控制,仍然面臨挑戰(zhàn)。
龐建新博士,是從 AI 領域轉向機器人研究的杰出代表,他強調,AI 大模型在機器人領域最有價值的部分,是知識推理能力和挖掘事物關系的能力。同時,他提出了整合大腦、小腦與機器人本體之間的工作,以及如何將新型傳感器有效利用到機器人系統(tǒng)中的問題。
以下為本次圓桌對話全文(經編輯):
孫宇:歡迎大家齊聚線上,也感謝雷峰網(公眾號:雷峰網)的組織。我相信大家和我一樣,都對接下來大模型+機器人的討論充滿期待。在開始之前,請大家介紹下自己。
李淼:大家好!我是李淼。我本碩畢業(yè)于華中科技大學機械工程專業(yè),博士有幸在瑞士洛桑聯邦理工學院(EPFL)與 Aude Billard 教授共事,致力于機器人技術,特別是模仿學習領域的研究。
這與我們今天的討論主題息息相關。
在本科階段,我的研究重點偏向于建模和規(guī)劃。隨著時間的推移,尤其是在攻讀博士學位期間,我開始轉向數據驅動的研究方法。在這一時期,我還與孫宇教授就抓?。╣rasping)領域的多個問題進行了深入討論。
2016年之后,我選擇回國并嘗試創(chuàng)業(yè)。我們的目標是打造一個機器人操作系統(tǒng),旨在整合機器人的設計、感知、規(guī)劃和執(zhí)行過程。盡管當時的整合主要集中在傳統(tǒng)的軟件層面,以及使工業(yè)軟件的 API 更加易于使用,但這一工作我們堅持了許多年,并最終在多個場景中實現了落地應用。
同年,我也加入了武漢大學,并在工業(yè)科學研究院領導了一個機器人實驗室。
我們專注于將機器人模仿學習應用于不同場景,尤其是在工業(yè)和醫(yī)療領域。在這個過程中,我們逐漸意識到,機器人任務規(guī)劃這一高層次的問題缺乏明確的定義。我們通常稱之為TAMP(Task and Motion Planning),即將任務規(guī)劃、任務和運動規(guī)劃混合在一起。但在實際應用中,我們發(fā)現很多任務難以用具體的方式描述,這帶來了不小的挑戰(zhàn)。
隨著大型語言模型的出現,我們開始思考:為何非要在向量空間中規(guī)劃任務呢?例如“拾取與放置”任務,或者在抓取過程中,只需提供坐標,就能很好地解釋任務。但在現實世界中,用口語描述任務可能會更簡單。因此,我們開始將實驗室的部分工作與大型語言模型相結合,從感知、規(guī)劃到控制,這一領域的進展非常迅速。
我們的工作仍在進行中,每天都有新的發(fā)現和學習。
張?。捍蠹液?!我是張巍。我在中科大完成了自動化專業(yè)的本科學習,之后在美國繼續(xù)深造并從事教學工作十余年。2019年,我選擇回國,并全職加入了南方科技大學。
目前,我在南方科技大學擔任教職,我的實驗室叫機器人控制與學習實驗室(CLEAR LAB),全稱為 Control & Learning for Robotics and Autonomy,關注機器人控制理論與學習算法方面的研究。
我早期的研究重點是最優(yōu)控制和運動規(guī)劃,隨著機器人硬件的成熟,機器人領域的研究點日益增多,我的研究重點放在人形機器人,涵蓋了感知、規(guī)劃、控制以及強化學習等多個相關領域。
逐際動力成立于2022年,我是創(chuàng)始人,主要從事通用機器人的研發(fā),目前的重點在于人形機器人的開發(fā),同時也有四輪足。
龐建新:大家好!我是龐建新,來自優(yōu)必選科技。我的學術和職業(yè)道路可能與在座的各位有所不同。
我在中科大攻讀了電子信息工程的本科學位,那時我就已經開始涉足人工智能相關的工作。我的本科畢業(yè)設計專注于語音信號處理,包括早期的語音識別技術。在中科大繼續(xù)深造期間,我選擇了計算機視覺作為我的碩士和博士研究方向,從事圖像處理和分析的研究。
從本科時代起,我就一直致力于探索如何將AI技術與硬件相結合。
在硬件性能有限的情況下,例如頻率僅為66兆赫茲的處理器上,我嘗試運行語音相關技術。在研究視覺技術時,我也在思考如何讓視覺算法在低算力硬件上運行。
在我開始職業(yè)生涯時,我加入了一家外企,繼續(xù)探索如何將視覺算法應用于低算力硬件。我記得非常清楚,我們曾嘗試在只有100兆赫茲處理器的數碼相機中實現復雜的算法。在深度學習技術廣泛應用之前,我致力于開發(fā)小型算法,解決實際問題。
2011年,我加入了中國科學院深圳先進技術研究院,開始探索如何將人工智能技術與機器人技術相結合。
我們團隊孵化了多個與機器人相關的項目,并與騰訊合作,推出了全球較早的基于云的桌面交互式機器人產品。2011年,我們的產品發(fā)布后,受到了極大的關注。隨后,我們繼續(xù)開發(fā)面向交互的智能機器人產品。
2015年初,我加入了優(yōu)必選科技。那時公司還處于初創(chuàng)階段,研發(fā)團隊僅有十幾人,剛拿到A輪融資不久。
所以那時我加入優(yōu)必選科技后,與CTO熊友軍博士一起負責整個公司的研發(fā)工作,并建立了優(yōu)必選研究院。我們還規(guī)劃了人形機器人的整體布局,成為國內最早從事人形機器人研發(fā)的企業(yè)之一。我們也努力推動產業(yè)化進程,從最初的小型人形機器人開始,到大型人形機器人的研發(fā)和應用落地。
在這個過程中,我得以將軟硬件結合的能力、人工智能技術應用于機器人技術。同時,我也學習了許多新知識,包括機器人控制、運動規(guī)劃等。
我認為,現在的機器人和大型模型研究已經不再局限于單一領域,而是涉及多個領域的知識。例如,大型語言模型已經從基礎的語言知識擴展到多個領域,覆蓋了從感知、理解、任務拆解和規(guī)劃等多個層面,已經不再是單一技術。
在當前階段,我認為既有挑戰(zhàn)也富有研究價值。我們團隊在優(yōu)必選科技已經完成了多輪機器人的研發(fā),并探索了如何將各種技術應用于機器人之上。
我們遇到了很多挑戰(zhàn),但現在我們有了新方向,無論是在感知、規(guī)劃還是控制方面,新技術的出現都將為人形機器人產業(yè)的發(fā)展帶來巨大變化,希望繼續(xù)抓住這個機遇。
孫宇:優(yōu)必選科技自2016年起就開始研發(fā)人形機器人了,對吧?
龐建新:優(yōu)必選實際從2012年成立以來就投入人形機器人核心技術以及產品的研發(fā)。2016年,我們推出了大型人形機器人Walker的原型機。2018年,我們在CES展(國際消費類電子產品展覽會)上首次發(fā)布了第一代Walker;到了2019年,我們推出了第二代Walker;2021年我們推出了Walker X;2023年我們研發(fā)了工業(yè)版人形機器人Walker S。到目前一共是五次迭代。
孫宇:那么,您能介紹一下優(yōu)必選科技目前的人形機器人發(fā)展到了什么程度嗎?你們主要面向哪些應用場景?
龐建新:優(yōu)必選科技在人形機器人領域的研究經歷了多個階段。最初,我們的人形機器人更多用在服務場景,如導覽接待、教育科普等。但從2022年開始,我們開始認識到,在工業(yè)制造場景中,人形機器人可能有更大的應用潛力,有可能比商用服務場景更早實現落地。因此從去年至今,我們的重點放在了探索人形機器人在智能制造場景中的應用落地。今年年初,Walker S就在蔚來汽車總裝車間進行實訓。這是全球首個人形機器人在汽車工廠流水線與人類協作完成汽車裝配及質量檢查作業(yè)的嘗試。
孫宇:非常感謝各位的分享。我們剛才討論了AI和機器人領域的發(fā)展,特別是大語言模型和基礎模型的出現,極大地提升了 AI 的能力。這似乎預示著機器人技術再次成為研究和產業(yè)界的焦點,因為人們開始認識到 AI 的能力已經能夠讓機器人執(zhí)行一些非常重要的任務,比如服務機器人和工業(yè)機器人。
我認為我們可以利用各自的背景和平時觀察到的趨勢,為觀眾介紹一些在國內外學術界和工業(yè)界在機器人方向上取得的顯著成就,以及這些成就對整個領域發(fā)展的推動作用。
李淼:在當前自媒體高度發(fā)達的時代,我們經常會在雷峰網等平臺上看到關于人形機器人、AI 等相關領域的最新動態(tài)。這些內容通過各種渠道廣泛傳播,讓我們對這一領域有了更深入的了解。
對于我個人而言,我關注的是機器人領域的周期性發(fā)展,這是一個循環(huán)往復的過程,非常有趣。
回顧龐建新博士之前提到的通用與專用機器人的話題,我記得在2011年參加 IROS 會議(國際智能機器人與系統(tǒng)大會)時,我們討論過所謂的靈巧手(dexterous hand)的問題。
當時,許多人認為靈巧手并沒有實際應用價值。我記得 Matei,也就是 GraspIt 軟件(https://graspit-simulator.github.io/)的創(chuàng)作者,曾說過一句著名的話:兩指夾鉗(Gripper)可以解決人類社會95%的問題,剩下的問題即使有靈巧手也難以解決。
然而,十年后的今天,社會的觀點發(fā)生了巨大變化。人們開始認識到,擁有類似人類的靈巧手,尤其是具有高度靈活性的靈巧手,將會改變很多事情。
在2010年至2015年期間,我嘗試了許多種靈巧手,相信孫宇教授也有類似的經歷。我們使用過Barrett Hand、 Allegro Hand 、Shadow Hand 、iCub Hand 等,但它們的功能在當時受到了硬件和仿真算法的很大限制。
現在,人們可能會過分強調人形機器人與大模型結合的優(yōu)勢,而忽略了最底層的根本問題,例如在grasping 的Contact(接觸)方面從未被提及。
第二點,我們看到大模型本質上帶來了什么改變?它改變了我們對任務表達的理解。
傳統(tǒng)的機器人任務表達往往簡化為軌跡、pick and place 或者 force / impedance control 等形式,但任務表達本身并沒有一個清晰的定義。隨著大語言模型的引入,我們可以將自然語言這一維度加入到任務表達中。
然而,如果我們回顧歷史,早在2010年,人們就已經使用知識圖譜等工具進行任務表達。在歐盟,過去我參與了兩個相對知名的項目:RoboEarth 和 RoboHow。
RoboEarth 的目標是將網上的知識整理成一步步的指令,供機器人執(zhí)行。
RoboHow 則是2014年歐盟機器人項目的佼佼者,它將網上的視頻、人的視覺強化學習、Wikipedia的知識整合到一個龐大的知識引擎中,進行基于邏輯的推理。
今天的大語言模型從更高的維度、更大的數據維度整合了這些知識。我們期待這次能夠在任務表達上實現重大突破。
孫宇:這確實引發(fā)了一個問題,靈巧手究竟能有什么用處?
我們當時討論了手內操作(in-hand manipulation)的重要性。如果沒有手指,就無法實現手內操作。因此,當時確實存在一些不確定性,人們不清楚這些手在實際應用中能達到什么樣的程度。但是,這種研究是逐步推進的,李淼老師的觀點非常正確。
張巍:首先,我依然認為兩指夾持器(2-finger Gripper)能夠完成許多任務。這個觀點至今仍然成立。
正如我們所見,斯坦福大學的炒菜機器人Mobile Aloha ,盡管只是一個兩指夾持器,但它已經能夠完成許多工作。只不過,它還不能自主地完成這些任務。從夾持器的角度來看,我認為兩指夾持器確實能夠做很多事情。
我想補充一下剛才的討論,提到了大模型和當前機器人技術的浪潮,以及這些浪潮中的代表性工作。我認為,大家都像獲得了一個新工具,雖然對這個工具還不太理解,但它帶來了新的希望。目前我們還談不上取得了什么成就,我更傾向于像李淼老師那樣回顧歷史,而不是只關注現在流量高的工作。
當然,現在有很多引人注目的工作,比如谷歌的 Code as Policies,還有李飛飛等學者的 Vox Poser,以及前段時間非?;鸨?Mobile Aloha 。這些工作吸引了很多人的關注,讓人們對操作和大模型結合的可能性有了新的希望和思考。不過,從本質上講,這些進展可能都不太實質。
我個人比較喜歡的是 diffusion policy,這是去年 RSS 會議(Robotics: Science and Systems)上的一個工作。
我之前在閱讀李淼老師的一些采訪時也提到過這些討論,我認為這是非常好的工作。關于如何使用生成模型進行模仿學習,這為我們提供了新的思考方向。
但我更想討論的是,從具身智能和人形機器人的交叉領域來看,有幾種不同的切入點進入這個領域:
一種是AI領域的人士,他們認為 AI 找到了一個新的應用場景,即人工智能的一個新載體;
另一種是我們這些早期從事機器人學的人,我們看到AI提供了新的工具。
這兩個角度是不同的。我們真正從事的是機器人學,而不是因為大模型的出現才轉向機器人學。當大模型或其他新工具出現時,我們發(fā)現可能有新的方法可以解決以前難以解決的問題。
從人形機器人的角度來看,我在這個領域研究的時間相對較長,與龐建新博士等學者有過交流甚至合作。從這個角度來看,我認為確實有一些非常重要的歷史性成就。雖然這些成就可能不是現在最受媒體關注的,但我還是想和大家分享一些我認為比較關鍵的實質性進展。
對于人形機器人,我并不認為它的開發(fā)是一項難以逾越的挑戰(zhàn)。它本質上是一個極其復雜的工程項目,關鍵在于硬件系統(tǒng)和軟件算法之間需要緊密耦合并進行迭代。
難點在于,我們無法預先知曉硬件的性能如何,硬件本身的開發(fā)已經是一項艱巨的任務,而我們也無法確定其性能是否達標。同樣,控制算法的優(yōu)劣也無法提前判斷,我們需要一個優(yōu)秀的平臺來驗證這些算法。
這兩個要素相互依賴,卻往往難以同步發(fā)展,就像左腳和右腳的步伐總是需要交替迭代。
這導致在2012年之前,硬件資源極其匱乏,沒有足夠的時間和機會去迭代和完善軟件算法。因此,那時我們使用的都是非?;A的算法。
直到2012年,隨著 DARPA Robotics Challenge(DRC)等項目的推進,以及 Atlas、Cassie等力控機器人的發(fā)展,我們開始看到了硬件的發(fā)展,這使得軟件算法得以逐步向模型預測控制(Model Predictive Control, MPC)等更高級的控制框架靠攏。這樣的硬件迭代為整個領域奠定了基礎,為軟件開發(fā)提供了一個更為堅實的框架。
隨后,從2022年開始,包括特斯拉做人形機器人,硬件的大量統(tǒng)計數據開始出現。
這個過程中,我認為最關鍵的兩個工作。
一個是 Patrick Wensing 在MIT的工作,也就是他在2017年發(fā)表在TRO的關于QDD的論文(Quasi-Direct-Drive,準直驅關節(jié))。
這種準直驅關節(jié)設計雖非最完美的方案,但它極大地推動了整個行業(yè)的發(fā)展,現在,許多雙足機器人都采用了QDD方案。這種硬件的可用性至關重要,而且大家可以迅速收斂到很多算法的迭代,這個是至關重要的。
另外, Patrick Wensing 和他的學生2018年發(fā)表在IROS上的關于 Convex MPC 的論文也值得一提。這篇論文后來成為了 MIT 開源項目的一部分,為軟件算法的迭代提供了重要的起點。
現如今,四足或雙足式機器人的控制變得可能,吸引了更多人加入到這個領域,逐漸形成了現在的社區(qū),并推動了像reinforcement learning 這樣的工具的發(fā)展。
這一成就不僅在當時是一個標志性的進展,而且對后續(xù)的研究和發(fā)展產生了深遠的影響。
龐建新:我的研究起點是AI和視覺感知。在我看來,尤其是大型模型出現之后,有幾個層面對我影響頗深。
首先是多模態(tài)感知技術。
過去我們開發(fā)的許多機器人在決策方面面臨一個重大問題:如何整合各種信息?
雖然我們編寫了大量的規(guī)則,但是從視覺感知到語音感知,獲取的信息往往是孤立的,難以將多維度信息真正融合起來。
隨著大模型的出現,我們有可能將環(huán)境信息、歷史信息、上下文信息、語音信息,甚至個性化屬性等各類信息整合起來,以幫助機器人進行統(tǒng)一的決策。這使得機器人具備了一種綜合感知外部環(huán)境的能力,類似于人類的多維度感知,這對機器人而言極為重要。
這是一個實際的進步,例如VoxPoser這一工作讓我感到非常興奮。通過人的干預,機器人能夠處理之前未處理過的任務,這大大提升了機器人的智能水平。這為我們提供了一個很好的思路,即如何利用大型模型中的推理和知識邏輯。
我特別關注的第二個層面是運動規(guī)劃。
無論是通過學習驅動(數據驅動)的方式,或者是模型驅動的方式,歸根到底是如何去做運動?
過去,我們已經進行了許多基于模型的運動規(guī)劃工作,但我想提出一個問題:為什么我們需要采用數據驅動或學習的方式來進行規(guī)劃?
目標是實現大腦、小腦與機器人本體之間的真正連接。
傳統(tǒng)上,研究大腦的是一個團隊,研究小腦的是另一個團隊,而電機和硬件的開發(fā)則由第三組人負責。這些團隊之間的工作往往是孤立的,缺乏有效的整合。我認為,我們需要解決的一個問題:包括如何將這些孤立的系統(tǒng)整合起來。
盡管目前人形機器人系統(tǒng)已經取得了一定的進展,但我們的控制系統(tǒng)、決策制定、任務規(guī)劃以及運動控制等方面都還有待完善。整個系統(tǒng)目前還處于一種拼湊狀態(tài),我們需要找到一種方法,可能是基于學習或數據驅動的方法,來將這些系統(tǒng)串聯起來,形成一個連貫的主線。
在當前階段的人形機器人發(fā)展中,我們見證了眾多新型傳感器的涌現。這些傳感器包括力覺傳感器(比如一維力還是六維力傳感器)、慣性傳感器,以及皮膚般的觸覺傳感器等等。
關鍵在于,我們如何有效地利用這些傳感器,使它們與機器人的運動控制、決策制定、任務規(guī)劃和動作規(guī)劃有機地結合起來。這是一個極具研究價值的領域。
比如說,觸覺在許多應用中都至關重要,無論是在抓取、安全還是人機交互方面。然而,目前我們尚未能夠建立起觸覺與控制之間的高效系統(tǒng)。
作為從企業(yè)角度出發(fā)的研究者,特別是從計算機視覺領域轉向機器人學的人,我傾向于從系統(tǒng)的角度來思考問題。我更喜歡從整體上考慮如何將各個部分有效地連接起來,而不是僅僅關注單一的技術或方法。
孫宇:非常感謝您對多模態(tài)特性的討論,這確實是一個至關重要的領域。隨著像 CLIP 這樣的模型的出現,我們現在能夠更有效地將不同類型的模型和信號融合到一個統(tǒng)一的表示空間中。
這些模型能夠將來自不同源的信息,如聲音、視頻以及其他傳感器信號,甚至是觸覺信號,整合到一個統(tǒng)一的嵌入空間中。這種能力對于機器人的運動和服務器方面的應用是非常有價值的。
CLIP 模型的出現似乎在許多實驗室激發(fā)了對多模態(tài)研究的興趣。這些研究不僅關注聲音和視覺信號的結合,還探索了如何整合其他類型的傳感器數據,如觸覺等。這確實是一個挑戰(zhàn),因為機器人領域的硬件正在迅速發(fā)展,新的傳感器不斷涌現。
人類的感覺能力是相對穩(wěn)定的,從出生到現在,甚至幾千年前,我們的感覺方式并沒有太大變化。然而,機器人的硬件和傳感器技術變化迅速,今天使用的傳感器可能明天就會被新的技術所取代。
這意味著我們今天收集的數據可能在未來變得無用,因為與新的傳感器相關的數據可能會使舊數據過時。因此,我們需要不斷地收集新的數據來適應這些變化,這是一個非常有趣的挑戰(zhàn),也是這個領域獨特的研究課題。
孫宇:如何從零開始構建并部署一套高效的機器人軟硬件系統(tǒng)?在這一過程中,我們面臨哪些技術難題,又是如何一一克服的?
李淼:實際上,我并沒有完整地構建過一個人形機器人。最近,我們才開始了一個月的項目,在湖北,我們獲得了湖北省一個重大項目的支持,目標是構建一個具有高爆發(fā)動力模態(tài)的人形機器人。
在整個設計過程中,我們始終圍繞著機器人系統(tǒng)的概念進行。無論是人形機器人、四足機器人,還是工業(yè)中使用的抓取工作站,本質上它們都是機器人系統(tǒng)。
作為機器人系統(tǒng),其核心是完成給定的任務要求。我們如何設計一個更有效或更優(yōu)化的系統(tǒng)來滿足這些任務需求?這與 Matt Mason 對機器人的一般定義相呼應,即機器人是為了實現特定任務而設計的系統(tǒng)。
根據系統(tǒng)理論,一個系統(tǒng)由三個主要要素組成:目的或功能、元素(包括傳感器等)、以及元素之間的連接。
如果我們將這個問題抽象化,那么輸入就是所有傳感器的數據,輸出則是電機的動作。傳感器和電機之間的連接通過各種結構設計來實現。
無論是汽車、哪吒還是人形機器人,都是同樣的原則。
但挑戰(zhàn)來自于工程實踐中的權衡,以及在科學問題上的有效選擇。
例如,在當前的人形機器人中,如何選擇最優(yōu)的傳感器組合?
如果我們不考慮預算或任務要求,理論上是越多越好。我在最初進行示范學習時也有同樣的困惑:為什么我們只使用一個力傳感器而不是十個?或者在每個部位都使用觸覺傳感器?這樣任務信息不是更豐富嗎,我對任務的理解不是更深入嗎?那么學習出的結果肯定會更好。為什么只使用一個?
比如只用一個位置傳感器或只用一個視覺傳感器?在人形機器人上也是如此,到底多少個傳感器是最合適的?或者說,是否存在一個最合適的數量?
我認為,這取決于人形機器人的具體工作目標。
例如,在某些場景中,可能根本不需要視覺傳感器。
在工業(yè)場景下,如果每個物體的位置都是固定的,那么為什么還需要視覺呢?我只需要專注于執(zhí)行任務即可。
因此,這又回到了我們之前討論的專用與通用的悖論。
人形機器人是否是工業(yè)中最好的解決方案?我對此一直持懷疑態(tài)度。我認為它可能不是最終的解決方案。
在工業(yè)上,可能更強調的是專屬性、分工和協作的概念。在具體設計上,我們在感知層面可能已經做了很多工作,涉及到算法層面的問題,如何選擇傳感器,以及在規(guī)劃層面的探討,包括我們之后可能還會討論的規(guī)劃和執(zhí)行層面的問題。
從我的角度來看,目前我們最缺乏的是設計層面的創(chuàng)新。
當我們給定一個任務,比如讓機器人在家做飯,什么樣的機器人設計才是最優(yōu)的?我們是否應該選擇人形機器人、輪式機器人,或者是安裝在廚房墻上的機器人,又或者是能在家里飛來飛去的機器人?
目前還沒有明確的答案。
我們往往只是基于個人喜好,認為人形機器人看起來不錯,于是就模仿或借鑒現有的設計,稍微改進性能,制作出一個能運行的原型。但這種做法實際上并沒有太大意義。
我們應該深入思考更根本的問題,如何通過學習和進化來實現最優(yōu)設計?能否像生物進化一樣,僅給定環(huán)境和演變規(guī)律,讓機器人自然演化出最適合的形式?在我之前教授的一門機器人課程中,有學生提出了這樣的觀點,這讓我感到非常震驚。
以手為例,不同的手可能適用于不同的任務,比如搬運大石頭或繡花。從同一對無指手出發(fā),它們是否會根據任務的不同而演化成完全不同的夾持器?這是目前設計中讓所有人困惑的問題。大多數人在某種程度上都在進行復制和粘貼,而不是深入考慮任務對設計的影響。我們認為這是一個重要且困難的問題。
另一個我們在設計中考慮的問題是觸覺傳感器。在觸覺傳感器的設計中,一個重要的部分是如何選擇合適的敏感材料。
我們通?;诂F有材料的性質進行選擇,如果它們有效,我們就使用它們。但這并不一定是最好的選擇。我們需要什么樣的靈敏度?我們需要什么樣的敏感度曲線?我們能否通過這樣的曲線,利用AI的方法,找到最適合我們功能需求的材料?我們發(fā)現,這一點正是最傳統(tǒng)且最稀缺的領域之一。
如何有效地將數據驅動的方法引入到傳統(tǒng)系統(tǒng)設計中,尤其是在硬件設計方面,這是我一直在探索和合作的方向。這也是我目前感到困惑的地方。
孫宇:確實,每年的ICRA(國際機器人與自動化會議)和IROS(國際智能機器人系統(tǒng)會議)上,都有許多關于硬件設計的論文。近年來,一些實驗室開始利用強化學習或其他學習技術來進行優(yōu)化,以產生更為優(yōu)化的機械手設計。
然而,我還沒有看到有人根據實際需求來決定傳感器的選擇。我看到了一些關于材料的研究,但是如何根據需求來選擇最合適的傳感器,這一點似乎還沒有得到足夠的關注。
這是一個值得進一步探討的領域,我們期待未來能看到更多相關的研究和創(chuàng)新。
李淼:我注意到宋舒然團隊曾經采用優(yōu)化方法來設計指尖表面,這是與傳感器設計較為相關的一個實踐案例。然而,對于更廣泛的、系統(tǒng)層面的傳感器設計,尤其是涉及到材料科學方面的,似乎還沒有太多的進展。
孫宇:確實如此,目前的研究和開發(fā)主要集中在傳感器的具體布局,例如光電傳感器的放置位置,或者機械臂關節(jié)中透鏡的設計等。
張?。?/strong>關于從零開始構建機器人軟件系統(tǒng),我非常贊同李淼老師剛才的觀點。
我認為,機器人本質上是由一系列關節(jié)連接而成的。因此,構建機器人系統(tǒng)的關鍵首先在于理解這些關節(jié)。
關節(jié)內部包含了許多復雜的機制,如電機、本體傳感器等,這些都是控制關節(jié)運動的基礎。每個關節(jié)都可以視為機器人最小的運動單元,它提供兩種基本功能:
一是提供運動,即關節(jié)轉動的角度;二是在腿式機器人中,關節(jié)更多地被視為提供力的單元,能夠快速響應給定的扭矩要求。
因此,構建系統(tǒng)的首要步驟是深入了解這些核心功能和組件,然后精通關節(jié)的設計,以達到極致的性能要求。這是構建機器人的第一步。
接下來,無論我們設計的是什么樣的機器人,本質上都是通過結構件連接起來的一系列關節(jié)。在這些關節(jié)中,我們布置傳感器,并進行運動控制。在我看來,運動控制本質上是關于所有關節(jié)的協同工作。每個關節(jié)提供獨立的運動單元,而整個系統(tǒng)需要這些關節(jié)之間的協同。
目前,運動控制技術已經相對成熟,許多庫和工具都已經非常完善,計算速度也很快。過去,運動控制是一個相當復雜的問題,但現在,我們主要關注的是如何讓關節(jié)之間的協同工作更加流暢穩(wěn)定,以及如何通過運動控制器來實現這一點。
早期的機器人通常采用離線編程或示教編程的方式,事先規(guī)劃好動作,然后在工業(yè)環(huán)境中重復執(zhí)行,這種方式不需要與環(huán)境進行交互,因此相對成熟。
然而,最具挑戰(zhàn)性的部分是運動不能事先被編程固定,而需要根據實時感知的環(huán)境情況來決定如何響應。這是AI可以發(fā)揮重要作用的前沿領域。
近年來,AI在姿態(tài)識別、抓取識別等方面取得了顯著進展,能夠實時處理非預設的任務。而大型語言模型則在場景語義理解和規(guī)劃方面取得了進展。技術突破的難點在于后期的感知和規(guī)劃。
對于早期工程的技術難點,我認為主要集中在關節(jié)的內部設計上。如果要給出建議,我的原則是,如果你不確定自己是否有能力從零開始構建,那么最好不要自己做。最好是購買市場上已有的成熟產品。如果實在沒有合適的選擇,再考慮按照前面提到的方法自行開發(fā)。從頭開始構建整個系統(tǒng)是一個漫長且復雜的過程,需要跨團隊的協作。
在討論機器人技術落地的過程中,我們不得不面對一個現實:打造一個穩(wěn)定可靠的機器人極具挑戰(zhàn)性。
實際上,將機器人從概念轉變?yōu)閷嶋H應用的過程充滿了困難,這種挑戰(zhàn)之大,以至于許多人對機器人技術的落地持謹慎態(tài)度。
他們認為機器人技術難以實現商業(yè)化應用,這種觀點并非完全沒有道理。
我認為,這并非技術本身的局限,而是目標設定的問題。關鍵在于,我們是否能夠準確識別成熟技術的邊界。許多問題本質上屬于探索性質,正如我們今天討論的內容,大部分都屬于探索范疇。探索是發(fā)散的,我們無法預知最終能否找到解決方案。
制作一個 Demo 相對容易,但要實現技術的真正落地則難度極大,兩者之間的差距可能非常巨大,你可能需要投入絕大多數精力來提高產品最后的可靠性。制作一個Demo可能只需要一次成功,但產品需要持續(xù)穩(wěn)定地提供功能。這兩者之間的區(qū)別非常明顯。
Demo在學術界可以就是一個可接受的結果,而在產品界,它只是一個起點。這是我們需要理解的基本邏輯。
孫宇:確實如此,我們每年舉辦的 Robotic Grasping and Manipulation Competition,就能清楚地展示出論文中提到的成功率在實際應用中的表現。
你可以看到,實際中的表現與論文中描述的百分比之間存在哪些差異。在競賽中,許多實驗室還需要搭建各種燈光環(huán)境,這些環(huán)境在實際應用中可能并不那么可靠,這些現象非常有趣。
龐建新:這個問題確實非常有趣。正如張老師和李淼老師剛才所討論的,答案已經相當明確:不建議從零開始打造任意類型的人形機器人。
因為機器人與其他產品有所不同,它需要多個領域的專家共同協作才能成功研發(fā)出來。
正如我們之前提到的關節(jié)技術,它本身就不簡單。然后還有本體控制、上層感知,以及各種電子器件和傳感器。處理器也可能涉及多個,有的偏重AI,有的偏重控制。
所以,正如兩位老師所建議的,盡量不要從零開始制作一個人形機器人,因為這需要一個跨領域的專家團隊才能完成這項工作。
這也恰恰是人形機器人的魅力所在,它是一個高效的跨領域專家團隊共同完成的項目。
無論你是否有一個明確的目標,或者你只是想復現當前人形機器人的水平,無論你的目標是面向某個工業(yè)場景還是服務場景,實際上你需要面對的問題都是類似的。
無論是硬件問題、軟件問題、AI問題還是傳感器問題,解決這些復雜系統(tǒng)的挑戰(zhàn)都是不可避免的,因此這并不適合單一領域的專家或小團隊來承擔。
可能會有一些聚焦某一個領域的嘗試,比如專注于控制部分,那么可能會通過外部合作的方式來獲取相應的硬件。
如果是一個專注于硬件的團隊,那么可能會尋找一些專注于 AI 的團隊來進行合作。
這是基于我自己的理解,也是我多年來從事機器人研發(fā)工作的一點小體會。
孫宇:關于團隊組建,您能否大致估計一下,一個致力于研發(fā)人形機器人的團隊需要多少人力?比如在中國一些知名的公司,資金和人才都不是問題。那么,這樣的團隊應該由哪些方面的人才組成?需要多少人才能做好這方面的工作?
龐建新:我認為現在的問題不是資金的問題,也不是人力的問題。從全球范圍來看,成功研發(fā)過人形機器人的團隊有多少?
人形機器人的研究投入是比較大的,國內很多高校受到科研經費的限制,如果沒有經費支持,就無法進行持續(xù)研究。最近這一兩年,一些高校才開始獲得這方面的投入。
當然,在美國,研發(fā)人形機器人的團隊也不多,獲得政府資金支持的團隊更是少數。歐洲除了幾個知名的團隊外,全球真正從事人形機器人研發(fā)的團隊并不多。
我認為現階段不是投入多少資金就能成功研發(fā)出人形機器人的問題。如果再過五年或十年,我們積累了足夠的人才,硬件技術開始收斂,標準化,各種模塊也逐漸成熟,那時制造人形機器人的門檻可能會降低。但到目前為止,制造一臺樣機的團隊仍然不容易,做一臺軟硬件都可靠的人形機器人就更難了。
孫宇:明白了,非常感謝。從產業(yè)界的角度來看,這個挑戰(zhàn)有多大?
龐建新:制作一個Demo可能只需要找到各個領域的一兩個專家,再加上幾個工程師,就可以完成。但如果要面向實際應用場景,做到可靠和穩(wěn)定,那還有很長的路要走。
孫宇:接下來,讓我們繼續(xù)討論大家剛才提到的AI大模型或者是基礎模型(foundation model)的最近進展。特別是GPT-4、CLIP 等模型的出現,它們在感知(perception)和知識(knowledge)方面的應用,大大減少了研發(fā)所需的時間和精力。
大家可能對這些模型在不同領域的應用已經相當熟悉。能否分享一下您對這方面的理解和感受?
特別是哪些大模型對機器人學領域尤為重要,無論是在感知、決策,還是人機交互方面,大家認為目前還缺少哪些元素,以及未來需要在哪些方面進行提升?
李淼:我們團隊的研究中,我們主要關注的是規(guī)劃和執(zhí)行層面,而在感知方面的工作相對較少。在實際應用過程中,我們傾向于將語言大模型視為任務推理和表達的工具。通過它,我們可以將復雜的任務分解為一系列子任務或子目標。在今年5月份的 ICRA(國際機器人與自動化會議)上的相關研討會上,我們將與香港中文大學的團隊合作,探討這一主題。
我們將大任務拆分為多個子任務或子目標,在子任務層面,我們使用視覺語言模型來識別對應的物體狀態(tài)。在這個過程中,我們結合了傳統(tǒng)的規(guī)劃語言,如PDDL,試圖構建一個邏輯樹?;旧?,我們分為三層:任務規(guī)劃層、子任務規(guī)劃層,以及底層的執(zhí)行和控制。
在子任務規(guī)劃層,我們會使用VR、機器學習等技術。
在執(zhí)行和控制方面,我們會逐漸采用所謂的缺陷策略(deficient policy),尤其是在執(zhí)行具體任務,如拿起蘋果或咖啡的軌跡規(guī)劃上。
早期我們可能更多地依賴于演示學習和 GMM 來表達軌跡。但現在我們發(fā)現,在社交學習中,為了更好的泛化性能和與 VR 的結合,我們逐漸采用缺陷策略,因為 GMM 需要將軌跡表達為向量空間,而我們無法僅通過圖像直接得出關鍵角度。
在一些特定場景下,如使用機器人進行超聲檢查或力控打磨過程中,我們會將力覺、觸覺等信息引入到缺陷策略中,以執(zhí)行任務。
目前我們所缺乏的,本質上是希望有一個統(tǒng)一的模型,類似于特斯拉的FSD。左側是所有傳感器的輸入,右側是電機的輸出,輸入和輸出非常具體。我們希望一個網絡能夠完全實現端到端的功能。
但目前在機器人領域,我們還無法做到這一點。我們只能在一些非常小的任務中實現端到端的網絡,但在泛化到更廣泛的任務時,我們發(fā)現這是不可行的。
這可能仍然是一個數據問題,就像在自動駕駛領域一樣。但在機器人領域,盡管主流觀點傾向于認為數據是關鍵,但我們尚未得出明確的結論,即僅僅通過收集足夠的數據就能解決所有問題。
然而,目前大型研究團隊和創(chuàng)業(yè)公司都在朝著這個方向努力,尋求創(chuàng)造更經濟高效的數據采集方法。例如,使用 Aloha 等方法可以低成本地進行演示或仿真,甚至通過動作捕捉技術來收集數據,這些都是為了高效地采集大量數據。
在模型層面,我們可能更多地嘗試將自動駕駛領域的邏輯適配到機器人中,提出了所謂的基礎模型(mediplation foundation model),包括操作、導航和感知的基礎模型,并試圖將它們整合應用到機器人中。在實際測試中,我們也可能會逐步將自動駕駛領域的計算能力轉移到機器人領域。
我們觀察到,在規(guī)劃層面,大模型的使用依賴于更強大的計算芯片,可能達到每秒10次的頻率。在運動規(guī)劃層面,使用VIM技術可能將計算頻率提升至每秒百次。而在最底層,如運動控制、模型預測控制(MPC)或力控制,甚至包括機械臂的穩(wěn)定性,我們可能需要達到每秒500到1000次的頻率??傮w而言,我們仍然會遵循傳統(tǒng)的分層控制策略。
但是否能夠開發(fā)出一種網絡,能夠同時實現規(guī)劃、執(zhí)行和控制這三個層面的功能?
正如我們從 OpenAI 發(fā)布的 Figure 人形機器人的視頻中看到的,其中仍然存在“行為選擇”的問題。
Figure 視頻展示:https://www.bilibili.com/video/BV16u4m1M7bL/
這一層的選擇機制令人困惑,不確定是從神經網絡中自動進行選擇,還是在不同層之間會有一個鏈接層來進行選擇。
我相信,在不久的將來,可能在今年年底之前,機器人領域的整體路線將有一個非常明確的答案,即端到端的方法是否能夠解決機器人領域的所有問題。
這可能是所有想要進入這個領域的人需要快速決定的問題:要么專注于端到端的解決方案,要么專注于其中的某一個特定點,如上層的任務規(guī)劃、中間的運動規(guī)劃,或底層的傳統(tǒng)控制。最終,所有這些都將融入到一個更大的網絡中,形成一個通用的 pipeline 。
孫宇:端到端的方法確實頗具挑戰(zhàn)性。在機器人學中,端到端通常是指從視覺輸入開始,例如圖像識別抓取點。
但實際上,這并不是完全的端到端,因為最終還需要運動規(guī)劃的參與。因為你需要進行碰撞檢測、避障和運動規(guī)劃。如何讓夾持器正確地抓取物體,以及如何控制夾持器的開合,實際上并沒有實現真正的端到端。
李淼:關于這個問題,我想補充一點。在我讀博士期間,我們收集了大量的關于阻抗控制(impedance control)的數據。我自己收集了大約 40 萬個不同的抓取樣本,并使用數據驅動的方法制作了一個非常好的控制器。
但后來我意識到,在抓取任務中,我們可能需要的數據量還不夠。
如果我們能夠收集到足夠多的數據,比如 100 億個抓取樣本,那么所有我們之前討論的碰撞檢測、手指約束,甚至包括更傳統(tǒng)的摩擦約束(friction core)以及力控制(force control)等,這些約束本質上都會在我們收集的大規(guī)模數據集中隱含地包含進去。
這樣,我們就有可能實現真正的端到端控制。這只是一個假設,我提出來與大家分享和討論。
張?。?/strong>在討論大模型與機器人結合的話題時,我認為主要有兩種思路:一種是端到端的方法,另一種是分層的方法。
端到端的代表是 RT 系列,它們通過在廚房環(huán)境中使用機器人收集數據,最終希望能夠實現直接的控制。
然而,目前來看,端到端方法的擴展仍然是一個挑戰(zhàn)。
至于分層方法,最近Figure的人形機器人展示出了三層結構,雖然具體的分層數量可能因人而異,但基本思路是相似的。這不一定非得是三層,也可能是四層,或者兩層,這取決于具體情況。
我想分享幾個觀點:
首先,端到端方法不應該被視為一個黑箱或者僅僅是架構的問題,它更是一個訓練流程。
人們喜歡端到端方法,并不僅僅是因為它由神經網絡構成,而是因為它能夠通過數據驅動的方式減少對規(guī)則的假設,從而訓練起整個架構。
我們構建的大多數架構,包括特斯拉所使用的,所謂的端到端方法,其實只是流程中的一部分,許多模塊都是事先經過驗證的。例如,transformer 和一些 Bird's-Eye-View (BEV)等,這些都是經過深入理解的組件,并不是純粹未知的黑箱操作。這是一個我想要強調的方面。
至于使用什么樣的模型,我認為這是一個見仁見智的問題。
我同意李淼老師之前的觀點,我們也使用缺陷策略和大模型進行任務分解,以及模型學習進行技能訓練。這些流程其實大同小異。
我想稍微分享一下,關于模型的底層邏輯,到底什么是模型?大模型好還是小模型好?
實際上,ChatGPT 背后的核心是 MOE(Mixture of Experts),它并不是一個單一的巨大網絡,而是由專家網絡連接而成,通過一些 機制讓每個專家發(fā)揮其特定優(yōu)勢。我認為未來機器人的發(fā)展也會類似,MOE 形式的模型來完成整體任務。
讓我們回到模型的底層邏輯。所謂的大模型,主要指的是大型語言模型,但無論模型大小,關鍵在于它們是否有用。
我們經常上課給學生講的第一句話:All models are wrong, but some are useful.(所有的模型都是錯誤的,但有些是有用的)
我們使用模型,主要看它們對我們的應用是否有用。
模型的本質是對數據和觀察現象的壓縮,這種壓縮是否對你的應用有損害,決定了模型的正確性。
例如,我屋里的空調,我可以用一個簡單的一階動態(tài)系統(tǒng)模型來描述,這很簡單,這是我對應用的壓縮。同時,我也可以將所有分子的運動都描述出來,以了解精確的物理分布。在這種情況下,數據量會非常大。哪種模型更好,取決于是否能夠壓縮和描述這些數據。
如果你沒有牛頓定律,這些數據你都得記下來,否則你無法將它們聯系起來。現在我們不需要記住所有數據,只要知道物理定律就可以了。物理定律是運動的基礎模型,而語言的基礎模型是概率網絡,即大型語言模型。
語言無法壓縮到更低維度的空間,我們目前找到了一種通過大型語言模型來刻畫的方式,但這并不一定是最好的方法。
因此,大型語言模型對語言、邏輯甚至視覺這類離散數據非常有用。它們大大幫助我們進行人機交互和任務理解規(guī)劃。但是,如果要讓機器人執(zhí)行任務,特別是與物理世界的交互,目前大型語言模型的幫助還是有限的。
具體來說,大型語言模型可能在決策層面上有所幫助,但對于具體的運動控制,它仍然面臨挑戰(zhàn)。
總的來說,我更傾向于認為 MOE 的方式在機器人領域可能更有用,就像 ChatGPT 一樣,它由多個專家的小模型組成,通過一個 agent 的概念將它們連接起來。這可能是未來機器人發(fā)展的一個方向。
孫宇:非常好的分享。確實,這兩種方法各有其優(yōu)勢。人類大腦的結構也為我們提供了一個類比,正如龐博士之前提到的,大腦和小腦協同工作,各自承擔不同的功能。
同樣地,神經網絡的結構也可能不會是單一的,它們可能會根據功能的不同而有所區(qū)別。
一種網絡可能負責處理運動相關的信息,而另一種則處理更高層次的抽象知識。
這兩種網絡在結構和功能上都是不同的。這種結構多樣性在神經網絡設計中是非常有價值的,因為它允許我們針對特定任務優(yōu)化網絡,從而提高整體性能。
龐建新:關于 AI 大模型的利弊,我想分享一下我自己的看法。
我認為,在 AI 大模型中,對于機器人領域最有價值的部分之一是,如何有效地挖掘模型中蘊含的知識、推理能力,以及挖掘事物之間關系的能力。
這對于機器人的感知和決策至關重要,因為如果機器人缺乏這種能力,就意味著它失去了自主性。這種能力取決于機器人對外部環(huán)境、人物、事件之間邏輯關系的理解。
首先,我們需要探討如何挖掘這種能力。
這種能力并不完全取決于挖掘一個多么大的模型,而是要考慮與場景相關的數據。我們需要構建一個有效的模型,無論是通過調整大模型的參數,還是專門為這個場景構建一個小模型,使其具備這種能力。這樣,機器人就能在特定場景下具備真正的感知能力,并實現主動交互。
這是我們所說的機器人真正的“感知能力”,能夠實現主動的交互。
正如李淼老師之前提到的,如果給機器人一個指令去做飯,但還需要人的指導,那么我們如何讓機器人自己能夠去做飯呢?它需要外部環(huán)境的感知能力,來了解當前的時間狀態(tài)和做飯的具體步驟。這就需要大模型的能力,我們認為大模型具備這樣的潛力,能夠讓機器人具備主動感知和交互的能力。
另一部分是與人類運動控制和運動智能相關。
其實人類的很多運動是無意識的。這部分是為什么我們要考慮使用基于數據的方法,因為我們找不到足夠好的數學模型來表達這些運動。
例如,在雙足行走的傳統(tǒng)方法中,我們使用的是一個簡化的物理模型,因為我們找不到與人類行走匹配的數學模型。這時,我們可能會引入數據驅動的模型。
這些模型與基于知識的模型是不同的?;谥R的模型需要很多專家知識和廣泛的顯性知識,而面向運動的數據驅動的模型可能涉及的是隱性知識。這種隱性的知識可以通過構建仿真環(huán)境或真實環(huán)境的數據融合進行訓練來獲得。但這個模型能否直接應用到物理世界中又是另一個問題。
我們知道,人形機器人的物理結構,無論是機械部分還是控制部分,與數字世界中的模型之間總是存在很大差異。那么如何將數據驅動的模型應用到物理世界中,這是一個巨大的挑戰(zhàn)。
具體來說,人形機器人可以定義為三大能力:
1,移動能力。
移動能力在很多情況下主要依賴于感知技術,但它并不完全與感知緊密相關。
例如,保持地面平衡主要依賴于力覺反饋或者機器人自身的運動平衡控制智能。機器人的視覺感知可能僅用于識別并避開障礙,如懸崖或雜物。
2,操作能力。
我始終認為操作部分有可能實現真正的端到端控制。我們可以將操作視為一種剛體運動,或者是基于反饋的運動。這種方法有助于避免許多對感知精度要求很高相關的問題,使得操作過程更加類似于人類的機制。
盡管我們人類的視覺感知系統(tǒng)無法精確定位物體的絕對位置,我們卻能夠相對精確地感知兩個物體之間的相對位置。同樣的,現在機器人有類似的問題,能夠感知到物體之間的相對位置,通過大量的學習和數據驅動的方法,基于視覺感知作為反饋,我們可以實現端到端的抓取。
此外,在實現端到端控制的過程中,我們可能并不總是直接控制電機。如果直接控制電機,可能會與硬件緊密耦合,這不利于模型的泛化。因此,我可能會選擇將這個過程分解為兩個模型的融合。
正如張巍老師所提到的,多個模型的組合并不意味著它不是端到端的,這只是為了解決硬件配合的問題,將其分解實現。
3,適應能力。
我們需要處理不同傳感器的輸入和適配不同硬件。因為其特殊構型,人形機器人未必是處理單一任務效率最高的。為了適應現實環(huán)境,人形機器人有許多通用化的設計,它在不同環(huán)境和多任務中的平均效率可能是最優(yōu)的。
我們的目標是在特定場景中實現效率最優(yōu)。這就要求我們的模型具有泛化性,不僅要適應不同的環(huán)境,還要適配不同的硬件構型。
例如,在工業(yè)場景中,我們不一定需要五指手,也許二指或三指手就能提高手的可靠性和耐用性。因此,我們可以采用分層的方式來滿足場景適配、硬件適配或任務適配的需求。
大模型為我們提供了許多可能性,但同時也帶來了許多問題。
首先是成本問題。
在機器人上運行多個模型會增加成本。我們需要考慮如何整合這些模型,同時保證經濟性。我們可能需要專用的硬件設備,或者考慮運營成本。對于一些需要大量知識的復雜任務,我們可能需要更大的模型,而這些模型可能無法在本地運行,需要部署在云端,都涉及成本問題。
其次是效率問題。
在使用 ChatGPT 等工具時,我們發(fā)現很少一次就能成功完成任務,通常需要多次嘗試和調整輸入。這也是機器人應用中需要避免或解決的問題。在大模型中,尤其是生成式的大模型使用中,這是一個天然存在的挑戰(zhàn)。
第三個問題是關于機器人使用生成式大模型在交互過程中可能出現的幻覺問題。
在機器人與人交互時,可能會產生一些錯誤的認知或理解。然而,對于用戶來說,機器人本身并不知道這些幻覺的存在。因此,如何解決信息對齊問題來消除幻覺,確保機器人的執(zhí)行既可靠又有效,同時保障安全。
這三個挑戰(zhàn)是機器人在實際應用過程中必須面對和解決的。
孫宇:非常感謝龐博士的分享。的確,現在大語言模型和其他模型在傳統(tǒng) AI 領域的應用已經相當廣泛。在這些應用中,并不要求模型始終正確無誤。但在機器人學領域,情況就有所不同了。
龐建新:是的,我對大模型的應用進行了分類,分為兩類業(yè)務,這是我個人的分類,可能不完全準確:
一類是“非嚴肅應用”,在這些應用中,錯誤是可以接受的,可以通過人的反饋進行糾正。
例如,讓機器人畫圖或寫詩,甚至總結論文,這些都是可以接受的應用場景。
但在“嚴肅場景”中,比如金融風險控制或關鍵交互決策,我們就需要非常謹慎,確保信息的準確對齊。在這些領域,確保輸出信息的可靠,成為了一個重要的挑戰(zhàn)。
目前的AI技術仍然受限于特定場景,而實現真正的泛化和通用人工智能(AGI)仍然是一個挑戰(zhàn)。如何使機器人能夠真正走進開放式服務場景的挑戰(zhàn)?倒推企業(yè)和學術界應該如何協作?
孫宇:不同的應用場景有不同的要求。我們已經從更高層次的角度討論了很多內容。現在我們從一個更具體的角度來看待這個問題。
在當前的機器人領域,還面臨著哪些重大挑戰(zhàn),需要哪些技術的進一步提升?請大家說一些具體的例子。
對于想要進入機器人領域的研究者來說,哪些領域已經準備好落地,不再需要進行研究?而哪些領域我們認為目前還不夠成熟,可能需要給其他研究者一些方向性的建議?這些挑戰(zhàn)在什么情況下可能得到解決?或者有沒有對未來某個時間點的預測?
從做飯的角度來看,我認為最開始的是知識表示,然后是運動規(guī)劃,接著是控制,最后是執(zhí)行。以及還有一個問題,那就是錯誤處理。
無論是機器人還是人,在做飯的過程中總會犯一些錯誤,特別是對于剛開始沒有經過良好訓練的人來說,進入廚房做飯犯錯誤是非常正常的。那么,我們應該如何來處理這些錯誤?
李淼:結合當前的需求來看,我曾經與港中文的陳翡合作過許多炒菜的例子,包括在 Aude Billard 教授的實驗室也進行過許多不消耗資源的項目,比如從冰箱取出食材進行烹飪。
在上層規(guī)劃這一層面,因為主要是在仿真器中進行,所以成果主要取決于任務分割的好壞,而這并不涉及太多的破壞性。
我認為,任務分割的好壞沒有客觀的標準,但隨著ChatGPT等技術的發(fā)展,將大任務分解為小任務的能力已經相對成熟。
進一步到具體執(zhí)行層面,我們首先需要感知,例如廚房中的工具位置、刀具和食物的位置。在烹飪過程中,我們需要知道食物的狀態(tài),比如它的味道。在感知層面,尤其是視覺感知,我認為已經相當成熟,因為它主要涉及遮擋和光線問題。隨著視覺相關競賽研究的進展,這一領域逐漸變得成熟。
然而,在多模態(tài)感知方面,除了視覺,還可能包括嗅覺、味覺等。在烹飪過程中,我們不能僅憑顏色判斷食物的好壞。尤其在具體烹飪時,可能需要監(jiān)測火焰溫度或食物的熟度,這些無法僅靠視覺來判斷。
在這一層,除了視覺以外的感知層面,目前研究的人還較少,還沒有人將嗅覺或味覺集成到機器人的大模型中,或者這方面的傳感器尚未明確。
再往后,就是規(guī)劃和執(zhí)行層面。
在執(zhí)行層面,涉及具體操作和與物理世界的接觸時,成熟度并不高。接觸和非接觸過程中的建模非常困難,尤其是實際操作中,比如抓取時,手指移動一毫米可能導致完全不同的結果。
在涉及嚴格接觸的操作,尤其是所謂的靈巧操作時,目前還遠未準備好。無論是從硬件、感知還是執(zhí)行層面,都存在許多挑戰(zhàn)。我認為,要讓機器人的這種操作走進我們的日常生活,目前成熟度可能只有20%~30%,無論是控制、硬件還是算法、傳感器等方面,都還有很長的路要走。這是我個人的粗略估計。
孫宇:感謝分享。物理接觸或者物理交互是一個相當具有挑戰(zhàn)性且尚未成熟的領域。我個人感覺,以1毫米為例,給我的感覺,似乎表明抓取或者物理接觸本身是一個非連續(xù)的過程。我不知道這種感覺對不對,請張巍教授分享一下。
張?。?/strong>基本上我同意這個觀點,并且我想稍微補充一些細節(jié)。關于什么是“ready”的領域,我們可以大致將其分為三層。
第一層是規(guī)劃(planning),這包括了很多內容,如人機交互、任務規(guī)劃等。規(guī)劃層面指的是機器人能夠通過想到就能完成的任務,不需要實際動作,只需要規(guī)劃出要做什么,大概怎么走,這些不需要真實的運動過程。
第二層是每個單元的動作或者原始動作(motion),涉及到接觸物體、改變物體的姿態(tài)等。例如炒菜過程中的各種動作,與接觸相關的這一層目前是發(fā)展中的。
第三層,即整個運動控制底層與硬件的耦合,這一層相對來說比較成熟。
大模型或者多模態(tài)感知對上層規(guī)劃和中間的動作執(zhí)行都有幫助,它們都是必需的。目前感知部分,尤其是那些需要計劃的感知任務,大模型可以提供一定的幫助,但在我看來,這些仍然是非常不成熟的,特別是涉及到接觸或保持接觸的感知任務,這一步相對比較困難。
我認為模仿學習在數據足夠多、任務足夠簡單的情況下可能會有一定的效果,但在任務復雜且泛化要求高的情況下,這也是未來值得期待的一個研究聚合點。
孫宇:張老師,你剛才所提及的,最初期的兩個層次似乎尚未完全準備就緒,對吧?我指的是從知識層面到運動規(guī)劃這一階段,也就是最基礎的高層次知識。
張?。?/strong>確實,我在描述上層結構時并未過分詳細。你提到的從知識到運動規(guī)劃這一部分,我認為相對來說問題要簡單一些。運動規(guī)劃方面的問題也相對容易處理。
但是,當涉及到任務規(guī)劃和分配,以及進一步拆解工作時,我認為這些都是屬于大型模型中 agent 的一部分。大型模型本身的 agent 功能,比如幫我回復一封電子郵件或者安排一次旅行,這些任務要準確無誤地完成還是有挑戰(zhàn)的。
至于機器人智能體(Robot agent)的發(fā)展,我認為還有一段路要走,才能對外推廣。
當你將任務拆解到動作層面,比如我要過去拿起一個手柄,整個運動規(guī)劃方面,我認為相對來說問題要簡單一些。我們可以看到如何解決這個問題,只要避免碰撞就可以了。
如果規(guī)劃的目的是為了避免碰撞,那么規(guī)劃就相對容易;如果是為了實現接觸,那就復雜了。
孫宇:事實上,我們之前也認為在開放環(huán)境中尋找任務是非常具有挑戰(zhàn)性的。但是自從引入了GPT-4 之后,我們發(fā)現有許多方法可以有效地提取任務,或者構建一個局部知識圖譜。
通過這兩種方法的結合,我們能夠使任務執(zhí)行變得非常可靠。我們有信心能夠將準確度提升到 90% 以上。那么,整個任務的執(zhí)行就不會有問題。
如果你給出 100 個大型任務,其中 9個任務將會被完全正確地分解。只有在 10% 的情況下,可能在分解過程中的某一步會出現問題。
即使在大多數家庭環(huán)境中,這樣的準確度也是可以接受的。因為在操作過程中,如果機器人發(fā)現某一步驟不正確,它可以自我糾正并重新執(zhí)行。所以我認為這部分的工作是非常有價值的。
張?。?/strong>您剛才提到的任務分解正確率。如果在執(zhí)行一個子任務時出現了錯誤,比如我想要煎雞蛋,但機器人卻不小心打翻了。這種情況是在您所說的 90% 的準確率之內,還是屬于另一種情況?這涉及到任務的泛化能力。
孫宇:是的,這種情況屬于失敗恢復(failure recovery),這是我們目前正在努力解決的問題,而且這不包括在90% 的準確率之內。
90%的準確率是指,比如有一個簡單的食譜,比如說今天早上想吃煎牛排或者煎蛋卷,你告訴機器人整個任務,它能夠將任務分解為從冰箱取出雞蛋、放置位置、攪拌等十幾到二十個步驟,并且能夠 100% 正確執(zhí)行。
如果有一步不正確,在機器人實際執(zhí)行過程中,它可能會發(fā)現問題并不容易解決,這時就會重新觸發(fā)任務的再生,從而確保任務能夠順利完成。
龐建新:技術與現實之間存在著不小的差距。
我認為,第一個顯著的分歧尤其在于通用人工智能(AGI)方面。
毫無疑問,當前的AI與AGI之間還有很長的距離。這意味著,在開放場景下,基于知識驅動的方法并不十分有效,因為我們無法實現完全的泛化。要真正實現泛化,我們需要解決兩個主要問題:第一,實現 AGI;第二,我們需要更先進的硬件。
前者是指,當前機器人硬件與尚未達到 AGI 的 AI 的結合,這主要用于解決特定問題。
例如處理結構化或半結構化環(huán)境下的特定任務,在有限環(huán)境或半結構化環(huán)境下執(zhí)行有限任務,我們認為這在當前已經具備了可行性。盡管仍需在傳感器、系統(tǒng)工程等多方面進行改進,但這些主要是工程問題,而非理論上的挑戰(zhàn)。
另外,我們是否擁有足夠先進的硬件。
例如,我們可能會需要超越傳統(tǒng)的電機驅動方案,因為電機在功能密度和能量密度上有其天然的限制,可能會有新的機械構型出現。
再算上AGI的加持,我們的開放場景本質上將不再僅僅是處理結構化任務,而是在執(zhí)行這些任務的過程中處理異常情況。
例如,如何處理突然出現的障礙物或失敗的情況?如何通過多次嘗試學習并掌握某種能力?我認為這兩個階段是我們未來發(fā)展的關鍵。
回到當前的現實情況,實際上在感知層面,我們也面臨著巨大的挑戰(zhàn)。
我在感知方面的研究較多,但目前的感知技術主要還是基于二維的。然而,當機器人在移動或操作過程中,我們還需要解決的是三維感知問題。
目前,要讓 3D 感知技術在我們的機器人本體上有效應用,或者在稍微泛化的任務中發(fā)揮作用,仍然是一個挑戰(zhàn)。例如,最簡單的情況,如何處理透明或反光物體?當然,這可能需要多個傳感器,通過多視覺傳感器融合來實現。
再舉一個例子,前幾天我參加了一個具身智能的討論會。他們提到了一個對人類來說非常簡單,但對于機器人卻頗具挑戰(zhàn)的場景:如何端有水的杯子?水是流體,會晃動,無論如何都會晃動。你如何確保在倒水時不濺出杯子?在移動過程中又如何保證水不濺出?
這對人類來說可能是自然而然的事情,不需要經過大腦思考,小腦就可以基于觸覺反饋進行自然的運動,感知到重心的變化等。
然而,這一部分恰恰是機器人目前尚未解決的問題。目前所有的感知和控制大多基于視覺或觸覺感知,但這些傳感器并沒有我們想象的那么有效。它們與我們的控制模型之間還沒有建立起有效的關系,這也限制了許多可能性的發(fā)展。
我們通常將這類問題歸結為:算法在特定場景下的應用。
以端水這個簡單的任務為例,我相信目前大多數機器人要成功完成這項任務還相當困難。這個任務雖然聽起來簡單,但其實質涉及到從感知到控制,再到決策,甚至還包括視覺感知等多個層面,是一個非常復雜的挑戰(zhàn)。
這里我想強調的一個觀點是:目前機器人還面臨的一個重大挑戰(zhàn)在于整個系統(tǒng)的不完整性。我們尚未構建出一個完整且可靠的機器人系統(tǒng)。如果我們能夠有效地整合各種模塊,實現它們之間的信息傳遞和控制轉換,那么很多問題可能可以迎刃而解。
因此,回到我的理解,我們企業(yè)需要做的工作實際上是如何在學術界的成果基礎上構建這樣一套系統(tǒng),逐步實現傳感器與系統(tǒng)之間的標準化,然后在場景和技術的雙重推動下,使各個模塊能夠相互連接。
我之前提到過一個觀點:我們現在需要解決的是感知與控制的融合問題,也就是如何將感知和控制結合成一個完整的系統(tǒng)。目前這兩者仍然是割裂的。
例如,我們的AI大腦和小腦之間的連接和數據傳遞,哪些數據能夠將它們連接起來,形成一個完整的系統(tǒng)?
當然,我們也看到了當前的現狀,在結構化或半結構化環(huán)境下,一些任務已經具備了基本的應用落地可能性。
孫宇:非常感謝。我認為有一個方面非常有趣,那就是無人駕駛技術之所以能夠迅速發(fā)展,主要是因為它的輸入輸出都已經標準化了。無論是傳感器還是執(zhí)行器,都是一套相對標準化的系統(tǒng)。雖然有些無人駕駛使用雷達,有些不使用,有些使用攝像頭,有些使用各種不同的設備,但整體上的差異還是相對較少的。至于視覺行為其實更少,它基本上是在一個三維空間中進行操作,這個維度相對較小。
但如果你看看人形機器人或其他類型的機器人,它們的操作空間維度就多得多。而且傳感器的穩(wěn)定性也不盡相同。
今天的系統(tǒng)可能增加了一個觸覺傳感器,明天的系統(tǒng)可能引入了新的視覺效果,或者紅外線傳感器,或者其他類型的傳感器。
這些傳感器的安裝位置也各不相同,有的安裝在手上,有的可能安裝在其他位置。這就導致了系統(tǒng)的復雜性。
此外,電機的動態(tài)特性也各不相同。
因此,總的來說,人形機器人系統(tǒng)或類似的系統(tǒng)比無人駕駛系統(tǒng)要復雜得多。
孫宇:在AI+機器人領域,未來幾年可能會出現哪些顛覆性的技術變革?或者認為有哪些方向是大家應該注意的?
李淼:因為我一直在從事抓取方面的研究,包括你提到的 IROS 挑戰(zhàn)賽,我也連續(xù)參加了好幾次,積累了一些經驗。
我們普遍認為,在人形手部這個研究方向上,盡管目前許多人在模仿 Optimus 進行硬件設計,但我們一直在思考這個問題:以往我們在進行抓取規(guī)劃時,可能更多地關注接觸層面。但在所有抓取任務中,我們實際上更應該建立一個更加通用和統(tǒng)一的接觸層面解決方案,而不是僅限于特定手部的。
我們應該努力構建一個更大、更統(tǒng)一的系統(tǒng),從感知到接觸層面,涵蓋抓取規(guī)劃的全面數據集或基準。我認為這可能是我們這個領域,特別是在未來五年內解決操縱問題時,需要努力實現的目標。
這個過程有點像在自動駕駛中,至少需要在路上劃出車道線。如果沒有車道線,那么自動駕駛的問題就會相對復雜化,沒有任何規(guī)則可循。
因此,我認為可以借此機會呼吁,在后續(xù)的學術交流或與供應商的討論中,嘗試構建一個緊湊、豐富、多彩的大一統(tǒng)數據集。我認為這將是非常必要的一步。
張?。?/strong>關于開放性的建議或者說個人體會,我想具體談一談。
目前,AI與機器人結合的研究方向無疑是一個充滿潛力且至關重要的領域,未來的發(fā)展前景令人期待。鑒于目前從事這一研究的人數,我認為這個領域仍然非常活躍,充滿了創(chuàng)新的可能性。
然而,無論是在學術界還是工業(yè)界,我認為有一個需要明確的問題,那就是定位不清。有時候,學術界的人在做工程,而公司里的人在做學術研究,這種現象相當普遍。
大家共同的產品是一個 Demo ,它既不是一個產品的起點,也不屬于學術研究。
我希望從我個人的角度,無論是在我的團隊還是我們所在的公司中,我們都應該明確自己的定位:我們是企業(yè)還是學術機構?企業(yè)應該做什么,學術機構應該做什么?
此外,我們當前研究的問題是技術落地和產品化的問題,還是技術探索的問題?這一點也需要弄清楚。
我注意到,這種現象已經存在很長時間,包括我的學生在內,他們認為如果某個領域的 Demo 已經有人做過,那么這個領域似乎就要走到盡頭了。
但我認為,這些酷炫的 Demo,我稱之為“萊特兄弟時刻”,它們只是科研工作的開始。
別人看到一個令人印象深刻的 Demo,可能會覺得機器人領域已經沒有什么可做的了,但事實上,如何設計飛行器、真正理解空氣動力學、進行實際測試等深層次的工作,才是科研的真正開始。
這些令人驚嘆的視頻或 Demo,實際上是科研工作的起點。
孫宇:確實我們經常在各種場合看到一些令人印象深刻的Demo。
Demo 本身往往不會告訴你背后團隊做了哪些調整工作,而且Demo是處在一種受控的、確定性的環(huán)境中。
比如 OpenAI 在舞臺展示的一個 Demo,場景被設置在家庭環(huán)境中,舞臺上面放了一個蘋果,有人問:“有什么可以吃的?”
那種情況下只有一個蘋果,機器人只能拿給他一個蘋果。
但如果這個人說:“我不想吃蘋果,你能給我一個橙子嗎?”這時我就不知道機器人會怎么做。
或者如果有人說:“我不想吃皮,你能幫我把皮剝了嗎?”
我不知道OpenAI的機器人是否能夠完成這些事情。
很多時候,一些看起來很酷的 Demo 可能會產生一定的誤導性。但在工業(yè)界,我們可能也需要意識到,有些東西其實還沒有完全準備好。
龐建新:我分享一下我的想法。多年來,我一直致力于人工智能技術與人、機器人的融合研究。在此期間,我也有幸與一些學術機構,包括張巍老師等進行過合作。
我一直期望能夠促進學術界、工業(yè)界之間的深入互動。這種互動不應僅僅局限于特定課題或項目,而是希望學術界的老師們能與工業(yè)界的同行們一起,基于某些實際場景共同探討科學問題。
我們可以明確分工,共同解決當前工業(yè)界和學術界面臨的問題。工業(yè)界的同仁們也非常愿意提供相應的環(huán)境和場景,以便大家共同探討。這是我向大家發(fā)出的倡議。
孫宇:感謝各位的分享和參與。確實,工業(yè)界與學術界的交流能夠帶來許多有趣且具有挑戰(zhàn)性的問題。在實際應用中,我們可以發(fā)現許多尚未解決的資源問題,而工業(yè)界也能從學術界獲得新的靈感,了解哪些理念可以落地實施,以及研究的真正難點所在。
由于時間關系,我們今天的討論就到這里結束。
非常感謝各位嘉賓在本次圓桌論壇中的精彩分享。同時,也感謝雷峰網提供這樣一個平臺,讓大家有機會交流各種觀點,特別是關于當前熱點話題——AI與機器人技術的多角度洞察和心得體會。
希望我們的討論,能夠對觀眾以及未來觀看視頻的朋友們有所幫助,并期待這些交流能夠促成一些實際的合作。
本文作者 吳彤 長期關注人工智能、生命科學和科技一線工作者,習慣系統(tǒng)完整記錄科技的每一次進步,歡迎同道微信交流:icedaguniang
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。