0
本文作者: 張進(jìn) | 2025-01-02 12:55 |
今年業(yè)界開始流傳著一個說法,具身多模態(tài)大模型是當(dāng)下為數(shù)不多的新的創(chuàng)業(yè)機(jī)會。
今年,受大模型啟發(fā),業(yè)界看到了大模型帶給機(jī)器人領(lǐng)域的新能量,開始研究能同時完成多種任務(wù)的具身智能的基礎(chǔ)模型,希望實現(xiàn)能跨越不同任務(wù)、不同本體、不同場景,具有泛化能力的機(jī)器人智能體。
具身智能基礎(chǔ)模型是一個新的領(lǐng)域,相關(guān)工作并不多,從早期的 Saycan 到后面斯蒂朗寧的 PaLM-E,RT-1、RT-2到RT-H系列,而最近的RDT-1B、π0的工作也引起了廣泛關(guān)注。
近日在“智源論壇·2024具身與世界模型專題峰會”上,北京智源人工智能研究院作為中國大模型領(lǐng)域的黃埔軍校,展示了他們在具身智能領(lǐng)域的諸多研究,其中由仉尚航領(lǐng)導(dǎo)的智源具身多模態(tài)大模型研究中心的主要研究方向是面向具身智能的多模態(tài)大模型與大數(shù)據(jù)構(gòu)建,包括具身大腦大模型、端到端大模型、世界模型等,希望最終實現(xiàn)具身智能領(lǐng)域的 Scaling Law,使具身基礎(chǔ)模型具備跨本體、跨場景、跨任務(wù)的泛化能力。
仉尚航是一位年輕的人工智能領(lǐng)域優(yōu)秀學(xué)者,現(xiàn)為北京大學(xué)計算機(jī)學(xué)院長聘系列助理教授(研究員),博士生導(dǎo)師,智源具身多模態(tài)大模型研究中負(fù)責(zé)人。
她于2018年博士畢業(yè)于美國卡內(nèi)基梅隆大學(xué),后于2020年初加入加州大學(xué)伯克利分校 Berkeley AI Research Lab (BAIR) 從事博士后研究。她的主要研究方向包括具身智能與多模態(tài)大模型,擁有豐富的研究經(jīng)驗和諸多優(yōu)秀的研究成果。曾獲世界人工智能頂級會議AAAI’2021 最佳論文獎,Google Scholar引用數(shù)1.2萬次。作為編輯和作者由Springer Nature出版《Deep Reinforcement Learning》,至今電子版全球下載量超二十萬次,入選中國作者年度高影響力研究精選。仉尚航于2018年入選美國“EECS Rising Star”,于2023年入選“全球AI華人女性青年學(xué)者榜”。
當(dāng)下,具身智能的基礎(chǔ)模型已經(jīng)出現(xiàn)兩條不同的技術(shù)路線:針對原子任務(wù)的端到端多模態(tài)大模型,以及針對復(fù)雜長程任務(wù)的分層大模型,此外還有非常少量的關(guān)于具身世界模型的研究。
仉尚航帶領(lǐng)的智源多模態(tài)大模型研究中心,基于上述不同的技術(shù)路線,設(shè)計了面向機(jī)器人具身模型的快慢系統(tǒng),快系統(tǒng)能夠直接預(yù)測末端執(zhí)行器的pose和action,慢系統(tǒng)可以反思和糾錯,不斷提升機(jī)器人的大腦能力。
仉尚航認(rèn)為無論是端到端模型還是分層結(jié)構(gòu),我們都希望機(jī)器人能夠更好地理解物理世界中的物理規(guī)律,對世界進(jìn)行理解、建模與推理,在時間和3D空間中與世界更好地進(jìn)行交互,其中時空智能很重要,所以具身智能基礎(chǔ)模型最終的狀態(tài)可能是4D世界模型。
以下是AI科技評論與仉尚航的對話:
AI科技評論:智源具身多模態(tài)大模型研究中心的主要研究方向和目標(biāo)是什么?
仉尚航:面向具身智能的多模態(tài)大模型與大數(shù)據(jù)的研究。為了去構(gòu)建、訓(xùn)練具身智能領(lǐng)域的大模型,我們需要去采集、標(biāo)注具身智能大數(shù)據(jù),包括真機(jī)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)等,最終是為了實現(xiàn)具身智能領(lǐng)域的 Scaling Law。
在 NLP 領(lǐng)域,Scaling Law 讓大家看到了大模型的泛化性、涌現(xiàn)能力和通用性,因此,在具身智能領(lǐng)域Scaling Law 也有可能帶給機(jī)器人一些泛化的、通用的能力,我們需要去探索機(jī)器人領(lǐng)域的大模型,實現(xiàn)機(jī)器人領(lǐng)域的 Scaling Law。具體來說,就是基于多模態(tài)大模型構(gòu)建具身基礎(chǔ)模型,驅(qū)動不同本體的機(jī)器人能夠完成開放世界的復(fù)雜任務(wù),實現(xiàn)跨本體、跨場景、跨任務(wù)的泛化。
AI科技評論:您研究中一個很重要的部分是開放世界泛化機(jī)器學(xué)習(xí),這一方向是研究具身智能的哪些問題?面臨的最大挑戰(zhàn)是什么?
仉尚航:開放世界泛化機(jī)器學(xué)習(xí)的研究主要使AI模型在開放世界中面臨新的數(shù)據(jù)分布時,可以自動適應(yīng)新的環(huán)境,解決新的任務(wù)。比如如何提升自動駕駛模型面對不同季節(jié)、不同時間、不同天氣以及其他長尾任務(wù)的性能,如何讓機(jī)器人在開放世界的場景下完成復(fù)雜的任務(wù)。我們基于這個方向的積累提出了更具泛化性的具身基礎(chǔ)模型,使機(jī)器人在面臨復(fù)雜場景和任務(wù)時,可以自主發(fā)現(xiàn)錯誤,并進(jìn)行自我糾正與模型進(jìn)化。這個方向是構(gòu)建具身大模型的基礎(chǔ)。
AI科技評論:具身智能沒火之前,大家都在做多模態(tài)大模型,之前做多模態(tài)大模型的那一撥人,跟現(xiàn)在做具身多模態(tài)大模型的,是同一撥人嗎?兩者有什么區(qū)別?
仉尚航:不會是完全是同一撥,目前來看做具身智能的學(xué)者或者從業(yè)人員很少專門跳去做多模態(tài)大模型,但是多模態(tài)大模型方向的研究人員有可能會轉(zhuǎn)去做具身多模態(tài)大模型。要想做具身多模態(tài)大模型的方向必須具備至少兩方面的能力:一個是多模態(tài)大模型方向的研究能力;另一個就是具身智能領(lǐng)域的專業(yè)能力。
AI科技評論:這樣的人才在國內(nèi)多嗎?
仉尚航:很少。我們在智源招聘的過程中就發(fā)現(xiàn),同時具備具身智能和多模態(tài)大模型能力的人現(xiàn)在非常少,因為兩個方向都是比較新的,再結(jié)合在一起就更加少了。
AI科技評論:都是新方向的話,怎樣去招人呢?
仉尚航:首先要盡量去挖掘。就像智源挖掘到我這樣,可以通過我過去的論文發(fā)表情況看到我的研究包括多模態(tài)大模型、泛化學(xué)習(xí)、自動駕駛、與機(jī)器人,對進(jìn)行具身多模態(tài)大模型的研究具備了良好的基礎(chǔ)與潛力。
第二種方式就是想辦法去強(qiáng)強(qiáng)結(jié)合。我們團(tuán)隊有擅長機(jī)器人的研究員,也有擅長大模型的研究員,然后我可以讓兩者去合作,互相學(xué)習(xí)和促進(jìn)。
AI科技評論:具身多模態(tài)大模型研究中心現(xiàn)在有哪些研究成果?
仉尚航:目前中心成立不到半年時間,進(jìn)展還是比較快的。我們的主要研究工作是面向具身智能的多模態(tài)大模型和大數(shù)據(jù)構(gòu)建,它背后有一個統(tǒng)一的思路:設(shè)計具有類人思考快系統(tǒng)與慢系統(tǒng)的長程閉環(huán)框架。
基于這樣的思路,我們研發(fā)了一系列的具身智能基礎(chǔ)模型。該思路是受到了心理學(xué)家丹尼爾·卡尼曼的啟發(fā),他在《思考,快與慢》一書中提出,人的思考分為感性直覺的快系統(tǒng)和意識理性的慢系統(tǒng)。
我們創(chuàng)新地設(shè)計了面向機(jī)器人具身基礎(chǔ)模型的快慢系統(tǒng)框架,快系統(tǒng)能夠高效快速地預(yù)測末端執(zhí)行器位姿,慢系統(tǒng)則是在面對復(fù)雜和錯誤行為時更加深入地思考和糾錯,不斷提升機(jī)器人大腦的能力。
為了實現(xiàn)該快慢系統(tǒng)框架,我們探索了具身端到端以及大小腦分層結(jié)構(gòu)的不同技術(shù)路線,進(jìn)行開放世界泛化物體操作,并基于大腦模型進(jìn)行語義理解與常識推理,實現(xiàn)零樣本物體導(dǎo)航。
無論是端到端模型還是分層結(jié)構(gòu),最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律,更好地與環(huán)境交互,更好地執(zhí)行時序上的準(zhǔn)確行為。因此,智源同時提出了四維世界模型Robo4D,為世界模型構(gòu)建四維時空,以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場景泛化等問題。
相關(guān)研究被國際旗艦會議NeurIPS 2024、ICML 2024接收。
AI科技評論:具備快、慢系統(tǒng)的端到端大模型是怎么工作的?
仉尚航:針對端到端大模型,我們研發(fā)了一個具備快速直覺推理和慢速反思糾正能力的快、慢系統(tǒng)端到端大模型(Self corrected Multi model large language model for end to end Robot manipulation),這也是我們最近的一個投稿工作。具體指一個端到端大模型同時具備了快系統(tǒng)和慢系統(tǒng)。
快系統(tǒng)模仿人類思考的過程去構(gòu)建一個機(jī)器人端到端大模型,所謂的快系統(tǒng)就是利用參數(shù)高效微調(diào)的技術(shù)進(jìn)行一個準(zhǔn)確 pose—estimation。當(dāng)模型檢測到部分執(zhí)行會失敗的時候,慢系統(tǒng)實現(xiàn)一個chain of thought的思維鏈糾錯,自主化分析錯誤原因并調(diào)用 expert model 進(jìn)行反饋提示,從而 對它的 action 進(jìn)行調(diào)整,使得我們可以有更準(zhǔn)確的action輸出。
這樣的系統(tǒng)使得模型可以對錯誤進(jìn)行反思并且修正自身錯誤,從而去增強(qiáng)模型的泛化性和魯棒性。在實驗過程中的 unseen 任務(wù)部分,和最新的 Sota 比起來我們有20%以上的提升,說明快慢系統(tǒng)的思路還是比較成功的。
AI科技評論:達(dá)到20%的提升是在多久時間內(nèi)實現(xiàn)的?
仉尚航:如果是在服務(wù)器端進(jìn)行訓(xùn)練和優(yōu)化,30類任務(wù)只需要幾小時便可以實現(xiàn)精度20%的提升。
AI科技評論:這樣擁有快、慢思考的具身大模型會給機(jī)器人智能帶來怎樣的提升?
仉尚航:擁有這種架構(gòu)的機(jī)器人能夠擁有更強(qiáng)的推理與邏輯思考能力,能夠更好地分析解決長程任務(wù),此外同時面向一些錯誤的情況可以進(jìn)行自我糾正,利用自我糾正的機(jī)制可以快速適應(yīng)場景、學(xué)習(xí)新的技能。
我們認(rèn)為具備自我進(jìn)化能力的機(jī)器人才是解決所有任務(wù)所有場景的通用解。另外,一個能自主學(xué)習(xí)、自我進(jìn)化的機(jī)器人的驅(qū)動方式也會有變化,一個比較遠(yuǎn)的設(shè)想這樣的機(jī)器人是可以使用prompt,甚至更高級的概念比如同理心、好奇心、成就感進(jìn)行驅(qū)動的,甚至只需要機(jī)器人三定律就可以讓機(jī)器人出廠在人類環(huán)境進(jìn)行自我進(jìn)化。
AI科技評論:大腦大模型方面有什么進(jìn)展?
仉尚航:我們最近研發(fā)了一個面向具身智能的大腦大模型。它基于多模態(tài)大模型,可輸入多種模態(tài)的信息,包含視覺場景、指令、機(jī)器人狀態(tài)信息。將這些信息輸入給大腦大模型之后,能夠輸出多種模態(tài)的信息,包括關(guān)于任務(wù)的拆解和規(guī)劃,它可能是一種偽代碼的形式去輸出。
這樣的話大腦模型就生成了指令,接下來小腦大模型可以一步一步地按照指令去執(zhí)行。這樣就可以把一個長程任務(wù)拆解成一個個原子任務(wù)。同時,大腦模型還可以輸出像 Trajectory、Key points等信息,幫助小腦大模型縮減它的動作執(zhí)行空間,這樣小腦大模型就相當(dāng)于去處理一些更加簡單的原子任務(wù)就可以了。
AI科技評論:小腦大模型呢?
仉尚航:小腦大模型方面,我們最近有一個工作RoboMamba被 NeurIPS 接受,今年 12 月在加拿大會有一個展示。它是一個端到端的多模態(tài)大模型,輸入的是視覺、 場景和指令,輸出的是action,它的特點是既具有了推理能力,又具有了高效性。
RoboMamba借鑒了最近提出的狀態(tài)空間模型Mamba,在它的基礎(chǔ)上實現(xiàn)了高效推理和動作預(yù)測能力,而且它可以保持較低的微調(diào)和推理成本。通過整合視覺編碼器與 Mamba 并對視覺標(biāo)記和語言嵌入進(jìn)行聯(lián)合訓(xùn)練,RoboMamba 具備了視覺常識和機(jī)器人推理能力。此外,通過簡單策略頭進(jìn)行高效微調(diào),該模型以極少參數(shù)實現(xiàn)了 SE(3) 位姿預(yù)測。
RoboMamba的工作在一般的通用多模態(tài)推理評測基準(zhǔn)以及機(jī)器人評測基準(zhǔn)上,都展現(xiàn)出了比baseline更好的推理能力,并且它能夠只用 3.7 B 的參數(shù)就可以適配到各種機(jī)器人本體上。同時還具備準(zhǔn)確的end-effector pose預(yù)測能力,可以實現(xiàn)小腦大模型所需的功能。
而我們現(xiàn)在擁有的端到端大模型、分層大模型,在我們的研究體系里,可能又是分久必合、合久必分的狀態(tài),最終會統(tǒng)一成一個 4D 世界模型。
AI科技評論:在大語言模型中會有算力、算法、數(shù)據(jù)這關(guān)鍵三要素,那么在具身智多模態(tài)大模型中是否也對應(yīng)著同樣的關(guān)鍵三要素?
仉尚航:是的。跟大模型一樣,具身大模型有自己的數(shù)據(jù)瓶頸,而且更難;大模型的算力要素對應(yīng)具身智能中的本體;大模型算法對應(yīng)具身模型的設(shè)計。
AI科技評論:大語言模型的 Scaling Law 能夠復(fù)制到具身大模型領(lǐng)域嗎?
仉尚航:可以,很多具身多模態(tài)大模型也初步展現(xiàn)了一個能力,即當(dāng)具身智能的模型規(guī)模變大、訓(xùn)練數(shù)據(jù)變多的時候,它確實具備了更強(qiáng)的泛化能力。
但同時,由于目前訓(xùn)練等數(shù)據(jù)不夠多、模型還不足夠大, ScalingLaw 只是初見端倪,離 Gemini 或者 ChatGPT 系列模型能力還是需要很長一段時間的路要走。
AI科技評論:具身大模型的數(shù)據(jù)與模型的關(guān)系,跟大語言模型中數(shù)據(jù)和模型之間的關(guān)系是一樣的嗎?
仉尚航:不太一樣。大模型的發(fā)展進(jìn)程是這樣的,先有大語言模型,再有多模態(tài)大模型,而現(xiàn)在還沒有非常多的視覺大模型,這一順序背后很重要原因就是數(shù)據(jù)的瓶頸。
為什么大語言模型先出來?因為其訓(xùn)練數(shù)據(jù)容易獲取,它通過有效的自監(jiān)督學(xué)習(xí)就可以實現(xiàn)大規(guī)模的預(yù)訓(xùn)練,互聯(lián)網(wǎng)上有廣泛的、海量的數(shù)據(jù),部分不需要大量的標(biāo)注就可以去預(yù)訓(xùn)練。之后的多模態(tài)大模型,是借助大語言模型的能力再去做多模態(tài)能力,即視覺模態(tài)和語言模態(tài)的對齊,然后讓整個多模態(tài)模型也具備了大模型的涌現(xiàn)能力。
但到視覺大模型就有點難做了,純視覺大模型很少,因為視覺這個模態(tài)的標(biāo)注是很難獲取的,不像大語言模型那樣直接上網(wǎng)下載一些語料就可以訓(xùn)練。所以這也是為什么到了視覺大模型這邊反而進(jìn)程會很慢,因為缺高質(zhì)量的、有標(biāo)注的視覺數(shù)據(jù)。
再進(jìn)一步,到機(jī)器人的層面就更難了。因為機(jī)器人面臨的不僅是視覺世界,它還有action,甚至還有物理規(guī)律。首先數(shù)據(jù)怎么采集是問題,并不是互聯(lián)網(wǎng)下載就可以了,還得用真機(jī)去采,采完之后還得標(biāo)注。而且數(shù)據(jù)是多元化的,甚至包含了觸覺、聲音、力,這一系列過程都是非常難且昂貴的。
AI科技評論:數(shù)據(jù)難題如何解決呢?
仉尚航:機(jī)器人的數(shù)據(jù)金字塔最下層是海量的互聯(lián)網(wǎng)數(shù)據(jù),往上是仿真數(shù)據(jù),再往上是真機(jī)數(shù)據(jù)。其中精細(xì)標(biāo)注的真機(jī)數(shù)據(jù)是塔尖,真機(jī)數(shù)據(jù)肯定是越多越好的,只不過成本有點大,所以目前沒有辦法采集很多。再往下是仿真數(shù)據(jù),仿真數(shù)據(jù)面臨的一個很大的問題是從仿真到真實得 gap,仿真數(shù)據(jù)訓(xùn)練的模型遷移到真實的場景中難度較大。
機(jī)器人領(lǐng)域也可以下載大量的互聯(lián)網(wǎng)數(shù)據(jù),例如:互聯(lián)網(wǎng)人手操縱數(shù)據(jù),但是怎么利用這些海量的互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練一個機(jī)器人的模型是一個非常難的課題。
我覺得數(shù)據(jù)和模型就像是蹺蹺板,如果你對數(shù)據(jù)的要求變低了或者下載海量的互聯(lián)網(wǎng)數(shù)據(jù)了,那對模型設(shè)計的要求就會相應(yīng)變高了,就需要設(shè)計一個能夠利用互聯(lián)網(wǎng)數(shù)據(jù)去訓(xùn)練的大模型,那么這個模型的設(shè)計、算法的設(shè)計就變難了。如果模型變得簡單一點,那么對數(shù)據(jù)的需求就變大了,需要是高質(zhì)量的、大量的精標(biāo)數(shù)據(jù)。所以兩者就是一個蹺蹺板,一方的要求變低了之后,另外一方的要求就會變高。
AI科技評論:所以具身智能的多模態(tài)大模型需要從頭開始訓(xùn)練嗎?
仉尚航:既然已經(jīng)有一定多模態(tài)模型或者視覺預(yù)訓(xùn)練模型的基礎(chǔ)了,為什么不用呢?而且機(jī)器人大模型或者我們叫大腦大模型,它也是要像人一樣去推理的,所以我們一般不是完全地從頭開始訓(xùn)練。
AI科技評論:在數(shù)據(jù)收集上,多模態(tài)大模型研究中心是否有獨特的方法?
仉尚航:我所在的小組側(cè)重于真機(jī)的數(shù)據(jù)采集。第一,由于我們是跨本體的研究,所以我們收集的數(shù)據(jù)也不是只針對一種類型的機(jī)器人,會跨越靈巧手、手臂、整個身體、雙足機(jī)器人、機(jī)器狗等全都覆蓋掉;
第二,專門構(gòu)建一個機(jī)器人數(shù)據(jù)訓(xùn)練場,面向家居、工業(yè)物流搭建了一系列場地專門用于采集數(shù)據(jù);
第三,會根據(jù)最新的方案,去開發(fā)數(shù)據(jù)采集的遙操作系統(tǒng);
第四,我們專門針對大模型的需求去定制了一個機(jī)器人數(shù)據(jù)的自動標(biāo)注流程,并且實現(xiàn)了自動標(biāo)注;
最后,由于我們比較擅長做機(jī)器人大模型算法層面的事情,所以會形成一個數(shù)據(jù)和模型的閉環(huán),即我們不是只采數(shù)據(jù),也不是只做模型,而是兩者都了解。這樣我們就知道針對模型訓(xùn)練,應(yīng)該去采什么樣的數(shù)據(jù),可以保證采集的數(shù)據(jù)是切實可用的。
AI科技評論:現(xiàn)在的大模型大部分是集中在云端上,是沒法在機(jī)器人本體上跑的,因為機(jī)器人需要一個非常高算力的板卡,這意味著成本高、散熱成問題、功耗高,智源的具身多模態(tài)大模型如何跑在機(jī)器人本體上?
仉尚航:在CVPR2023和CVPR2024上,我們設(shè)計了一個端云協(xié)作的大小模型協(xié)同訓(xùn)練和部署的方式??梢栽谠贫巳ビ?xùn)練這個大模型,然后通過知識蒸餾、模型量化的方式得到小模型,再把這個輕量化的小模型部署在終端上。
終端可以放一個NVIDIA的板子,這個板子上可以部署一個小的如1B的模型。在終端上放置一個輕量化的大模型,既能保持住大模型的能力,也可以更高效地部署。
AI科技評論:具身大模型部署到機(jī)器人本體上是一個待解決的難題嗎?
仉尚航:是的。目前我們?nèi)パ芯恳粋€具身多模態(tài)大模型,會讓其先具備推理能力、action 能力,也就是先做一個面向機(jī)器人場景,盡可能魯棒的大模型。在這基礎(chǔ)之上,再專門地去做模型的輕量化的方式。
我之前在伯克利的導(dǎo)師 Kurt Keutzer,他帶的一個研究組做了從 CNN 到 Transformer 到大模型一系列的輕量化工作,有很多技術(shù)儲備。因此于我們中心而言,不太擔(dān)心模型不容易部署的問題,更何況我們還有端云協(xié)作的系統(tǒng),可以實現(xiàn) online 的更新。
退一步講,如果模型輕量化之后能力沒有云端大模型那么強(qiáng),我們還可以借助端云協(xié)作的模型,在遇到特別難的 case 后,可以把給它傳到云端,讓云端更大的模型去進(jìn)行推理工作。所以輕量化部署的問題的話,并不一定是第一步就要解決的,我們的第一步還是要先把具身智能大模型做得盡可能強(qiáng)大。
AI科技評論:智源的具身多模態(tài)大模型主要落地到什么樣的機(jī)器人上?適配了哪些芯片?
仉尚航:我們在智源設(shè)計的具身大模型是具備跨本體能力的,智源與國內(nèi)的多家人形、機(jī)械臂與靈巧手的公司進(jìn)行了合作,預(yù)期在國內(nèi)形成數(shù)據(jù)、模型以及本體和業(yè)務(wù)的生態(tài)循環(huán)。
有關(guān)芯片我們的考慮是先在Nvidia生態(tài)上的服務(wù)器和自動駕駛端的芯片上進(jìn)行快速迭代,我們看到國產(chǎn)的芯片也在逐步往機(jī)器人具身任務(wù)上發(fā)力,比如地平線成立了地瓜機(jī)器人,華為也在支持機(jī)器人方向的落地,這些都是未來我們要合作的對象。
AI科技評論:為什么要研究「Real World 4D 模型」?
仉尚航:無論是端到端模型還是分層結(jié)構(gòu),最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律,更好地與環(huán)境交互,更好地執(zhí)行時序上的準(zhǔn)確行為。因此,我們同時提出了四維世界模型Robo4D,4D 即三維的空間加上一維的時間,就變成了四維的世界模型。
為世界模型構(gòu)建四維時空,以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場景泛化等問題。利用世界模型預(yù)測機(jī)器人與環(huán)境交互后的未來事件,從而生成準(zhǔn)確的行為,提前預(yù)測行為是正確還是失敗。實現(xiàn)真實世界的四維時空世界模型是邁向機(jī)器人整體AGI的重要一步。
四維世界模型將作為機(jī)器人的世界基礎(chǔ)模擬器,同時具備時間與空間智能,擁有長短期記憶與物理概念學(xué)習(xí)等能力,與真實物理世界進(jìn)行交互并從中得到反饋。
真正的 4D 的世界模型,它可以集感知、導(dǎo)航、操控為一體,和真實世界交互,反映物理規(guī)律,更準(zhǔn)確地完成各種任務(wù)。
在機(jī)器人的整體AGI 概念中,預(yù)測是非常關(guān)鍵的步驟,例如,未來的機(jī)器人不是說向它發(fā)送了「要喝水」的指令,它就可以按照從一到五的步驟一次性地生成出來,而是機(jī)器人會根據(jù)每一步的操作再去決預(yù)測下一步,它會判斷第一步操作之后世界會發(fā)生了什么變化,再根據(jù)世界的變化去執(zhí)行第二步的操作。盡管我們在大小腦的路上充滿期待,但同時也意識以人為參照的話,具身大模型還缺少了“想象”這一環(huán)。這一環(huán)就是世界模型來補足的。
AI科技評論:如何實現(xiàn)一個「Real World 4D 模型」?
仉尚航:這需要在數(shù)據(jù)、模型結(jié)構(gòu)以及訓(xùn)練方式上都有創(chuàng)新,從我們的角度來看,在數(shù)據(jù)層面采集更多的真機(jī)數(shù)據(jù)進(jìn)行更系統(tǒng)的標(biāo)注與處理,并針對性的指導(dǎo)數(shù)據(jù)采集方向,探索能夠更高效將互聯(lián)網(wǎng)低成本數(shù)據(jù)使用起來的網(wǎng)絡(luò)結(jié)構(gòu)。
基礎(chǔ)模型層面我們部署自我糾正的機(jī)器人模型在現(xiàn)實世界進(jìn)行更大規(guī)模的數(shù)據(jù)采集以及自我進(jìn)化,模仿人類的思維方式,提出泛化性更強(qiáng)、更魯棒的基礎(chǔ)模型。我們并不只是堆砌數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而是通過人和機(jī)器人與世界的交互來引導(dǎo)具身模型迭代,更系統(tǒng)性的構(gòu)建具身大模型與大數(shù)據(jù),從而實現(xiàn)real world 4d模型的訓(xùn)練數(shù)據(jù)構(gòu)建。
從模型結(jié)構(gòu)角度來說,我們也一直從各個角度在探索各種預(yù)測器??臻g上我們近期研究了機(jī)器人場景下的4D重建模型,是在探討多視角的預(yù)測問題;時間尺度上我們近期從視頻生成模型的角度提出EVA,具身智能世界模型的視頻預(yù)測器,研究通用視頻生成模型在機(jī)器人任務(wù)下的泛化能力,都是對世界模型模型的探索。
此外更積極的擁抱機(jī)器人本體公司與算力生態(tài)的公司,推進(jìn)大模型在某些有價值的場景獲取更多真實的數(shù)據(jù)與更多的反饋。世界模型就是要讓我們、讓機(jī)器人、讓模型、讓數(shù)據(jù)快速的和真實世界交互反饋增強(qiáng),
AI科技評論:具身大腦有幾種技術(shù)路線分別是多模態(tài)、空間智能、世界模型。這幾條路線是漸進(jìn)式的關(guān)系嗎,先是多模態(tài),然后再是空間智能,然后再到 4D 世界模型?
仉尚航:路線確實有點漸進(jìn)的意思。
目前端到端和分層結(jié)構(gòu)是并行的,但是在端到端和分層結(jié)構(gòu)之后可能就要到世界模型了?,F(xiàn)在大部分處理的還是 2D 的問題,接下來就要處理3D幾何信息,包括我們團(tuán)隊現(xiàn)在正在做的就是 3D 具身智能大模型,下一步或者同時在進(jìn)行的另外一系列工作就是 4D 世界模型和4D VLA模型,所以從 2D 到 3D 到 4D 也是一個進(jìn)程。
但實際上并不意味著只有一條路線達(dá)到終點另外一條路線才會開始。具身智能現(xiàn)在是百家爭鳴的狀態(tài),各家有不同的理解和方法。但最終都是在研究時間和空間的理解,4D世界模型可能是一種大家都需要達(dá)到的最終形態(tài)。
AI科技評論:具身智能的基礎(chǔ)模型的終極形態(tài)會是4D世界模型嗎?
仉尚航:有可能,但目前還無法下定論。因為人還有觸覺、嗅覺、力等其他維度,這些是當(dāng)下的機(jī)器人還不具備的,但至少它們已經(jīng)能夠幫人類完成很多現(xiàn)實生活中的任務(wù)了。
AI科技評論:在世界范圍內(nèi),4D 世界模型現(xiàn)在有什么樣的進(jìn)展?
仉尚航:目前在國內(nèi)外的話,有很多關(guān)于自動駕駛的世界模型工作,機(jī)器人世界模型也有一些2D video的工作,但是4D世界模型的研究還是空白。
可能我們算是第一個提出的。現(xiàn)在也已經(jīng)做有了初步的成果,馬上就會投稿到人工智能頂會上。「雷峰網(wǎng)」「雷峰網(wǎng)(公眾號:雷峰網(wǎng))」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。