0
本文作者: 賴文昕 | 2024-06-04 14:38 |
作者丨賴文昕 馬蕊蕾
編輯丨陳彩嫻
大模型浪潮一起,被視為是大模型最佳載體的機(jī)器人,熱度也隨之飆升,「具身智能」這個(gè)在1950年由艾倫·圖靈提出的概念,時(shí)隔75年再次成為了 AI 界的寵兒。
2024年才過去不到半年,AI 圈就迎來了 Sora、Claude 3、Devin、GPT-4o 等數(shù)顆重磅炸彈,文生視頻、AI Agent(智能體)、多模態(tài)等多個(gè)方向都有了顯著的進(jìn)展。但顯然,與屢爆驚喜的模型、應(yīng)用不同,更「硬」的「具身智能」在產(chǎn)業(yè)界掀起商業(yè)化與資本狂潮的同時(shí),也面臨著需要冷靜的現(xiàn)實(shí):大模型并未在行業(yè)中得到廣泛應(yīng)用。
那么,代表「大腦」的大模型如何能讓機(jī)器人真的擁有「智能」?通往 AGI 的路何時(shí)能從數(shù)字世界逐步擴(kuò)展到物理世界?
在 5 月 29 日于舊金山召開的一場 GenAI 峰會上,英偉達(dá)高級研究科學(xué)家、具身智能負(fù)責(zé)人 Jim Fan 對這些問題展開了深刻的思考。
Jim Fan 在斯坦福大學(xué)視覺實(shí)驗(yàn)室獲得了博士學(xué)位,師從李飛飛教授。他的研究領(lǐng)域十分廣泛,包括了多模態(tài)基礎(chǔ)模型、強(qiáng)化學(xué)習(xí)以及計(jì)算機(jī)視覺,曾實(shí)習(xí)于谷歌云AI、OpenAI、百度硅谷人工智能實(shí)驗(yàn)室等知名組織。
作為本次 GenAI 峰會主論壇第一位主題分享嘉賓,Jim Fan 分享了對具身智能的見解與對其未來趨勢的看法,內(nèi)容涉及英偉達(dá)的最新進(jìn)展,包括 Mine Dojo、Voyager、MetaMorph 和 Eureka。
以下是 Jim Fan 本次主題演講的內(nèi)容,AI科技評論做了不改變原意的編輯:
從 Minecraft 到 AI Agent
Minecraft 游戲及其社區(qū)具有豐富的數(shù)據(jù),這使其成為一個(gè)真正的開放式 AI 游樂場。在這個(gè)平臺上,我們見證了許多令人印象深刻的成果。例如,Minecraft 擁有4000萬活躍玩家,這為 AI 研究提供了龐大的數(shù)據(jù)基礎(chǔ)。
我們的研究系統(tǒng)由三個(gè)主要部分組成:一個(gè)模擬器、一個(gè)數(shù)據(jù)庫和一個(gè)智能體(Agent)。為了充分挖掘 Minecraft 在 AI 研究方面的潛力,我們設(shè)計(jì)了一個(gè)模擬器 API。
我們認(rèn)為最好的學(xué)習(xí)方法是通過數(shù)據(jù)來學(xué)習(xí),這樣可以幫助智能體捕捉到像建造房屋這樣的抽象概念。此外,我們收集了一個(gè)橫跨 Minecraft 三個(gè)部分的互聯(lián)網(wǎng)技能知識庫。難以想象,有人在維基上逐頁列出了 Minecraft 中所有事物成千上萬種的配方。
利用這些資源,我們基于對比學(xué)習(xí)的理念訓(xùn)練了一個(gè)編碼器模型,稱為 Mine-CLIP 模型。簡單來說,Mine-CLIP 模型可以學(xué)習(xí)視頻和描述視頻中動作的文本之間的關(guān)聯(lián)。
在 Minecraft 中,智能體在探索過程中會生成視頻片段,然后將其編碼并發(fā)送給 Mine-CLIP 模型來計(jì)算分?jǐn)?shù)。關(guān)聯(lián)度越高,分?jǐn)?shù)就越高,這實(shí)際上就是一個(gè)強(qiáng)化學(xué)習(xí)算法的獎(jiǎng)勵(lì)函數(shù)。
我們的智能體經(jīng)過學(xué)習(xí)后,能夠在各種任務(wù)中展示出色的行為。然而,目前的局限性在于,智能體無法自主發(fā)現(xiàn)新事物,我們必須手動決定一個(gè)任務(wù)提示,然后每次針對不同的提示運(yùn)行訓(xùn)練。
在 Minecraft 中,我們訓(xùn)練出一個(gè)名為 Voyager 的通用型智能體,它可以在沒有任何人工干預(yù)的情況下連續(xù)玩幾個(gè)小時(shí)的游戲。Voyager 能夠探索地形,使用各種材料與怪物戰(zhàn)斗,制作數(shù)百種配方,并解鎖不斷擴(kuò)展的技能樹。
Voyager 的自我反思機(jī)制有三個(gè)來源:JavaScript 執(zhí)行引擎、智能體狀態(tài)和世界狀態(tài)。
一旦一項(xiàng)技能成熟,Voyager 就會將程序存儲到技能庫中。你可以將技能庫看作是一個(gè)代碼庫,完全由 Voyager 通過試驗(yàn)和錯(cuò)誤編寫而成。將來當(dāng) Voyager 面臨類似情況時(shí),它只需從代碼庫中檢索技能并執(zhí)行它。
Voyager 有一個(gè)高級指令,那就是尋找盡可能多的獨(dú)特物品。
Voyager 本身會執(zhí)行一個(gè)指令,即不斷尋找并解決難度逐漸增加的新奇挑戰(zhàn)。
從 Minecraft 地圖的鳥瞰圖來看,最大的橙色圓圈代表了 Voyager 與許多基線方法相比所走的距離。
因?yàn)?Voyager 非常喜歡旅行,所以我們給它起名叫"旅行者"。與基線方法相比,Voyager 能夠掌握更多的技能,但它仍然只能學(xué)會如何控制一個(gè)身體。
機(jī)器人是用「詞匯」寫成的「句子」
那么,我們能否有一個(gè)可以在不同載體上運(yùn)行的算法呢?
我們創(chuàng)建了一個(gè)基礎(chǔ)模型 Metamorph,該模型不僅能控制一個(gè)機(jī)器人,而且能控制數(shù)千個(gè)具有不同手臂和腿部配置的機(jī)器人。
Metamorph 可以絲滑地適應(yīng)這些機(jī)器人的物理結(jié)構(gòu),所以我們能很直觀地用一個(gè)「詞匯」來描述機(jī)器人的身體部位,這樣每個(gè)機(jī)器人本質(zhì)上就是用這些「詞匯」寫成的「一句話」。
簡單來說,就是把它們轉(zhuǎn)換為 tokens,序列本身作為一個(gè)「句子」來描述機(jī)器人的形態(tài)和運(yùn)動學(xué)特性,就能擁有具有不同數(shù)量關(guān)節(jié)和配置的機(jī)器人。
我們用一個(gè)巨大的 Transformer 模型來控制這些機(jī)器人,它就叫「Metamorph」。但與 ChatGPT 不同,MetaMorph 寫出的不是文本,而是「身體」里每個(gè)關(guān)節(jié)上的運(yùn)動控制。
我們想實(shí)現(xiàn)跨形態(tài)的通用策略,便把所有「句子」組合在一起,訓(xùn)練一個(gè)大型的多任務(wù)網(wǎng)絡(luò)。為了加強(qiáng)訓(xùn)練這些能力,我們教機(jī)器人在或平坦或復(fù)雜的地形中行走。
在我們的實(shí)驗(yàn)中可以看到, Metamorph 可以控制數(shù)千種不同的機(jī)器人。更有趣的是,如果我們用更復(fù)雜的配置來擴(kuò)展機(jī)器人,那么它能夠推廣到訓(xùn)練期間從未見過的機(jī)器人形態(tài)。
我設(shè)想有一天,Metamorph2.0 將能夠泛化到機(jī)器手、人形機(jī)器人、狗、無人機(jī)甚至更多領(lǐng)域。與 Voyager 相比,Metamorph在多體控制方面邁出了一大步。
然后讓我們將一切再提升一個(gè)層次,即在不同的環(huán)境之間轉(zhuǎn)移技能和載體。
Isaac Sim 的最大優(yōu)勢是以比實(shí)時(shí)快一千倍甚至更快的速度運(yùn)行物理仿真,讓角色在短短的3天內(nèi)就經(jīng)歷了10年高強(qiáng)度訓(xùn)練,學(xué)會令人印象深刻的武術(shù)。
光線追蹤技術(shù)則通過硬件加速,幫助模擬技術(shù)跨越了“恐怖谷”效應(yīng),實(shí)現(xiàn)了更高級別的逼真度,這對于渲染復(fù)雜世界和訓(xùn)練計(jì)算機(jī)視覺模型至關(guān)重要。
現(xiàn)在,我們可以通過硬件加速光線追蹤技術(shù)來渲染非常復(fù)雜的世界,照片真實(shí)感可以幫助訓(xùn)練計(jì)算機(jī)視覺模型,而這些模型將成為每個(gè) AI Agent 的眼睛。
像這個(gè)五指機(jī)器人,Eureka 的第一步是將環(huán)境代碼和任務(wù)描述作為上下文傳遞給 GPT-4,這里的任務(wù)是寫自然語言,使筆旋轉(zhuǎn)到目標(biāo)位置。Eureka 對獎(jiǎng)勵(lì)函數(shù)進(jìn)行采樣,通常這是由非常熟悉物理模擬的專家來設(shè)計(jì)的。
現(xiàn)在,Eureka能夠自動執(zhí)行這一過程。一旦確定了獎(jiǎng)勵(lì)函數(shù),便采用強(qiáng)化學(xué)習(xí)方法,通過大量的試錯(cuò)迭代來最大化該函數(shù)。一次完整的訓(xùn)練運(yùn)行大約需要20分鐘。
完成后,GPT-4 會生成多個(gè)獎(jiǎng)勵(lì)函數(shù)組件,Eureka 會傳遞自動反饋,并要求語言模型對結(jié)果進(jìn)行自我反思,這樣它就可以提出更好的獎(jiǎng)勵(lì)函數(shù)來更好地解決問題,繼而循環(huán)并重復(fù)。
我們發(fā)現(xiàn),Eureka 實(shí)際上甚至可以勝過一些有經(jīng)驗(yàn)的工程師。
從 Foundation Agent 到具身智能
接下來,我們面臨一個(gè)關(guān)鍵問題:如何將虛擬世界中的成果轉(zhuǎn)移到現(xiàn)實(shí)世界呢?
這就要提到一個(gè)名為「域隨機(jī)化」(domain randomization)的概念。其基本思想在于,如果一個(gè)模型在一萬個(gè)不同的模擬環(huán)境中接受訓(xùn)練,并且這些環(huán)境中的重力、摩擦力、物體重量和大小都有所不同,那么該模型便很有可能能夠適應(yīng)并泛化到我們的現(xiàn)實(shí)世界中。
比如我們模擬一只機(jī)器狗在向前奔跑,能夠?qū)⒛M環(huán)境中的這一行為零樣本地轉(zhuǎn)移到現(xiàn)實(shí)世界中,讓一個(gè)真實(shí)的機(jī)器狗,也在進(jìn)行向前奔跑的動作。同樣,模擬中的手旋轉(zhuǎn)立方體的動作也可以直接在現(xiàn)實(shí)世界中呈現(xiàn)。
然而,硬件的限制使我們未能在現(xiàn)實(shí)世界中復(fù)制筆旋轉(zhuǎn)的動作。盡管如此,我們還是成功地實(shí)現(xiàn)了機(jī)器狗在瑜伽球上行走的場景,這是無法完全模擬的,因?yàn)殍べで虻膹椥院涂勺冃翁匦噪y以復(fù)制。我們通過不斷的隨機(jī)化嘗試,最終找到了一個(gè)有效的解決方案。
值得注意的是,Eureka 是一個(gè)通用的方法,它成功地在高級推理和低級運(yùn)動控制之間架起了橋梁。
Eureka 采用了一種混合梯度架構(gòu)的范式,其中一個(gè)大型語言模型(LLM)負(fù)責(zé)編寫?yīng)剟?lì)函數(shù),這代表了高級推理的過程。然后,這個(gè)獎(jiǎng)勵(lì)函數(shù)通過強(qiáng)化學(xué)習(xí)來指導(dǎo)另一個(gè)較小的神經(jīng)網(wǎng)絡(luò),這就是所謂的雙循環(huán)設(shè)計(jì)。
Eureka 通過簡單地改變獎(jiǎng)勵(lì)函數(shù),就能將模擬環(huán)境的配置應(yīng)用到真實(shí)世界中,實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的無縫過渡。
我設(shè)想著這樣一個(gè)未來: Eureka ++ 能夠?yàn)槲以O(shè)計(jì)任務(wù)程序,甚至構(gòu)建起整個(gè)模擬環(huán)境。想象一下,當(dāng)我在度假放松時(shí),Eureka ++ 正勤勤懇懇地完成所有的開發(fā)工作,自動化整個(gè)機(jī)器人訓(xùn)練流程。而我度假歸來,驚喜地發(fā)現(xiàn)機(jī)器人已經(jīng)被訓(xùn)練得得心應(yīng)手。
這個(gè)設(shè)想的核心是一種通用算法,它能夠進(jìn)行簡單的編碼。隨著我們在技術(shù)上的不斷探索,我們終將實(shí)現(xiàn)一個(gè)能夠泛化到所有三個(gè)維度上的單一模型,我將這個(gè)模型稱為「Foundation Agent」(基礎(chǔ)智能體)。
我相信,訓(xùn)練這樣的基礎(chǔ)智能體將與訓(xùn)練 ChatGPT 非常相似,所有的語言任務(wù)都可以通過語言來表達(dá),比如輸入和輸出,ChatGPT 只需在大量的文本數(shù)據(jù)上進(jìn)行擴(kuò)展訓(xùn)練。
基礎(chǔ)智能體的工作方式也與之類似。它接受一個(gè)體現(xiàn)規(guī)范和語言指令,然后輸出相應(yīng)的動作。我們只需在廣泛的現(xiàn)實(shí)場景中進(jìn)行大規(guī)模擴(kuò)展。
世界上所有的工具、設(shè)備、建筑,包括房屋和餐館,都是為了適應(yīng)人類而設(shè)計(jì)的。原則上,只要有足夠先進(jìn)的仿人硬件,它就能完成任何未經(jīng)訓(xùn)練的人類能夠做到的事情。因此,我們的目標(biāo)是開發(fā)出最通用的硬件?,F(xiàn)在正是追求這一目標(biāo)的最佳時(shí)機(jī),因?yàn)槲覀冇^察到,隨著時(shí)間的推移,仿人機(jī)器人的制造成本正在指數(shù)級下降。
就在兩周前,宇樹公司(Unitree)宣布他們的 G1 機(jī)器人的售價(jià)僅為3萬美元(9.9萬人民幣)。而傅利葉智能(Fourier Intelligence)公司的 GR-1 機(jī)器人能夠通過原始視頻模仿人類跳舞,并且保持平衡。當(dāng)然,在英偉達(dá)轉(zhuǎn)型為 AI 公司之前,它是一家圖形公司,所以模擬技術(shù)實(shí)際上是我們的強(qiáng)項(xiàng)。
在 Isaac Lab 中,我們進(jìn)行大規(guī)模的并行模擬,三天的時(shí)間相當(dāng)于十年的訓(xùn)練。我們希望在模擬中獲得的技能能夠轉(zhuǎn)移到現(xiàn)實(shí)世界的應(yīng)用中。
是什么讓一只貓成為貓?這是一個(gè)深刻的問題。目前,我們還沒有機(jī)器人能在敏捷性上與貓相媲美。貓作為具身智能體,擁有卓越的感官運(yùn)動循環(huán),反應(yīng)迅速,甚至超過了人類。
我們能否有一天制造出像貓一樣靈活,甚至更勝一籌的機(jī)器人?這是一個(gè)值得深思的問題。
隨著成本的降低和技術(shù)的進(jìn)步,我相信這一天終將到來。仿人機(jī)器人的成本肯定會下降,將趨向于原材料的成本。因此,硬件并不會成為限制因素。硬件目前還不夠完善,但它會迅速改進(jìn),并且改進(jìn)的速度正在加快。
真正的挑戰(zhàn)在于人工智能。目前還沒有人找到最佳的方法來構(gòu)建一個(gè)基礎(chǔ)智能體。我有一些初步的想法,但這些都還在探索階段。即使你擁有成千上萬的 GPU,你也不清楚應(yīng)該在哪些方面進(jìn)行擴(kuò)展:是模擬環(huán)境、互聯(lián)網(wǎng)數(shù)據(jù),還是來自真實(shí)機(jī)器人的由人類收集的遠(yuǎn)程操作數(shù)據(jù)?
人工智能將成為限制我們前進(jìn)的關(guān)鍵因素。誰能首先解決這個(gè) AI 挑戰(zhàn),誰就能在市場上占據(jù)一席之地。
本文雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢,歡迎添加交流,互通有無。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。