0
本文作者: 劉潔 | 2024-09-23 11:49 |
還記得那只“騎”瑜伽球的機(jī)械狗嗎?
過馬路,走草地都穩(wěn)穩(wěn)當(dāng)當(dāng),就算瑜伽球被放氣也能如履平地。
怪不得之前有網(wǎng)友驚嘆:機(jī)器人馬上就要統(tǒng)治世界了吧?
賦予這只 Unitree Go1 的四足機(jī)器人能騎瑜伽球能力的,是英偉達(dá)十大項(xiàng)目之一Eureka的擴(kuò)展研究——Dr. Eureka。它的特殊之處在于,它將虛擬世界中的訓(xùn)練成果直接轉(zhuǎn)移到現(xiàn)實(shí)世界,無需微調(diào),直接有效。
這項(xiàng)研究的論文作者之一是英偉達(dá)的高級(jí)科學(xué)家 Jim Fan,他主導(dǎo)了英偉達(dá)的具身智能研究。
Jim Fan 曾是 OpenAI 的第一個(gè)實(shí)習(xí)生,這段經(jīng)歷讓他首次接觸到通用人工智能(AGI)的研究。不過那時(shí)候還沒有 Transformer,他通過強(qiáng)化學(xué)習(xí)得到的泛化結(jié)果并不理想。
2016年, Jim Fan 去斯坦福讀博,師從李飛飛教授,轉(zhuǎn)而研究具身智能領(lǐng)域直至現(xiàn)在。但他并沒有忘記最開始研究 AGI 的經(jīng)歷,即使換了領(lǐng)域也沒放棄自己對(duì)通用模型的興趣。
Jim Fan 解釋說,機(jī)械狗只是他在通用“基礎(chǔ)智能體”探索中的一個(gè)實(shí)例,他的個(gè)人使命就是解決具身智能問題。
Jim Fan 領(lǐng)導(dǎo)的 GEAR 團(tuán)隊(duì),全稱“通用具身智能體研究”,其核心工作可以概括為“生成動(dòng)作”,即構(gòu)建能夠在虛擬和物理世界中執(zhí)行動(dòng)作的具身智能體。前者屬于游戲AI和模擬,后者就是我們平常說的機(jī)器人。
從 ChatGPT 就能看出,通用模型強(qiáng)大的統(tǒng)一性和拓展性才是 LLM 快速發(fā)展的關(guān)鍵。因此,Jim Fan 決定學(xué)習(xí) NLP 的經(jīng)驗(yàn),把GEAR團(tuán)隊(duì)的研究重點(diǎn)放在建立通用基礎(chǔ)模型的 GR00T 項(xiàng)目上。
Jim Fan 還認(rèn)為,在未來,虛擬世界和物理世界將融合成一個(gè)單一維度上的不同現(xiàn)實(shí)。
機(jī)械狗使用的領(lǐng)域隨機(jī)化技術(shù)可以在具有不同物理參數(shù)的虛擬環(huán)境中訓(xùn)練智能體,使智能體能夠泛化到現(xiàn)實(shí)世界。只要虛擬環(huán)境足夠多、足夠貼近物理世界,還有一個(gè)能掌握所有虛擬環(huán)境的智能體,那么未來的物理世界也可以被看作為是虛擬世界的一部分。
雖然機(jī)械狗開了個(gè)好頭,但模擬到現(xiàn)實(shí)的遷移真的太難了。Jim Fan 表示,由于數(shù)據(jù)收集的種種限制,現(xiàn)有模型未能充分發(fā)揮 Transformer 架構(gòu)的潛力。
難歸難,具身智能和通用具身智能體的希望還是很大的。
經(jīng)歷了前幾年的“沉寂期”后,得益于硬件升級(jí)、材料成本下降和基礎(chǔ)模型能力提升的三重助力,具身智能領(lǐng)域總算迎來了新的復(fù)蘇。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
Jim Fan 表示,具身智能熱潮再啟,優(yōu)勢(shì)在我。要知道,英偉達(dá)不僅坐擁芯片和模型,還有別家比不過的龐大計(jì)算資源和扎實(shí)的模擬技術(shù)基礎(chǔ)。
更多關(guān)于具身智能和通用基礎(chǔ)智能體的細(xì)節(jié)討論可以點(diǎn)擊下方鏈接,觀看 Jim Fan 在紅杉資本 Traning Data 播客節(jié)目中的詳細(xì)分享。
https://www.youtube.com/watch?v=yMGGpMyW_vw&t=125s
雷峰網(wǎng)摘取了部分播客內(nèi)容,做了不改原意的精編處理:
Sonya Huang:我聽說你是 OpenAI 的首位實(shí)習(xí)生。能否分享一下你的經(jīng)歷,告訴我們你是怎么走到現(xiàn)在的?
Jim Fan:當(dāng)然可以。2016 年夏天,有朋友告訴我城里有個(gè)新的創(chuàng)業(yè)公司,建議我去看看。當(dāng)時(shí)我剛被錄取為博士生,那個(gè)夏天比較空閑,于是我決定去那家公司一探究竟。結(jié)果那家公司就是 OpenAI。在我加入 OpenAI 時(shí),我們已經(jīng)在討論通用人工智能(AGI)了。
當(dāng)時(shí),我的導(dǎo)師是 Andrej Karpathy 和 Ilya Sutskever。我們一起合作了一個(gè)項(xiàng)目,叫做“World of Bits”。這個(gè)項(xiàng)目的想法非常簡(jiǎn)單:我們想構(gòu)建一個(gè) AI 智能體,讓它能夠讀取計(jì)算機(jī)屏幕上的像素,然后控制鍵盤和鼠標(biāo)。你可以想象,這種界面非常通用——無論是回復(fù)郵件、玩游戲還是瀏覽網(wǎng)頁,都可以通過這種像素到鍵盤鼠標(biāo)的映射來實(shí)現(xiàn)。
這是我在 OpenAI 的第一次 AGI 嘗試,也是我在 AI 智能體研究的起點(diǎn)。
Stephanie Zhan:當(dāng)時(shí)你們?cè)谑褂弥悄荏w時(shí)遇到了哪些挑戰(zhàn)?你覺得有哪些突破?
Jim Fan:當(dāng)時(shí)我們主要使用的是強(qiáng)化學(xué)習(xí)技術(shù)。2016 年還沒有 Transformer。
雖然強(qiáng)化學(xué)習(xí)在特定任務(wù)上表現(xiàn)不錯(cuò),但它的泛化能力有限。我們無法讓智能體根據(jù)任意語言指令執(zhí)行各種任務(wù),比如使用鍵盤和鼠標(biāo)。
因此,雖然智能體在我們?cè)O(shè)計(jì)的任務(wù)中可以正常工作,但它不能真正泛化到其他任務(wù)上。
這也是我進(jìn)入下一個(gè)研究階段的起點(diǎn)。
我去了斯坦福大學(xué),在李飛飛教授的指導(dǎo)下攻讀博士學(xué)位,開始專注于計(jì)算機(jī)視覺和具身智能。從 2016 年到 2021 年,在斯坦福的期間,我見證了計(jì)算機(jī)視覺實(shí)驗(yàn)室的研究從靜態(tài)視覺(如圖像和視頻識(shí)別)轉(zhuǎn)向具身視覺,也就是讓智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動(dòng)。這種環(huán)境可以是虛擬的(在模擬中),也可以是現(xiàn)實(shí)世界中的物理環(huán)境。
這就是我在博士期間轉(zhuǎn)向具身智能的過程。
博士畢業(yè)后,我加入了英偉達(dá),繼續(xù)從事具身智能的研究。我把博士期間的研究帶到了英偉達(dá),并一直在這個(gè)領(lǐng)域工作至今。
Sonya Huang:你領(lǐng)導(dǎo)了英偉達(dá)的“具身智能”計(jì)劃。能否簡(jiǎn)單介紹一下這個(gè)項(xiàng)目的意義,以及你們希望達(dá)成的目標(biāo)?
Jim Fan:我目前共同領(lǐng)導(dǎo)的團(tuán)隊(duì)叫做 GEAR,全稱是“通用具身智能體研究”。我們的核心工作可以用一個(gè)詞概括——“生成行動(dòng)”。
我們致力于構(gòu)建具身智能體,這些智能體能夠在不同環(huán)境中執(zhí)行動(dòng)作。具體來說,如果這些動(dòng)作發(fā)生在虛擬世界中,我們的工作就涉及游戲 AI 和模擬;而如果發(fā)生在現(xiàn)實(shí)世界中,那就是機(jī)器人技術(shù)。
今年三月的 GTC 大會(huì)上,Jensen 發(fā)布了名為“Project GR00T”的項(xiàng)目,這是英偉達(dá)在打造人形機(jī)器人基礎(chǔ)模型方面的“登月計(jì)劃”,也是 GEAR 團(tuán)隊(duì)當(dāng)前的重點(diǎn)。
我們的目標(biāo)是為人形機(jī)器人,甚至更多領(lǐng)域的智能機(jī)器人,構(gòu)建強(qiáng)大的 AI 大腦。
Stephanie Zhan:你認(rèn)為英偉達(dá)在這一領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
Jim Fan:這是一個(gè)很好的問題。
首先,英偉達(dá)的一大優(yōu)勢(shì)是計(jì)算資源。所有這些基礎(chǔ)模型的擴(kuò)展都需要巨大的計(jì)算能力,而我們相信 Scaling Law 的重要性。雖然我們已經(jīng)對(duì)類似 L 模型的 Scaling Law 進(jìn)行了研究,但具身智能和機(jī)器人領(lǐng)域的 Scaling Law 仍然需要深入探討,我們正在積極進(jìn)行這方面的工作。
英偉達(dá)的第二個(gè)強(qiáng)項(xiàng)是模擬。作為一家曾經(jīng)專注于圖形的公司,英偉達(dá)在物理模擬、渲染以及 GPU 實(shí)時(shí)加速方面積累了豐富的專業(yè)知識(shí)。這些技術(shù)在構(gòu)建機(jī)器人時(shí)發(fā)揮了重要作用,我們?cè)谶@方面的積累極大地推動(dòng)了我們的研究。
Stephanie Zhan:對(duì)我來說,英偉達(dá)建設(shè) GR00T 的一個(gè)有趣之處在于,你之前提到的,英偉達(dá)擁有芯片和模型本身。你認(rèn)為英偉達(dá)可以如何在自有芯片上優(yōu)化 GR00T?
Jim Fan:在三月的 GTC 大會(huì)上,Jensen 還發(fā)布了下一代邊緣計(jì)算芯片,名為 Jesson Sword,這一發(fā)布與項(xiàng)目 GR00T 的發(fā)布同步進(jìn)行。
我們的計(jì)劃是將這些芯片(包括 J 和 Thor 系列)與基礎(chǔ)模型項(xiàng)目 GR00T、以及我們?cè)谶^程中開發(fā)的模擬和實(shí)用工具結(jié)合起來,形成一個(gè)統(tǒng)一的解決方案,打造一個(gè)一體化的計(jì)算平臺(tái),專為人形機(jī)器人和智能機(jī)器人設(shè)計(jì)。
我特別喜歡 Jensen 的一句話,他曾說:“所有能移動(dòng)的東西最終都會(huì)變得自主?!蔽乙卜浅UJ(rèn)同這一觀點(diǎn)。
雖然現(xiàn)在還沒有完全實(shí)現(xiàn),但我們相信,未來十年或更長(zhǎng)時(shí)間后,智能機(jī)器人將會(huì)像 iPhone 一樣普及。因此,我們現(xiàn)在就需要開始為這個(gè)未來做好準(zhǔn)備。
Stephanie Zhan:為什么你認(rèn)為許多行業(yè)仍然非常重視真實(shí)世界的數(shù)據(jù)呢?
Jim Fan:實(shí)際上,我們確實(shí)需要各種類型的數(shù)據(jù),因?yàn)閱慰磕M數(shù)據(jù)或真實(shí)世界數(shù)據(jù)都遠(yuǎn)遠(yuǎn)不夠。因此,在 GEAR 團(tuán)隊(duì)中,我們將數(shù)據(jù)策略分為三大類:
互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù):包括所有在線的文本和視頻。
模擬數(shù)據(jù):我們使用英偉達(dá)的模擬工具生成大量合成數(shù)據(jù)。
真實(shí)的機(jī)器人數(shù)據(jù):通過遠(yuǎn)程操作機(jī)器人來收集和記錄實(shí)際操作中的數(shù)據(jù)。
我相信,成功的機(jī)器人戰(zhàn)略需要有效整合這三類數(shù)據(jù),以提供全面且統(tǒng)一的解決方案。這種綜合的數(shù)據(jù)策略能夠更好地支持機(jī)器人在各種環(huán)境中的表現(xiàn)和適應(yīng)性。
Sonya Huang:我們之前討論過在構(gòu)建機(jī)器人基礎(chǔ)模型時(shí)數(shù)據(jù)的瓶頸問題。你怎么看待這個(gè)問題?具體來說,解決這個(gè)問題需要什么樣的高質(zhì)量數(shù)據(jù)?
Jim Fan:我們討論的三種數(shù)據(jù)類型都有各自的優(yōu)缺點(diǎn)。
首先,互聯(lián)網(wǎng)數(shù)據(jù)種類繁多,包含豐富的常識(shí)信息,可以幫助我們了解人類如何與物體互動(dòng),但不包含機(jī)器人的動(dòng)作控制信號(hào),因此不能直接獲得機(jī)器人的動(dòng)作數(shù)據(jù)。
其次,模擬數(shù)據(jù)可以提供詳細(xì)的動(dòng)作數(shù)據(jù)并觀察其效果,數(shù)據(jù)幾乎是無限的且采集效率高。但模擬和現(xiàn)實(shí)之間仍存在差距,比如物理效果和視覺效果不完全一致,場(chǎng)景也不如現(xiàn)實(shí)世界多樣。
最后,真實(shí)的機(jī)器人數(shù)據(jù)來自真實(shí)世界,沒有模擬與現(xiàn)實(shí)的差距,但采集成本高,需要人工操作所以采集速度受限。
因此,最佳的策略是綜合這三種數(shù)據(jù)的優(yōu)點(diǎn),彌補(bǔ)彼此的不足。
Sonya Huang:如果你能展望一下未來五年或十年,你希望你們的團(tuán)隊(duì)能夠?qū)崿F(xiàn)哪些夢(mèng)想和成就?
Jim Fan:雖然這只是我的預(yù)測(cè),但我希望在接下來的兩到三年內(nèi),我們能夠看到機(jī)器人基礎(chǔ)模型的突破。這將類似于機(jī)器人領(lǐng)域的GPT-3時(shí)刻。
然而,機(jī)器人進(jìn)入人們?nèi)粘I畈粌H僅是技術(shù)問題,還涉及經(jīng)濟(jì)性、大規(guī)模生產(chǎn)能力、硬件安全性、隱私和法規(guī)等多個(gè)方面。
這些因素可能會(huì)延緩機(jī)器人的普及,因此時(shí)間表會(huì)比較難以預(yù)測(cè)。但我確實(shí)希望在未來兩到三年內(nèi)看到研究取得實(shí)質(zhì)性進(jìn)展。
Stephanie Zhan:你如何定義人工智能機(jī)器人的GPT-3時(shí)刻?
Jim Fan:我將機(jī)器人視為兩個(gè)部分:系統(tǒng)一和系統(tǒng)二。這一概念來源于《思考,快與慢》。
系統(tǒng)一涉及低層次的、無意識(shí)的動(dòng)作控制,比如握杯子時(shí)的手指運(yùn)動(dòng)。而系統(tǒng)二則是深思熟慮的推理和規(guī)劃。
GPT-3時(shí)刻指的是機(jī)器人在系統(tǒng)一方面的突破。比如,“打開”這個(gè)詞在不同情境下有不同含義,人類自然理解這些含義,但目前的機(jī)器人模型還未能在這些低層次動(dòng)作控制上進(jìn)行有效泛化。
我期待未來能出現(xiàn)這樣的模型。
Sonya Huang:那么,關(guān)于系統(tǒng)二的思考呢?你認(rèn)為我們?nèi)绾尾拍軐?shí)現(xiàn)這一點(diǎn)?大型語言模型(LLM)領(lǐng)域的一些推理努力是否會(huì)對(duì)機(jī)器人領(lǐng)域有所啟發(fā)?
Jim Fan:確實(shí)有啟發(fā)。
目前的模型在系統(tǒng)二的推理和規(guī)劃方面已有進(jìn)展。但將系統(tǒng)二與系統(tǒng)一結(jié)合是個(gè)挑戰(zhàn)。我們需要決定是用一個(gè)統(tǒng)一的模型,還是分開使用系統(tǒng)一和系統(tǒng)二,并讓它們互相溝通。
整體模型的維護(hù)很簡(jiǎn)單,但具體的控制比較復(fù)雜,分層方法可能更有效。如何在這兩種系統(tǒng)間進(jìn)行有效溝通仍不明確,這將是未來的研究重點(diǎn)。
Sonya Huang:你認(rèn)為我們能在系統(tǒng)一思維方面取得突破嗎?是通過規(guī)模和 Transformer 的提升,還是更多依賴于運(yùn)氣?
Jim Fan:我希望我們的數(shù)據(jù)策略能幫助實(shí)現(xiàn)突破。Transformer 的潛力尚未完全發(fā)揮。
我們需要整合互聯(lián)網(wǎng)數(shù)據(jù)、模擬數(shù)據(jù)和真實(shí)機(jī)器人數(shù)據(jù),一旦在數(shù)據(jù)管道中擴(kuò)大規(guī)模,并將高質(zhì)量的動(dòng)作數(shù)據(jù)標(biāo)記化后傳遞給 Transformer,可能會(huì)看到新特性。
我稱之為具身智能的 Scaling Law,現(xiàn)在只是開始。
Jim Fan:有幾個(gè)實(shí)際的原因。首先,類人機(jī)器人訓(xùn)練起來相對(duì)容易,因?yàn)榫W(wǎng)上有大量以人類為中心的數(shù)據(jù)和視頻,這些數(shù)據(jù)記錄了我們?nèi)粘5幕顒?dòng)。由于類人機(jī)器人的形態(tài)接近人類,它們能夠更好地利用這些數(shù)據(jù),尤其是五指操作的場(chǎng)景。掌握了類人機(jī)器人技術(shù)后,我們可以將這些技術(shù)遷移到其他類型的機(jī)器人,從而實(shí)現(xiàn)更廣泛的通用性。
Stephanie Zhan:所以你們現(xiàn)在只專注于訓(xùn)練類人機(jī)器人,而不是機(jī)器人手臂或機(jī)器人狗?
Jim Fan:是的,目前我們的重點(diǎn)確實(shí)是類人機(jī)器人。不過,我們開發(fā)的管道,包括模擬和真實(shí)機(jī)器人工具,具備了足夠的通用性,未來可以適應(yīng)其他機(jī)器人平臺(tái)。
我們的目標(biāo)是構(gòu)建一個(gè)廣泛適用的工具,以便在未來可以應(yīng)用于多種機(jī)器人形態(tài)。
Sonya Huang:你提到了很多次“通用”這個(gè)詞,你為什么選擇了通用的方法?另外,你認(rèn)為 Richard Sutton 的“更慘的教訓(xùn)”是否在機(jī)器人領(lǐng)域也適用?
Jim Fan:我認(rèn)為通用模型確實(shí)是值得追求的。我先講講自然語言處理(NLP)的成功故事。
在 ChatGPT 和 GPT-3 出現(xiàn)之前,NLP 領(lǐng)域有很多專用的模型和流程,用于翻譯、編碼、數(shù)學(xué)運(yùn)算和創(chuàng)意寫作等。這些模型和流程都是為特定任務(wù)量身定做的專用模型。
但 ChatGPT 的出現(xiàn)將這些功能統(tǒng)一到一個(gè)通用模型中。GPT-3和ChatGPT作為通用模型,可以被提示、微調(diào)和提煉,以適應(yīng)各種專用任務(wù)。
通用模型通常比專用模型更強(qiáng)大,更易于維護(hù),因?yàn)樗鼈冎恍枰粋€(gè)API來處理輸入和輸出。
在機(jī)器人領(lǐng)域,我們希望借鑒 NLP 的成功經(jīng)驗(yàn)。
目前大多數(shù)機(jī)器人應(yīng)用仍處于專用階段,使用特定的硬件、數(shù)據(jù)和流程。GR00T 的目標(biāo)是建立一個(gè)通用基礎(chǔ)模型,首先在類人機(jī)器人上應(yīng)用,之后可以推廣到其他機(jī)器人形態(tài)。
一旦我們有了這樣的通用模型,我們就可以對(duì)其進(jìn)行微調(diào)和提煉,以應(yīng)對(duì)特定的機(jī)器人任務(wù)。
盡管短期內(nèi)專注于特定任務(wù)會(huì)更容易,但英偉達(dá)讓我們相信,未來屬于通用模型。雖然開發(fā)周期較長(zhǎng)且面臨更多復(fù)雜的研究問題,但這是我們追求的主要目標(biāo)。
Sonya Huang:你們的研究中有沒有特別值得強(qiáng)調(diào)的成果?有沒有什么讓你對(duì)你們的方法感到樂觀或充滿信心的地方?
Jim Fan:確實(shí)有一個(gè)值得特別提到的成果,那就是我們的 Urea 項(xiàng)目。我們展示了一個(gè)五指機(jī)器人手能夠成功轉(zhuǎn)筆的任務(wù)。
這個(gè)任務(wù)對(duì)我來說尤其具有個(gè)人意義,因?yàn)槲倚r(shí)候嘗試轉(zhuǎn)筆總是做得不好。如果我自己去做現(xiàn)場(chǎng)演示,我可能會(huì)搞砸,但我們的機(jī)器人手卻能輕松完成。
這項(xiàng)研究的關(guān)鍵在于,我們使用了 L 模型來編寫代碼,這些代碼用于英偉達(dá)開發(fā)的 IS6 Sim API 模擬器。
L模型生成的代碼定義了獎(jiǎng)勵(lì)函數(shù),這個(gè)函數(shù)用于規(guī)范我們期望的理想行為。機(jī)器人按照獎(jiǎng)勵(lì)函數(shù)的指導(dǎo)進(jìn)行操作,正確執(zhí)行任務(wù)會(huì)獲得獎(jiǎng)勵(lì),錯(cuò)誤則會(huì)受到懲罰。
通常,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是由專家進(jìn)行的,這需要大量的專業(yè)知識(shí)和手動(dòng)操作。而 Urea 項(xiàng)目通過自動(dòng)化設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使機(jī)器人能夠完成復(fù)雜的任務(wù),如轉(zhuǎn)筆。
這個(gè)通用技術(shù)不僅限于轉(zhuǎn)筆,我們計(jì)劃將其應(yīng)用于更多任務(wù),并在英偉達(dá)的模擬API中生成新的任務(wù)。這為我們提供了巨大的發(fā)展空間。
Sonya Huang:你認(rèn)為這次機(jī)器人領(lǐng)域的復(fù)興原因是什么?五年前,研究人員嘗試用機(jī)器人手解決魔方等問題時(shí),曾有過一段幻滅期?,F(xiàn)在這個(gè)領(lǐng)域又重新活躍起來,你認(rèn)為有什么不同?
Jim Fan:現(xiàn)在有幾個(gè)關(guān)鍵因素使情況不同。
首先是硬件的進(jìn)步。近年來,新型機(jī)器人硬件的出現(xiàn)速度非??臁@?,特斯拉正在研發(fā) Optimus,波士頓動(dòng)力等公司也不斷推出新技術(shù),還有很多初創(chuàng)公司進(jìn)入這一領(lǐng)域。這些新硬件更先進(jìn),例如更靈活的機(jī)械手和更高的可靠性,這是一個(gè)重要因素。
其次是價(jià)格的下降,類人機(jī)器人的價(jià)格顯著降低。2001 年,NASA 開發(fā)的人形機(jī)器人 Robonaut 價(jià)格超過 150 萬美元。而最近一些公司能將人形機(jī)器人的價(jià)格降到約 3 萬美元,這相當(dāng)于一輛汽車的價(jià)格。
此外,成熟產(chǎn)品的價(jià)格往往接近原材料成本。人形機(jī)器人通常只需汽車原材料的 4%,所以未來幾年我們可能會(huì)看到價(jià)格繼續(xù)下降,甚至出現(xiàn)指數(shù)級(jí)的降幅,使這些先進(jìn)硬件變得更加實(shí)惠。
第三個(gè)因素是基礎(chǔ)模型的進(jìn)展。我們現(xiàn)在看到的前沿模型如 GPT、Claude 和 Llamas等在推理和規(guī)劃方面取得了顯著進(jìn)展。這些語言模型不僅能夠擴(kuò)展到新場(chǎng)景,還能編寫代碼。我們?cè)?Urea 項(xiàng)目中就是利用這些語言模型的編碼能力來開發(fā)新的機(jī)器人解決方案。
此外,跨模態(tài)模型的興起也改善了計(jì)算機(jī)視覺和感知能力。這些成功案例鼓勵(lì)我們繼續(xù)追求機(jī)器人基礎(chǔ)模型,利用前沿模型的泛化能力,再結(jié)合動(dòng)作生成技術(shù),推動(dòng)類人機(jī)器人的發(fā)展。
Sonya Huang:你最初的研究主要集中在虛擬世界。能談?wù)勀銥槭裁磳?duì)Minecraft感興趣,以及它與機(jī)器人技術(shù)的關(guān)系嗎?虛擬世界對(duì)你來說有什么特別的吸引力?
Jim Fan:我的目標(biāo)是解決具身智能的問題,包括游戲和仿真,這也是我對(duì)虛擬世界特別感興趣的原因。我喜歡玩游戲,所以對(duì) Minecraft 特別感興趣。我不是特別擅長(zhǎng) Minecraft,這也是我希望 AI 能彌補(bǔ)我的技術(shù)不足的原因。
我做過兩個(gè)相關(guān)的游戲項(xiàng)目。第一個(gè)是 Mine Dojo,我們開發(fā)了一個(gè)平臺(tái)來在 Minecraft 中訓(xùn)練通用智能體。Minecraft 是一個(gè)開放的3D世界,你可以自由探索和創(chuàng)造。我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù),如游戲視頻和相關(guān)討論,用這些數(shù)據(jù)訓(xùn)練模型玩 Minecraft。
第二個(gè)項(xiàng)目是 Voyager。在 GPT-4 出現(xiàn)后,我們嘗試將編程視為一種行動(dòng),開發(fā)了 Voyager Agent。它通過編寫代碼與 Minecraft 互動(dòng)。
我們用 API 將 Minecraft 的世界轉(zhuǎn)換為文本,然后讓 Agent 編寫代碼。Agent 在遇到錯(cuò)誤時(shí)會(huì)得到反饋并修正程序,逐步積累技能。所有的技能被保存到一個(gè)庫中,未來可以重復(fù)使用。
此外,Voyager還有“自動(dòng)課程”(Automatic Curriculum)機(jī)制,能夠自我判斷掌握了什么,提出合適的任務(wù),幫助它不斷進(jìn)步。
Sonya Huang:為什么虛擬世界的研究如此豐富?虛擬世界中的問題解決與物理世界的問題解決有什么聯(lián)系?
Jim Fan:盡管游戲和機(jī)器人看起來不同,但它們其實(shí)有很多相似之處。兩者都涉及到具身智能體,輸入包括視頻流和傳感器數(shù)據(jù),輸出是行為。
在游戲中,這些行為是鍵盤和鼠標(biāo)操作;在機(jī)器人中,則是電機(jī)控制。無論是虛擬還是物理智能體,都需要在環(huán)境中探索并收集數(shù)據(jù),這就是強(qiáng)化學(xué)習(xí)和自我探索的基本原則。
不過,機(jī)器人面臨的一個(gè)挑戰(zhàn)是如何解決模擬與現(xiàn)實(shí)之間的差距。模擬中的物理和渲染不完美,將模擬中的學(xué)習(xí)遷移到現(xiàn)實(shí)世界很困難。
游戲則沒有這個(gè)問題,因?yàn)橛?xùn)練和測(cè)試都在同一個(gè)虛擬環(huán)境中。
這是虛擬世界和物理世界的主要區(qū)別。
去年,我提出了一個(gè)概念,稱為“基礎(chǔ)智能體”。我相信未來會(huì)有一個(gè)模型能夠同時(shí)適用于虛擬和物理智能體。
基礎(chǔ)智能體有三個(gè)方面的泛化能力:
能夠完成的技能;
能夠控制的體態(tài)或形態(tài);
能夠掌握的世界或現(xiàn)實(shí)。
我希望未來能有一個(gè)單一模型,可以在不同的機(jī)器人形態(tài)和智能體形態(tài)上完成各種技能,并在多種虛擬或現(xiàn)實(shí)世界中泛化。這是我們團(tuán)隊(duì)追求的最終愿景。
Stephanie Zhan:你關(guān)于游戲世界中的智能體有哪些個(gè)人夢(mèng)想?你希望看到AI智能體在游戲世界中有哪些創(chuàng)新?
Jim Fan:我特別期待兩個(gè)方面。首先是“活”NPC的出現(xiàn)。如果NPC能夠與玩家互動(dòng)、記住對(duì)話并影響游戲情節(jié),這樣每個(gè)人的游戲體驗(yàn)都會(huì)不同,增加了游戲的重玩價(jià)值。
其次是游戲世界的實(shí)時(shí)生成。將生成3D模型、視頻和故事情節(jié)的技術(shù)結(jié)合起來,讓游戲世界在玩家互動(dòng)中實(shí)時(shí)生成,這將創(chuàng)造一個(gè)真正開放的體驗(yàn),非常令人興奮。
Stephanie Zhan:關(guān)于智能體的能力需求,你認(rèn)為需要GPT-4級(jí)別的能力,還是像Llama 8B這樣的模型就足夠了?
Jim Fan:智能體需要具備以下能力:有趣的對(duì)話、穩(wěn)定的個(gè)性、長(zhǎng)期記憶,并能在世界中行動(dòng)。雖然 Llama 模型已經(jīng)做得不錯(cuò),但仍不足以產(chǎn)生非常多樣化和吸引人的行為。
另外,推理成本也是一個(gè)問題。如果智能體要提供給玩家使用,那么它們要么需要在云端低成本托管,要么需要在設(shè)備上本地運(yùn)行,否則在成本方面將難以擴(kuò)展。
Sonya Huang:你認(rèn)為虛擬世界的工作是否主要是為了實(shí)現(xiàn)現(xiàn)實(shí)世界中的目標(biāo)?還是虛擬世界的工作本身就是值得追求的?物理世界和虛擬世界的優(yōu)先級(jí)如何?
Jim Fan:我認(rèn)為虛擬世界和物理世界最終會(huì)融合成一個(gè)統(tǒng)一的現(xiàn)實(shí)。
例如,領(lǐng)域隨機(jī)化技術(shù)通過在成千上萬種不同的模擬環(huán)境中訓(xùn)練機(jī)器人來實(shí)現(xiàn)這一點(diǎn)。
每種模擬環(huán)境都有不同的物理參數(shù),比如重力和摩擦力。如果我們有一個(gè)智能體能夠掌握這些多樣化的模擬環(huán)境,它將能更好地泛化到現(xiàn)實(shí)世界。
我們希望通過這種方法將模擬中的學(xué)習(xí)直接轉(zhuǎn)移到現(xiàn)實(shí)世界。這表明虛擬世界的訓(xùn)練和現(xiàn)實(shí)世界的應(yīng)用是相互聯(lián)系的,虛擬世界的技能可以幫助我們?cè)诂F(xiàn)實(shí)中取得成就。
Sonya Huang:在虛擬世界領(lǐng)域,那些優(yōu)秀的模型大多基于 Transformer 架構(gòu)。你認(rèn)為我們是否已經(jīng)準(zhǔn)備好大規(guī)模應(yīng)用 Transformer,還是說在模型方面仍然需要一些基礎(chǔ)性的突破?
Jim Fan:我認(rèn)為,我們還沒有將 Transformer 架構(gòu)的潛力發(fā)揮到極致。
盡管 Transformer 在很多方面表現(xiàn)出色,但目前的數(shù)據(jù)問題仍然是一個(gè)瓶頸。我們無法從互聯(lián)網(wǎng)直接下載這些動(dòng)作數(shù)據(jù),因?yàn)樗鼈兺ǔ2桓綆P涂刂茢?shù)據(jù)。
因此,我們必須在模擬環(huán)境或真實(shí)機(jī)器人上收集這些數(shù)據(jù)。一旦我們建立了成熟的數(shù)據(jù)管道,我們可以直接用 Transformer 處理數(shù)據(jù),就像 Transformer 預(yù)測(cè)維基百科上的下一個(gè)詞一樣。
雖然我們正在測(cè)試這些假設(shè),但 Transformer 的潛力尚未被完全挖掘。
此外,還有很多關(guān)于 Transformer 替代架構(gòu)的研究。比如 Mamba 以及最近的時(shí)間訓(xùn)練等替代方案,這些都是很有前景的想法。
雖然這些替代方案在目前的前沿模型性能上還未顯著超越 Transformer,但我對(duì)它們充滿期待,并希望看到它們?cè)谖磥淼陌l(fā)展。
Stephanie Zhan:有哪個(gè)模型特別引起了你的注意,為什么?
Jim Fan:我特別關(guān)注 Mamba 和測(cè)試時(shí)間訓(xùn)練。這些模型在推理過程中展現(xiàn)了更高的效率。
與 Transformer 處理所有的令牌不同,這些模型具備更高效的機(jī)制。我認(rèn)為它們潛力很大。
然而,我們還需要將它們擴(kuò)展到前沿模型的規(guī)模,真正比較它們與 Transformer 的效果。這將幫助我們更好地理解它們?cè)趯?shí)際應(yīng)用中的表現(xiàn)。雷峰網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。