丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

英偉達 Jim Fan:復(fù)刻NLP的成功路,用通用模型開啟具身智能的GPT-3時刻

本文作者: 劉潔 2024-09-23 11:49
導(dǎo)語:“機器人時代已經(jīng)到來,所有能移動的東西最終都會實現(xiàn)自主運行?!?

還記得那只“騎”瑜伽球的機械狗嗎?

過馬路,走草地都穩(wěn)穩(wěn)當當,就算瑜伽球被放氣也能如履平地。

怪不得之前有網(wǎng)友驚嘆:機器人馬上就要統(tǒng)治世界了吧?

英偉達 Jim Fan:復(fù)刻NLP的成功路,用通用模型開啟具身智能的GPT-3時刻

賦予這只 Unitree Go1 的四足機器人能騎瑜伽球能力的,是英偉達十大項目之一Eureka的擴展研究——Dr. Eureka。它的特殊之處在于,它將虛擬世界中的訓(xùn)練成果直接轉(zhuǎn)移到現(xiàn)實世界,無需微調(diào),直接有效。

這項研究的論文作者之一是英偉達的高級科學(xué)家 Jim Fan,他主導(dǎo)了英偉達的具身智能研究。

Jim Fan 曾是 OpenAI 的第一個實習(xí)生,這段經(jīng)歷讓他首次接觸到通用人工智能(AGI)的研究。不過那時候還沒有 Transformer,他通過強化學(xué)習(xí)得到的泛化結(jié)果并不理想。

2016年, Jim Fan 去斯坦福讀博,師從李飛飛教授,轉(zhuǎn)而研究具身智能領(lǐng)域直至現(xiàn)在。但他并沒有忘記最開始研究 AGI 的經(jīng)歷,即使換了領(lǐng)域也沒放棄自己對通用模型的興趣。

Jim Fan 解釋說,機械狗只是他在通用“基礎(chǔ)智能體”探索中的一個實例,他的個人使命就是解決具身智能問題。

Jim Fan 領(lǐng)導(dǎo)的 GEAR 團隊,全稱“通用具身智能體研究”,其核心工作可以概括為“生成動作”,即構(gòu)建能夠在虛擬和物理世界中執(zhí)行動作的具身智能體。前者屬于游戲AI和模擬,后者就是我們平常說的機器人。

從 ChatGPT 就能看出,通用模型強大的統(tǒng)一性和拓展性才是 LLM 快速發(fā)展的關(guān)鍵。因此,Jim Fan 決定學(xué)習(xí) NLP 的經(jīng)驗,把GEAR團隊的研究重點放在建立通用基礎(chǔ)模型的 GR00T 項目上。

Jim Fan 還認為,在未來,虛擬世界和物理世界將融合成一個單一維度上的不同現(xiàn)實。

機械狗使用的領(lǐng)域隨機化技術(shù)可以在具有不同物理參數(shù)的虛擬環(huán)境中訓(xùn)練智能體,使智能體能夠泛化到現(xiàn)實世界。只要虛擬環(huán)境足夠多、足夠貼近物理世界,還有一個能掌握所有虛擬環(huán)境的智能體,那么未來的物理世界也可以被看作為是虛擬世界的一部分。

雖然機械狗開了個好頭,但模擬到現(xiàn)實的遷移真的太難了。Jim Fan 表示,由于數(shù)據(jù)收集的種種限制,現(xiàn)有模型未能充分發(fā)揮 Transformer 架構(gòu)的潛力。

難歸難,具身智能和通用具身智能體的希望還是很大的。

經(jīng)歷了前幾年的“沉寂期”后,得益于硬件升級、材料成本下降和基礎(chǔ)模型能力提升的三重助力,具身智能領(lǐng)域總算迎來了新的復(fù)蘇。雷峰網(wǎng)

Jim Fan 表示,具身智能熱潮再啟,優(yōu)勢在我。要知道,英偉達不僅坐擁芯片和模型,還有別家比不過的龐大計算資源和扎實的模擬技術(shù)基礎(chǔ)。

更多關(guān)于具身智能和通用基礎(chǔ)智能體的細節(jié)討論可以點擊下方鏈接,觀看 Jim Fan 在紅杉資本 Traning Data 播客節(jié)目中的詳細分享。

https://www.youtube.com/watch?v=yMGGpMyW_vw&t=125s

雷峰網(wǎng)摘取了部分播客內(nèi)容,做了不改原意的精編處理:


從 OpenAI 到英偉達

Sonya Huang:我聽說你是 OpenAI 的首位實習(xí)生。能否分享一下你的經(jīng)歷,告訴我們你是怎么走到現(xiàn)在的?

Jim Fan:當然可以。2016 年夏天,有朋友告訴我城里有個新的創(chuàng)業(yè)公司,建議我去看看。當時我剛被錄取為博士生,那個夏天比較空閑,于是我決定去那家公司一探究竟。結(jié)果那家公司就是 OpenAI。在我加入 OpenAI 時,我們已經(jīng)在討論通用人工智能(AGI)了。

當時,我的導(dǎo)師是 Andrej Karpathy 和 Ilya Sutskever。我們一起合作了一個項目,叫做“World of Bits”。這個項目的想法非常簡單:我們想構(gòu)建一個 AI 智能體,讓它能夠讀取計算機屏幕上的像素,然后控制鍵盤和鼠標。你可以想象,這種界面非常通用——無論是回復(fù)郵件、玩游戲還是瀏覽網(wǎng)頁,都可以通過這種像素到鍵盤鼠標的映射來實現(xiàn)。

這是我在 OpenAI 的第一次 AGI 嘗試,也是我在 AI 智能體研究的起點。


Stephanie Zhan:當時你們在使用智能體時遇到了哪些挑戰(zhàn)?你覺得有哪些突破?

Jim Fan:當時我們主要使用的是強化學(xué)習(xí)技術(shù)。2016 年還沒有 Transformer。

雖然強化學(xué)習(xí)在特定任務(wù)上表現(xiàn)不錯,但它的泛化能力有限。我們無法讓智能體根據(jù)任意語言指令執(zhí)行各種任務(wù),比如使用鍵盤和鼠標。

因此,雖然智能體在我們設(shè)計的任務(wù)中可以正常工作,但它不能真正泛化到其他任務(wù)上。

這也是我進入下一個研究階段的起點。

我去了斯坦福大學(xué),在李飛飛教授的指導(dǎo)下攻讀博士學(xué)位,開始專注于計算機視覺和具身智能。從 2016 年到 2021 年,在斯坦福的期間,我見證了計算機視覺實驗室的研究從靜態(tài)視覺(如圖像和視頻識別)轉(zhuǎn)向具身視覺,也就是讓智能體在交互環(huán)境中學(xué)習(xí)感知并采取行動。這種環(huán)境可以是虛擬的(在模擬中),也可以是現(xiàn)實世界中的物理環(huán)境。

這就是我在博士期間轉(zhuǎn)向具身智能的過程。

博士畢業(yè)后,我加入了英偉達,繼續(xù)從事具身智能的研究。我把博士期間的研究帶到了英偉達,并一直在這個領(lǐng)域工作至今。


Sonya Huang:你領(lǐng)導(dǎo)了英偉達的“具身智能”計劃。能否簡單介紹一下這個項目的意義,以及你們希望達成的目標?

Jim Fan:我目前共同領(lǐng)導(dǎo)的團隊叫做 GEAR,全稱是“通用具身智能體研究”。我們的核心工作可以用一個詞概括——“生成行動”。

我們致力于構(gòu)建具身智能體,這些智能體能夠在不同環(huán)境中執(zhí)行動作。具體來說,如果這些動作發(fā)生在虛擬世界中,我們的工作就涉及游戲 AI 和模擬;而如果發(fā)生在現(xiàn)實世界中,那就是機器人技術(shù)。

今年三月的 GTC 大會上,Jensen 發(fā)布了名為“Project GR00T”的項目,這是英偉達在打造人形機器人基礎(chǔ)模型方面的“登月計劃”,也是 GEAR 團隊當前的重點。

我們的目標是為人形機器人,甚至更多領(lǐng)域的智能機器人,構(gòu)建強大的 AI 大腦。

英偉達 Jim Fan:復(fù)刻NLP的成功路,用通用模型開啟具身智能的GPT-3時刻


Stephanie Zhan:你認為英偉達在這一領(lǐng)域的競爭優(yōu)勢是什么?

Jim Fan:這是一個很好的問題。

首先,英偉達的一大優(yōu)勢是計算資源。所有這些基礎(chǔ)模型的擴展都需要巨大的計算能力,而我們相信 Scaling Law 的重要性。雖然我們已經(jīng)對類似 L 模型的 Scaling Law 進行了研究,但具身智能和機器人領(lǐng)域的 Scaling Law 仍然需要深入探討,我們正在積極進行這方面的工作。

英偉達的第二個強項是模擬。作為一家曾經(jīng)專注于圖形的公司,英偉達在物理模擬、渲染以及 GPU 實時加速方面積累了豐富的專業(yè)知識。這些技術(shù)在構(gòu)建機器人時發(fā)揮了重要作用,我們在這方面的積累極大地推動了我們的研究。


Stephanie Zhan:對我來說,英偉達建設(shè) GR00T 的一個有趣之處在于,你之前提到的,英偉達擁有芯片和模型本身。你認為英偉達可以如何在自有芯片上優(yōu)化 GR00T?

Jim Fan:在三月的 GTC 大會上,Jensen 還發(fā)布了下一代邊緣計算芯片,名為 Jesson Sword,這一發(fā)布與項目 GR00T 的發(fā)布同步進行。

我們的計劃是將這些芯片(包括 J 和 Thor 系列)與基礎(chǔ)模型項目 GR00T、以及我們在過程中開發(fā)的模擬和實用工具結(jié)合起來,形成一個統(tǒng)一的解決方案,打造一個一體化的計算平臺,專為人形機器人和智能機器人設(shè)計。

我特別喜歡 Jensen 的一句話,他曾說:“所有能移動的東西最終都會變得自主?!蔽乙卜浅UJ同這一觀點。

雖然現(xiàn)在還沒有完全實現(xiàn),但我們相信,未來十年或更長時間后,智能機器人將會像 iPhone 一樣普及。因此,我們現(xiàn)在就需要開始為這個未來做好準備。


人形機器人

機器人的 GPT-3 時刻和 Scaling Law

Stephanie Zhan:為什么你認為許多行業(yè)仍然非常重視真實世界的數(shù)據(jù)呢?

Jim Fan:實際上,我們確實需要各種類型的數(shù)據(jù),因為單靠模擬數(shù)據(jù)或真實世界數(shù)據(jù)都遠遠不夠。因此,在 GEAR 團隊中,我們將數(shù)據(jù)策略分為三大類:

互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù):包括所有在線的文本和視頻。

模擬數(shù)據(jù):我們使用英偉達的模擬工具生成大量合成數(shù)據(jù)。

真實的機器人數(shù)據(jù):通過遠程操作機器人來收集和記錄實際操作中的數(shù)據(jù)。

我相信,成功的機器人戰(zhàn)略需要有效整合這三類數(shù)據(jù),以提供全面且統(tǒng)一的解決方案。這種綜合的數(shù)據(jù)策略能夠更好地支持機器人在各種環(huán)境中的表現(xiàn)和適應(yīng)性。


Sonya Huang:我們之前討論過在構(gòu)建機器人基礎(chǔ)模型時數(shù)據(jù)的瓶頸問題。你怎么看待這個問題?具體來說,解決這個問題需要什么樣的高質(zhì)量數(shù)據(jù)?

Jim Fan:我們討論的三種數(shù)據(jù)類型都有各自的優(yōu)缺點。

首先,互聯(lián)網(wǎng)數(shù)據(jù)種類繁多,包含豐富的常識信息,可以幫助我們了解人類如何與物體互動,但不包含機器人的動作控制信號,因此不能直接獲得機器人的動作數(shù)據(jù)。

其次,模擬數(shù)據(jù)可以提供詳細的動作數(shù)據(jù)并觀察其效果,數(shù)據(jù)幾乎是無限的且采集效率高。但模擬和現(xiàn)實之間仍存在差距,比如物理效果和視覺效果不完全一致,場景也不如現(xiàn)實世界多樣。

最后,真實的機器人數(shù)據(jù)來自真實世界,沒有模擬與現(xiàn)實的差距,但采集成本高,需要人工操作所以采集速度受限。

因此,最佳的策略是綜合這三種數(shù)據(jù)的優(yōu)點,彌補彼此的不足。


Sonya Huang:如果你能展望一下未來五年或十年,你希望你們的團隊能夠?qū)崿F(xiàn)哪些夢想和成就?

Jim Fan:雖然這只是我的預(yù)測,但我希望在接下來的兩到三年內(nèi),我們能夠看到機器人基礎(chǔ)模型的突破。這將類似于機器人領(lǐng)域的GPT-3時刻。

然而,機器人進入人們?nèi)粘I畈粌H僅是技術(shù)問題,還涉及經(jīng)濟性、大規(guī)模生產(chǎn)能力、硬件安全性、隱私和法規(guī)等多個方面。

這些因素可能會延緩機器人的普及,因此時間表會比較難以預(yù)測。但我確實希望在未來兩到三年內(nèi)看到研究取得實質(zhì)性進展。


Stephanie Zhan:你如何定義人工智能機器人的GPT-3時刻?

Jim Fan:我將機器人視為兩個部分:系統(tǒng)一和系統(tǒng)二。這一概念來源于《思考,快與慢》。

系統(tǒng)一涉及低層次的、無意識的動作控制,比如握杯子時的手指運動。而系統(tǒng)二則是深思熟慮的推理和規(guī)劃。

GPT-3時刻指的是機器人在系統(tǒng)一方面的突破。比如,“打開”這個詞在不同情境下有不同含義,人類自然理解這些含義,但目前的機器人模型還未能在這些低層次動作控制上進行有效泛化。

我期待未來能出現(xiàn)這樣的模型。


Sonya Huang:那么,關(guān)于系統(tǒng)二的思考呢?你認為我們?nèi)绾尾拍軐崿F(xiàn)這一點?大型語言模型(LLM)領(lǐng)域的一些推理努力是否會對機器人領(lǐng)域有所啟發(fā)?

Jim Fan:確實有啟發(fā)。

目前的模型在系統(tǒng)二的推理和規(guī)劃方面已有進展。但將系統(tǒng)二與系統(tǒng)一結(jié)合是個挑戰(zhàn)。我們需要決定是用一個統(tǒng)一的模型,還是分開使用系統(tǒng)一和系統(tǒng)二,并讓它們互相溝通。

整體模型的維護很簡單,但具體的控制比較復(fù)雜,分層方法可能更有效。如何在這兩種系統(tǒng)間進行有效溝通仍不明確,這將是未來的研究重點。


Sonya Huang:你認為我們能在系統(tǒng)一思維方面取得突破嗎?是通過規(guī)模和 Transformer 的提升,還是更多依賴于運氣?

Jim Fan:我希望我們的數(shù)據(jù)策略能幫助實現(xiàn)突破。Transformer 的潛力尚未完全發(fā)揮。

我們需要整合互聯(lián)網(wǎng)數(shù)據(jù)、模擬數(shù)據(jù)和真實機器人數(shù)據(jù),一旦在數(shù)據(jù)管道中擴大規(guī)模,并將高質(zhì)量的動作數(shù)據(jù)標記化后傳遞給 Transformer,可能會看到新特性。

我稱之為具身智能的 Scaling Law,現(xiàn)在只是開始。

通用模型

Sonya Huang:你為什么會專注于類人機器人(humanoid robots)?

Jim Fan:有幾個實際的原因。首先,類人機器人訓(xùn)練起來相對容易,因為網(wǎng)上有大量以人類為中心的數(shù)據(jù)和視頻,這些數(shù)據(jù)記錄了我們?nèi)粘5幕顒?。由于類人機器人的形態(tài)接近人類,它們能夠更好地利用這些數(shù)據(jù),尤其是五指操作的場景。掌握了類人機器人技術(shù)后,我們可以將這些技術(shù)遷移到其他類型的機器人,從而實現(xiàn)更廣泛的通用性。


Stephanie Zhan:所以你們現(xiàn)在只專注于訓(xùn)練類人機器人,而不是機器人手臂或機器人狗?

Jim Fan:是的,目前我們的重點確實是類人機器人。不過,我們開發(fā)的管道,包括模擬和真實機器人工具,具備了足夠的通用性,未來可以適應(yīng)其他機器人平臺。

我們的目標是構(gòu)建一個廣泛適用的工具,以便在未來可以應(yīng)用于多種機器人形態(tài)。


Sonya Huang:你提到了很多次“通用”這個詞,你為什么選擇了通用的方法?另外,你認為 Richard Sutton 的“更慘的教訓(xùn)”是否在機器人領(lǐng)域也適用?

Jim Fan:我認為通用模型確實是值得追求的。我先講講自然語言處理(NLP)的成功故事。

在 ChatGPT 和 GPT-3 出現(xiàn)之前,NLP 領(lǐng)域有很多專用的模型和流程,用于翻譯、編碼、數(shù)學(xué)運算和創(chuàng)意寫作等。這些模型和流程都是為特定任務(wù)量身定做的專用模型。

但 ChatGPT 的出現(xiàn)將這些功能統(tǒng)一到一個通用模型中。GPT-3和ChatGPT作為通用模型,可以被提示、微調(diào)和提煉,以適應(yīng)各種專用任務(wù)。

通用模型通常比專用模型更強大,更易于維護,因為它們只需要一個API來處理輸入和輸出。

在機器人領(lǐng)域,我們希望借鑒 NLP 的成功經(jīng)驗。

目前大多數(shù)機器人應(yīng)用仍處于專用階段,使用特定的硬件、數(shù)據(jù)和流程。GR00T 的目標是建立一個通用基礎(chǔ)模型,首先在類人機器人上應(yīng)用,之后可以推廣到其他機器人形態(tài)。

一旦我們有了這樣的通用模型,我們就可以對其進行微調(diào)和提煉,以應(yīng)對特定的機器人任務(wù)。

盡管短期內(nèi)專注于特定任務(wù)會更容易,但英偉達讓我們相信,未來屬于通用模型。雖然開發(fā)周期較長且面臨更多復(fù)雜的研究問題,但這是我們追求的主要目標。

機器人領(lǐng)域的復(fù)興

Sonya Huang:你們的研究中有沒有特別值得強調(diào)的成果?有沒有什么讓你對你們的方法感到樂觀或充滿信心的地方?

Jim Fan:確實有一個值得特別提到的成果,那就是我們的 Urea 項目。我們展示了一個五指機器人手能夠成功轉(zhuǎn)筆的任務(wù)。

這個任務(wù)對我來說尤其具有個人意義,因為我小時候嘗試轉(zhuǎn)筆總是做得不好。如果我自己去做現(xiàn)場演示,我可能會搞砸,但我們的機器人手卻能輕松完成。

英偉達 Jim Fan:復(fù)刻NLP的成功路,用通用模型開啟具身智能的GPT-3時刻

這項研究的關(guān)鍵在于,我們使用了 L 模型來編寫代碼,這些代碼用于英偉達開發(fā)的 IS6 Sim API 模擬器。

L模型生成的代碼定義了獎勵函數(shù),這個函數(shù)用于規(guī)范我們期望的理想行為。機器人按照獎勵函數(shù)的指導(dǎo)進行操作,正確執(zhí)行任務(wù)會獲得獎勵,錯誤則會受到懲罰。

通常,獎勵函數(shù)的設(shè)計是由專家進行的,這需要大量的專業(yè)知識和手動操作。而 Urea 項目通過自動化設(shè)計獎勵函數(shù),使機器人能夠完成復(fù)雜的任務(wù),如轉(zhuǎn)筆。

這個通用技術(shù)不僅限于轉(zhuǎn)筆,我們計劃將其應(yīng)用于更多任務(wù),并在英偉達的模擬API中生成新的任務(wù)。這為我們提供了巨大的發(fā)展空間。


Sonya Huang:你認為這次機器人領(lǐng)域的復(fù)興原因是什么?五年前,研究人員嘗試用機器人手解決魔方等問題時,曾有過一段幻滅期?,F(xiàn)在這個領(lǐng)域又重新活躍起來,你認為有什么不同?

Jim Fan:現(xiàn)在有幾個關(guān)鍵因素使情況不同。

首先是硬件的進步。近年來,新型機器人硬件的出現(xiàn)速度非???。例如,特斯拉正在研發(fā) Optimus,波士頓動力等公司也不斷推出新技術(shù),還有很多初創(chuàng)公司進入這一領(lǐng)域。這些新硬件更先進,例如更靈活的機械手和更高的可靠性,這是一個重要因素。

其次是價格的下降,類人機器人的價格顯著降低。2001 年,NASA 開發(fā)的人形機器人 Robonaut 價格超過 150 萬美元。而最近一些公司能將人形機器人的價格降到約 3 萬美元,這相當于一輛汽車的價格。

此外,成熟產(chǎn)品的價格往往接近原材料成本。人形機器人通常只需汽車原材料的 4%,所以未來幾年我們可能會看到價格繼續(xù)下降,甚至出現(xiàn)指數(shù)級的降幅,使這些先進硬件變得更加實惠。

第三個因素是基礎(chǔ)模型的進展。我們現(xiàn)在看到的前沿模型如 GPT、Claude 和 Llamas等在推理和規(guī)劃方面取得了顯著進展。這些語言模型不僅能夠擴展到新場景,還能編寫代碼。我們在 Urea 項目中就是利用這些語言模型的編碼能力來開發(fā)新的機器人解決方案。

此外,跨模態(tài)模型的興起也改善了計算機視覺和感知能力。這些成功案例鼓勵我們繼續(xù)追求機器人基礎(chǔ)模型,利用前沿模型的泛化能力,再結(jié)合動作生成技術(shù),推動類人機器人的發(fā)展。


虛擬世界研究

Minecraft的探索

Sonya Huang:你最初的研究主要集中在虛擬世界。能談?wù)勀銥槭裁磳inecraft感興趣,以及它與機器人技術(shù)的關(guān)系嗎?虛擬世界對你來說有什么特別的吸引力?

Jim Fan:我的目標是解決具身智能的問題,包括游戲和仿真,這也是我對虛擬世界特別感興趣的原因。我喜歡玩游戲,所以對 Minecraft 特別感興趣。我不是特別擅長 Minecraft,這也是我希望 AI 能彌補我的技術(shù)不足的原因。

我做過兩個相關(guān)的游戲項目。第一個是 Mine Dojo,我們開發(fā)了一個平臺來在 Minecraft 中訓(xùn)練通用智能體。Minecraft 是一個開放的3D世界,你可以自由探索和創(chuàng)造。我們從互聯(lián)網(wǎng)上收集了大量數(shù)據(jù),如游戲視頻和相關(guān)討論,用這些數(shù)據(jù)訓(xùn)練模型玩 Minecraft。

第二個項目是 Voyager。在 GPT-4 出現(xiàn)后,我們嘗試將編程視為一種行動,開發(fā)了 Voyager Agent。它通過編寫代碼與 Minecraft 互動。

我們用 API 將 Minecraft 的世界轉(zhuǎn)換為文本,然后讓 Agent 編寫代碼。Agent 在遇到錯誤時會得到反饋并修正程序,逐步積累技能。所有的技能被保存到一個庫中,未來可以重復(fù)使用。

此外,Voyager還有“自動課程”(Automatic Curriculum)機制,能夠自我判斷掌握了什么,提出合適的任務(wù),幫助它不斷進步。

智能體的優(yōu)化

Sonya Huang:為什么虛擬世界的研究如此豐富?虛擬世界中的問題解決與物理世界的問題解決有什么聯(lián)系?

Jim Fan:盡管游戲和機器人看起來不同,但它們其實有很多相似之處。兩者都涉及到具身智能體,輸入包括視頻流和傳感器數(shù)據(jù),輸出是行為。

在游戲中,這些行為是鍵盤和鼠標操作;在機器人中,則是電機控制。無論是虛擬還是物理智能體,都需要在環(huán)境中探索并收集數(shù)據(jù),這就是強化學(xué)習(xí)和自我探索的基本原則。

不過,機器人面臨的一個挑戰(zhàn)是如何解決模擬與現(xiàn)實之間的差距。模擬中的物理和渲染不完美,將模擬中的學(xué)習(xí)遷移到現(xiàn)實世界很困難。

游戲則沒有這個問題,因為訓(xùn)練和測試都在同一個虛擬環(huán)境中。

這是虛擬世界和物理世界的主要區(qū)別。

去年,我提出了一個概念,稱為“基礎(chǔ)智能體”。我相信未來會有一個模型能夠同時適用于虛擬和物理智能體。

基礎(chǔ)智能體有三個方面的泛化能力:

能夠完成的技能;

能夠控制的體態(tài)或形態(tài);

能夠掌握的世界或現(xiàn)實。

我希望未來能有一個單一模型,可以在不同的機器人形態(tài)和智能體形態(tài)上完成各種技能,并在多種虛擬或現(xiàn)實世界中泛化。這是我們團隊追求的最終愿景。


Stephanie Zhan:你關(guān)于游戲世界中的智能體有哪些個人夢想?你希望看到AI智能體在游戲世界中有哪些創(chuàng)新?

Jim Fan:我特別期待兩個方面。首先是“活”NPC的出現(xiàn)。如果NPC能夠與玩家互動、記住對話并影響游戲情節(jié),這樣每個人的游戲體驗都會不同,增加了游戲的重玩價值。

其次是游戲世界的實時生成。將生成3D模型、視頻和故事情節(jié)的技術(shù)結(jié)合起來,讓游戲世界在玩家互動中實時生成,這將創(chuàng)造一個真正開放的體驗,非常令人興奮。


Stephanie Zhan:關(guān)于智能體的能力需求,你認為需要GPT-4級別的能力,還是像Llama 8B這樣的模型就足夠了?

Jim Fan:智能體需要具備以下能力:有趣的對話、穩(wěn)定的個性、長期記憶,并能在世界中行動。雖然 Llama 模型已經(jīng)做得不錯,但仍不足以產(chǎn)生非常多樣化和吸引人的行為。

另外,推理成本也是一個問題。如果智能體要提供給玩家使用,那么它們要么需要在云端低成本托管,要么需要在設(shè)備上本地運行,否則在成本方面將難以擴展。


Sonya Huang:你認為虛擬世界的工作是否主要是為了實現(xiàn)現(xiàn)實世界中的目標?還是虛擬世界的工作本身就是值得追求的?物理世界和虛擬世界的優(yōu)先級如何?

Jim Fan:我認為虛擬世界和物理世界最終會融合成一個統(tǒng)一的現(xiàn)實。

例如,領(lǐng)域隨機化技術(shù)通過在成千上萬種不同的模擬環(huán)境中訓(xùn)練機器人來實現(xiàn)這一點。

每種模擬環(huán)境都有不同的物理參數(shù),比如重力和摩擦力。如果我們有一個智能體能夠掌握這些多樣化的模擬環(huán)境,它將能更好地泛化到現(xiàn)實世界。

我們希望通過這種方法將模擬中的學(xué)習(xí)直接轉(zhuǎn)移到現(xiàn)實世界。這表明虛擬世界的訓(xùn)練和現(xiàn)實世界的應(yīng)用是相互聯(lián)系的,虛擬世界的技能可以幫助我們在現(xiàn)實中取得成就。

Transformer的替代品

Sonya Huang:在虛擬世界領(lǐng)域,那些優(yōu)秀的模型大多基于 Transformer 架構(gòu)。你認為我們是否已經(jīng)準備好大規(guī)模應(yīng)用 Transformer,還是說在模型方面仍然需要一些基礎(chǔ)性的突破?

Jim Fan:我認為,我們還沒有將 Transformer 架構(gòu)的潛力發(fā)揮到極致。

盡管 Transformer 在很多方面表現(xiàn)出色,但目前的數(shù)據(jù)問題仍然是一個瓶頸。我們無法從互聯(lián)網(wǎng)直接下載這些動作數(shù)據(jù),因為它們通常不附帶模型控制數(shù)據(jù)。

因此,我們必須在模擬環(huán)境或真實機器人上收集這些數(shù)據(jù)。一旦我們建立了成熟的數(shù)據(jù)管道,我們可以直接用 Transformer 處理數(shù)據(jù),就像 Transformer 預(yù)測維基百科上的下一個詞一樣。

雖然我們正在測試這些假設(shè),但 Transformer 的潛力尚未被完全挖掘。

此外,還有很多關(guān)于 Transformer 替代架構(gòu)的研究。比如 Mamba 以及最近的時間訓(xùn)練等替代方案,這些都是很有前景的想法。

雖然這些替代方案在目前的前沿模型性能上還未顯著超越 Transformer,但我對它們充滿期待,并希望看到它們在未來的發(fā)展。


Stephanie Zhan:有哪個模型特別引起了你的注意,為什么?

Jim Fan:我特別關(guān)注 Mamba 和測試時間訓(xùn)練。這些模型在推理過程中展現(xiàn)了更高的效率。

與 Transformer 處理所有的令牌不同,這些模型具備更高效的機制。我認為它們潛力很大。

然而,我們還需要將它們擴展到前沿模型的規(guī)模,真正比較它們與 Transformer 的效果。這將幫助我們更好地理解它們在實際應(yīng)用中的表現(xiàn)。雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

英偉達 Jim Fan:復(fù)刻NLP的成功路,用通用模型開啟具身智能的GPT-3時刻

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說