0
本文作者: 劉潔 | 2024-11-08 14:13 |
天上一天,人間一年——這居然已經(jīng)不是神話了?
Jim Fan 團(tuán)隊(duì)的最新成果實(shí)現(xiàn)了 10,000 倍的超級(jí)加速:機(jī)器人在虛擬“道場(chǎng)”里訓(xùn)練了整整一年,但現(xiàn)實(shí)里只用了 50 分鐘!
而且訓(xùn)練結(jié)果無(wú)需微調(diào),就直接無(wú)縫銜接到現(xiàn)實(shí)世界使用。
再發(fā)展下去,說(shuō)不定未來(lái)人們就能在虛擬世界里用一天體驗(yàn)一萬(wàn)年的生活,神話還是太保守了。
更不可思議的是,這種 1 萬(wàn)倍加速體驗(yàn),只需要少少的 1.5M 參數(shù)。
再對(duì)比看看其他家模型的參數(shù)量,谷歌的 Gato 11.8 億參數(shù),Meta 的 TACO 2.5 億參數(shù),OpenAI 的 CLIPort 4 億參數(shù)。這差距真是讓人汗流浹背了。
一刻也沒(méi)有為十幾億大參數(shù)的過(guò)時(shí)停留,立刻來(lái)到戰(zhàn)場(chǎng)的是 Jim Fan 團(tuán)隊(duì)的超迷你模型。
“不是每個(gè)基礎(chǔ)模型都需要大參數(shù)?!盝im Fan 表示,模型小小,超級(jí)有效。
這個(gè)小身材大能量的模型還干了一件大事,通用。
在此之前,機(jī)器人要完成不同的任務(wù)必須依賴特定的控制策略。
舉個(gè)例子,如果我們希望人形機(jī)器人進(jìn)行導(dǎo)航,那就要依賴于根速度或位置跟蹤進(jìn)行專門優(yōu)化;要是想讓機(jī)器人去完成端茶、擦桌子這樣的桌面任務(wù),就需要優(yōu)先考慮上半身關(guān)節(jié)角度跟蹤。每換一個(gè)方向就要更改策略重新訓(xùn)練一次。
這樣的訓(xùn)練方式導(dǎo)致人形機(jī)器人只能進(jìn)行技能專精,很難往我們想要的全能方向發(fā)展。
那么有沒(méi)有一種通用的訓(xùn)練策略,能夠在不用更換控制模式的情況下訓(xùn)練多種任務(wù)呢?
Jim Fan 表示,現(xiàn)在有了。
前面提到的新模型叫 HOVER,是一個(gè)多模式策略蒸餾框架,出自英偉達(dá)的 GEAR 團(tuán)隊(duì)的最新研究,由李飛飛教授的學(xué)生 Jim Fan 和朱玉可共同領(lǐng)導(dǎo),其余作者大部分是來(lái)自各大高校的華人學(xué)生和研究員。
Jim Fan 團(tuán)隊(duì)找到的通用辦法,是把全身運(yùn)動(dòng)模仿作為所有這些任務(wù)的共同抽象,并為機(jī)器人學(xué)習(xí)多種全身控制模式提供通用的運(yùn)動(dòng)技能。
通俗點(diǎn)說(shuō),他們把導(dǎo)航、桌面操作等任務(wù)的共通點(diǎn)提煉成全身運(yùn)動(dòng)模仿,讓機(jī)器人通過(guò)學(xué)習(xí)通用的運(yùn)動(dòng)技能來(lái)訓(xùn)練全身控制模式。一通百通,全身運(yùn)動(dòng)會(huì)了,端個(gè)茶帶個(gè)路也是輕而易舉。
這一辦法的靈感源自于人類潛意識(shí)的處理方式。
人類在日?;顒?dòng)中,比如步行、維持平衡或是調(diào)整肢體動(dòng)作時(shí),大腦會(huì)不自覺(jué)地進(jìn)行一系列計(jì)算,幫助我們迅速作出反應(yīng)。
Jim Fan 團(tuán)隊(duì)通過(guò)模仿這種潛意識(shí)的運(yùn)作機(jī)制,將類似的“內(nèi)在”計(jì)算能力引入機(jī)器人技術(shù),推出了 HOVER(仿人通用控制器)。
HOVER 能夠使機(jī)器人學(xué)習(xí)如何精確控制電機(jī),從而協(xié)調(diào)人形機(jī)器人的運(yùn)動(dòng)和操作,將多種控制模式整合成統(tǒng)一的策略。更重要的是,HOVER 還能在保留各模式獨(dú)特功能的同時(shí),實(shí)現(xiàn)模式間的自然銜接,從而打造了一支步調(diào)一致的機(jī)器人軍團(tuán)。
具體來(lái)說(shuō),我們能用 HOVER 通過(guò)“提示”輸入頭部姿勢(shì)、手部姿勢(shì)、全身運(yùn)動(dòng)、關(guān)節(jié)角度等各種類型的高級(jí)運(yùn)動(dòng)指令,也可以訓(xùn)練任何可以在 Isaac(英偉達(dá) AI 機(jī)器人開(kāi)發(fā)平臺(tái)) 中模擬的人形機(jī)器人。
因此,HOVER 的通用不止是單個(gè)機(jī)器人動(dòng)作模塊的通用,更是支持多種機(jī)器人共同訓(xùn)練的通用。
以前的機(jī)器人訓(xùn)練都是各家訓(xùn)各自的,不互通也很難移植已有的成果。現(xiàn)在在英偉達(dá)的 Isaac 模擬平臺(tái)上,HOVER 讓各家“雜牌軍”都能協(xié)同進(jìn)化,一躍成為“正規(guī)軍”,偉大無(wú)需多言。
Jim Fan 的通用野心也早有顯露,“2024 年將是屬于機(jī)器人、游戲 AI 和模擬的一年。”
在 GEAR 團(tuán)隊(duì)成立之初,他在推文里自信地寫道,“我們團(tuán)隊(duì)有足夠的資金一次性解決機(jī)器人基礎(chǔ)模型、游戲基礎(chǔ)模型和生成式模擬三個(gè)問(wèn)題。GEAR 可能是世界上最有錢的具身智能實(shí)驗(yàn)室?!?/p>
Jim Fan 還配了一張英偉達(dá)股票暴漲的圖片。
這么一看 HOVER 的強(qiáng)大實(shí)力背后都是燒錢的味道。有錢任性,真好。
而 GEAR 團(tuán)隊(duì)選擇聚焦具身智能的核心原因,并不是因?yàn)樨?cái)力雄厚可以隨便造。
對(duì)此,黃仁勛表示,“下一波 AI 浪潮,將是物理性的 AI。 屆時(shí),AI 將可以理解物理原則,并與人類一起工作。”
具身智能——在物理世界中具備互動(dòng)和適應(yīng)能力的 AI,正是英偉達(dá)及其頂尖團(tuán)隊(duì)認(rèn)為未來(lái) AI 演化的關(guān)鍵。
具身智能的核心不同于虛擬環(huán)境中高度抽象化的 AI,而是強(qiáng)調(diào) AI 的“具身性”,即讓 AI 擁有實(shí)體,無(wú)論是機(jī)器人還是虛擬代理,從而直接與環(huán)境發(fā)生交互,在真實(shí)世界的復(fù)雜性中提升自我。
Jim Fan 關(guān)注的正是對(duì)整個(gè)具身智能領(lǐng)域來(lái)說(shuō)都很關(guān)鍵的問(wèn)題:Sim2Real(simulation to reality,從模擬到現(xiàn)實(shí)),即將在仿真環(huán)境中學(xué)習(xí)到的知識(shí)或技能成功地應(yīng)用到實(shí)際環(huán)境中。
Jim Fan 的同門師兄、同樣畢業(yè)于斯坦福的蘇昊,也選擇了具身智能領(lǐng)域開(kāi)辟屬于自己的 Sim2Real 道路。
(蘇昊)
蘇昊早年就讀斯坦福時(shí)跟隨 Leonidas J. Guibas 攻讀博士,并得到了李飛飛教授的指導(dǎo)。在研究所時(shí),他便是 ImageNet 數(shù)據(jù)集的重要貢獻(xiàn)者之一,這一數(shù)據(jù)集成為日后 AI 領(lǐng)域公認(rèn)的基石之一。
蘇昊與 Jim 一樣受到李飛飛教授的影響,最終轉(zhuǎn)向了具身智能的研究,但二人的技術(shù)理念卻漸漸有所不同。
Jim Fan 借助生成式 AI 構(gòu)建了龐大的虛擬世界模型,打造了一種能夠低成本、高效率完成自我訓(xùn)練的模擬環(huán)境。
通過(guò)這種方式,他讓 GEAR 團(tuán)隊(duì)在虛擬環(huán)境中訓(xùn)練游戲 AI 和機(jī)器人代理,幫助 AI 以更快速、更適應(yīng)性強(qiáng)的方式在虛擬環(huán)境中成長(zhǎng)。模擬世界的龐大數(shù)據(jù)流,讓 GEAR 能夠模擬成千上萬(wàn)種場(chǎng)景,提升機(jī)器人和游戲 AI 的適應(yīng)性。
蘇昊則沿著另一條軌跡,在真實(shí)世界的訓(xùn)練中尋找具身智能的根本。
自從 3D 感知與建模成為 AI 領(lǐng)域的熱點(diǎn)時(shí),他開(kāi)始關(guān)注如何在物理環(huán)境中提升 AI 的實(shí)時(shí)應(yīng)變能力和自適應(yīng)性。
在 MIT 的一次活動(dòng)中,蘇昊以踢球?yàn)槔忉屃怂麑?duì)具身智能的認(rèn)知,“當(dāng)我們踢球時(shí),我們的感知引導(dǎo)行動(dòng),行動(dòng)又帶來(lái)反饋。 這種反饋不斷調(diào)整我們的感知,甚至重塑我們對(duì)環(huán)境的理解?!?/p>
在他看來(lái),智能不僅僅依賴于大腦,還與身體和環(huán)境的互動(dòng)密不可分。 感知、認(rèn)知、行動(dòng)這三個(gè)要素的緊密結(jié)合,才是智能進(jìn)步的關(guān)鍵。
然而,巧婦難為無(wú)米之炊。數(shù)據(jù)短缺成了最大的瓶頸——沒(méi)有充足的 3D 數(shù)據(jù),再好的構(gòu)想也難以施展。
他想重走之前在斯坦福做過(guò)的事情,像做 ImageNet 一樣,做一個(gè) 3D 的數(shù)據(jù)集。
2015 年,蘇昊領(lǐng)導(dǎo)團(tuán)隊(duì)發(fā)布了 ShapeNet,一個(gè)高質(zhì)量的 3D 形狀數(shù)據(jù)集,為 AI 提供了 220,000 個(gè) 3D CAD 模型,總計(jì)覆蓋 3,135 類對(duì)象,是 AI 視覺(jué)識(shí)別中的重要數(shù)據(jù)資源。
2017 年,突破性的點(diǎn)云處理網(wǎng)絡(luò) PointNet 深度學(xué)習(xí)模型問(wèn)世,被譽(yù)為 3D 數(shù)據(jù)處理領(lǐng)域的 CNN。
很可惜,這些開(kāi)創(chuàng)性工作雖有成效,但 ShapeNet 和 PointNet 卻沒(méi)能帶來(lái)像 ImageNet 那樣的變革。
3D 多模態(tài)數(shù)據(jù)的采集依然復(fù)雜、成本高昂,導(dǎo)致 3D 數(shù)據(jù)數(shù)量的增長(zhǎng)依舊緩慢。
從中學(xué)接觸到最小生成樹(shù)算法開(kāi)始,蘇昊就認(rèn)識(shí)到,“人類的智能或許并不是那么獨(dú)特,而是可能被機(jī)器復(fù)制的?!?/p>
既然人類的智能可以復(fù)制,真實(shí)世界的數(shù)據(jù)也能被復(fù)制。
為了破解數(shù)據(jù)收集成本高、速度慢的難題,他決定采用生成式方法——即不再局限于收集物理世界中的數(shù)據(jù),而是直接通過(guò) AI 生成數(shù)據(jù)。
在這種思路下,蘇昊在實(shí)驗(yàn)室里做了大量嘗試后創(chuàng)立了 Hillbot,希望能憑借自己的技術(shù)解決實(shí)際的社會(huì)問(wèn)題。
Hillbot 的核心在于利用 3D 生成式 AI 技術(shù),通過(guò)文字提示生成3D對(duì)象,再將生成好的 3D 對(duì)象,放入自主開(kāi)發(fā)的模擬器 SAPIEN 中。這種方法通過(guò)生成數(shù)據(jù)和模擬真實(shí)環(huán)境中的互動(dòng),提供了源源不斷的數(shù)據(jù)流。
SAPIEN 模擬器不僅是一個(gè) 3D 渲染平臺(tái),更是一種多模態(tài)數(shù)據(jù)收集的工具,能夠?qū)崟r(shí)采集數(shù)據(jù)并與 AI 的多模態(tài)傳感器組合,允許機(jī)器人在虛擬的物理環(huán)境中直接進(jìn)行交互,以培養(yǎng)其應(yīng)對(duì)復(fù)雜情境的能力。
簡(jiǎn)單來(lái)說(shuō),只要有文字提示,Hillbot 就能通過(guò) 3D 生成技術(shù)生成對(duì)應(yīng)的 3D 物體,幾乎不再受到真實(shí)數(shù)據(jù)來(lái)源的限制,想要多少數(shù)據(jù)就有多少數(shù)據(jù)。
Hillbot 的目標(biāo)很宏大也很明確,利用 Hillbot 在機(jī)器人、模擬和 3D 生成式 AI 方面的尖端解決方案套件,釋放人工智能和機(jī)器人技術(shù)的力量。
這份自信并不是空穴來(lái)風(fēng),Hillbot 有獨(dú)特的模擬數(shù)創(chuàng)建方法,能夠避開(kāi)避開(kāi)高昂的成本以及繁瑣冗長(zhǎng)的訓(xùn)練過(guò)程。
他們使用的 SAPIEN 模擬器也是目前市面上少有的速度快、性能高的機(jī)器人模擬器,通過(guò)真實(shí)性高的模擬技術(shù),Hillbot 的團(tuán)隊(duì)可將機(jī)器人的訓(xùn)練速度提高 5 倍,并將訓(xùn)練時(shí)間從 12 個(gè)月縮短至僅僅幾個(gè)月。
在具體訓(xùn)練方法上,Hillbot 的團(tuán)隊(duì)還模仿了人類的任務(wù)處理模式,將復(fù)雜的任務(wù)分解成多個(gè)小的簡(jiǎn)單任務(wù),讓機(jī)器人能夠逐步提高推理能力,有效提升機(jī)器人對(duì)復(fù)雜任務(wù)的適應(yīng)能力。
目前,Hillbot 的業(yè)務(wù)主要集中在工業(yè)和家庭任務(wù)上,比如汽車制造、倉(cāng)儲(chǔ)零售等。Hillbot 還在尋找合適的合作伙伴,采用市場(chǎng)上已有的機(jī)器人硬件,合作開(kāi)發(fā)更加強(qiáng)大的通用機(jī)器人。
蘇昊的另一位師弟,新加坡國(guó)立大學(xué)助理教授邵林也在關(guān)注 Sim2Real 的問(wèn)題。
不過(guò)邵林關(guān)注的是另一個(gè)不同的方向,Real2Sim2Real,從現(xiàn)實(shí)再到模擬再到現(xiàn)實(shí),將仿真方法應(yīng)用于現(xiàn)實(shí)后比較它們的性能,根據(jù)仿真與現(xiàn)實(shí)的差異更新仿真模型和方法。
邵林的論文《TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach》,被收錄在即將召開(kāi)的 CoRL 2024(2024 年機(jī)器人學(xué)習(xí)大會(huì))上。這篇論文介紹了一個(gè)TieBot 機(jī)器人系統(tǒng),采用 Real-to-Sim-to-Real 的學(xué)習(xí)方法,能夠通過(guò)視覺(jué)演示教會(huì)機(jī)器人打領(lǐng)帶。
“Sim2Real”概念最早可以追溯到 20 世紀(jì)末,當(dāng)時(shí)的研究主要集中在如何讓機(jī)器人在實(shí)驗(yàn)室或仿真環(huán)境中學(xué)習(xí)基本技能,并測(cè)試其在現(xiàn)實(shí)任務(wù)中的應(yīng)用可能性。
隨著深度學(xué)習(xí)和機(jī)器人技術(shù)的進(jìn)步,這一領(lǐng)域在 2010 年代迎來(lái)更高的關(guān)注。OpenAI、Meta 和谷歌等科技公司陸續(xù)開(kāi)展研究,試圖縮小虛擬仿真與現(xiàn)實(shí)之間的差距。
2018 年,谷歌發(fā)表了一篇 Sim2Real 的相關(guān)論文,想讓機(jī)器人學(xué)著像人類一樣觀察世界。
傳統(tǒng)的機(jī)器人依賴于固定視角的鏡頭來(lái)獲取視覺(jué)輸入,這也導(dǎo)致機(jī)器人很難在活動(dòng)的情況下精準(zhǔn)地執(zhí)行任務(wù)。而人類能夠在不固定自身視點(diǎn)的情況下,靈巧地操控各種物體,利用豐富的感官信號(hào)和視覺(jué)作為反饋來(lái)自行糾錯(cuò)。
學(xué)習(xí)人類的視覺(jué)特點(diǎn)或許能對(duì)機(jī)器人的控制精準(zhǔn)度有所提升。
為此,谷歌開(kāi)發(fā)了基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的視覺(jué)系統(tǒng),使機(jī)器人無(wú)需校準(zhǔn)攝像頭便能靈活控制機(jī)械臂,提升了任務(wù)完成的精準(zhǔn)度。
與此同時(shí),Meta 和其他研究團(tuán)隊(duì)在 Sim2Real 的物理仿真上繼續(xù)深入探索,以期實(shí)現(xiàn)更高的模擬精度。
盡管取得了一定進(jìn)展,但早期機(jī)器人模擬器的效果往往不夠理想,學(xué)界普遍對(duì) Sim2Real 的實(shí)用性存疑。
不過(guò),隨著 GPU 算力和 AI 技術(shù)的發(fā)展,各大研究團(tuán)隊(duì)也在高仿真度方面取得了重大突破。因此,人們對(duì)模擬技術(shù)有了更高的認(rèn)可度,Sim2Real 也逐漸被認(rèn)為是實(shí)現(xiàn)具身智能的最高效路徑。
在 Sim2Real 的探索中,各研究團(tuán)隊(duì)的切入點(diǎn)各不相同。
前面提到的 Jim Fan 的 HOVER 主要做的是優(yōu)化模擬環(huán)境,而蘇昊選擇的是深耕合成數(shù)據(jù)。
根據(jù) Scaling Law,訓(xùn)練具身智能機(jī)器人需要大量涵蓋各種場(chǎng)景的多樣化數(shù)據(jù),然而,獲取這些真實(shí)數(shù)據(jù)的成本極高且耗時(shí)耗力。
因此,蘇昊團(tuán)隊(duì)選擇合成數(shù)據(jù),創(chuàng)造跨越晝夜、季節(jié)、室內(nèi)外的多種場(chǎng)景數(shù)據(jù)。這樣一來(lái),機(jī)器人就能夠在虛擬環(huán)境中進(jìn)行大規(guī)模、多樣化的操作學(xué)習(xí),涵蓋不同操作對(duì)象、環(huán)境變化、機(jī)器人構(gòu)型和傳感器狀態(tài)等條件。
選擇數(shù)據(jù)作為突破點(diǎn)的還有聯(lián)想的 DexVerse? 引擎,它通過(guò)自動(dòng)生成具身智能任務(wù)所需的合成數(shù)據(jù)包,與 AI 模型訓(xùn)練同步,不再依賴于傳統(tǒng)的大規(guī)模數(shù)據(jù)存儲(chǔ),從而極大提升了數(shù)據(jù)生成與模型迭代的效率。
盡管技術(shù)取得突破,Sim2Real 的實(shí)用性仍面臨“現(xiàn)實(shí)鴻溝”(reality gap)的挑戰(zhàn)。仿真與現(xiàn)實(shí)環(huán)境在細(xì)節(jié)上的差異,如摩擦力、物體形變和碰撞等,可能顯著影響模型在現(xiàn)實(shí)環(huán)境中的表現(xiàn)。
盡管許多機(jī)器人在模擬中能夠達(dá)到 99% 的準(zhǔn)確率,但這 1% 的偏差在現(xiàn)實(shí)制造中可能導(dǎo)致巨大的隱患。而相比之下,不少人類經(jīng)過(guò)短期培訓(xùn)后就能能夠達(dá)到 100% 的準(zhǔn)確率。
雖然 Jim Fan 和蘇昊團(tuán)隊(duì)選擇了不同的突破方向,但兩者的研究目標(biāo)卻殊途同歸:如何彌合真實(shí)與虛擬之間的差距,才是他們研究的核心。
Jim Fan的 HOVER 模型特別強(qiáng)調(diào)無(wú)需微調(diào),即可將模擬結(jié)果有效遷移到現(xiàn)實(shí)環(huán)境中;而蘇昊則提出生成數(shù)據(jù)和模擬數(shù)據(jù)之間是互補(bǔ)關(guān)系,探索多源數(shù)據(jù)的協(xié)同應(yīng)用或許是理想的解決方案。
李飛飛團(tuán)隊(duì)近期提出的“數(shù)字表親”(digital cousin)概念也為 Sim2Real 的研究提供了新的思路和解決方案。實(shí)驗(yàn)表明,通過(guò)這一方法,無(wú)需額外微調(diào),即可將模擬中生成的策略直接應(yīng)用于現(xiàn)實(shí)世界。這一創(chuàng)新不僅能夠提供更廣泛的數(shù)據(jù)分布,還能有效克服從模擬到真實(shí)環(huán)境的差距。
面對(duì)這些共同的挑戰(zhàn),越來(lái)越多的研究者開(kāi)始意識(shí)到,打破單一任務(wù)適應(yīng)的局限,擴(kuò)展到多任務(wù)和跨設(shè)備的全局泛化能力,建立一個(gè)靈活且可擴(kuò)展的開(kāi)發(fā)環(huán)境才是關(guān)鍵。
蘇昊團(tuán)隊(duì)提出了統(tǒng)一接口的構(gòu)想,希望通過(guò)易于插拔的仿真器、渲染器等模塊,形成集成開(kāi)發(fā)環(huán)境(IDE)。
英偉達(dá)的 Isaac 平臺(tái)也采取了類似的策略,組合加速庫(kù)、應(yīng)用框架和 AI 模型,為自主移動(dòng)機(jī)器人(AMR)、機(jī)械手、機(jī)械臂及人形機(jī)器人等 AI 機(jī)器人開(kāi)發(fā)提供穩(wěn)定支持。
Meta 的研究團(tuán)隊(duì)則推出了 Habitat 3.0 平臺(tái),支持在多種家庭和復(fù)雜場(chǎng)景中進(jìn)行 AI 訓(xùn)練,通過(guò)創(chuàng)建可復(fù)制現(xiàn)實(shí)條件的合成數(shù)據(jù)集,進(jìn)一步拓寬了 Sim2Real 的應(yīng)用范圍。
這些努力在本質(zhì)上都是為了實(shí)現(xiàn)機(jī)器人技術(shù)的高效整合與應(yīng)用,為 Sim2Real 領(lǐng)域的研究提供更可靠的開(kāi)發(fā)基礎(chǔ)。
在 AI 領(lǐng)域有一個(gè)提得比較多的概念是“世界模型”,指的是一種用于描述和預(yù)測(cè)環(huán)境的內(nèi)部模型。它通過(guò)學(xué)習(xí)環(huán)境的動(dòng)態(tài)特征,使得智能體能夠在未見(jiàn)過(guò)的情境中進(jìn)行決策和規(guī)劃。
世界模型的設(shè)計(jì)靈感源于人類的潛意識(shí)推理能力。人類在日常生活中通過(guò)經(jīng)驗(yàn)和知識(shí)的積累形成對(duì)周圍世界的理解,能夠迅速、無(wú)意識(shí)地利用多種感官信息進(jìn)行推理與決策。
例如,當(dāng)我們走路時(shí),腦海中會(huì)自動(dòng)生成關(guān)于環(huán)境的“地圖”,幫助我們避免障礙、保持平衡并選擇最佳路徑。這種無(wú)意識(shí)的認(rèn)知過(guò)程正是是世界模型希望復(fù)制的目標(biāo),使智能體在復(fù)雜環(huán)境中同樣能夠作出迅速且有效的反應(yīng)。
其實(shí),世界模型的概念早在傳統(tǒng)的機(jī)器人研究中就有提及,不過(guò)現(xiàn)在的具身智能研究則更多地希望利用類似世界模型的概念,通過(guò)強(qiáng)化機(jī)器人對(duì)環(huán)境的感知來(lái)解決 Sim2Real 的問(wèn)題。
Jim Fan 也在介紹 HOVER 時(shí)提到,人類需要大量的潛意識(shí)處理才能走路、保持平衡并將我們的手臂和腿操縱到所需的位置。HOVER 就是在變相地捕捉這種“潛意識(shí)”,學(xué)習(xí)如何協(xié)調(diào)人形機(jī)器人的電機(jī)以支持運(yùn)動(dòng)和操作。
當(dāng)前的具身智能研發(fā)的主流趨勢(shì)是做通用機(jī)器人,在此基礎(chǔ)上根據(jù)具體的應(yīng)用任務(wù)進(jìn)行特定方向的調(diào)整。無(wú)論是通用還是專用,機(jī)器人對(duì)環(huán)境的感知都是一個(gè)關(guān)鍵課題。
舉個(gè)例子,如果我們想讓機(jī)器人完成拿起書(shū)本的動(dòng)作,機(jī)器人必須能夠識(shí)別書(shū)本的位置以及與其的交互方式。這一過(guò)程對(duì)所有類型的機(jī)器人來(lái)說(shuō)都是通用的,因?yàn)榄h(huán)境感知是實(shí)現(xiàn)各種任務(wù)的前提。
像 Hillbot 的文生 3D 和其他團(tuán)隊(duì)研究的圖生 3D,都是以豐富數(shù)據(jù)的形式構(gòu)建一個(gè)更真實(shí)的模擬環(huán)境,讓機(jī)器人能夠更好地感知世界。
隨著世界模型的不斷發(fā)展,AI 的應(yīng)用前景將更加廣泛。從自動(dòng)駕駛到智能家居,從醫(yī)療機(jī)器人到生產(chǎn)自動(dòng)化,這些技術(shù)都將依賴于強(qiáng)大的世界模型。
通過(guò)更好地理解和模擬人類的潛意識(shí)推理過(guò)程,未來(lái)的機(jī)器人將能夠更有效地與環(huán)境互動(dòng),實(shí)現(xiàn)真正的自主智能。
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。