0
本文作者: 劉潔 | 2024-11-08 14:13 |
天上一天,人間一年——這居然已經(jīng)不是神話了?
Jim Fan 團隊的最新成果實現(xiàn)了 10,000 倍的超級加速:機器人在虛擬“道場”里訓(xùn)練了整整一年,但現(xiàn)實里只用了 50 分鐘!
而且訓(xùn)練結(jié)果無需微調(diào),就直接無縫銜接到現(xiàn)實世界使用。
再發(fā)展下去,說不定未來人們就能在虛擬世界里用一天體驗一萬年的生活,神話還是太保守了。
更不可思議的是,這種 1 萬倍加速體驗,只需要少少的 1.5M 參數(shù)。
再對比看看其他家模型的參數(shù)量,谷歌的 Gato 11.8 億參數(shù),Meta 的 TACO 2.5 億參數(shù),OpenAI 的 CLIPort 4 億參數(shù)。這差距真是讓人汗流浹背了。
一刻也沒有為十幾億大參數(shù)的過時停留,立刻來到戰(zhàn)場的是 Jim Fan 團隊的超迷你模型。
“不是每個基礎(chǔ)模型都需要大參數(shù)?!盝im Fan 表示,模型小小,超級有效。
這個小身材大能量的模型還干了一件大事,通用。
在此之前,機器人要完成不同的任務(wù)必須依賴特定的控制策略。
舉個例子,如果我們希望人形機器人進行導(dǎo)航,那就要依賴于根速度或位置跟蹤進行專門優(yōu)化;要是想讓機器人去完成端茶、擦桌子這樣的桌面任務(wù),就需要優(yōu)先考慮上半身關(guān)節(jié)角度跟蹤。每換一個方向就要更改策略重新訓(xùn)練一次。
這樣的訓(xùn)練方式導(dǎo)致人形機器人只能進行技能專精,很難往我們想要的全能方向發(fā)展。
那么有沒有一種通用的訓(xùn)練策略,能夠在不用更換控制模式的情況下訓(xùn)練多種任務(wù)呢?
Jim Fan 表示,現(xiàn)在有了。
前面提到的新模型叫 HOVER,是一個多模式策略蒸餾框架,出自英偉達的 GEAR 團隊的最新研究,由李飛飛教授的學(xué)生 Jim Fan 和朱玉可共同領(lǐng)導(dǎo),其余作者大部分是來自各大高校的華人學(xué)生和研究員。
Jim Fan 團隊找到的通用辦法,是把全身運動模仿作為所有這些任務(wù)的共同抽象,并為機器人學(xué)習(xí)多種全身控制模式提供通用的運動技能。
通俗點說,他們把導(dǎo)航、桌面操作等任務(wù)的共通點提煉成全身運動模仿,讓機器人通過學(xué)習(xí)通用的運動技能來訓(xùn)練全身控制模式。一通百通,全身運動會了,端個茶帶個路也是輕而易舉。
這一辦法的靈感源自于人類潛意識的處理方式。
人類在日常活動中,比如步行、維持平衡或是調(diào)整肢體動作時,大腦會不自覺地進行一系列計算,幫助我們迅速作出反應(yīng)。
Jim Fan 團隊通過模仿這種潛意識的運作機制,將類似的“內(nèi)在”計算能力引入機器人技術(shù),推出了 HOVER(仿人通用控制器)。
HOVER 能夠使機器人學(xué)習(xí)如何精確控制電機,從而協(xié)調(diào)人形機器人的運動和操作,將多種控制模式整合成統(tǒng)一的策略。更重要的是,HOVER 還能在保留各模式獨特功能的同時,實現(xiàn)模式間的自然銜接,從而打造了一支步調(diào)一致的機器人軍團。
具體來說,我們能用 HOVER 通過“提示”輸入頭部姿勢、手部姿勢、全身運動、關(guān)節(jié)角度等各種類型的高級運動指令,也可以訓(xùn)練任何可以在 Isaac(英偉達 AI 機器人開發(fā)平臺) 中模擬的人形機器人。
因此,HOVER 的通用不止是單個機器人動作模塊的通用,更是支持多種機器人共同訓(xùn)練的通用。
以前的機器人訓(xùn)練都是各家訓(xùn)各自的,不互通也很難移植已有的成果。現(xiàn)在在英偉達的 Isaac 模擬平臺上,HOVER 讓各家“雜牌軍”都能協(xié)同進化,一躍成為“正規(guī)軍”,偉大無需多言。
Jim Fan 的通用野心也早有顯露,“2024 年將是屬于機器人、游戲 AI 和模擬的一年?!?/p>
在 GEAR 團隊成立之初,他在推文里自信地寫道,“我們團隊有足夠的資金一次性解決機器人基礎(chǔ)模型、游戲基礎(chǔ)模型和生成式模擬三個問題。GEAR 可能是世界上最有錢的具身智能實驗室?!?/p>
Jim Fan 還配了一張英偉達股票暴漲的圖片。
這么一看 HOVER 的強大實力背后都是燒錢的味道。有錢任性,真好。
而 GEAR 團隊選擇聚焦具身智能的核心原因,并不是因為財力雄厚可以隨便造。
對此,黃仁勛表示,“下一波 AI 浪潮,將是物理性的 AI。 屆時,AI 將可以理解物理原則,并與人類一起工作?!?/p>
具身智能——在物理世界中具備互動和適應(yīng)能力的 AI,正是英偉達及其頂尖團隊認為未來 AI 演化的關(guān)鍵。
具身智能的核心不同于虛擬環(huán)境中高度抽象化的 AI,而是強調(diào) AI 的“具身性”,即讓 AI 擁有實體,無論是機器人還是虛擬代理,從而直接與環(huán)境發(fā)生交互,在真實世界的復(fù)雜性中提升自我。
Jim Fan 關(guān)注的正是對整個具身智能領(lǐng)域來說都很關(guān)鍵的問題:Sim2Real(simulation to reality,從模擬到現(xiàn)實),即將在仿真環(huán)境中學(xué)習(xí)到的知識或技能成功地應(yīng)用到實際環(huán)境中。
Jim Fan 的同門師兄、同樣畢業(yè)于斯坦福的蘇昊,也選擇了具身智能領(lǐng)域開辟屬于自己的 Sim2Real 道路。
(蘇昊)
蘇昊早年就讀斯坦福時跟隨 Leonidas J. Guibas 攻讀博士,并得到了李飛飛教授的指導(dǎo)。在研究所時,他便是 ImageNet 數(shù)據(jù)集的重要貢獻者之一,這一數(shù)據(jù)集成為日后 AI 領(lǐng)域公認的基石之一。
蘇昊與 Jim 一樣受到李飛飛教授的影響,最終轉(zhuǎn)向了具身智能的研究,但二人的技術(shù)理念卻漸漸有所不同。
Jim Fan 借助生成式 AI 構(gòu)建了龐大的虛擬世界模型,打造了一種能夠低成本、高效率完成自我訓(xùn)練的模擬環(huán)境。
通過這種方式,他讓 GEAR 團隊在虛擬環(huán)境中訓(xùn)練游戲 AI 和機器人代理,幫助 AI 以更快速、更適應(yīng)性強的方式在虛擬環(huán)境中成長。模擬世界的龐大數(shù)據(jù)流,讓 GEAR 能夠模擬成千上萬種場景,提升機器人和游戲 AI 的適應(yīng)性。
蘇昊則沿著另一條軌跡,在真實世界的訓(xùn)練中尋找具身智能的根本。
自從 3D 感知與建模成為 AI 領(lǐng)域的熱點時,他開始關(guān)注如何在物理環(huán)境中提升 AI 的實時應(yīng)變能力和自適應(yīng)性。
在 MIT 的一次活動中,蘇昊以踢球為例解釋了他對具身智能的認知,“當(dāng)我們踢球時,我們的感知引導(dǎo)行動,行動又帶來反饋。 這種反饋不斷調(diào)整我們的感知,甚至重塑我們對環(huán)境的理解?!?/p>
在他看來,智能不僅僅依賴于大腦,還與身體和環(huán)境的互動密不可分。 感知、認知、行動這三個要素的緊密結(jié)合,才是智能進步的關(guān)鍵。
然而,巧婦難為無米之炊。數(shù)據(jù)短缺成了最大的瓶頸——沒有充足的 3D 數(shù)據(jù),再好的構(gòu)想也難以施展。
他想重走之前在斯坦福做過的事情,像做 ImageNet 一樣,做一個 3D 的數(shù)據(jù)集。
2015 年,蘇昊領(lǐng)導(dǎo)團隊發(fā)布了 ShapeNet,一個高質(zhì)量的 3D 形狀數(shù)據(jù)集,為 AI 提供了 220,000 個 3D CAD 模型,總計覆蓋 3,135 類對象,是 AI 視覺識別中的重要數(shù)據(jù)資源。
2017 年,突破性的點云處理網(wǎng)絡(luò) PointNet 深度學(xué)習(xí)模型問世,被譽為 3D 數(shù)據(jù)處理領(lǐng)域的 CNN。
很可惜,這些開創(chuàng)性工作雖有成效,但 ShapeNet 和 PointNet 卻沒能帶來像 ImageNet 那樣的變革。
3D 多模態(tài)數(shù)據(jù)的采集依然復(fù)雜、成本高昂,導(dǎo)致 3D 數(shù)據(jù)數(shù)量的增長依舊緩慢。
從中學(xué)接觸到最小生成樹算法開始,蘇昊就認識到,“人類的智能或許并不是那么獨特,而是可能被機器復(fù)制的?!?/p>
既然人類的智能可以復(fù)制,真實世界的數(shù)據(jù)也能被復(fù)制。
為了破解數(shù)據(jù)收集成本高、速度慢的難題,他決定采用生成式方法——即不再局限于收集物理世界中的數(shù)據(jù),而是直接通過 AI 生成數(shù)據(jù)。
在這種思路下,蘇昊在實驗室里做了大量嘗試后創(chuàng)立了 Hillbot,希望能憑借自己的技術(shù)解決實際的社會問題。
Hillbot 的核心在于利用 3D 生成式 AI 技術(shù),通過文字提示生成3D對象,再將生成好的 3D 對象,放入自主開發(fā)的模擬器 SAPIEN 中。這種方法通過生成數(shù)據(jù)和模擬真實環(huán)境中的互動,提供了源源不斷的數(shù)據(jù)流。
SAPIEN 模擬器不僅是一個 3D 渲染平臺,更是一種多模態(tài)數(shù)據(jù)收集的工具,能夠?qū)崟r采集數(shù)據(jù)并與 AI 的多模態(tài)傳感器組合,允許機器人在虛擬的物理環(huán)境中直接進行交互,以培養(yǎng)其應(yīng)對復(fù)雜情境的能力。
簡單來說,只要有文字提示,Hillbot 就能通過 3D 生成技術(shù)生成對應(yīng)的 3D 物體,幾乎不再受到真實數(shù)據(jù)來源的限制,想要多少數(shù)據(jù)就有多少數(shù)據(jù)。
Hillbot 的目標很宏大也很明確,利用 Hillbot 在機器人、模擬和 3D 生成式 AI 方面的尖端解決方案套件,釋放人工智能和機器人技術(shù)的力量。
這份自信并不是空穴來風(fēng),Hillbot 有獨特的模擬數(shù)創(chuàng)建方法,能夠避開避開高昂的成本以及繁瑣冗長的訓(xùn)練過程。
他們使用的 SAPIEN 模擬器也是目前市面上少有的速度快、性能高的機器人模擬器,通過真實性高的模擬技術(shù),Hillbot 的團隊可將機器人的訓(xùn)練速度提高 5 倍,并將訓(xùn)練時間從 12 個月縮短至僅僅幾個月。
在具體訓(xùn)練方法上,Hillbot 的團隊還模仿了人類的任務(wù)處理模式,將復(fù)雜的任務(wù)分解成多個小的簡單任務(wù),讓機器人能夠逐步提高推理能力,有效提升機器人對復(fù)雜任務(wù)的適應(yīng)能力。
目前,Hillbot 的業(yè)務(wù)主要集中在工業(yè)和家庭任務(wù)上,比如汽車制造、倉儲零售等。Hillbot 還在尋找合適的合作伙伴,采用市場上已有的機器人硬件,合作開發(fā)更加強大的通用機器人。
蘇昊的另一位師弟,新加坡國立大學(xué)助理教授邵林也在關(guān)注 Sim2Real 的問題。
不過邵林關(guān)注的是另一個不同的方向,Real2Sim2Real,從現(xiàn)實再到模擬再到現(xiàn)實,將仿真方法應(yīng)用于現(xiàn)實后比較它們的性能,根據(jù)仿真與現(xiàn)實的差異更新仿真模型和方法。
邵林的論文《TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach》,被收錄在即將召開的 CoRL 2024(2024 年機器人學(xué)習(xí)大會)上。這篇論文介紹了一個TieBot 機器人系統(tǒng),采用 Real-to-Sim-to-Real 的學(xué)習(xí)方法,能夠通過視覺演示教會機器人打領(lǐng)帶。
“Sim2Real”概念最早可以追溯到 20 世紀末,當(dāng)時的研究主要集中在如何讓機器人在實驗室或仿真環(huán)境中學(xué)習(xí)基本技能,并測試其在現(xiàn)實任務(wù)中的應(yīng)用可能性。
隨著深度學(xué)習(xí)和機器人技術(shù)的進步,這一領(lǐng)域在 2010 年代迎來更高的關(guān)注。OpenAI、Meta 和谷歌等科技公司陸續(xù)開展研究,試圖縮小虛擬仿真與現(xiàn)實之間的差距。
2018 年,谷歌發(fā)表了一篇 Sim2Real 的相關(guān)論文,想讓機器人學(xué)著像人類一樣觀察世界。
傳統(tǒng)的機器人依賴于固定視角的鏡頭來獲取視覺輸入,這也導(dǎo)致機器人很難在活動的情況下精準地執(zhí)行任務(wù)。而人類能夠在不固定自身視點的情況下,靈巧地操控各種物體,利用豐富的感官信號和視覺作為反饋來自行糾錯。
學(xué)習(xí)人類的視覺特點或許能對機器人的控制精準度有所提升。
為此,谷歌開發(fā)了基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的視覺系統(tǒng),使機器人無需校準攝像頭便能靈活控制機械臂,提升了任務(wù)完成的精準度。
與此同時,Meta 和其他研究團隊在 Sim2Real 的物理仿真上繼續(xù)深入探索,以期實現(xiàn)更高的模擬精度。
盡管取得了一定進展,但早期機器人模擬器的效果往往不夠理想,學(xué)界普遍對 Sim2Real 的實用性存疑。
不過,隨著 GPU 算力和 AI 技術(shù)的發(fā)展,各大研究團隊也在高仿真度方面取得了重大突破。因此,人們對模擬技術(shù)有了更高的認可度,Sim2Real 也逐漸被認為是實現(xiàn)具身智能的最高效路徑。
在 Sim2Real 的探索中,各研究團隊的切入點各不相同。
前面提到的 Jim Fan 的 HOVER 主要做的是優(yōu)化模擬環(huán)境,而蘇昊選擇的是深耕合成數(shù)據(jù)。
根據(jù) Scaling Law,訓(xùn)練具身智能機器人需要大量涵蓋各種場景的多樣化數(shù)據(jù),然而,獲取這些真實數(shù)據(jù)的成本極高且耗時耗力。
因此,蘇昊團隊選擇合成數(shù)據(jù),創(chuàng)造跨越晝夜、季節(jié)、室內(nèi)外的多種場景數(shù)據(jù)。這樣一來,機器人就能夠在虛擬環(huán)境中進行大規(guī)模、多樣化的操作學(xué)習(xí),涵蓋不同操作對象、環(huán)境變化、機器人構(gòu)型和傳感器狀態(tài)等條件。
選擇數(shù)據(jù)作為突破點的還有聯(lián)想的 DexVerse? 引擎,它通過自動生成具身智能任務(wù)所需的合成數(shù)據(jù)包,與 AI 模型訓(xùn)練同步,不再依賴于傳統(tǒng)的大規(guī)模數(shù)據(jù)存儲,從而極大提升了數(shù)據(jù)生成與模型迭代的效率。
盡管技術(shù)取得突破,Sim2Real 的實用性仍面臨“現(xiàn)實鴻溝”(reality gap)的挑戰(zhàn)。仿真與現(xiàn)實環(huán)境在細節(jié)上的差異,如摩擦力、物體形變和碰撞等,可能顯著影響模型在現(xiàn)實環(huán)境中的表現(xiàn)。
盡管許多機器人在模擬中能夠達到 99% 的準確率,但這 1% 的偏差在現(xiàn)實制造中可能導(dǎo)致巨大的隱患。而相比之下,不少人類經(jīng)過短期培訓(xùn)后就能能夠達到 100% 的準確率。
雖然 Jim Fan 和蘇昊團隊選擇了不同的突破方向,但兩者的研究目標卻殊途同歸:如何彌合真實與虛擬之間的差距,才是他們研究的核心。
Jim Fan的 HOVER 模型特別強調(diào)無需微調(diào),即可將模擬結(jié)果有效遷移到現(xiàn)實環(huán)境中;而蘇昊則提出生成數(shù)據(jù)和模擬數(shù)據(jù)之間是互補關(guān)系,探索多源數(shù)據(jù)的協(xié)同應(yīng)用或許是理想的解決方案。
李飛飛團隊近期提出的“數(shù)字表親”(digital cousin)概念也為 Sim2Real 的研究提供了新的思路和解決方案。實驗表明,通過這一方法,無需額外微調(diào),即可將模擬中生成的策略直接應(yīng)用于現(xiàn)實世界。這一創(chuàng)新不僅能夠提供更廣泛的數(shù)據(jù)分布,還能有效克服從模擬到真實環(huán)境的差距。
面對這些共同的挑戰(zhàn),越來越多的研究者開始意識到,打破單一任務(wù)適應(yīng)的局限,擴展到多任務(wù)和跨設(shè)備的全局泛化能力,建立一個靈活且可擴展的開發(fā)環(huán)境才是關(guān)鍵。
蘇昊團隊提出了統(tǒng)一接口的構(gòu)想,希望通過易于插拔的仿真器、渲染器等模塊,形成集成開發(fā)環(huán)境(IDE)。
英偉達的 Isaac 平臺也采取了類似的策略,組合加速庫、應(yīng)用框架和 AI 模型,為自主移動機器人(AMR)、機械手、機械臂及人形機器人等 AI 機器人開發(fā)提供穩(wěn)定支持。
Meta 的研究團隊則推出了 Habitat 3.0 平臺,支持在多種家庭和復(fù)雜場景中進行 AI 訓(xùn)練,通過創(chuàng)建可復(fù)制現(xiàn)實條件的合成數(shù)據(jù)集,進一步拓寬了 Sim2Real 的應(yīng)用范圍。
這些努力在本質(zhì)上都是為了實現(xiàn)機器人技術(shù)的高效整合與應(yīng)用,為 Sim2Real 領(lǐng)域的研究提供更可靠的開發(fā)基礎(chǔ)。
在 AI 領(lǐng)域有一個提得比較多的概念是“世界模型”,指的是一種用于描述和預(yù)測環(huán)境的內(nèi)部模型。它通過學(xué)習(xí)環(huán)境的動態(tài)特征,使得智能體能夠在未見過的情境中進行決策和規(guī)劃。
世界模型的設(shè)計靈感源于人類的潛意識推理能力。人類在日常生活中通過經(jīng)驗和知識的積累形成對周圍世界的理解,能夠迅速、無意識地利用多種感官信息進行推理與決策。
例如,當(dāng)我們走路時,腦海中會自動生成關(guān)于環(huán)境的“地圖”,幫助我們避免障礙、保持平衡并選擇最佳路徑。這種無意識的認知過程正是是世界模型希望復(fù)制的目標,使智能體在復(fù)雜環(huán)境中同樣能夠作出迅速且有效的反應(yīng)。
其實,世界模型的概念早在傳統(tǒng)的機器人研究中就有提及,不過現(xiàn)在的具身智能研究則更多地希望利用類似世界模型的概念,通過強化機器人對環(huán)境的感知來解決 Sim2Real 的問題。
Jim Fan 也在介紹 HOVER 時提到,人類需要大量的潛意識處理才能走路、保持平衡并將我們的手臂和腿操縱到所需的位置。HOVER 就是在變相地捕捉這種“潛意識”,學(xué)習(xí)如何協(xié)調(diào)人形機器人的電機以支持運動和操作。
當(dāng)前的具身智能研發(fā)的主流趨勢是做通用機器人,在此基礎(chǔ)上根據(jù)具體的應(yīng)用任務(wù)進行特定方向的調(diào)整。無論是通用還是專用,機器人對環(huán)境的感知都是一個關(guān)鍵課題。
舉個例子,如果我們想讓機器人完成拿起書本的動作,機器人必須能夠識別書本的位置以及與其的交互方式。這一過程對所有類型的機器人來說都是通用的,因為環(huán)境感知是實現(xiàn)各種任務(wù)的前提。
像 Hillbot 的文生 3D 和其他團隊研究的圖生 3D,都是以豐富數(shù)據(jù)的形式構(gòu)建一個更真實的模擬環(huán)境,讓機器人能夠更好地感知世界。
隨著世界模型的不斷發(fā)展,AI 的應(yīng)用前景將更加廣泛。從自動駕駛到智能家居,從醫(yī)療機器人到生產(chǎn)自動化,這些技術(shù)都將依賴于強大的世界模型。
通過更好地理解和模擬人類的潛意識推理過程,未來的機器人將能夠更有效地與環(huán)境互動,實現(xiàn)真正的自主智能。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。