0
本文作者: 劉潔 | 2024-11-08 14:13 |
天上一天,人間一年——這居然已經(jīng)不是神話了?
Jim Fan 團隊的最新成果實現(xiàn)了 10,000 倍的超級加速:機器人在虛擬“道場”里訓練了整整一年,但現(xiàn)實里只用了 50 分鐘!
而且訓練結果無需微調(diào),就直接無縫銜接到現(xiàn)實世界使用。
再發(fā)展下去,說不定未來人們就能在虛擬世界里用一天體驗一萬年的生活,神話還是太保守了。
更不可思議的是,這種 1 萬倍加速體驗,只需要少少的 1.5M 參數(shù)。
再對比看看其他家模型的參數(shù)量,谷歌的 Gato 11.8 億參數(shù),Meta 的 TACO 2.5 億參數(shù),OpenAI 的 CLIPort 4 億參數(shù)。這差距真是讓人汗流浹背了。
一刻也沒有為十幾億大參數(shù)的過時停留,立刻來到戰(zhàn)場的是 Jim Fan 團隊的超迷你模型。
“不是每個基礎模型都需要大參數(shù)。”Jim Fan 表示,模型小小,超級有效。
這個小身材大能量的模型還干了一件大事,通用。
在此之前,機器人要完成不同的任務必須依賴特定的控制策略。
舉個例子,如果我們希望人形機器人進行導航,那就要依賴于根速度或位置跟蹤進行專門優(yōu)化;要是想讓機器人去完成端茶、擦桌子這樣的桌面任務,就需要優(yōu)先考慮上半身關節(jié)角度跟蹤。每換一個方向就要更改策略重新訓練一次。
這樣的訓練方式導致人形機器人只能進行技能專精,很難往我們想要的全能方向發(fā)展。
那么有沒有一種通用的訓練策略,能夠在不用更換控制模式的情況下訓練多種任務呢?
Jim Fan 表示,現(xiàn)在有了。
前面提到的新模型叫 HOVER,是一個多模式策略蒸餾框架,出自英偉達的 GEAR 團隊的最新研究,由李飛飛教授的學生 Jim Fan 和朱玉可共同領導,其余作者大部分是來自各大高校的華人學生和研究員。
Jim Fan 團隊找到的通用辦法,是把全身運動模仿作為所有這些任務的共同抽象,并為機器人學習多種全身控制模式提供通用的運動技能。
通俗點說,他們把導航、桌面操作等任務的共通點提煉成全身運動模仿,讓機器人通過學習通用的運動技能來訓練全身控制模式。一通百通,全身運動會了,端個茶帶個路也是輕而易舉。
這一辦法的靈感源自于人類潛意識的處理方式。
人類在日?;顒又?,比如步行、維持平衡或是調(diào)整肢體動作時,大腦會不自覺地進行一系列計算,幫助我們迅速作出反應。
Jim Fan 團隊通過模仿這種潛意識的運作機制,將類似的“內(nèi)在”計算能力引入機器人技術,推出了 HOVER(仿人通用控制器)。
HOVER 能夠使機器人學習如何精確控制電機,從而協(xié)調(diào)人形機器人的運動和操作,將多種控制模式整合成統(tǒng)一的策略。更重要的是,HOVER 還能在保留各模式獨特功能的同時,實現(xiàn)模式間的自然銜接,從而打造了一支步調(diào)一致的機器人軍團。
具體來說,我們能用 HOVER 通過“提示”輸入頭部姿勢、手部姿勢、全身運動、關節(jié)角度等各種類型的高級運動指令,也可以訓練任何可以在 Isaac(英偉達 AI 機器人開發(fā)平臺) 中模擬的人形機器人。
因此,HOVER 的通用不止是單個機器人動作模塊的通用,更是支持多種機器人共同訓練的通用。
以前的機器人訓練都是各家訓各自的,不互通也很難移植已有的成果。現(xiàn)在在英偉達的 Isaac 模擬平臺上,HOVER 讓各家“雜牌軍”都能協(xié)同進化,一躍成為“正規(guī)軍”,偉大無需多言。
Jim Fan 的通用野心也早有顯露,“2024 年將是屬于機器人、游戲 AI 和模擬的一年?!?/p>
在 GEAR 團隊成立之初,他在推文里自信地寫道,“我們團隊有足夠的資金一次性解決機器人基礎模型、游戲基礎模型和生成式模擬三個問題。GEAR 可能是世界上最有錢的具身智能實驗室?!?/p>
Jim Fan 還配了一張英偉達股票暴漲的圖片。
這么一看 HOVER 的強大實力背后都是燒錢的味道。有錢任性,真好。
而 GEAR 團隊選擇聚焦具身智能的核心原因,并不是因為財力雄厚可以隨便造。
對此,黃仁勛表示,“下一波 AI 浪潮,將是物理性的 AI。 屆時,AI 將可以理解物理原則,并與人類一起工作?!?/p>
具身智能——在物理世界中具備互動和適應能力的 AI,正是英偉達及其頂尖團隊認為未來 AI 演化的關鍵。
具身智能的核心不同于虛擬環(huán)境中高度抽象化的 AI,而是強調(diào) AI 的“具身性”,即讓 AI 擁有實體,無論是機器人還是虛擬代理,從而直接與環(huán)境發(fā)生交互,在真實世界的復雜性中提升自我。
Jim Fan 關注的正是對整個具身智能領域來說都很關鍵的問題:Sim2Real(simulation to reality,從模擬到現(xiàn)實),即將在仿真環(huán)境中學習到的知識或技能成功地應用到實際環(huán)境中。
Jim Fan 的同門師兄、同樣畢業(yè)于斯坦福的蘇昊,也選擇了具身智能領域開辟屬于自己的 Sim2Real 道路。
(蘇昊)
蘇昊早年就讀斯坦福時跟隨 Leonidas J. Guibas 攻讀博士,并得到了李飛飛教授的指導。在研究所時,他便是 ImageNet 數(shù)據(jù)集的重要貢獻者之一,這一數(shù)據(jù)集成為日后 AI 領域公認的基石之一。
蘇昊與 Jim 一樣受到李飛飛教授的影響,最終轉向了具身智能的研究,但二人的技術理念卻漸漸有所不同。
Jim Fan 借助生成式 AI 構建了龐大的虛擬世界模型,打造了一種能夠低成本、高效率完成自我訓練的模擬環(huán)境。
通過這種方式,他讓 GEAR 團隊在虛擬環(huán)境中訓練游戲 AI 和機器人代理,幫助 AI 以更快速、更適應性強的方式在虛擬環(huán)境中成長。模擬世界的龐大數(shù)據(jù)流,讓 GEAR 能夠模擬成千上萬種場景,提升機器人和游戲 AI 的適應性。
蘇昊則沿著另一條軌跡,在真實世界的訓練中尋找具身智能的根本。
自從 3D 感知與建模成為 AI 領域的熱點時,他開始關注如何在物理環(huán)境中提升 AI 的實時應變能力和自適應性。
在 MIT 的一次活動中,蘇昊以踢球為例解釋了他對具身智能的認知,“當我們踢球時,我們的感知引導行動,行動又帶來反饋。 這種反饋不斷調(diào)整我們的感知,甚至重塑我們對環(huán)境的理解?!?/p>
在他看來,智能不僅僅依賴于大腦,還與身體和環(huán)境的互動密不可分。 感知、認知、行動這三個要素的緊密結合,才是智能進步的關鍵。
然而,巧婦難為無米之炊。數(shù)據(jù)短缺成了最大的瓶頸——沒有充足的 3D 數(shù)據(jù),再好的構想也難以施展。
他想重走之前在斯坦福做過的事情,像做 ImageNet 一樣,做一個 3D 的數(shù)據(jù)集。
2015 年,蘇昊領導團隊發(fā)布了 ShapeNet,一個高質(zhì)量的 3D 形狀數(shù)據(jù)集,為 AI 提供了 220,000 個 3D CAD 模型,總計覆蓋 3,135 類對象,是 AI 視覺識別中的重要數(shù)據(jù)資源。
2017 年,突破性的點云處理網(wǎng)絡 PointNet 深度學習模型問世,被譽為 3D 數(shù)據(jù)處理領域的 CNN。
很可惜,這些開創(chuàng)性工作雖有成效,但 ShapeNet 和 PointNet 卻沒能帶來像 ImageNet 那樣的變革。
3D 多模態(tài)數(shù)據(jù)的采集依然復雜、成本高昂,導致 3D 數(shù)據(jù)數(shù)量的增長依舊緩慢。
從中學接觸到最小生成樹算法開始,蘇昊就認識到,“人類的智能或許并不是那么獨特,而是可能被機器復制的。”
既然人類的智能可以復制,真實世界的數(shù)據(jù)也能被復制。
為了破解數(shù)據(jù)收集成本高、速度慢的難題,他決定采用生成式方法——即不再局限于收集物理世界中的數(shù)據(jù),而是直接通過 AI 生成數(shù)據(jù)。
在這種思路下,蘇昊在實驗室里做了大量嘗試后創(chuàng)立了 Hillbot,希望能憑借自己的技術解決實際的社會問題。
Hillbot 的核心在于利用 3D 生成式 AI 技術,通過文字提示生成3D對象,再將生成好的 3D 對象,放入自主開發(fā)的模擬器 SAPIEN 中。這種方法通過生成數(shù)據(jù)和模擬真實環(huán)境中的互動,提供了源源不斷的數(shù)據(jù)流。
SAPIEN 模擬器不僅是一個 3D 渲染平臺,更是一種多模態(tài)數(shù)據(jù)收集的工具,能夠?qū)崟r采集數(shù)據(jù)并與 AI 的多模態(tài)傳感器組合,允許機器人在虛擬的物理環(huán)境中直接進行交互,以培養(yǎng)其應對復雜情境的能力。
簡單來說,只要有文字提示,Hillbot 就能通過 3D 生成技術生成對應的 3D 物體,幾乎不再受到真實數(shù)據(jù)來源的限制,想要多少數(shù)據(jù)就有多少數(shù)據(jù)。
Hillbot 的目標很宏大也很明確,利用 Hillbot 在機器人、模擬和 3D 生成式 AI 方面的尖端解決方案套件,釋放人工智能和機器人技術的力量。
這份自信并不是空穴來風,Hillbot 有獨特的模擬數(shù)創(chuàng)建方法,能夠避開避開高昂的成本以及繁瑣冗長的訓練過程。
他們使用的 SAPIEN 模擬器也是目前市面上少有的速度快、性能高的機器人模擬器,通過真實性高的模擬技術,Hillbot 的團隊可將機器人的訓練速度提高 5 倍,并將訓練時間從 12 個月縮短至僅僅幾個月。
在具體訓練方法上,Hillbot 的團隊還模仿了人類的任務處理模式,將復雜的任務分解成多個小的簡單任務,讓機器人能夠逐步提高推理能力,有效提升機器人對復雜任務的適應能力。
目前,Hillbot 的業(yè)務主要集中在工業(yè)和家庭任務上,比如汽車制造、倉儲零售等。Hillbot 還在尋找合適的合作伙伴,采用市場上已有的機器人硬件,合作開發(fā)更加強大的通用機器人。
蘇昊的另一位師弟,新加坡國立大學助理教授邵林也在關注 Sim2Real 的問題。
不過邵林關注的是另一個不同的方向,Real2Sim2Real,從現(xiàn)實再到模擬再到現(xiàn)實,將仿真方法應用于現(xiàn)實后比較它們的性能,根據(jù)仿真與現(xiàn)實的差異更新仿真模型和方法。
邵林的論文《TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach》,被收錄在即將召開的 CoRL 2024(2024 年機器人學習大會)上。這篇論文介紹了一個TieBot 機器人系統(tǒng),采用 Real-to-Sim-to-Real 的學習方法,能夠通過視覺演示教會機器人打領帶。
“Sim2Real”概念最早可以追溯到 20 世紀末,當時的研究主要集中在如何讓機器人在實驗室或仿真環(huán)境中學習基本技能,并測試其在現(xiàn)實任務中的應用可能性。
隨著深度學習和機器人技術的進步,這一領域在 2010 年代迎來更高的關注。OpenAI、Meta 和谷歌等科技公司陸續(xù)開展研究,試圖縮小虛擬仿真與現(xiàn)實之間的差距。
2018 年,谷歌發(fā)表了一篇 Sim2Real 的相關論文,想讓機器人學著像人類一樣觀察世界。
傳統(tǒng)的機器人依賴于固定視角的鏡頭來獲取視覺輸入,這也導致機器人很難在活動的情況下精準地執(zhí)行任務。而人類能夠在不固定自身視點的情況下,靈巧地操控各種物體,利用豐富的感官信號和視覺作為反饋來自行糾錯。
學習人類的視覺特點或許能對機器人的控制精準度有所提升。
為此,谷歌開發(fā)了基于深度循環(huán)神經(jīng)網(wǎng)絡的視覺系統(tǒng),使機器人無需校準攝像頭便能靈活控制機械臂,提升了任務完成的精準度。
與此同時,Meta 和其他研究團隊在 Sim2Real 的物理仿真上繼續(xù)深入探索,以期實現(xiàn)更高的模擬精度。
盡管取得了一定進展,但早期機器人模擬器的效果往往不夠理想,學界普遍對 Sim2Real 的實用性存疑。
不過,隨著 GPU 算力和 AI 技術的發(fā)展,各大研究團隊也在高仿真度方面取得了重大突破。因此,人們對模擬技術有了更高的認可度,Sim2Real 也逐漸被認為是實現(xiàn)具身智能的最高效路徑。
在 Sim2Real 的探索中,各研究團隊的切入點各不相同。
前面提到的 Jim Fan 的 HOVER 主要做的是優(yōu)化模擬環(huán)境,而蘇昊選擇的是深耕合成數(shù)據(jù)。
根據(jù) Scaling Law,訓練具身智能機器人需要大量涵蓋各種場景的多樣化數(shù)據(jù),然而,獲取這些真實數(shù)據(jù)的成本極高且耗時耗力。
因此,蘇昊團隊選擇合成數(shù)據(jù),創(chuàng)造跨越晝夜、季節(jié)、室內(nèi)外的多種場景數(shù)據(jù)。這樣一來,機器人就能夠在虛擬環(huán)境中進行大規(guī)模、多樣化的操作學習,涵蓋不同操作對象、環(huán)境變化、機器人構型和傳感器狀態(tài)等條件。
選擇數(shù)據(jù)作為突破點的還有聯(lián)想的 DexVerse? 引擎,它通過自動生成具身智能任務所需的合成數(shù)據(jù)包,與 AI 模型訓練同步,不再依賴于傳統(tǒng)的大規(guī)模數(shù)據(jù)存儲,從而極大提升了數(shù)據(jù)生成與模型迭代的效率。
盡管技術取得突破,Sim2Real 的實用性仍面臨“現(xiàn)實鴻溝”(reality gap)的挑戰(zhàn)。仿真與現(xiàn)實環(huán)境在細節(jié)上的差異,如摩擦力、物體形變和碰撞等,可能顯著影響模型在現(xiàn)實環(huán)境中的表現(xiàn)。
盡管許多機器人在模擬中能夠達到 99% 的準確率,但這 1% 的偏差在現(xiàn)實制造中可能導致巨大的隱患。而相比之下,不少人類經(jīng)過短期培訓后就能能夠達到 100% 的準確率。
雖然 Jim Fan 和蘇昊團隊選擇了不同的突破方向,但兩者的研究目標卻殊途同歸:如何彌合真實與虛擬之間的差距,才是他們研究的核心。
Jim Fan的 HOVER 模型特別強調(diào)無需微調(diào),即可將模擬結果有效遷移到現(xiàn)實環(huán)境中;而蘇昊則提出生成數(shù)據(jù)和模擬數(shù)據(jù)之間是互補關系,探索多源數(shù)據(jù)的協(xié)同應用或許是理想的解決方案。
李飛飛團隊近期提出的“數(shù)字表親”(digital cousin)概念也為 Sim2Real 的研究提供了新的思路和解決方案。實驗表明,通過這一方法,無需額外微調(diào),即可將模擬中生成的策略直接應用于現(xiàn)實世界。這一創(chuàng)新不僅能夠提供更廣泛的數(shù)據(jù)分布,還能有效克服從模擬到真實環(huán)境的差距。
面對這些共同的挑戰(zhàn),越來越多的研究者開始意識到,打破單一任務適應的局限,擴展到多任務和跨設備的全局泛化能力,建立一個靈活且可擴展的開發(fā)環(huán)境才是關鍵。
蘇昊團隊提出了統(tǒng)一接口的構想,希望通過易于插拔的仿真器、渲染器等模塊,形成集成開發(fā)環(huán)境(IDE)。
英偉達的 Isaac 平臺也采取了類似的策略,組合加速庫、應用框架和 AI 模型,為自主移動機器人(AMR)、機械手、機械臂及人形機器人等 AI 機器人開發(fā)提供穩(wěn)定支持。
Meta 的研究團隊則推出了 Habitat 3.0 平臺,支持在多種家庭和復雜場景中進行 AI 訓練,通過創(chuàng)建可復制現(xiàn)實條件的合成數(shù)據(jù)集,進一步拓寬了 Sim2Real 的應用范圍。
這些努力在本質(zhì)上都是為了實現(xiàn)機器人技術的高效整合與應用,為 Sim2Real 領域的研究提供更可靠的開發(fā)基礎。
在 AI 領域有一個提得比較多的概念是“世界模型”,指的是一種用于描述和預測環(huán)境的內(nèi)部模型。它通過學習環(huán)境的動態(tài)特征,使得智能體能夠在未見過的情境中進行決策和規(guī)劃。
世界模型的設計靈感源于人類的潛意識推理能力。人類在日常生活中通過經(jīng)驗和知識的積累形成對周圍世界的理解,能夠迅速、無意識地利用多種感官信息進行推理與決策。
例如,當我們走路時,腦海中會自動生成關于環(huán)境的“地圖”,幫助我們避免障礙、保持平衡并選擇最佳路徑。這種無意識的認知過程正是是世界模型希望復制的目標,使智能體在復雜環(huán)境中同樣能夠作出迅速且有效的反應。
其實,世界模型的概念早在傳統(tǒng)的機器人研究中就有提及,不過現(xiàn)在的具身智能研究則更多地希望利用類似世界模型的概念,通過強化機器人對環(huán)境的感知來解決 Sim2Real 的問題。
Jim Fan 也在介紹 HOVER 時提到,人類需要大量的潛意識處理才能走路、保持平衡并將我們的手臂和腿操縱到所需的位置。HOVER 就是在變相地捕捉這種“潛意識”,學習如何協(xié)調(diào)人形機器人的電機以支持運動和操作。
當前的具身智能研發(fā)的主流趨勢是做通用機器人,在此基礎上根據(jù)具體的應用任務進行特定方向的調(diào)整。無論是通用還是專用,機器人對環(huán)境的感知都是一個關鍵課題。
舉個例子,如果我們想讓機器人完成拿起書本的動作,機器人必須能夠識別書本的位置以及與其的交互方式。這一過程對所有類型的機器人來說都是通用的,因為環(huán)境感知是實現(xiàn)各種任務的前提。
像 Hillbot 的文生 3D 和其他團隊研究的圖生 3D,都是以豐富數(shù)據(jù)的形式構建一個更真實的模擬環(huán)境,讓機器人能夠更好地感知世界。
隨著世界模型的不斷發(fā)展,AI 的應用前景將更加廣泛。從自動駕駛到智能家居,從醫(yī)療機器人到生產(chǎn)自動化,這些技術都將依賴于強大的世界模型。
通過更好地理解和模擬人類的潛意識推理過程,未來的機器人將能夠更有效地與環(huán)境互動,實現(xiàn)真正的自主智能。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。