丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

本文作者: 劉潔   2024-11-08 15:31
導語:大模型的預訓練方法也適用機器人,復雜數(shù)據(jù)無需“量身定做”,也能完美對接。

在機器人領域,一場關于“通用智能”的探索正如火如荼地展開。

MIT 的何愷明和 Lirui Wang 等人最近成功在“通用數(shù)據(jù)”上取得了進展,讓機器人離擁有“通用大腦”的目標又近了一步。

機器人數(shù)據(jù)的異質性問題一直是機器人訓練的大難題。

以往,訓練機器人需要為每種任務、每種環(huán)境,甚至每臺機器人的不同硬件量身采集數(shù)據(jù)。

舉個例子,假設需要為一個家庭服務機器人進行訓練,團隊通常要為不同任務和環(huán)境單獨收集數(shù)據(jù),如廚房中的搬運、清潔任務,或臥室內的物品分類。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

數(shù)據(jù)必須特定、精準,這讓數(shù)據(jù)采集量變得龐大而復雜,相當于不同的電子設備需要各自的“充電接口”,換個場景就得換一套數(shù)據(jù)格式。

這種方式導致數(shù)據(jù)難以通用,訓練中存在大量重復勞動。明明數(shù)據(jù)總量看著比以前多得多,但實際訓練時可用的數(shù)據(jù)量并沒有實現(xiàn)大幅增長。

想要實現(xiàn)真正的通用機器人,就意味著必須收集盡可能全面的數(shù)據(jù)集。但這樣一來,收集和整理數(shù)據(jù)的成本會極高,據(jù)估算可能高達數(shù)百萬美元,且整個流程耗時數(shù)月,效率低下。

為了應對這一問題,研究團隊紛紛嘗試新方法。

比如,斯坦福大學的 RoboTurk 項目想通過遠程操作來降低數(shù)據(jù)收集成本,但這只能緩解一部分壓力。由于高質量傳感器、定制環(huán)境和復雜的演示操作需求,任務專用的數(shù)據(jù)收集依然耗時且昂貴。

收集不好搞那自己造總行了吧?

許多團隊轉而依靠“合成數(shù)據(jù)”作為替代。合成數(shù)據(jù)雖說解決了一部分量的問題,卻仍然無法完全徹底替代真實數(shù)據(jù),尤其在應用于多任務通用訓練時依然面臨障礙。

MIT 這支團隊兩個都不選,他們選擇另辟蹊徑,與其不斷增加新的數(shù)據(jù),不如著手讓現(xiàn)有數(shù)據(jù)實現(xiàn)“通用”!

他們的論文將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表,第一作者是來自MIT CSAIL (計算機科學與人工智能實驗室 )的副教授何愷明和同一實驗室的博士生 Lirui Wang、趙家梁,第二作者是 Meta 的研究員陳鑫磊。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

論文里提出了名為“異構預訓練 Transformers”(Heterogeneous Pretrained Transformers,HPT)的新架構。

在他們的研究中,不同來源的數(shù)據(jù)——無論是模擬數(shù)據(jù)還是真實機器人傳感數(shù)據(jù)——都被對齊到一種共享“語言”,使得生成式 AI 模型能夠“理解”這些數(shù)據(jù)。

換言之,無論是來自視覺傳感器的數(shù)據(jù)還是機械臂位置編碼器的原始信號,HPT 都能將它們轉化為通用的數(shù)據(jù)格式,避免了重復的數(shù)據(jù)收集,也不浪費任何一種數(shù)據(jù)。

Lirui Wang 認為這樣能夠更好地發(fā)揮本體感知的作用,讓機器人實現(xiàn)更多的靈巧動作。

HPT 的優(yōu)勢不僅在于通用性高,還兼具高效、低成本的特點。由于所需任務專用數(shù)據(jù)量更少,HPT 在模擬和實際測試中均展現(xiàn)了出色的表現(xiàn),性能比傳統(tǒng)訓練方式提升了 20% 以上。

來自GPT-4的啟發(fā)

機器人通常采用模仿學習的方式,通過人類演示或遠程操控的方式獲取訓練數(shù)據(jù),導致一旦環(huán)境或任務發(fā)生變化,機器人就容易“出錯”。

這種數(shù)據(jù)非通用性一直是機器人學習的痛點,限制了其在多樣任務中的靈活性,也限制了通用機器人的開發(fā)。

研究團隊從 GPT-4 等大語言模型中汲取了靈感:GPT-4 這樣的模型能順利處理多任務的核心在于“大規(guī)模預訓練+少量微調”的模式。

即便語言數(shù)據(jù)類型豐富且復雜,GPT-4 并不需要為每個任務分別準備數(shù)據(jù),原因在于所有內容都被視為同一種語言——“句子”。

相比之下,機器人數(shù)據(jù)更為復雜,不僅有相機圖像、語言指令,還有深度圖等多樣形式。每種數(shù)據(jù)源的適用性還受到機器人硬件、傳感器等差異的限制。

因此,研究團隊的挑戰(zhàn)在于如何實現(xiàn)一種“通用的語言”來整合機器人數(shù)據(jù)。

他們提出的解決方案是“異構預訓練 Transformer”(HPT)架構,分成了三個模塊:

在 Stem(莖)部分,HPT 對不同的數(shù)據(jù)進行對齊,將它們轉化為標準化的令牌序列;接著在 Trunk(樹干)部分,通過多重轉換和編碼操作,將這些令牌轉化為共享的潛在表示;最后在 Head(頭)部分,將潛在表示轉化為具體的動作指令,驅動機器人完成相應操作。

HPT 像“大模型”一樣,隨著處理的數(shù)據(jù)量增長,模型的性能也逐步提升。

為了支撐這種通用化訓練,團隊建立了一個龐大的數(shù)據(jù)集,包括 52 個數(shù)據(jù)集、200,000 條機器人軌跡,涵蓋了人類演示視頻和模擬數(shù)據(jù)。

借助這一數(shù)據(jù)集,HPT 可以高效預訓練,用戶只需提供少量特定任務或設計信息,就能讓 HPT 在預訓練知識的基礎上完成微調,適應新任務。

HPT 在預訓練和微調的方式上也有所創(chuàng)新。

與大模型同步更新所有模塊不同,HPT 在預訓練階段只調整 Trunk 參數(shù),而 Stem 和 Head 部分只會在微調階段根據(jù)具體任務進行調整。

此外,HPT 不僅處理視覺數(shù)據(jù),還支持直接處理傳感器采集的原始信號,進一步擴大了數(shù)據(jù)使用范圍。

目前,研究團隊還在探索增加數(shù)據(jù)多樣性,以進一步優(yōu)化 HPT 的性能。他們的最終目標是實現(xiàn)“通用機器人大腦”,讓用戶即插即用,無需繁瑣的培訓和數(shù)據(jù)收集,讓機器人訓練變得像下載個 APP 一樣簡單。


不止“看見”,還要“感覺”

以往的研究往往更側重視覺數(shù)據(jù),而這篇論文難得的將本體感知也放到了核心部分。

具體來說,本體感知賦予了機器人對關節(jié)角度、末端執(zhí)行器位置、姿態(tài)等內部狀態(tài)的把控力。

這種能力在執(zhí)行高精度任務時尤為重要。比如,擰緊螺釘、拿穩(wěn)玻璃杯這類任務,光靠“看”還不夠,機器人還需要“知道”自己的手臂位置、關節(jié)角度等內部信息,防止動作過多或偏移,最終減少失誤。

研究團隊認為本體感知才是讓機器人完成一些精細且復雜的操作的關鍵。如果本體感知信息沒有得到良好的學習和利用,機器人可能會在特定場景和任務中表現(xiàn)出重復的運動或軌跡,導致過擬合。

同樣,具身智能強調的也是機器人與物理環(huán)境的交互能力,這種智能不依賴單一模態(tài),而是通過整合外部視覺和內部本體感知,形成一種更全面的任務理解力。

因此,研究團隊將視覺和本體感知信號作為等同重要的數(shù)據(jù)源進行“通用”處理。

這種綜合處理使得機器人不再單純依靠視覺,而是以一種“通用智能”的方式理解任務。

例如,在清掃任務(Sweep Leftover)中,HPT 架構允許機器人整合視覺和本體感知的多模態(tài)數(shù)據(jù),結果顯示,經(jīng)過微調的 HPT-B 和 HPT-XL 模型的任務成功率遠高于只依賴視覺模型的 VC-1。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

(微調的 HPT 模型與幾種基線模型(包括純視覺預訓練模型)之間的比較)


研究方法

HPT 架構設計

HPT架構把策略神經(jīng)網(wǎng)絡分為三個模塊:Stem(莖)、Trunk(樹干)和 Head(頭),分別對應特定的實例輸入、通用的處理層和任務特定的輸出。通過這種模塊化設計,HPT 能夠將不同環(huán)境和任務下的傳感器和視覺數(shù)據(jù)對齊為標準化的令牌序列,使機器人可以應對多樣化任務。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

1. Stem:數(shù)據(jù)輸入層

Stem 是 HPT 的前端層,用于將不同任務和環(huán)境下的傳感器數(shù)據(jù)(如相機圖像和本體感受)轉換為固定數(shù)量的令牌,供后續(xù)的通用處理使用。它包含本體感知分詞器和視覺分詞器兩部分。

本體感知分詞器將機器人狀態(tài)信息(如執(zhí)行器位置、關節(jié)角度等)編碼為16個標準令牌。首先通過多層感知器(MLP)將輸入數(shù)據(jù)映射到特征空間,添加正弦位置編碼,再利用注意力機制進行處理。

視覺分詞器處理相機圖像(視頻)數(shù)據(jù),采用預訓練的 ResNet18 提取圖像特征,然后展平這些特征,并通過注意力機制轉化為 16 個令牌,確保視覺數(shù)據(jù)能夠以標準化的格式進入模型。

2. Trunk:共享中間層

Trunk 是 HPT 的核心部分,包含一個可擴展的 Transformer 架構,用于將 Stem 模塊生成的令牌序列轉換為通用的潛在表示。通過自注意力機制和前饋神經(jīng)網(wǎng)絡,Trunk 將輸入數(shù)據(jù)編碼成共享的表示,便于不同任務 Head 模塊調用,以輸出特定的機器人指令。

3. Head:任務輸出層

Head 模塊負責將 Trunk 的潛在表示轉化為任務的具體動作。首先,Head 對輸出動作空間進行標準化處理,再根據(jù)特定策略(如MLP或Transformer解碼器)將數(shù)據(jù)映射為控制機器人執(zhí)行的動作序列。最終,Head 根據(jù)不同任務生成適配的輸出。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

訓練目標

預訓練階段

在預訓練過程中,HPT 的目標是最小化跨多個數(shù)據(jù)集的行為克隆損失。HPT 通過多數(shù)據(jù)集的歸一化動作標簽與預測動作的 Huber 損失,優(yōu)化不同任務下的模型參數(shù)。公式如下:

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

在訓練中,Trunk 參數(shù)會在每次迭代中更新,而 Stem 和 Head 則基于訓練批次動態(tài)更新。

遷移學習

在遷移學習階段,面對新的任務,HPT 會重新初始化 Head 和 Stem 參數(shù),并凍結 Trunk 權重,使 Trunk 的預訓練知識直接遷移到新任務中,減少訓練時間和數(shù)據(jù)需求。


實驗設計

默認設置

實驗的初始設置中,研究團隊選擇了 27 個機器人遙操作的數(shù)據(jù)集用于預訓練,每個數(shù)據(jù)集最多包含 1000 條軌跡,總計約 1.6 萬條軌跡。

模型使用的是 HPT-Small 版本,參數(shù)量為 317 萬,訓練批量設置為 256 ,在 80,000 次迭代中完成訓練。

為了評估模型性能,研究者還構建了一個由這 27 個數(shù)據(jù)集組成的驗證集。

擴展設置

在更大規(guī)模的實驗中,研究團隊擴展了數(shù)據(jù)來源,使用 52 個不同的數(shù)據(jù)集進行預訓練,這些數(shù)據(jù)集包括模擬數(shù)據(jù)、實際部署的機器人數(shù)據(jù),以及人類執(zhí)行任務的視頻數(shù)據(jù)。每個數(shù)據(jù)集最多包含 20 萬條軌跡。

這個設置中采用的模型版本為 HPT-XLarge,參數(shù)量高達 1 億,訓練批量增至 2048,以更大規(guī)模的數(shù)據(jù)和更高參數(shù)量提高模型的泛化能力。

合成數(shù)據(jù)和互聯(lián)網(wǎng)人類視頻

為增強數(shù)據(jù)多樣性,研究團隊還利用了 7 個模擬數(shù)據(jù)集和 EPIC 廚房及 PoCo 的互聯(lián)網(wǎng)人類視頻數(shù)據(jù)進行額外的預訓練。


作者介紹

何愷明

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

何愷明,深度殘差網(wǎng)絡 (ResNets)的主要發(fā)明人,博士畢業(yè)于香港中文大學,師從湯曉鷗?,F(xiàn)在是 MIT 電氣工程和計算機科學系 (EECS) 的副教授。

他的研究方向為計算機視覺和深度學習,目前研究目標為通過計算機視覺問題的視角,開發(fā)適用于各個領域的可推廣方法。目前的研究重點是構建計算機模型,這些模型可以從復雜世界中學習表示并開發(fā)智能。長期研究目標是用更強大的人工智能來增強人類智能。

Lirui Wang

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

Lirui Wang,計算機科學與人工智能實驗室 (MIT CSAIL)的博士生,指導老師為 Russ Tedrake 教授,和何愷明教授一起合作。他在華盛頓大學獲得了學士和碩士學位,與 Dieter Fox 教授一起工作,并與 NVIDIA 合作。

他的研究方向為機器學習和機器人技術,特別是開發(fā)可以在復雜和非結構化的現(xiàn)實世界環(huán)境中泛化的算法和系統(tǒng),致力于開發(fā)可隨異構數(shù)據(jù)擴展的隊列學習。

趙家梁

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

趙家梁,MIT CSAIL (計算機科學與人工智能實驗室 )感知科學小組的博士生,指導老師為 Edward H. Adelson 教授,與 Russ Tedrake 教授和何愷明教授一起合作,目前的研究方向為機器人和人工智能。碩士畢業(yè)于卡內基梅隆大學,在 IAM 實驗室與 Oliver Kroemer 教授合作,專注研究機器人操作的機器人學習。

陳鑫磊

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

陳鑫磊,Meta FAIR 實驗室的研究科學家,卡內基梅隆大學語言技術研究所的博士生,本科畢業(yè)于浙江大學計算機科學專業(yè)。他的研究方向為預訓練,特別是具有自我監(jiān)督和/或多模態(tài)的視覺表征的預訓練。

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

“通用大腦”來了!MIT何愷明用大模型思維玩出機器人預訓練新花樣

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說