丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

本文作者: 劉潔   2024-11-08 15:31
導(dǎo)語:大模型的預(yù)訓(xùn)練方法也適用機(jī)器人,復(fù)雜數(shù)據(jù)無需“量身定做”,也能完美對(duì)接。

在機(jī)器人領(lǐng)域,一場(chǎng)關(guān)于“通用智能”的探索正如火如荼地展開。

MIT 的何愷明和 Lirui Wang 等人最近成功在“通用數(shù)據(jù)”上取得了進(jìn)展,讓機(jī)器人離擁有“通用大腦”的目標(biāo)又近了一步。

機(jī)器人數(shù)據(jù)的異質(zhì)性問題一直是機(jī)器人訓(xùn)練的大難題。

以往,訓(xùn)練機(jī)器人需要為每種任務(wù)、每種環(huán)境,甚至每臺(tái)機(jī)器人的不同硬件量身采集數(shù)據(jù)。

舉個(gè)例子,假設(shè)需要為一個(gè)家庭服務(wù)機(jī)器人進(jìn)行訓(xùn)練,團(tuán)隊(duì)通常要為不同任務(wù)和環(huán)境單獨(dú)收集數(shù)據(jù),如廚房中的搬運(yùn)、清潔任務(wù),或臥室內(nèi)的物品分類。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

數(shù)據(jù)必須特定、精準(zhǔn),這讓數(shù)據(jù)采集量變得龐大而復(fù)雜,相當(dāng)于不同的電子設(shè)備需要各自的“充電接口”,換個(gè)場(chǎng)景就得換一套數(shù)據(jù)格式。

這種方式導(dǎo)致數(shù)據(jù)難以通用,訓(xùn)練中存在大量重復(fù)勞動(dòng)。明明數(shù)據(jù)總量看著比以前多得多,但實(shí)際訓(xùn)練時(shí)可用的數(shù)據(jù)量并沒有實(shí)現(xiàn)大幅增長(zhǎng)。

想要實(shí)現(xiàn)真正的通用機(jī)器人,就意味著必須收集盡可能全面的數(shù)據(jù)集。但這樣一來,收集和整理數(shù)據(jù)的成本會(huì)極高,據(jù)估算可能高達(dá)數(shù)百萬美元,且整個(gè)流程耗時(shí)數(shù)月,效率低下。

為了應(yīng)對(duì)這一問題,研究團(tuán)隊(duì)紛紛嘗試新方法。

比如,斯坦福大學(xué)的 RoboTurk 項(xiàng)目想通過遠(yuǎn)程操作來降低數(shù)據(jù)收集成本,但這只能緩解一部分壓力。由于高質(zhì)量傳感器、定制環(huán)境和復(fù)雜的演示操作需求,任務(wù)專用的數(shù)據(jù)收集依然耗時(shí)且昂貴。

收集不好搞那自己造總行了吧?

許多團(tuán)隊(duì)轉(zhuǎn)而依靠“合成數(shù)據(jù)”作為替代。合成數(shù)據(jù)雖說解決了一部分量的問題,卻仍然無法完全徹底替代真實(shí)數(shù)據(jù),尤其在應(yīng)用于多任務(wù)通用訓(xùn)練時(shí)依然面臨障礙。

MIT 這支團(tuán)隊(duì)兩個(gè)都不選,他們選擇另辟蹊徑,與其不斷增加新的數(shù)據(jù),不如著手讓現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)“通用”!

他們的論文將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表,第一作者是來自MIT CSAIL (計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 )的副教授何愷明和同一實(shí)驗(yàn)室的博士生 Lirui Wang、趙家梁,第二作者是 Meta 的研究員陳鑫磊。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

論文里提出了名為“異構(gòu)預(yù)訓(xùn)練 Transformers”(Heterogeneous Pretrained Transformers,HPT)的新架構(gòu)。

在他們的研究中,不同來源的數(shù)據(jù)——無論是模擬數(shù)據(jù)還是真實(shí)機(jī)器人傳感數(shù)據(jù)——都被對(duì)齊到一種共享“語言”,使得生成式 AI 模型能夠“理解”這些數(shù)據(jù)。

換言之,無論是來自視覺傳感器的數(shù)據(jù)還是機(jī)械臂位置編碼器的原始信號(hào),HPT 都能將它們轉(zhuǎn)化為通用的數(shù)據(jù)格式,避免了重復(fù)的數(shù)據(jù)收集,也不浪費(fèi)任何一種數(shù)據(jù)。

Lirui Wang 認(rèn)為這樣能夠更好地發(fā)揮本體感知的作用,讓機(jī)器人實(shí)現(xiàn)更多的靈巧動(dòng)作。

HPT 的優(yōu)勢(shì)不僅在于通用性高,還兼具高效、低成本的特點(diǎn)。由于所需任務(wù)專用數(shù)據(jù)量更少,HPT 在模擬和實(shí)際測(cè)試中均展現(xiàn)了出色的表現(xiàn),性能比傳統(tǒng)訓(xùn)練方式提升了 20% 以上。

來自GPT-4的啟發(fā)

機(jī)器人通常采用模仿學(xué)習(xí)的方式,通過人類演示或遠(yuǎn)程操控的方式獲取訓(xùn)練數(shù)據(jù),導(dǎo)致一旦環(huán)境或任務(wù)發(fā)生變化,機(jī)器人就容易“出錯(cuò)”。

這種數(shù)據(jù)非通用性一直是機(jī)器人學(xué)習(xí)的痛點(diǎn),限制了其在多樣任務(wù)中的靈活性,也限制了通用機(jī)器人的開發(fā)。

研究團(tuán)隊(duì)從 GPT-4 等大語言模型中汲取了靈感:GPT-4 這樣的模型能順利處理多任務(wù)的核心在于“大規(guī)模預(yù)訓(xùn)練+少量微調(diào)”的模式。

即便語言數(shù)據(jù)類型豐富且復(fù)雜,GPT-4 并不需要為每個(gè)任務(wù)分別準(zhǔn)備數(shù)據(jù),原因在于所有內(nèi)容都被視為同一種語言——“句子”。

相比之下,機(jī)器人數(shù)據(jù)更為復(fù)雜,不僅有相機(jī)圖像、語言指令,還有深度圖等多樣形式。每種數(shù)據(jù)源的適用性還受到機(jī)器人硬件、傳感器等差異的限制。

因此,研究團(tuán)隊(duì)的挑戰(zhàn)在于如何實(shí)現(xiàn)一種“通用的語言”來整合機(jī)器人數(shù)據(jù)。

他們提出的解決方案是“異構(gòu)預(yù)訓(xùn)練 Transformer”(HPT)架構(gòu),分成了三個(gè)模塊:

在 Stem(莖)部分,HPT 對(duì)不同的數(shù)據(jù)進(jìn)行對(duì)齊,將它們轉(zhuǎn)化為標(biāo)準(zhǔn)化的令牌序列;接著在 Trunk(樹干)部分,通過多重轉(zhuǎn)換和編碼操作,將這些令牌轉(zhuǎn)化為共享的潛在表示;最后在 Head(頭)部分,將潛在表示轉(zhuǎn)化為具體的動(dòng)作指令,驅(qū)動(dòng)機(jī)器人完成相應(yīng)操作。

HPT 像“大模型”一樣,隨著處理的數(shù)據(jù)量增長(zhǎng),模型的性能也逐步提升。

為了支撐這種通用化訓(xùn)練,團(tuán)隊(duì)建立了一個(gè)龐大的數(shù)據(jù)集,包括 52 個(gè)數(shù)據(jù)集、200,000 條機(jī)器人軌跡,涵蓋了人類演示視頻和模擬數(shù)據(jù)。

借助這一數(shù)據(jù)集,HPT 可以高效預(yù)訓(xùn)練,用戶只需提供少量特定任務(wù)或設(shè)計(jì)信息,就能讓 HPT 在預(yù)訓(xùn)練知識(shí)的基礎(chǔ)上完成微調(diào),適應(yīng)新任務(wù)。

HPT 在預(yù)訓(xùn)練和微調(diào)的方式上也有所創(chuàng)新。

與大模型同步更新所有模塊不同,HPT 在預(yù)訓(xùn)練階段只調(diào)整 Trunk 參數(shù),而 Stem 和 Head 部分只會(huì)在微調(diào)階段根據(jù)具體任務(wù)進(jìn)行調(diào)整。

此外,HPT 不僅處理視覺數(shù)據(jù),還支持直接處理傳感器采集的原始信號(hào),進(jìn)一步擴(kuò)大了數(shù)據(jù)使用范圍。

目前,研究團(tuán)隊(duì)還在探索增加數(shù)據(jù)多樣性,以進(jìn)一步優(yōu)化 HPT 的性能。他們的最終目標(biāo)是實(shí)現(xiàn)“通用機(jī)器人大腦”,讓用戶即插即用,無需繁瑣的培訓(xùn)和數(shù)據(jù)收集,讓機(jī)器人訓(xùn)練變得像下載個(gè) APP 一樣簡(jiǎn)單。


不止“看見”,還要“感覺”

以往的研究往往更側(cè)重視覺數(shù)據(jù),而這篇論文難得的將本體感知也放到了核心部分。

具體來說,本體感知賦予了機(jī)器人對(duì)關(guān)節(jié)角度、末端執(zhí)行器位置、姿態(tài)等內(nèi)部狀態(tài)的把控力。

這種能力在執(zhí)行高精度任務(wù)時(shí)尤為重要。比如,擰緊螺釘、拿穩(wěn)玻璃杯這類任務(wù),光靠“看”還不夠,機(jī)器人還需要“知道”自己的手臂位置、關(guān)節(jié)角度等內(nèi)部信息,防止動(dòng)作過多或偏移,最終減少失誤。

研究團(tuán)隊(duì)認(rèn)為本體感知才是讓機(jī)器人完成一些精細(xì)且復(fù)雜的操作的關(guān)鍵。如果本體感知信息沒有得到良好的學(xué)習(xí)和利用,機(jī)器人可能會(huì)在特定場(chǎng)景和任務(wù)中表現(xiàn)出重復(fù)的運(yùn)動(dòng)或軌跡,導(dǎo)致過擬合。

同樣,具身智能強(qiáng)調(diào)的也是機(jī)器人與物理環(huán)境的交互能力,這種智能不依賴單一模態(tài),而是通過整合外部視覺和內(nèi)部本體感知,形成一種更全面的任務(wù)理解力。

因此,研究團(tuán)隊(duì)將視覺和本體感知信號(hào)作為等同重要的數(shù)據(jù)源進(jìn)行“通用”處理。

這種綜合處理使得機(jī)器人不再單純依靠視覺,而是以一種“通用智能”的方式理解任務(wù)。

例如,在清掃任務(wù)(Sweep Leftover)中,HPT 架構(gòu)允許機(jī)器人整合視覺和本體感知的多模態(tài)數(shù)據(jù),結(jié)果顯示,經(jīng)過微調(diào)的 HPT-B 和 HPT-XL 模型的任務(wù)成功率遠(yuǎn)高于只依賴視覺模型的 VC-1。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

(微調(diào)的 HPT 模型與幾種基線模型(包括純視覺預(yù)訓(xùn)練模型)之間的比較)


研究方法

HPT 架構(gòu)設(shè)計(jì)

HPT架構(gòu)把策略神經(jīng)網(wǎng)絡(luò)分為三個(gè)模塊:Stem(莖)、Trunk(樹干)和 Head(頭),分別對(duì)應(yīng)特定的實(shí)例輸入、通用的處理層和任務(wù)特定的輸出。通過這種模塊化設(shè)計(jì),HPT 能夠?qū)⒉煌h(huán)境和任務(wù)下的傳感器和視覺數(shù)據(jù)對(duì)齊為標(biāo)準(zhǔn)化的令牌序列,使機(jī)器人可以應(yīng)對(duì)多樣化任務(wù)。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

1. Stem:數(shù)據(jù)輸入層

Stem 是 HPT 的前端層,用于將不同任務(wù)和環(huán)境下的傳感器數(shù)據(jù)(如相機(jī)圖像和本體感受)轉(zhuǎn)換為固定數(shù)量的令牌,供后續(xù)的通用處理使用。它包含本體感知分詞器和視覺分詞器兩部分。

本體感知分詞器將機(jī)器人狀態(tài)信息(如執(zhí)行器位置、關(guān)節(jié)角度等)編碼為16個(gè)標(biāo)準(zhǔn)令牌。首先通過多層感知器(MLP)將輸入數(shù)據(jù)映射到特征空間,添加正弦位置編碼,再利用注意力機(jī)制進(jìn)行處理。

視覺分詞器處理相機(jī)圖像(視頻)數(shù)據(jù),采用預(yù)訓(xùn)練的 ResNet18 提取圖像特征,然后展平這些特征,并通過注意力機(jī)制轉(zhuǎn)化為 16 個(gè)令牌,確保視覺數(shù)據(jù)能夠以標(biāo)準(zhǔn)化的格式進(jìn)入模型。

2. Trunk:共享中間層

Trunk 是 HPT 的核心部分,包含一個(gè)可擴(kuò)展的 Transformer 架構(gòu),用于將 Stem 模塊生成的令牌序列轉(zhuǎn)換為通用的潛在表示。通過自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),Trunk 將輸入數(shù)據(jù)編碼成共享的表示,便于不同任務(wù) Head 模塊調(diào)用,以輸出特定的機(jī)器人指令。

3. Head:任務(wù)輸出層

Head 模塊負(fù)責(zé)將 Trunk 的潛在表示轉(zhuǎn)化為任務(wù)的具體動(dòng)作。首先,Head 對(duì)輸出動(dòng)作空間進(jìn)行標(biāo)準(zhǔn)化處理,再根據(jù)特定策略(如MLP或Transformer解碼器)將數(shù)據(jù)映射為控制機(jī)器人執(zhí)行的動(dòng)作序列。最終,Head 根據(jù)不同任務(wù)生成適配的輸出。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

訓(xùn)練目標(biāo)

預(yù)訓(xùn)練階段

在預(yù)訓(xùn)練過程中,HPT 的目標(biāo)是最小化跨多個(gè)數(shù)據(jù)集的行為克隆損失。HPT 通過多數(shù)據(jù)集的歸一化動(dòng)作標(biāo)簽與預(yù)測(cè)動(dòng)作的 Huber 損失,優(yōu)化不同任務(wù)下的模型參數(shù)。公式如下:

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

在訓(xùn)練中,Trunk 參數(shù)會(huì)在每次迭代中更新,而 Stem 和 Head 則基于訓(xùn)練批次動(dòng)態(tài)更新。

遷移學(xué)習(xí)

在遷移學(xué)習(xí)階段,面對(duì)新的任務(wù),HPT 會(huì)重新初始化 Head 和 Stem 參數(shù),并凍結(jié) Trunk 權(quán)重,使 Trunk 的預(yù)訓(xùn)練知識(shí)直接遷移到新任務(wù)中,減少訓(xùn)練時(shí)間和數(shù)據(jù)需求。


實(shí)驗(yàn)設(shè)計(jì)

默認(rèn)設(shè)置

實(shí)驗(yàn)的初始設(shè)置中,研究團(tuán)隊(duì)選擇了 27 個(gè)機(jī)器人遙操作的數(shù)據(jù)集用于預(yù)訓(xùn)練,每個(gè)數(shù)據(jù)集最多包含 1000 條軌跡,總計(jì)約 1.6 萬條軌跡。

模型使用的是 HPT-Small 版本,參數(shù)量為 317 萬,訓(xùn)練批量設(shè)置為 256 ,在 80,000 次迭代中完成訓(xùn)練。

為了評(píng)估模型性能,研究者還構(gòu)建了一個(gè)由這 27 個(gè)數(shù)據(jù)集組成的驗(yàn)證集。

擴(kuò)展設(shè)置

在更大規(guī)模的實(shí)驗(yàn)中,研究團(tuán)隊(duì)擴(kuò)展了數(shù)據(jù)來源,使用 52 個(gè)不同的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集包括模擬數(shù)據(jù)、實(shí)際部署的機(jī)器人數(shù)據(jù),以及人類執(zhí)行任務(wù)的視頻數(shù)據(jù)。每個(gè)數(shù)據(jù)集最多包含 20 萬條軌跡。

這個(gè)設(shè)置中采用的模型版本為 HPT-XLarge,參數(shù)量高達(dá) 1 億,訓(xùn)練批量增至 2048,以更大規(guī)模的數(shù)據(jù)和更高參數(shù)量提高模型的泛化能力。

合成數(shù)據(jù)和互聯(lián)網(wǎng)人類視頻

為增強(qiáng)數(shù)據(jù)多樣性,研究團(tuán)隊(duì)還利用了 7 個(gè)模擬數(shù)據(jù)集和 EPIC 廚房及 PoCo 的互聯(lián)網(wǎng)人類視頻數(shù)據(jù)進(jìn)行額外的預(yù)訓(xùn)練。


作者介紹

何愷明

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

何愷明,深度殘差網(wǎng)絡(luò) (ResNets)的主要發(fā)明人,博士畢業(yè)于香港中文大學(xué),師從湯曉鷗?,F(xiàn)在是 MIT 電氣工程和計(jì)算機(jī)科學(xué)系 (EECS) 的副教授。

他的研究方向?yàn)橛?jì)算機(jī)視覺和深度學(xué)習(xí),目前研究目標(biāo)為通過計(jì)算機(jī)視覺問題的視角,開發(fā)適用于各個(gè)領(lǐng)域的可推廣方法。目前的研究重點(diǎn)是構(gòu)建計(jì)算機(jī)模型,這些模型可以從復(fù)雜世界中學(xué)習(xí)表示并開發(fā)智能。長(zhǎng)期研究目標(biāo)是用更強(qiáng)大的人工智能來增強(qiáng)人類智能。

Lirui Wang

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

Lirui Wang,計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (MIT CSAIL)的博士生,指導(dǎo)老師為 Russ Tedrake 教授,和何愷明教授一起合作。他在華盛頓大學(xué)獲得了學(xué)士和碩士學(xué)位,與 Dieter Fox 教授一起工作,并與 NVIDIA 合作。

他的研究方向?yàn)闄C(jī)器學(xué)習(xí)和機(jī)器人技術(shù),特別是開發(fā)可以在復(fù)雜和非結(jié)構(gòu)化的現(xiàn)實(shí)世界環(huán)境中泛化的算法和系統(tǒng),致力于開發(fā)可隨異構(gòu)數(shù)據(jù)擴(kuò)展的隊(duì)列學(xué)習(xí)。

趙家梁

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

趙家梁,MIT CSAIL (計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 )感知科學(xué)小組的博士生,指導(dǎo)老師為 Edward H. Adelson 教授,與 Russ Tedrake 教授和何愷明教授一起合作,目前的研究方向?yàn)闄C(jī)器人和人工智能。碩士畢業(yè)于卡內(nèi)基梅隆大學(xué),在 IAM 實(shí)驗(yàn)室與 Oliver Kroemer 教授合作,專注研究機(jī)器人操作的機(jī)器人學(xué)習(xí)。

陳鑫磊

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

陳鑫磊,Meta FAIR 實(shí)驗(yàn)室的研究科學(xué)家,卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所的博士生,本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)專業(yè)。他的研究方向?yàn)轭A(yù)訓(xùn)練,特別是具有自我監(jiān)督和/或多模態(tài)的視覺表征的預(yù)訓(xùn)練。

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

“通用大腦”來了!MIT何愷明用大模型思維玩出機(jī)器人預(yù)訓(xùn)練新花樣

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說