丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給饒舒瑋
發(fā)送

0

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

本文作者: 饒舒瑋 2024-06-28 16:17
導(dǎo)語:最強的機器人模型一定不只有一種數(shù)據(jù)來源。

作者丨饒舒瑋

編輯丨岑峰

“既要又要”是何泰然的野心,也是決心。

在談到人形機器人遙操作的可行路徑時,何泰然表示他既可以實現(xiàn)機器人的全身控制,還可以用強化學習來實現(xiàn)這一點。在他所探索的這條路上,不必因為技術(shù)瓶頸或短期目標而妥協(xié),可以“既要又要”。

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

遙操作,即遠程操作(Teleoperation)。在機器人領(lǐng)域,人們通過某種設(shè)備操控機器人完成指令下的各種動作,從而收集機器人的訓(xùn)練數(shù)據(jù),為后續(xù)自動化學習提供數(shù)據(jù)。因此,機器人遙控幾乎是每一個機器人公司不可繞開的部分。

盡管市場潛力無限,但在何泰然看來,目前領(lǐng)域依然囿于技術(shù)難關(guān),并未得到長足的發(fā)展。而現(xiàn)在,具身智能的興起,為這一領(lǐng)域帶來一些新的生機。

2015年前后,人工智能領(lǐng)域?qū)崿F(xiàn)了從“感知智能”向“認知智能”研究范式的重大轉(zhuǎn)變。ResNet、Transformer 等創(chuàng)新架構(gòu)的提出,不僅推動了深度學習技術(shù)的飛躍,更為大模型的問世奠定了基礎(chǔ)。大模型以其空前的計算能力和數(shù)據(jù)處理能力,極大地拓展了機器學習在處理復(fù)雜任務(wù)時的邊界,尤其是在自然語言處理和計算機視覺等關(guān)鍵領(lǐng)域取得了革命性的進步。這些技術(shù)進步,為機器人的感知、決策和交互能力的提升,奠定了堅實的算法基礎(chǔ)。

得益于此,自然語言處理、計算機視覺和機器學習領(lǐng)域的專家學者們,與機器人方向的研究者一道,成為引領(lǐng)這一波具身智能發(fā)展浪潮的關(guān)鍵力量。他們正推動著具身智能不斷突破邊界,向著更加智能化、更具人性化的方向發(fā)展。

盡管具身智能被視為未來人工智能研究的一個重要方向,但其發(fā)展仍處于起步階段,正面臨著技術(shù)、規(guī)范、安全等多方面的挑戰(zhàn)。正如一百多年前汽車剛剛出現(xiàn)的時代,我們迫切需要打通從感知到認知的層面,建立起一套更大、更統(tǒng)一的系統(tǒng)。

OmniH2O 項目正是孵化于這樣的一個時代背景之下。其發(fā)起者何泰然是卡內(nèi)基梅隆大學(CMU)的一名博士生,連同他在內(nèi)的9人小組就是一整個團隊。在何泰然博士導(dǎo)師石冠亞、劉暢流以及之前在上海交通大學的導(dǎo)師張偉楠的指導(dǎo)和協(xié)助下,OmniH2O 不僅展示了全尺寸人形機器人的全身遙控和自主學習的能力,更是在人形機器人控制的自然性和靈活性上有所提升。

OmniH2O 項目的核心在于其基于學習的方法,通過使用運動學姿勢作為通用的控制接口,實現(xiàn)多種控制人形機器人的方式。項目的一個關(guān)鍵貢獻是其開發(fā)的端到端全身策略,該策略協(xié)調(diào)了上半身和下半身的動作,以支持靈巧的操控和穩(wěn)健的移動。此外,OmniH2O項目還發(fā)布了首個針對人形機器人全身控制的數(shù)據(jù)集 OmniH2O-6,包含六個日常任務(wù),并通過這些任務(wù)展示了人形機器人全身技能的學習能力。

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

在AI科技評論對何泰然博士的專訪中,我們深入了解了 OmniH2O 項目的成立初衷、創(chuàng)新點以及其在具身智能領(lǐng)域中的潛在影響。何博士分享了他們團隊如何通過遙操作實現(xiàn)數(shù)據(jù)收集和學習,解鎖人形機器人的潛力,并討論了在這一過程中遇到的挑戰(zhàn)和解決經(jīng)驗。

以下即為AI科技評論與何泰然就 OmniH2O 項目的訪談實錄,限于篇幅,AI科技評論進行了不改原意的編輯:

不再“從頭開始”的遙操作

AI科技評論:在具身智能領(lǐng)域的生態(tài)鏈中, OmniH2O 項目的定位是什么?

何泰然:我們這個工作自身是一個概念驗證(Proof of Concept)的定位。我想通過這個項目證明,人可以通過 VR 眼鏡或者其他的設(shè)備比如 RGB 相機遙操作一個人形機器人來收集數(shù)據(jù),使其完成日常生活的任務(wù)。

在這過程中,我們還希望能夠有一些新發(fā)現(xiàn),比如怎么樣可以把控制和自主性做的更好、更魯棒、更聰明。但我覺得在這一方面需要工業(yè)界的幫助,一起將整個系統(tǒng)進行優(yōu)化升級,單憑我們學術(shù)界的實驗室很難把這件事推動到極致。所以我稱這個工作只是一個 Proof of Concept。

AI科技評論:為什么會選擇人形機器人這個載體進行遙操作的研究?

何泰然:因為這個世界的所有設(shè)計都是圍繞人類的身材和活動規(guī)律來設(shè)計的,只有人形的機器人,才能夠無縫融入我們的物理世界。

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

此外,在遙操作一個機器人去進行學習訓(xùn)練的過程中,因為身體構(gòu)造的相似,使得我們?nèi)祟愡b控人形機器人的學習成本最低,這也是關(guān)鍵因素之一。人類的大腦就是一個最強的預(yù)訓(xùn)練模型,我們可以將人類大腦的認知和控制能力提煉出來以此教會人形機器人,如此便可直接將人類世界的經(jīng)驗分享給機器人,從而進行遙操作,沒必要再一切從頭開始從零訓(xùn)練。

AI科技評論:那么,又為何會選擇 VR 頭盔進行遙操作?

何泰然:當時也有使用 RGB 相機,從一些 2D 的圖像還原成 3D 的人類姿態(tài)估計,將這些數(shù)據(jù)去做遙操作然后喂給 tracking policy,這個方法可行,但精度和魯棒性不如頭戴式 VR。另外一些更好的 interface (比如動作捕捉設(shè)備或者全身的外骨骼)又太貴了,性價比不高。

后來我們發(fā)現(xiàn)使用 VR 眼鏡可以很好地平衡價格和實用性。它有得天獨厚的兩個優(yōu)勢,一是它本身就是個顯示器,可以完全代入機器人視角,相比別的設(shè)備更加直觀。二是,VR 眼鏡有非常準確的頭、手追蹤和位置估計。像是蘋果就已經(jīng)把這點做到極致了,每個手有25個點位,長什么樣?分別的角度是多少?Apple Vision Pro 可以預(yù)估得非常精準。所以用這個設(shè)備來做遙操作,是再合適不過了。

所以目前來看,我們認為 VR 這個賽道很好,但如果未來有更好的設(shè)備出現(xiàn),我們也會追求更好、更合適的設(shè)備來進行遙操作和訓(xùn)練。

AI科技評論:ChatGPT 出現(xiàn)之后,會考慮將 ChatGPT 跟 OmniH2O 打通實現(xiàn)自主操作嗎?

何泰然:其實打通就是讓類似 GPT-4o 這樣的大模型來替換人類的遙操作員。但人類的遙操作員不管通過什么設(shè)備,其所傳輸給下游的都是人形機器人的控制策略,也就是一些人形機器人關(guān)鍵點(頭/手/手指)的位置。我認為,如果下游的控制策略做得好,那么上游來自什么其實不重要。

如果我們要利用 GPT-4o 進行遙操作,就是通過人形機器人頭上相機,將看到的東西實時傳給 GPT-4o,告訴它現(xiàn)在要怎么做。但目前如果讓 GPT-4o 直接執(zhí)行指令,它的響應(yīng)時間太長了,所以我們讓 GPT-4o 進行行動的選擇,而不是完全自主決策,我覺得這對現(xiàn)在的方案來說是最可行的。

當然之后我覺得像 GPT-4o 這樣的 vision language model 一定會有非常大的進步,到時候甚至可以不用上傳到云端,不會有網(wǎng)絡(luò)的延遲,可以在機器人自己的設(shè)備上進行 inference。那個時候就不用做選擇題了,直接做寫作題就行了。

AI科技評論:現(xiàn)在有和哪些工業(yè)界的公司進行接觸和合作嗎?在和他們接觸的時候會如何介紹這個項目?

何泰然:現(xiàn)在和工業(yè)界的接觸還不多,一般我們是工業(yè)界的用戶。因為我們實驗室會買一些宇樹或是其他公司的機器人。我覺得對于每一個公司來說,人形機器人遙操作都是一個不可缺失的部分?,F(xiàn)在學術(shù)界有很多成果,來自UCSD、清華、Stanford和CMU,我相信未來工業(yè)界一定會有相當成熟的方案整合。

但現(xiàn)在很多公司在進行機器人遙操作過程中都有或多或少的妥協(xié),要么是對上下半身分離控制,不做全身的控制,要么有些公司偏向于更穩(wěn)定成熟的傳統(tǒng)控制方法,不會選擇上強化學習。而我們現(xiàn)在在做的事就是想傳遞給工業(yè)界這樣一個信息:人形機器人遙操作可以既做全身控制又做強化學習,還能夠達到很好的完成度。

最珍貴的數(shù)據(jù)最難得

AI科技評論:你們是如何解決在遙操作和自主學習方面遇到的一些技術(shù)障礙?

何泰然:我們不追求一步到位的解決。首先,我們會把問題進行拆分,比如我們會用一個很好的 interface (VR)來做遙操作,在下游用追蹤策略(tracking policy) 來追蹤人類的動作。由此,我們就把這個挑戰(zhàn)拆分成身體控制和認知的的挑戰(zhàn),其中在認知層面,我們就可以用遙操作來代替。

在我看來,其實遙操作和自主學習這兩類不同任務(wù)的邊界很模糊。因為本質(zhì)上,遙操作是為了讓機器人實現(xiàn)自主學習。而這一切的基礎(chǔ)都建立在一個非常好的控制策略上。上游的話,不論是來自人類的大腦,或是自己訓(xùn)練的自動智能體都是可行的。

AI科技評論:現(xiàn)在具身智能的發(fā)展需要各種各樣的數(shù)據(jù)集,你認為哪些數(shù)據(jù)集比較重要?

何泰然:我覺得現(xiàn)在的問題在于每一種機器人形態(tài)都有它的數(shù)據(jù)集,但是我們很難把不同的數(shù)據(jù)整合到一起。今年年初 Stanford 發(fā)布的一個研究成果叫 UMI ,就是一個很好的 Manipulation Data 的嘗試。

我認為,不管是狗式的機器臂,還是人形機器人的機械臂,都可以共享數(shù)據(jù)。但人形機器人不同于純機械臂的manipulation,除了臂之外,腿、腰等部位的數(shù)據(jù)我覺得也相當重要。

AI科技評論:除了遙操作之外,我們知道還可以通過仿真獲得數(shù)據(jù),你認為 3D 仿真這種方式能從多大程度上解決數(shù)據(jù)問題?

何泰然:我覺得會從很大程度上解決。正是因為我們沒有足夠機器人在真實世界的數(shù)據(jù),所以才需要仿真。雖然可能通過仿真獲得的數(shù)據(jù)并不是那么準確,但能夠提供足夠好的起始數(shù)據(jù)。我相信未來最好的系統(tǒng),一定不會只由一種數(shù)據(jù)所訓(xùn)練出來。

老生常談,數(shù)據(jù)價值可以用金字塔的結(jié)構(gòu)來比喻,最易得的模擬器仿真數(shù)據(jù)在最低層,無窮無盡也大致正確;最高層的數(shù)據(jù)最難得,但價值也最高。未來最好的算法或者最強的機器人模型,一定會是那種完美地融合了不同數(shù)據(jù)來源的類型。

AI科技評論:這個項目的數(shù)據(jù)集包含了哪些任務(wù)?未來還希望達到哪些任務(wù)目標?

何泰然:數(shù)據(jù)集包含了 6 個任務(wù)。第一個是打拳擊,我作為教練,它要能夠識別并執(zhí)行拳套顏色和左右拳的指令。

第二個是玩兒石頭剪刀布,輸入游戲規(guī)則后,通過幾次訓(xùn)練,讓它學會怎么在石頭剪刀布中贏。

第三個是關(guān)于下蹲躲避障礙物的任務(wù)。我們設(shè)置了一個長木橫杠的自動裝置不斷向人形機器人靠近,如果機器人不能夠?qū)W會下蹲進行躲避就會一直被打。

第四、五個都是抓取的任務(wù),機器人用右手抓取物體放置在一個盒子上,再用左手給放回原處,如此左右手重復(fù)此過程。

第六個任務(wù)是關(guān)于扔垃圾的,比如我們將垃圾遞給人形機器人,它要學會自主抓住,并使其放進垃圾桶。

未來我們希望能將控制做得更好,在行動效率、魯棒性和準確性方面都有提升,這樣收集數(shù)據(jù)的效率也會更高,我們也會更多在日常生活場景中去收集數(shù)據(jù)。

AI科技評論:你認為上述的數(shù)據(jù)集離實際應(yīng)用還有多遠?

何泰然:這個數(shù)據(jù)集雖然包含了 6 個任務(wù)的高質(zhì)量數(shù)據(jù),但主要貢獻是為學術(shù)界和工業(yè)界收集數(shù)據(jù),驗證機器人是否能擺脫遙操作進行自主學習。

實際上這個數(shù)據(jù)量總共加起來其實不到一個小時的操作數(shù)據(jù)。若要真正實際應(yīng)用,可能需要收集幾千上萬人長時間的遙操作數(shù)據(jù),沒有人知道準確答案。我認為需要工業(yè)界和學術(shù)界一起去回答,要怎么樣更高效地收集、利用這些數(shù)據(jù),要怎么設(shè)計數(shù)據(jù)結(jié)構(gòu),才能使數(shù)據(jù)得到最大化使用。

形成具身智能的數(shù)據(jù)飛輪

AI科技評論:什么時候開始對人形機器人遙操作這一領(lǐng)域產(chǎn)生興趣?在哪個階段有了想做 OmniH2O 項目的想法?

何泰然:我的興趣是從小時候那部科幻電影《鐵甲鋼拳》開始的。那部電影講述了人類通過遙操作機器人來代替自己進行拳擊賽的未來??催^電影之后,我心里就埋下了種子,希望自己未來也能夠設(shè)計出電影里的那套機器人系統(tǒng)。

我在上海交通大學完成了我的本科學位,然后在2023年8月份來到 CMU 開始我的博士生涯,也是在這里我正式開始準備 OmniH2O 項目。在 CMU 入學后,我就和導(dǎo)師石冠亞教授溝通了這個想法。除了個人興趣的原因,開展 OmniH2O 項目也有一定的研究意義。這個項目可以利用遙操作技術(shù)收集到驅(qū)動機器人的數(shù)據(jù)飛輪。

因為在計算機視覺和自然語言處理領(lǐng)域,可以通過網(wǎng)絡(luò)等方式找到語料庫作為數(shù)據(jù),但是在機器人領(lǐng)域目前并沒有現(xiàn)成的數(shù)據(jù)可以獲取。我認為遙操作可以作為一種解決辦法,由人來控制機器人完成一些日常的重要任務(wù),以此收集數(shù)據(jù),開啟研發(fā)自動版機器人第一步,然后再讓自動版機器人去迭代更多的數(shù)據(jù),形成數(shù)據(jù)飛輪。這是我認為真正可以讓具身智能實現(xiàn)的一條路。

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

AI科技評論:在你看來的話,近十年來,機器人的進步主要體現(xiàn)在哪些方面?

何泰然:其實這十年來機器人的突破,比起 AI 的其他領(lǐng)域還是遠遠不足的。實話說,我認為機器人的突破主要來自 AI 其他社區(qū)的進步。

機器人領(lǐng)域主要分為感知、規(guī)劃和控制。我覺得第一大進步是感知,第二個是硬件,如國內(nèi)的宇樹公司所造的人形機器人,成本低,性能也非常好。

另外,在控制上,我看到了強化學習在控制機器人上面的潛力。在10年前,世界上能夠讓一個人形機器人走起來的專家,一只手都數(shù)得過來。現(xiàn)在因為深度強化學習在 AlphaGo 之后得到了長足的發(fā)展,使這項任務(wù)難度大大降低。

此外,芯片方面的支持也是一大助力。如果只是用單線程在 CPU 上跑模擬器的速度是做不了機器人的控制的。但是英偉達的 Isaac gym,包括像 Mujoco3,可以同時跑幾千甚至上萬個 environment,一秒可以跑幾十萬甚至幾百萬步,這在以前是不可想象的。

所以我認為,近十年來機器人的進步來自于計算機視覺的認知能力,強化學習算法的進步,以及機器人硬件和高度并行的 GPU 模擬環(huán)境的進步。

AI科技評論:你怎么看待不同領(lǐng)域的研究者參與到具身智能領(lǐng)域的研究中?

何泰然:我覺得這是好事。如果一個人只懂計算機視覺或者只懂強化學習、NLP,那么具身智能都沒有辦法實現(xiàn)。不管是系統(tǒng)的設(shè)計控制,還是更高層的智能連接,要怎么實現(xiàn)最優(yōu)機器人系統(tǒng)需要大家一起討論。

在整個討論過程中,不同研究背景的人是如何思考問題的,他們有什么好的解決方案,這背后有沒有什么共通的能夠讓機器人變得更好的邏輯等等,能碰撞出不同的火花。比如我們從 ChatGPT 里面學到 Scaling Law, 數(shù)據(jù)越多,模型越大,表現(xiàn)越好。但是同樣的 Scaling Law 我們怎么讓它在機器人領(lǐng)域也同樣適用,怎么去獲得這個量級的數(shù)據(jù),怎么獲得一個機器人版本的 GPT?我非常喜歡大家沒有確定性答案的這種研究領(lǐng)域。大家擁有不同的背景,但都有對研究問題的共同信仰——讓機器人變得更好,讓每個人的生活變得更好。

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

專訪 OmniH2O 項目發(fā)起人何泰然:探索人形機器人遙操作通向具身智能的可行之路

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說