0
本文作者: 賴文昕 | 2025-04-29 16:21 |
作者 | 賴文昕
編輯 | 陳彩嫻
2018 年 6 月,在澳大利亞機器人視覺研究中心(ACRV)做博士后研究員的吳琦和博士生 Peter Anderson 首次將 VL(視覺-語言)和彼時機器人領(lǐng)域主流的導(dǎo)航方向聯(lián)系起來,在 CVPR 2018 發(fā)表了第一篇 VLN(視覺-語言-導(dǎo)航)工作;緊接著,Abhishek Das 作為一作發(fā)表的“EmbodiedQA(具身問答)”又讓“Embodied”一詞走入科研視野。
一個月后,一年一度的 NLP 領(lǐng)域頂會 ACL 在冬季的墨爾本召開。在火熱的會場里,吳琦、Peter Anderson 和 Abhishek Das 舉辦了一場題為“將語言和視覺與動作聯(lián)系起來” 的 tutorial,真正地開啟了 VLA(視覺-語言-動作)這個全新領(lǐng)域。
會上一眾 NLP 學(xué)者都很好奇,紛紛向他們了解何為“VLA”,而三人除了談到 CNN、RNN 等基礎(chǔ)方法外,也分享了對機器人數(shù)據(jù)和環(huán)境仿真器的看法,包括強化學(xué)習(xí)在這些工作中的運用。
對 VLN 的探索也讓吳琦意識到,除了學(xué)習(xí)和理解多模態(tài)信息,機器還要能與真實環(huán)境進行一定程度的交互,才能解決實際問題,便在原有的 VL 基礎(chǔ)上加進“動作(Action)”,提出“V3A”的概念,即“Vision(視覺),Ask(提問),Answer(回答) and Act(行動)”。
吳琦本科畢業(yè)于中國計量大學(xué)信息與計算科學(xué)專業(yè),在英國巴斯大學(xué)完成碩士和博士后,又到澳大利亞阿德萊德大學(xué)做了3年的博士后研究,并在2018年開始留校任教。此外,他還陸續(xù)獲得了澳大利亞科學(xué)院羅素獎與南澳大利亞杰出青年科學(xué)家稱號,目前谷歌學(xué)術(shù)的引用量已超1.4萬。
作為最早一批研究 VL 的學(xué)者,吳琦在 MS COCO 數(shù)據(jù)集發(fā)布提出了圖像描述方向后立即在2015年跟進,又立即在視覺問答(VQA)此新方向上發(fā)表工作“Ask Me Anything”,并于2018年開啟了 VLA 領(lǐng)域。
七年過去,VLA 已搖身一變成為當(dāng)下具身智能領(lǐng)域內(nèi)最火熱的話題,海內(nèi)外誕生了英偉達的 GROOT N1、Figure AI 的 Helix、Physical Intelligence 的 π0、清華的 RDT 等機器人 VLA 模型。
而開啟了新領(lǐng)域的吳琦,則選擇在 VLN 方向上繼續(xù)扎根,并從去年開始著力于一系列真機研究。目前他正在澳大利亞阿德萊德大學(xué)任副教授,帶領(lǐng)自己的實驗室“V3A Lab”,還在澳大利亞機器學(xué)習(xí)研究中心(AIML)里擔(dān)任視覺與語言研究方向的實驗室主任。
聊到具身智能與 VLA,吳琦表示 VLA 不應(yīng)局限于上半身的操作任務(wù),“很多人認(rèn)為導(dǎo)航問題已經(jīng)被解決,manipulation 更好和產(chǎn)業(yè)結(jié)合并落地,但其實 VLN 仍有很多尚待突破的空間?!?/p>
以下是 AI 科技評論與吳琦的對話。
VLA 的“七年之癢”
AI科技評論:2018年您提出了“V3A”的概念,在原有的 VL 上加進 action,當(dāng)時是受到什么啟發(fā)促使您開始了 VLA 的研究?
吳琦:最早在 CVPR 2018 上我和 Peter、Abhishek (Embodied VQA作者) 碰在一起,覺得大家的論文都很有意思,決定在馬上舉行的 ACL 上一起辦一個 tutorial。當(dāng)時我認(rèn)為 VL 已經(jīng)被講過很多次,再辦 tutorial 的意義不大,應(yīng)該加些新東西進來,而我們做的導(dǎo)航和 Abhishek 做的問答都屬于 action,那不如就做一個關(guān)于視覺(Vision),語言(Language)和動作(Action)結(jié)合的講座,算是非常早期的VLA的概念。
我們的首篇 VLN 工作打開了這個新領(lǐng)域,但主要是提出了 R2R 數(shù)據(jù)集和任務(wù),不溫不火。到了下一年,CVPR 的最佳學(xué)生論文,即王鑫用模仿學(xué)習(xí)和強化學(xué)習(xí)一起去解決 VLN 的工作,徹底讓此領(lǐng)域火了起來。
因為很喜歡 VLA 的概念,我就提出了“V3A”,即“Vision(視覺),Ask(提問),Answer(回答) and Act(行動)”。先是希望機器人或虛擬的 agent 基于視覺輸入能回答,這說明它能聽懂;接著是當(dāng)時 VQG(視覺問題生成)的研究認(rèn)為提問比回答更難,這說明它有更強的推理能力;而在有自然語言對話能力后,我們希望模型能執(zhí)行如導(dǎo)航等動作,也提出了“Remote Embodied Visual Referring Expression(遠(yuǎn)程具身視覺指稱表達)”,就是讓機器人能完成“幫我找個勺子”這類導(dǎo)航任務(wù)。
AI科技評論:在您看來,2018 年前后的那波 VLA 與現(xiàn)在具身智能領(lǐng)域的 VLA,有什么不同之處?VLA 的發(fā)展經(jīng)歷過哪幾個比較重要的階段呢?
吳琦:我們剛提出 VLA 的概念時,manipulation 這一塊還不熱門,那時的 action 可能更 high level,離機器人還更遠(yuǎn)一些,比如理解對應(yīng)場景去回答問題或?qū)Ш阶叩街付ㄎ恢萌フ夷骋粬|西。而且數(shù)據(jù)量的差距也比較大,以前 VLA 的數(shù)據(jù)量相對于現(xiàn)在來說都是小量級的。
Embodied QA 出來后 VLA 有一段停滯期,因其所用的數(shù)據(jù)存在版權(quán)問題導(dǎo)致大家沒法繼續(xù)使用;而 VLN 在 VLA 里發(fā)揮了非常大的作用,我們的工作很早期地把 VL 和 action 結(jié)合起來,再加上王鑫在 CVPR 2019 的工作,VLN 和 VLA 受到了很大關(guān)注;時間再往后就是上交大盧策吾老師把 manipulation 和具身智能結(jié)合起來,提出了很多新的數(shù)據(jù)集和任務(wù)。
接著是非常關(guān)鍵的節(jié)點,GPT 系列的出現(xiàn)。此前盡管有 VL 大模型,但在解決很多 VQA 問題上的表現(xiàn)都一般,當(dāng)時普遍認(rèn)為在解決好 VL 問題前,還去結(jié)合 action 是不太可能實現(xiàn)的。而 GPT 的出現(xiàn)(特別是引入多模態(tài)后)解決了很多 VL 解決不了和解決不好的任務(wù),甚至是其零樣本的表現(xiàn)都遠(yuǎn)超當(dāng)時最大的 VL 預(yù)訓(xùn)練模型,因此大家就普遍認(rèn)為 VL 的一些基礎(chǔ)任務(wù)已被解決,所以開始引入更高層次的維度,即利用將視覺語言結(jié)合起來去預(yù)測、輸出 action,而不是單純地做 VQA 這種難以落地的東西。
AI科技評論:具身智能熱潮之前爆火的是自動駕駛行業(yè),在您看來,自駕與機器人分別對 VLA 提出了怎樣的獨特要求?如果單純從導(dǎo)航的角度來看,對人形機器人(雙足)的研究意義大嗎?
吳琦:自駕某種意義是也是 VLA,V 是戶外場景,L 是用戶需求,A 就是汽車所執(zhí)行的操作。當(dāng)然這里 A 的操作可能會分為汽車本身的動作,比如轉(zhuǎn)彎,加速, 減速等等,也可以車機系統(tǒng)的操作,比如執(zhí)行播放音樂,導(dǎo)航至某地這類動作。
機器人的 VLA 除了無人機之外,大部分可能還是在室內(nèi)場景中,V 主要是針對室內(nèi)場景和物體,而 A 則是要求動作精度更高的 manipulation 或者移動精度更高的 navigation。
我們?nèi)ツ昊景?VLN,就是的單純視覺語言導(dǎo)航這一塊,在實體機器人上實現(xiàn)了部署和運行,包括四足的機器狗\掃地機器人和輪式的機器人。我覺得在雙足上的部署問題也不大,因為我們目前大腦和小腦的開發(fā)還是分開的,雙足這邊的控制沒有問題的話,對于我們 VLN 來說是一樣的,就是根據(jù)當(dāng)前 VL 信息,輸出一個機器人要執(zhí)行的線速度和角速度,而據(jù)我所知,無論底盤式還是足式,都可以接受這兩個信息完成下層的動作指令。
具身智能導(dǎo)航團隊成員與機器人合照
AI科技評論:在經(jīng)歷了 VLA 從坐冷板凳到如今大熱的過程后,您是如何看待現(xiàn)在大家對 VLA 的熱情呢?
吳琦:VLA 的大熱其實是產(chǎn)業(yè)和學(xué)術(shù)發(fā)展的雙重結(jié)果。從產(chǎn)業(yè)視角來看,任何落地場景均需處理多模態(tài)輸入,并依賴一個 high level 的推理模型輔助完成復(fù)雜的規(guī)劃與行為決策。人類大腦的工作機制即是典型例證——通過整合視覺、聽覺、觸覺等多模態(tài)感知信息,經(jīng)中樞神經(jīng)處理后生成具體動作指令,這一整合決策過程在日常場景中不可或缺。從學(xué)術(shù)研究趨勢而言,自然語言處理(NLP)與計算機視覺(CV)領(lǐng)域的核心任務(wù)已取得顯著進展,研究者正積極探索新的前沿方向。
值得一提的是,VLA 領(lǐng)域的研究者需精準(zhǔn)定位應(yīng)用場景,弄清楚 L(語言)的核心價值,即為機器人提供了一種更簡便的人機交互方式。這種交互模式具有高度的靈活性與自然性,能夠支持用戶以隨意的方式下達指令,由此衍生出一系列全新的技術(shù)挑戰(zhàn)——不同于傳統(tǒng)預(yù)設(shè)任務(wù)的固定模式,VLA 面臨的任務(wù)往往具有顯著的臨時性特征,需要實時響應(yīng)非預(yù)定義的動態(tài)需求。
VLN 之于 VLA
AI科技評論:那您認(rèn)為導(dǎo)航的難點和重要性在哪里?怎么理解 VLN 跟 VLA 之間的關(guān)系?
吳琦:視覺導(dǎo)航作為任務(wù)本身可能是簡單的,但視覺語言導(dǎo)航(VLN)還是比較難的。
舉個例子,食物掉下餐桌后讓現(xiàn)有的掃地機器人清掃,要不選全屋清掃,要不把機器人搬到附近讓它轉(zhuǎn)圈掃,或者再聰明一些的能在 APP 上把餐桌的區(qū)域畫出來讓它轉(zhuǎn)圈掃。
但 VLN 能實現(xiàn)的是——給一個指令讓它去餐桌附近清理食物,它能利用這信息知道,先導(dǎo)航到廚房餐桌的位置,使用視覺信息找到食物殘渣位置,只去清掃這一塊區(qū)域,而且相比過去的導(dǎo)航任務(wù)和方法,VLN 更擅長處理很臨時性的事件。我們最近在掃地機器人上也基本上實現(xiàn)了這些功能,對這個技術(shù)感興趣的掃地機器人或家用機器人公司,也可以和我們聯(lián)系討論。
當(dāng)然,VLA 中的 action 有很多,VLN 只是其中一個子集,需要具體場景具體分析。有些時候可能并不需要 VLN,比如機器人如果處在工廠、超市這樣的固定場景下,做分揀或清理貨架這些聚焦上半身的任務(wù),它們以非常固定的軌跡去運動就可以了。
但是將來如果到了家用的實際場景,還是需要機器人不斷移動的,這時的導(dǎo)航問題就比較難解決。我和北大的王鶴老師也討論過,室內(nèi)場景還是有很多挑戰(zhàn),除了建模不準(zhǔn)外,還有人移動或交互的影響。
AI科技評論:人的移動或交互這類動態(tài)場景對 VLN 最大的挑戰(zhàn)或難點在哪里?目前都有哪些可行的探索方向?
吳琦:其實動態(tài)場景帶來最大的影響就是之前基于slam建圖式的導(dǎo)航不再適用了,提前利用地圖信息規(guī)劃好的導(dǎo)航路線因為動態(tài)場景可能不再能完成任務(wù)。
這個時候就需要類似于 VLN 的技術(shù)來輔助,就是利用當(dāng)前的視覺信息以及最初的語言指令,來做出短程的導(dǎo)航路徑規(guī)劃,甚至是只預(yù)測下一步往哪里走,而到了下一步,再結(jié)合信息做出新的預(yù)測。
我們最近也提出了一個新的數(shù)據(jù)叫 Obstructed VLN,考慮的就是這個問題,就是在行走過程中發(fā)現(xiàn)出現(xiàn)了路徑的遮擋,需要做出臨時性的調(diào)整,大家可以關(guān)注。
AI科技評論:之前林倞老師團隊發(fā)表的綜述也將 VLN 列為具身智能的一大關(guān)鍵任務(wù),那VLN發(fā)展至今已經(jīng)七年了,除了開山之作外,您認(rèn)為哪些工作是關(guān)鍵呢?
吳琦:很榮幸我們主導(dǎo)了 VLN 領(lǐng)域多個關(guān)鍵節(jié)點工作。在提出三個數(shù)據(jù)集后,相繼采用CNN、RNN及注意力機制等方法開展研究。
Transformer架構(gòu)誕生后,率先基于該架構(gòu)提出“VLN-BERT”,能基于 Transformer 處理 VLN 任務(wù);2022 年 CVPR 發(fā)表的“Discrete-Continuous-VLN”則首次探索 VLN 在離散與連續(xù)環(huán)境間的學(xué)習(xí)鴻溝彌合;去年推出的 NavGPT 是首個將 LLM 引入 VLN 的工作;而今年 ICRA 的 Open-Nav 則首次實現(xiàn) VLN 在真實機器人上的落地應(yīng)用。
其他組也作出了很多關(guān)鍵的工作,比如早期的,Hao Tan 在 NAACL 上提出的 EnvDrop,還是有 Chen Shizhe 也提出過好幾個非常關(guān)鍵的模型,比如現(xiàn)在常用作 baseline 的 DUET。我們的 ScalVLN(目前的SOTA)也是基于 DUET 的工作過。要提一下,Shizhe 也曾經(jīng)在我們 V3Alab 訪問過一段時間,非常優(yōu)秀。
AI科技評論:當(dāng)前具身智能領(lǐng)域里大家對操作任務(wù)的熱情高漲,但您更關(guān)注具身導(dǎo)航。
吳琦:可能還是落地導(dǎo)向吧,現(xiàn)在很多落地場景式工業(yè)場景,或者商業(yè)理貨場景,大部分時候機器人可以以固定路徑,并且在相對固定的場景里移動。而家用場景目前落地還比較難,所以很多人還沒有體會到室內(nèi)視覺導(dǎo)航這塊的難度。
很多人認(rèn)為導(dǎo)航已經(jīng)是被解決完的問題,室內(nèi)導(dǎo)航只需建好圖就能讓機器人指哪到哪,不像 manipulation 那么難。但事實上,假如把它放在具身智能領(lǐng)域,其實還要一定的時間。畢竟,機器人只有在走到對應(yīng)的位置上,才能完成之后的動作。
如果認(rèn)為具身行動就是和上半身有關(guān)的抓取或 manipulation,其實是沒有真正思考清楚什么是具身智能。關(guān)于具身智能眾多的定義里,我最喜歡的是 CVPR 2024 的一個關(guān)于具身智能的討論,即 AI agent 需具備看、聽、說、行動和推理五項基本能力,再能將模擬的機器人解決方案遷移到真實的機器人和現(xiàn)實世界中。
也就是說,只有把視覺信息、語言能力和具體執(zhí)行的任務(wù)(無論是上半身還是下半身的動作)最后實現(xiàn)在真實機器人上,才能稱之為一篇真正的具身智能研究。
AI科技評論:那這和自動駕駛中的導(dǎo)航有哪些不同呢?
吳琦:自駕的導(dǎo)航是室外導(dǎo)航,有很多可利用的信息,比如 GPS 提供精準(zhǔn)定位,結(jié)合高精度地圖、視覺感知(如車道識別、路標(biāo)檢測)及雷達系統(tǒng)(實現(xiàn)障礙物檢測與規(guī)避)。
而我們做的 VLN 其實是室內(nèi)導(dǎo)航,面臨多重限制。由于缺乏 GPS 信號且環(huán)境信息(如地標(biāo)、紋理)稀疏,無法直接復(fù)制室外方案。早期技術(shù)主要依靠視覺 SLAM(同步定位與地圖構(gòu)建)實現(xiàn)環(huán)境建圖,通過攝像頭實時采集數(shù)據(jù)構(gòu)建局部地圖以確定自身位置。但該方案對環(huán)境依賴性強,常需人工預(yù)處理(如標(biāo)記特征點、優(yōu)化場景紋理)以提升建圖精度,難以實現(xiàn)完全自動化。
最大的難點在于收集數(shù)據(jù),尤其是大量的室內(nèi) 3D 環(huán)境數(shù)據(jù)。我們希望獲取盡量真實的 3D 環(huán)境,但這些環(huán)境數(shù)據(jù)本身就很少,也沒有一個特別好的仿真器,而掃地機器人這類真實數(shù)據(jù)又存在隱私問題。我們因此也曾做過室內(nèi)設(shè)計相關(guān)的工作,是基于視覺和語言的裝修風(fēng)格生成,和裝修設(shè)計公司酷家樂合作,他們所提供的 3D 場景數(shù)據(jù)就特別有幫助。
AI科技評論:盡管室內(nèi)不受天氣影響,但也可能會在低光、煙霧等極端感知條件下,視覺輸入失效。是否需為 VLN 引入多模態(tài)備份方案(如超聲波雷達、紅外傳感)?如何實現(xiàn)多模態(tài)信號與語言指令的實時對齊?
吳琦:確實,隨著 simulator 變得越來越好,我們可以模擬出這些復(fù)雜的情景,也可以考慮引入其他的傳感器來輔助導(dǎo)航。我覺得這點上倒是可以參考無人駕駛的一些解決方案,實現(xiàn)多模態(tài)信息的對齊和處理。
卡脖子的數(shù)據(jù)也最易突破
AI科技評論:在 VLN 和 VLA 領(lǐng)域里,當(dāng)前 Top 3 的研究問題都有哪些?
吳琦:我認(rèn)為目前面臨的核心挑戰(zhàn)首要是數(shù)據(jù)問題。當(dāng)前缺乏足夠優(yōu)質(zhì)、大規(guī)模的數(shù)據(jù)集支撐 VLN 或 VLA 模型訓(xùn)練,這與 GPT 依賴海量語料形成鮮明對比。具體而言,數(shù)據(jù)問題可拆解為三部分——
一是模擬器(Simulator)的必要性,與機器人技術(shù)結(jié)合的場景中,模擬器是訓(xùn)練和測試的基礎(chǔ)載體,其性能直接影響數(shù)據(jù)生成質(zhì)量。這里有很多東西可以去考慮,像材質(zhì)摩擦力、摩擦系數(shù)、環(huán)境重力、甚至是熱交互等物理特性,我們常見的物理定律在目前的模擬器里面體現(xiàn)得并不夠,要做真正的世界模型( word model ),數(shù)字孿生不能只是孿生表面,還要涵蓋其本身的物理特性。
二是高質(zhì)量 3D 環(huán)境構(gòu)建的稀缺性,僅有模擬器不足夠,還需在其中構(gòu)建多樣化真實場景(如家庭、工廠、購物中心等),這類 3D 環(huán)境不僅稀缺,且制作成本高昂。
三是專用應(yīng)用數(shù)據(jù)的獨特性,區(qū)別于傳統(tǒng) AI 數(shù)據(jù)(如 NLP 的純文本、CV 的圖像標(biāo)簽),VLA/VLN 需要特定任務(wù)數(shù)據(jù)(如抓取、操作、導(dǎo)航等數(shù)據(jù)),其數(shù)據(jù)格式需整合模擬器、環(huán)境及應(yīng)用場景三類要素,缺一不可。因此,構(gòu)建大規(guī)模復(fù)合數(shù)據(jù)集是 VLA/VLN 的關(guān)鍵發(fā)展方向。
第二個挑戰(zhàn)是 Sim-to-Real 的遷移鴻溝。模型在模擬器中完成高效訓(xùn)練后,需在真實機器人和環(huán)境中部署,但二者存在多重差距——包括環(huán)境差異(如光照、物體物理屬性)和機器人硬件差異(如執(zhí)行器精度),如何彌合這些 Gap 是技術(shù)落地的核心難點。
第三個挑戰(zhàn)與工程部署相關(guān)。VLA/VLN 任務(wù)涉及復(fù)雜推理和模型計算(如導(dǎo)航模塊與GPT大模型的結(jié)合),依賴高性能GPU支持,而在機器人終端實現(xiàn)高效模型壓縮,平衡算力需求與設(shè)備輕量化,是亟待突破的技術(shù)瓶頸。
AI科技評論:在這些瓶頸中,哪一個是最有可能率先被突破的?
吳琦:雖然數(shù)據(jù)是最大的難題,但其實它也是最容易突破的,尤其是圍繞著如何構(gòu)造更好的數(shù)據(jù)集、仿真器和環(huán)境出發(fā),并利用好它們?nèi)ビ?xùn)練一個更好的 VLA 模型。
比如我最近在思考環(huán)境生成的工作,之前和酷家樂的合作就是通過輸入語言描述生成三維的房間環(huán)境,包括房間、家具的布局、墻壁的顏色、地板的材質(zhì)等,但因當(dāng)時模型還不夠強,效果比較一般,但現(xiàn)在或許可以重新拿出來實現(xiàn)一下。輸入可以是各種模態(tài)的,如對環(huán)境的語言描述、已有環(huán)境的圖片、視頻、結(jié)構(gòu)信息,希望模型能按照用戶需求快速地生成一個精準(zhǔn)的符合要求的環(huán)境,再把此環(huán)境導(dǎo)入到桃源或 Isaac Sim 等模擬器里供大家進行訓(xùn)練。
AI科技評論:那針對最關(guān)鍵的數(shù)據(jù)問題,現(xiàn)在都有哪幾種技術(shù)路徑呢?
吳琦:數(shù)據(jù)構(gòu)建主要存在三種技術(shù)路徑。第一是真人操控采集,通過人工控制機器人完成行走、抓取、家具組裝等任務(wù),同步記錄動作軌跡與環(huán)境交互數(shù)據(jù),直接用于模型訓(xùn)練。這種方式依賴真實場景操作,數(shù)據(jù)貼合實際應(yīng)用但采集成本較高。
第二是Sim2Real模擬生成,借助高逼真度物理模擬器(如NVIDIA Isaac Sim、上海AI Lab桃源系統(tǒng))構(gòu)建虛擬環(huán)境,通過算法自動生成機器人執(zhí)行各類任務(wù)的數(shù)據(jù)。該路徑優(yōu)勢在于低成本批量生產(chǎn)數(shù)據(jù)——無需真實硬件介入,即可在模擬環(huán)境中完成海量訓(xùn)練,訓(xùn)練后的模型直接部署至真實機器人。
第三是視頻數(shù)據(jù)驅(qū)動,聚焦互聯(lián)網(wǎng)海量公開視頻(如導(dǎo)航、烹飪等場景),通過分析視頻中的高層決策邏輯(如任務(wù)規(guī)劃、動作序列)訓(xùn)練模型。此路徑規(guī)避了傳統(tǒng)數(shù)據(jù)采集的繁瑣,僅關(guān)注“做什么”的高層規(guī)劃,無需處理機器人“如何執(zhí)行”的底層控制細(xì)節(jié)。
AI科技評論:您很早就開始做 VLA 相關(guān)的 simulation,在您看來,這些年來仿真最大的進展是什么?當(dāng)前最亟待突破的卡點又是什么?
吳琦:確實當(dāng)時我們在設(shè)計和發(fā)布 VLN 這個任務(wù)的時候,就做了一個基于 MP3D 數(shù)據(jù)的 MP3D simulator,這個 simulator 也僅僅是為 MP3D 提供的 environment 數(shù)據(jù)以及 VLN 這個任務(wù)來服務(wù)的,非常的簡單。
我覺得隨著具身智能的發(fā)展,大家越來越關(guān)注 simulator,包括前期 Meta 發(fā)布的 Habitat 1.0、2.0,再到最近的 Nvidia的 Issac-Sim。我覺得 simulator 還是要大廠來做,因為他是一個比較工程的問題。
而 simulator 這塊,我覺得有三塊內(nèi)容比較重要,一個是場景仿真,就是說這個場景看上去要非常真實。這個就涉及到渲染,追光,建模,紋理這些的內(nèi)容。第二個是物理仿真,就是能夠模擬我們的物理現(xiàn)實,比如重力、摩擦力、碰撞等等物理現(xiàn)象。第三個我覺得是這個 simulator 一定要高效,不能因為運行的速度拖延模型的訓(xùn)練,尤其是加入 RL 之后,需要在訓(xùn)練時和 simulator 交互,那么 simulator 的運行效率就很重要了。
AI科技評論:那又有哪些方法能解決Sim2Real Gap和工程部署這兩大問題呢?
吳琦:如果說我們普遍選擇相信 scaling law 的話,我認(rèn)為解決 sim2real 的問題其實就是解決數(shù)據(jù)的問題。
想象一下我們?nèi)绻幸粋€非常龐大的 environment 的數(shù)據(jù)集,包含了各種各樣的場景,而這些場景又非常真實并且能夠?qū)氲?simulator 里供我們訓(xùn)練一個足夠大的模型,那我認(rèn)為是有可能解決這種 gap 的。我們目前就在和酷家樂(群核)這邊合作,在大量的生成這些 environment 數(shù)據(jù),因為他們之前積累了大量的3D資產(chǎn)。
說到部署,我覺得作為機器人本體公司(比如宇樹),可以發(fā)揮更好的作用,提供對應(yīng)的、相對易用的部署工具。這是一個生態(tài)問題。英偉達之所以成為英偉達,關(guān)鍵還是生態(tài)做的好,推動了整個行業(yè)的發(fā)展。硬件公司應(yīng)該要有這樣的前瞻性,提供好的工具,建立好生態(tài),硬件才賣的出去。
更多關(guān)于VLA和VLN的故事,歡迎與雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者anna042023交流。雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。