丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

萬字實(shí)錄:VLA 范式,具身智能的曙光與迷霧丨GAIR Live

本文作者: 賴文昕   2025-06-03 14:22
導(dǎo)語:導(dǎo)語:攻堅深水區(qū),VLA 面臨哪些坦途與荊棘?

整理丨賴文昕

編輯丨陳彩嫻


VLA(視覺-語言-動作模型)作為具身智能領(lǐng)域的關(guān)鍵新范式,能有效整合視覺信息、語言指令與行動決策,顯著提升機(jī)器人對復(fù)雜環(huán)境的理解和適應(yīng)能力,對推動機(jī)器人從單一任務(wù)執(zhí)行向多樣化場景自主決策的跨越至關(guān)重要 ,已成為當(dāng)下學(xué)術(shù)界和工業(yè)界炙手可熱的研究焦點(diǎn)。

2025 年 5 月 9 日,雷峰網(wǎng)(公眾號:雷峰網(wǎng))、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“具身智能之 VLA 的實(shí)踐與突破”的線上圓桌沙龍。

圓桌主持人為北京大學(xué)計算機(jī)學(xué)院助理教授、智源學(xué)者仉尚航,并邀請了清華大學(xué)交叉信息院助理教授、千尋智能聯(lián)合創(chuàng)始人高陽,清華大學(xué)交叉信息院助理教授、星海圖聯(lián)合創(chuàng)始人趙行,與北京大學(xué)人工智能研究院助理教授、北大-靈初智能聯(lián)合實(shí)驗(yàn)室主任楊耀東一起進(jìn)行了一場深度的討論。

萬字實(shí)錄:VLA 范式,具身智能的曙光與迷霧丨GAIR Live

會上,主持人仉尚航帶領(lǐng)討論 VLA,先是探討其定義、起源及相關(guān)模型區(qū)別;接著分析技術(shù)路線與新成果,探討不同路線的優(yōu)缺點(diǎn);隨后圍繞機(jī)器人常見任務(wù),剖析核心技術(shù)瓶頸與主流輸出范式;還研究強(qiáng)化學(xué)習(xí)結(jié)合、泛化能力提升、異構(gòu)數(shù)據(jù)利用與協(xié)同訓(xùn)練;最后關(guān)注落地場景,并探討執(zhí)行長程任務(wù)的難點(diǎn)與可能。

其中,三位嘉賓圍繞 VLA 在具身智能中面臨的技術(shù)瓶頸分別提出了自己的獨(dú)到見解:

高陽認(rèn)為,推理與數(shù)據(jù)是當(dāng)前 VLA 面臨的兩大核心挑戰(zhàn),推理方面雖已有諸多研究探索 VLA 與推理的結(jié)合路徑,但尚未明確最優(yōu)方案;數(shù)據(jù)層面,不僅量級遠(yuǎn)不及訓(xùn)練 VLM 的數(shù)據(jù),多樣性更是嚴(yán)重不足,目前數(shù)據(jù)多采集于簡單環(huán)境,且陷入“數(shù)據(jù)不足限制模型能力、模型能力有限制約數(shù)據(jù)采集”的惡性循環(huán),破解數(shù)據(jù)困境成為 VLA 研究的關(guān)鍵所在。

趙行表示,VLA 在實(shí)際應(yīng)用部署中,系統(tǒng)運(yùn)行頻率單一化存在經(jīng)濟(jì)成本與優(yōu)化難題,基于哺乳動物動作高頻控制、高層次思維低頻閉環(huán)的原理,設(shè)計類似人類的高低頻自適應(yīng)閉環(huán)系統(tǒng)仍是未解決的課題,實(shí)現(xiàn)端到端訓(xùn)練以整合多層次、不同頻率的大系統(tǒng)是最終目標(biāo)。

楊耀東則提出,當(dāng)前 VLA 訓(xùn)練存在割裂問題,大腦(VLM)和小腦(底層策略模型)多分開訓(xùn)練,缺乏端到端訓(xùn)練及類似人類大小腦的雙向交互,雖有部分研究嘗試探索端到端架構(gòu),但聯(lián)調(diào)困難;同時,VLA 缺乏“測試時計算閉環(huán)”,僅能由大模型生成中間信號驅(qū)動小模型輸出動作,無法像語言模型通過強(qiáng)化學(xué)習(xí)在測試時持續(xù)計算優(yōu)化推理能力 。要突破這些困境,需借鑒語言模型經(jīng)驗(yàn),采用端到端架構(gòu)結(jié)合強(qiáng)化學(xué)習(xí),賦予 VLA 動作空間的閉環(huán)推理能力,但面臨工程化落地和數(shù)據(jù)等難題,若不解決,VLA 難以真正釋放具身智能潛力。

以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:


VLA 的前世

仉尚航:大家好,我是本場圓桌的主持人仉尚航,非常榮幸能邀請到來自清華大學(xué)和北京大學(xué)、在 VLA 領(lǐng)域非常資深的幾位專家老師。我們今天的主題是關(guān)于 VLA 的實(shí)踐與突破,首先請各位老師做個自我介紹。


高陽:大家好,我是清華大學(xué)交叉信息研究院的助理教授,同時也是千尋智能的聯(lián)合創(chuàng)始人,非常高興今天能和大家交流一下 VLA 的相關(guān)知識。


楊耀東:非常感謝尚航和雷峰網(wǎng)的邀請,今天來跟大家各位同仁探討一下對 VLA 的思考。我來自北京大學(xué)人工智能研究院,現(xiàn)在研究院這邊也和靈初智能一起在探索 VLA 在靈巧操作上的應(yīng)用。


趙行:大家好,我是清華交叉信息研究院的趙行,我研究機(jī)器人和自動駕駛,在這兩方面都做 VLA 的探索,在機(jī)器人方面也在星海圖從機(jī)器人本體、采數(shù)據(jù)到訓(xùn)練 VLA 模型都有全鏈路的經(jīng)驗(yàn),今天也趁這個機(jī)會和大家互相交流分享。


仉尚航:我們今天討論的主題是具身智能最火熱的話題之一:VLA。作為熱身,咱們可以先簡單聊聊什么是 VLA 以及大家在探索 VLA 過程中的一些經(jīng)驗(yàn)心得,比如應(yīng)該如何定義 VLA?大家是怎么開始轉(zhuǎn)到 VLA 這個賽道上面的?VLA 現(xiàn)在這么受關(guān)注,大家有什么感受?怎么看待 VLA 的技術(shù)路線?

高陽:我認(rèn)為 VLA 源于大模型的技術(shù)變革。我讀博時做自動駕駛,接著是機(jī)器人,最初技術(shù)棧以計算機(jī)視覺、模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為主,雖能在單個或少數(shù)任務(wù)表現(xiàn)良好,但難以實(shí)現(xiàn)一個模型做所有任務(wù)。隨著 VLM 和 LLM 帶來的變革,出現(xiàn)了將不同任務(wù)操作能力整合于一體的視覺-語言-動作大模型新范式,我們組前年起全面投入 VLA 研究。盡管 VLA 是新興領(lǐng)域,但其下的模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù),與傳統(tǒng)同類技術(shù)存在相通之處。

仉尚航:我們看到了高老師發(fā)表的 Spirit VLA 等工作,也很受啟發(fā)。之前具身智能大會在北京舉辦時,也在論壇上聽到了高老師關(guān)于 VLA 的介紹,確實(shí)在這方面的研究很有基礎(chǔ),也期待你未來在 VLA 方向上的更多工作。接下來請耀東老師也介紹一下對 VLA 的定義以及開始研究 VLA 的原因吧。

楊耀東:高老師的闡述很全面了。從大模型視角,ChatGPT 后技術(shù)從語言模態(tài)逐步拓展到視覺與行為動作空間模態(tài),推動大模型從“缸中之腦”向能與物理世界交互的具身智能體轉(zhuǎn)變;從行為動作決策控制視角,傳統(tǒng)控制需從簡單的 MPC(模型預(yù)測控制)、閉環(huán)控制,向具備常識推理與物理接地(physics grounding)能力的通用控制拓展,這恰好契合大模型特性。

兩條發(fā)展路徑并行推進(jìn),使得機(jī)器人與大模型領(lǐng)域?qū)W者都紛紛聚焦 VLA。作為具身智能的技術(shù)亮點(diǎn),相比前代技術(shù)突破,VLA 憑借大幅提升的智能水平,有望顯著增強(qiáng)機(jī)器人在動作決策與行為空間部署上的能力,在未來發(fā)展中占據(jù)重要地位。 


 仉尚航:沒錯,正如耀東老師所言,VLA 也是咱們大模型技術(shù)和具身智能的一個很好的結(jié)合,你過去也做了很多關(guān)于大模型對齊的相關(guān)工作,正好也可以把它應(yīng)用到具身智能領(lǐng)域上。也請趙行老師談一談你對于 VLA 的定義、開始的契機(jī)以及自己的觀察和感受吧。

趙行:謝謝尚航老師。我對 VLA 的出現(xiàn)有挺大的震撼和感慨的。23 年 3 月 GPT-4 發(fā)布前,ChatGPT 等工作都是純語言模型,盡管整個 AI 行業(yè)挺受震撼,但對我們做視覺、機(jī)器人和自動駕駛的研究者來說,和我們的關(guān)系不是太大,而 VLM 即帶視覺的 GPT 的出現(xiàn)就不同了。

我印象非常深刻,GPT-4 發(fā)布那晚我們在看它的技術(shù)報告,里面展示了很多有意思的視覺理解能力,包括一些理解數(shù)學(xué)題里圖案的例子。有一個案例是,圖像里路上有臺車,后面有人在燙衣服,GPT-4 能理解場景里的情況,那么很自然的,我們就能想到說,對于在路上看到有人燙衣服這種幾乎不可能見到的長尾問題,可以讓模型幫我們做一系列后續(xù)的決策和規(guī)劃。 我們當(dāng)晚就著手寫一個 research proposal,要把視覺語言模型用到帶規(guī)劃決策的下游應(yīng)用上,開始做一個基于雙系統(tǒng) VLM 加上端到端的模型設(shè)計。之所以我們先從自動駕駛領(lǐng)域關(guān)注到這些,是因?yàn)樽詣玉{駛有長尾問題,而長尾問題意味著沒有數(shù)據(jù)可訓(xùn)練。沒有數(shù)據(jù)可訓(xùn)練,端到端也就無從談起。要解決這種長尾問題,只有通過有理解和推理能力的 VLM 和 VLA 模型。 往后看,我覺得未來的機(jī)器人或具身智能大領(lǐng)域都會如此。當(dāng)我們用具身智能機(jī)器人解決越來越多的問題,一定會遇到從沒見過的場景,不是靠收集數(shù)據(jù)就能簡單解決的,模型范式一定會進(jìn)化到 VLM、VLA 這類范式上,所以自此就比較堅定往這方向探索。


仉尚航:這個觀察非常敏銳,在 VLM 剛出現(xiàn)時就能想到把它應(yīng)用到自動駕駛領(lǐng)域,確實(shí)有很好的 Sense。大家剛剛提到 VLA 模型里面很重要的 VLM 和 LLM 的能力,VLM 也是源自于 LLM,那么大家覺得 LLM 或者語言模態(tài)在 VLA 中的作用是什么?

以及我們在做 VLM 時比較容易觀察到的一個局限是,它關(guān)于一些細(xì)粒度、局部、幾何信息的感知,可能不如傳統(tǒng)純視覺模型那么精準(zhǔn),比如說分割、深度估計、bounding box(邊界框)坐標(biāo)的感知,但在具身智能領(lǐng)域,我們又非常需要機(jī)器人準(zhǔn)確地抓取物體,那如何去彌補(bǔ) VLM 缺失局部空間信息的挑戰(zhàn)呢?

高陽:那我先拋磚引玉一下。首先對于第一個問題,我們?nèi)祟愖寵C(jī)器人做一件事情要傳達(dá)給機(jī)器人,傳達(dá)的方式其實(shí)大多數(shù)是語言,L 在這里就起到一個指定任務(wù)的作用;V 和 L 之間的對齊也很重要,因?yàn)槲覀冊谥付ㄈ蝿?wù)后,機(jī)器人需要能理解當(dāng)前的場景。語言是“拿一個水杯”,那這個水杯對應(yīng)的圖片到底在哪個位置?以及很多時候人類的語言描述有些上下文信息是關(guān)于圖像的,那么把這兩個模態(tài)結(jié)合起來,就可以讓這個模型更好地去理解人類的意圖,這些能力其實(shí)都依賴于 VLM 的預(yù)訓(xùn)練。


仉尚航:對的,語言模態(tài)本身也能帶來很多對機(jī)器人有用的額外信息,包括交互指令的接收等,然后可能也可以通過語言和視覺的對齊來增強(qiáng)視覺模態(tài)上的泛化性。那關(guān)于第二個問題,如何補(bǔ)充缺失的局部信息?不知道趙老師有沒有什么想法?因?yàn)橼w老師做自動駕駛,也有很多非常需要精準(zhǔn)感知的任務(wù)。

趙行:我簡單分享下我的經(jīng)歷。GPT-4V 發(fā)布當(dāng)晚,我就和同學(xué)們開始計劃該怎么做。作為做應(yīng)用的 researcher,從解決問題反推方法,VLA 和 VLM 的價值核心在于填補(bǔ)了具身智能領(lǐng)域此前模型普遍缺乏的常識能力,common sense,比如道路交通規(guī)則、人機(jī)社交規(guī)則等,這些被視覺語言模型包含在內(nèi)的常識能幫助解決數(shù)據(jù)覆蓋不到的長尾場景問題。

從實(shí)現(xiàn)路徑看,既然 VLM 具備這種潛力,即便其 3D 感知能力有限,也可先與現(xiàn)有成熟的、達(dá)到 80-90 分表現(xiàn)的 3D 視覺感知模型結(jié)合,通過架構(gòu)設(shè)計取長補(bǔ)短。未來只有 VLM 而沒有其他模型,這也是個比較高概率的結(jié)果。長期來看,當(dāng)前 VLM 預(yù)訓(xùn)練數(shù)據(jù)缺乏物理世界具身智能數(shù)據(jù),未來若能將更多3D幾何、時間等物理常識數(shù)據(jù)融入訓(xùn)練,這很可能會發(fā)展為一個主流技術(shù)的探索方向。


仉尚航:謝謝趙老師的分享。首先我們可以把在 3D 感知上面效果好的模型和 VLM、VLA 結(jié)合,其次還可以在數(shù)據(jù)上面多引入物理規(guī)律,對落地和應(yīng)用也很有啟發(fā)。不知道耀東老師這邊還有要補(bǔ)充的嗎?

楊耀東:前面兩位老師已清晰描述了現(xiàn)狀。如今大模型已在語言模型上取得突破,以往是將計算機(jī)視覺領(lǐng)域的好模型往語言模型上遷移,現(xiàn)在則是把自然語言處理上好的架構(gòu)應(yīng)用到計算機(jī)視覺架構(gòu)中。一方面,Transformer的成功推動了這一轉(zhuǎn)變;另一方面,人工智能在語言模態(tài)上實(shí)現(xiàn)了大模型、大數(shù)據(jù)、大算力的三位一體,產(chǎn)生了Scaling Law。

從哲學(xué)角度看,維特根斯坦認(rèn)為語言認(rèn)知是世界的邊界,語言能表達(dá)所有事物,且語言處于離散空間,在建模上會更容易。然而,如何從語言模態(tài)突破到視覺和動作模態(tài)仍是挑戰(zhàn)。目前工程上通過拼接,比如將高質(zhì)量視覺模型、底層動作模型與語言模型結(jié)合,能解決部分問題。

但從通用智能體和 AGI 的角度出發(fā),未來需要技術(shù)變革,將各模態(tài)融合,還是期望有大一統(tǒng)的表征,把所有變量納入其中,但這個維度太高了。若相信所有模態(tài)能投影到低流行空間(柏拉圖假設(shè)),那將有助于 VLA 和具身智能的大一統(tǒng),以及實(shí)現(xiàn)更強(qiáng)的智能突破。目前 VLA 剛起步,語言和 VLM 有一定突破,拼接思路已現(xiàn),未來技術(shù)革新可能會解決如 3D 信息感知不準(zhǔn)確等問題,雖然不知所需時間,但應(yīng)該不會太久。


VLA 的今生

仉尚航:我們剛才討論了 VLA 的前世,現(xiàn)在來聊聊它的今生,即 VLA 目前有幾種技術(shù)路線,以及看看老師們有沒有關(guān)于最新進(jìn)展的一些分享,比如像海外 Physical Intelligence 團(tuán)隊發(fā)布 π 0.5 模型、Figure AI 的 Helix,高陽老師最近發(fā)布的 Spirit v1,還有星海圖和 PI 緊密的合作,包括我們團(tuán)隊最近也和靈初智能在合作。大家作為資深專家,談一談各位對 VLA 技術(shù)路線及最新進(jìn)展的看法吧。

高陽:VLA 多年技術(shù)進(jìn)展集中于架構(gòu)與數(shù)據(jù)兩方面。架構(gòu)上,從谷歌無預(yù)訓(xùn)練的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5,發(fā)展依托于 VLM進(jìn)步。隨著開源 VLM 架構(gòu)優(yōu)化與訓(xùn)練方法革新,相關(guān)成果拓展至 VLA,同時 Flow Matching、Diffusion 等技術(shù)提升了機(jī)器人動作生成能力。

數(shù)據(jù)層面,從谷歌用 Everyday Robots 采的私有數(shù)據(jù)集,到 Open X-Embodiment 等開源數(shù)據(jù),包括仉尚航老師也做了些很好的數(shù)據(jù)集工作,國內(nèi)外機(jī)構(gòu)積極探索,通過新采集、歷史數(shù)據(jù)處理等方式豐富數(shù)據(jù)源。此外,π 0.5 并非暴力采大量數(shù)據(jù)而是轉(zhuǎn)向互聯(lián)網(wǎng)數(shù)據(jù),我們千尋智能也嘗試用視頻預(yù)訓(xùn)練。數(shù)據(jù)質(zhì)量決定模型上限,這是 VLA 發(fā)展最根本、持久的驅(qū)動力。

楊耀東:我從模型架構(gòu)角度再說說,按對 action 的表征方式,VLA 可分為兩大類型:將 action 作為連續(xù)動作處理時,需采用 diffusion 類生成式模型(如 π 系列工作),因?yàn)樽曰貧w模型主要處理離散 token;若把 action 抽象成語言模型中的 token,則以 Helix 為代表。這兩類模型都依賴 VLM,旨在將語言空間的常識映射到物理空間的 action,我們最近也在寫一個 VLA 總結(jié),探索 action 表征為離散或連續(xù)空間的更優(yōu)方式。

進(jìn)一步而言,行為動作空間無論是離散還是連續(xù)表征,都可類比為人的大小腦(雖此類比有待商榷),其中 VLM 如同大腦負(fù)責(zé)推理決策規(guī)劃,action 的 token 化或 diffusion policy 則類似小腦執(zhí)行精細(xì)化操作,這兩種技術(shù)范式不斷發(fā)展演變,衍生出眾多變體,但始終圍繞這兩大主流框架。

在訓(xùn)練方法上,當(dāng)前 VLA 主要采用監(jiān)督學(xué)習(xí),與兩年前大模型領(lǐng)域類似,依靠百萬級數(shù)據(jù)集輸入指令以實(shí)現(xiàn)跟隨人力指令效果。然而,如何提升 VLA 在測試時的推理能力,充分發(fā)揮語言模型的推理優(yōu)勢,仍是亟待解決的關(guān)鍵問題。

趙行:我較關(guān)注的切入點(diǎn)是雙系統(tǒng)。剛才提到我們做應(yīng)用的人更關(guān)注到底解決什么問題,說到現(xiàn)在的具身智能都缺常識,而 VLM 解決常識,那就把 VLM 和現(xiàn)有的端到端模型合作以實(shí)現(xiàn)一個雙系統(tǒng)。 VLM 是一個推理速度較慢的模型,部署后大概能實(shí)現(xiàn) 2-3 赫茲的推理速度,而端到端模型能實(shí)現(xiàn) 10-20 赫茲的推理速度,它倆進(jìn)行某種合作實(shí)現(xiàn)雙系統(tǒng)。我們最早在自動駕駛實(shí)現(xiàn)并且落地了,這是我們一個挺自豪的成果,接著我們主要關(guān)注機(jī)器人領(lǐng)域的 VLA 設(shè)計,簡單分解為以下幾類。 首先是最有代表性的 π 0,我稱之為緊湊的一段式 VLA,即圖像、語言指令作為輸入,直接輸出動作,和端到端模型差不多。Hi Robot 是雙系統(tǒng)設(shè)計,由 VLM 拆解高層次指令為原子動作后交給 VLA 執(zhí)行,模式和自駕的雙系統(tǒng)差不多,VLM 是一個低頻率運(yùn)作的系統(tǒng),VLA 是一個高速運(yùn)作系統(tǒng)。

相似的雙系統(tǒng)工作有 Figure AI 的 Helix 和英偉達(dá)的 GROOT N1,但和 PI 稍不同的是他們沒有訓(xùn)練 VLM,那個 VLM 是從互聯(lián)網(wǎng)上拿大家訓(xùn)練好的開源模型去提取 VLM 的中間特征,把中間特征作為一個額外輸入給一個端到端的 DP(動態(tài)規(guī)劃)模型,然后讓 DP 模型最后輸出動作,是一種 VLM 不訓(xùn)練、提取其特征傳給 DP 的設(shè)計。π0.5 和 Dex VLA 則以視覺為輸入,中間做個 COT(思維鏈)解釋它為了完成動作所要做的推理和規(guī)劃,最后再把動作輸出來,算是一段式的、有中間輸出的 VLA。 最近有一個比較有意思的方向是,谷歌提的 embodied reasoning(具身推理),即不那么著急地訓(xùn)練一個 VLA 模型,因其本身從感知到規(guī)劃的能力不是特別強(qiáng),不如先把具身的推理模型訓(xùn)練好,當(dāng)給模型指令時,模型看到圖片能指出應(yīng)操作圖片里的哪一個物體,如把它從 a 位置放到 b 位置,它的 3D 空間位置是 1.5 米還是 2 米,訓(xùn)好后再把里面的知識蒸餾給 VLA,連上后面的 action decoder,側(cè)重在 VLM 模型本身的能力。


仉尚航:確實(shí)是干貨滿滿。你在自動駕駛領(lǐng)域也是很早就開始做雙系統(tǒng),關(guān)于剛才提到的這幾種技術(shù)路線,會覺得哪一種更有可能實(shí)現(xiàn)或勝任開放世界的更落地或者是 Out Of Lab(脫離實(shí)驗(yàn)室)的任務(wù)呢?

趙行:其實(shí)這個答案我也不知道,目前 VLA 框架設(shè)計仍處于百花齊放的狀態(tài),有緊湊式、中間輸出、兩段式、并聯(lián)或串聯(lián)等各種組合。但大趨勢是,無論原本做 VLM(從大語言模型出發(fā))還是做機(jī)器人(專注 planning model、action model)的團(tuán)隊,都在做全棧開發(fā)。

為提升 VLM 能力,現(xiàn)在會引入動作數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,目標(biāo)是訓(xùn)練出具身推理模型,甚至是到動作級別的完整模型 VLA。無論是大語言模型公司,還是做具身智能的研究者 / 企業(yè),都在朝這個方向發(fā)展。大語言模型陣營會向 VLA 延伸,融合視覺與動作能力;機(jī)器人陣營則從解決精細(xì)操作的原子任務(wù)入手 —— 過去一個 Benchmark 包含 10 個動作就能證明模型能力,現(xiàn)在需要覆蓋 100、200 甚至 500 個 task。在堆積大量任務(wù)的過程中,大家發(fā)現(xiàn)簡單拼湊任務(wù)不可行,需要一個高效的 VLM 編碼器和解碼器來做跨模塊融合。兩股力量正朝著終局的 VLA 共同努力。


仉尚航:現(xiàn)在 VLA 確實(shí)是一個百花齊放的狀態(tài),就像人工智能在最早期的符號主義、連接主義也是百花齊放,但隨著研究進(jìn)程慢慢地收斂。目前像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做雙系統(tǒng)也發(fā)布了相應(yīng)的 Demo,也許這種雙系統(tǒng)是在近期可能會更容易讓大家覺得更具有落地或泛化潛力的設(shè)計,但未來還不好說。

VLA 包含各種各樣的 Action,對于機(jī)器人中現(xiàn)在研究最多的 Manipulation、過去的 Navigation(VLN)和 人形機(jī)器人相關(guān)的 Locomotion 三大任務(wù),各位能否請各位結(jié)合自身研究,分享一個您認(rèn)為該領(lǐng)域最需突破的核心技術(shù)瓶頸呢?

高陽:我認(rèn)為推理是當(dāng)前一大難點(diǎn),執(zhí)行復(fù)雜任務(wù)時往往需要推理,趙老師、楊老師等學(xué)者在 VLA 與推理結(jié)合方面也開展了諸多研究,但我覺得哪種路徑最優(yōu)仍無定論。

另一個核心挑戰(zhàn)是數(shù)據(jù)。當(dāng)前數(shù)據(jù)量級遠(yuǎn)不及訓(xùn)練 VLM 的數(shù)據(jù),且多樣性不足更為關(guān)鍵。我們采集的數(shù)據(jù)多來自簡單環(huán)境,理論上若有無窮多樣的數(shù)據(jù),VLA 難題或可迎刃而解,但現(xiàn)實(shí)中存在“數(shù)據(jù)不足限制模型能力,模型能力有限又導(dǎo)致數(shù)據(jù)采集困難”的雞生蛋問題。如何破解數(shù)據(jù)困境,是 VLA 研究的重中之重。


仉尚航:Reasoning(推理)能力和數(shù)據(jù)這兩點(diǎn)的確是很大的挑戰(zhàn),要不請耀東老師也分享一下,你所遇到的核心技術(shù)瓶頸是什么呢?

楊耀東:我覺得當(dāng)前 VLA 訓(xùn)練仍處于割裂狀態(tài),大腦和小腦分開訓(xùn)練,很少端到端訓(xùn)的。這不像人類大腦與小腦的雙向交互(小腦執(zhí)行中的反饋會實(shí)時作用于大腦),現(xiàn)有雙系統(tǒng)架構(gòu)是訓(xùn)練產(chǎn)物而非生理結(jié)構(gòu)。如何打通端到端訓(xùn)練是關(guān)鍵,若底層策略(如diffusion模型)與上層架構(gòu)脫節(jié),聯(lián)調(diào)難度大,雖有清華 RDT、PI 等嘗試探索端到端架構(gòu)(PI雖是 frozen 的但具備端到端能力),所以打通大小腦是一個比較重要的問題。

另一個問題是,語言模型通過強(qiáng)化學(xué)習(xí)在測試時(test time)持續(xù)計算優(yōu)化推理能力(輸出行為反哺輸入形成語義閉環(huán)),但 VLA 目前僅能讓大模型生成中間信號(embedding/token/condition)驅(qū)動小模型輸出動作,缺乏真正的“測試時計算閉環(huán)”——動作執(zhí)行后無法回流至VLM形成迭代優(yōu)化。

要突破這一點(diǎn),需借鑒語言模型經(jīng)驗(yàn),用端到端架構(gòu)結(jié)合強(qiáng)化學(xué)習(xí),賦予 VLA 在動作空間的閉環(huán)推理能力。這一技術(shù)方向已被關(guān)注,但工程化落地(結(jié)合高老師提到的數(shù)據(jù)難題)仍是 VLA 亟待解決的核心課題,否則它可能只是模塊拼接產(chǎn)物,難以釋放具身智能的真正潛力。 第二個問題是,打通訓(xùn)練后如何通過我們在語言模型上已經(jīng)看到的、利用強(qiáng)化學(xué)習(xí)的方法顯著提升其推理能力?,F(xiàn)在的 VLA,它所有推理能力都來自于 VLM,但這遠(yuǎn)遠(yuǎn)不夠,因?yàn)槲覀冎涝谡Z言模型推理能力強(qiáng)的大部分原因是因?yàn)樗茏?test time compute,在測試時間不停地思考,準(zhǔn)確度越來越高,所以在語義空間能形成閉環(huán),即輸出的行為能在變成輸入到 VLM 去。 但對于 VLA 來講,現(xiàn)在大模型生成一個中間產(chǎn)物,如某種 embedding、token 或 condition,然后到了小模型小腦輸出了一個行為就沒了,這沒辦法 test time compute。真正的 test time compute 是一個視覺或指令輸入,輸出一個 action,這個 action 還得回到 VLA 里去,這樣才能形成閉環(huán),加之以測試時間的算力提升,徹底提升整個行為動作空間的泛化性、準(zhǔn)確性和魯棒性等。 這背后需要攻克的技術(shù)難點(diǎn)是怎么利用端到端架構(gòu)賦以強(qiáng)化學(xué)習(xí)訓(xùn)練的知識和 knowhow,復(fù)刻出我們在語言模型上已經(jīng)取得的成功。這一技術(shù)方向已被關(guān)注,但工程化落地及高老師提到的數(shù)據(jù)難題,仍是 VLA 亟待解決的核心課題,否則它可能只是模塊拼接產(chǎn)物,難以徹底釋放智能到具身智能中去。


仉尚航:其實(shí)我下一個問題就是關(guān)于怎么結(jié)合強(qiáng)化學(xué)習(xí)來提升閉環(huán)反饋能力,耀東老師正好先幫我回答了。我們繼續(xù)請趙老師談一下你覺得 VLA 的核心瓶頸是什么?

趙行:我剛剛提到的各類 VLA 范式,并聯(lián)、串聯(lián)、一段式、中間輸出等大多是簡單的線性無環(huán)圖,而我們理想中的 VLA 應(yīng)讓視覺、語言、動作三模態(tài)形成閉環(huán),這個耀東老師解釋得已經(jīng)非常清楚了。

另一個可能的挑戰(zhàn)是,實(shí)際應(yīng)用部署時,我們不希望整個系統(tǒng)以單一頻率運(yùn)行,這不僅涉及經(jīng)濟(jì)成本,也是系統(tǒng)優(yōu)化層面的難題。從哺乳動物的角度來看,動作控制需要高頻運(yùn)行,實(shí)現(xiàn)快速感知反饋,而高層次思維閉環(huán)的頻率則應(yīng)更低。從這個第一性原理去思考,應(yīng)該設(shè)計出類似人類的高低頻自適應(yīng)閉環(huán)系統(tǒng),但至今仍是未被攻克的課題。


仉尚航:你說的高頻率、低頻率,Helix 這個工作是不是這種結(jié)合?

趙行:對,我們現(xiàn)在設(shè)計出了一種不閉環(huán)的架構(gòu),比如 Helix 的設(shè)計,它的 VLM 是 frozen 的,沒有訓(xùn)練就是把 feature 拿出來加上一個 action 的 diffusion policy model,是串聯(lián)式的,但我覺得可能不是最好的,它需要把動作反饋回來,但一旦反饋回來后,不同頻率的兩個系統(tǒng)如何實(shí)現(xiàn)閉環(huán)?我覺得這是個比較大的挑戰(zhàn),那當(dāng)然希望終局有一個端到端的訓(xùn)練方式,把這種多層次、不同頻率的一整個大系統(tǒng)都能訓(xùn)練起來。


RL 之于 VLA

仉尚航:系統(tǒng)級的閉環(huán)設(shè)計確實(shí)是很重要的。剛才耀東也提到和強(qiáng)化學(xué)習(xí)的結(jié)合,那 VLA 已有大量的預(yù)訓(xùn)練,也體現(xiàn)了一定的泛化能力、推理能力。但剛剛提到的 Reasoning 還需要進(jìn)一步提升,比如和強(qiáng)化學(xué)習(xí)的結(jié)合,也許是一種不錯的思路。先請耀東來補(bǔ)充一下 VLA 和強(qiáng)化學(xué)習(xí)如何更好地結(jié)合?

楊耀東:解決這類問題沒有“一招鮮”的方案。從語言模型推理模型的發(fā)展來看,無論是 OpenAI 的 o 系列還是 DeepSeek 的 r 系列,背后都是一套完整的工程 pipeline,不是跑一個 RLHF 或 GRPO 就解決的,涉及冷啟動、迭代蒸餾、數(shù)據(jù)制造與合成等多個環(huán)節(jié)。我們在與靈初的實(shí)驗(yàn)室合作中的嘗試雖有初步成果,但確實(shí)沒達(dá)到終局。

從數(shù)據(jù)角度看,相比離散空間問題,連續(xù)動作空間的研究難度更大。以 AlphaGo 為例,僅靠 3000 多萬條人類動作樣本(約16萬局游戲)就能解決下棋這類離散控制問題;而 Helix 使用 500 小時數(shù)據(jù),折算后達(dá) 1 億 - 5 億條。離散問題用千萬級數(shù)據(jù)尚可解決,但連續(xù)動作空間,尤其涉及靈巧手操作時,數(shù)據(jù)的質(zhì)量和多樣性會嚴(yán)重影響 VLA的訓(xùn)練與強(qiáng)化效果,而當(dāng)前大部分的 VLA 其實(shí)還在做夾爪。

回顧語言模型發(fā)展,早期指令跟蹤需百萬級數(shù)據(jù),如今幾萬條就能實(shí)現(xiàn)不錯效果。數(shù)據(jù)需求會經(jīng)歷從“多”到“少而精”的階段,往下發(fā)展肯定是 less is more,但這個 less 沒有 more 的階段,是沒法認(rèn)知里頭的結(jié)構(gòu)的。目前的數(shù)據(jù)采集多采用監(jiān)督學(xué)習(xí)思路,如通過遙操作獲取抓取軌跡,雖能用于冷啟動,有一個不錯的小腦 policy,但和大小腦聯(lián)動的強(qiáng)化學(xué)習(xí)自訓(xùn)練范式還不是一回事。

好在我們現(xiàn)在有 Issac Gym、Issac Sim 等提供免費(fèi)合成數(shù)據(jù),可以在虛擬環(huán)境中大量訓(xùn)練,結(jié)合 sim to real 技術(shù)有望緩解數(shù)據(jù)問題。但如何利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)自合成、自訓(xùn)練,尤其是在靈巧手應(yīng)用場景中,目前研究仍較少,挑戰(zhàn)巨大。


仉尚航:感謝耀東的分享,其中提到的觀點(diǎn)極具啟發(fā)性——VLA 與強(qiáng)化學(xué)習(xí)結(jié)合時,數(shù)據(jù)準(zhǔn)備不應(yīng)遵循自監(jiān)督訓(xùn)練框架,而需采用面向自訓(xùn)練的模式,類似 AlphaGo 之后 AlphaZero 通過自訓(xùn)練提升棋力的路徑。作為強(qiáng)化學(xué)習(xí)領(lǐng)域的專家,能否請高老師分享一下兩者如何更好地結(jié)合?

高陽:我認(rèn)為強(qiáng)化學(xué)習(xí)是 VLA 發(fā)展的必由之路。如同大語言模型從預(yù)訓(xùn)練起步,經(jīng) GPT-1 到 3.5 逐步開展 SFT 微調(diào)、RLHF 微調(diào),VLA 發(fā)展大概率也會歷經(jīng)這三個階段。RLHF 對 VLA 作用與單一語言模型相似,可減少幻覺和動作錯誤。

但目前仍存在許多未解問題。比如在 VLA 的 RLHF 中,如何激發(fā)類似 COT 的行為?對機(jī)器人來說,怎樣的連續(xù)動作序列才符合 COT 標(biāo)準(zhǔn)?這些概念尚無明確定義,我們實(shí)驗(yàn)室正在探索。

將強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)體機(jī)器人與在仿真器中有著本質(zhì)區(qū)別。在現(xiàn)實(shí)物理世界開展強(qiáng)化學(xué)習(xí),面臨安全性、數(shù)據(jù)量等挑戰(zhàn),亟需深入研究解決。一旦突破這些難題,機(jī)器人或能在現(xiàn)實(shí)世界實(shí)現(xiàn)自主訓(xùn)練。


仉尚航:就像高老師說的,RL 與 VLA 結(jié)合有多種方式,比如在真機(jī)上用在線強(qiáng)化學(xué)習(xí)做下游任務(wù)微調(diào),或結(jié)合離線 RL 與模仿學(xué)習(xí)進(jìn)行 VLA 預(yù)訓(xùn)練。目前這仍處于早期探索階段,思路多樣。趙老師怎么看強(qiáng)化學(xué)習(xí)與 VLA 的結(jié)合?是否有更好的結(jié)合方法? 

 趙行:我來討論一個大家可能沒提及的任務(wù)。我們做了很多機(jī)器人全身運(yùn)動的研究,從四足機(jī)器狗到雙足人形的運(yùn)動控制,這個領(lǐng)域強(qiáng)化學(xué)習(xí)已得到驗(yàn)證,比如讓機(jī)器人跑酷、跳舞、打拳等都能出色完成,這表明強(qiáng)化學(xué)習(xí)用于訓(xùn)練 low level 的控制是可行的。

再看上層,一般會用到 VLA 模型,它有更多推理步驟。從未來發(fā)展看,強(qiáng)化學(xué)習(xí)和 VLA 模型必然有融合趨勢,強(qiáng)化學(xué)習(xí)訓(xùn)練的模型梯度有機(jī)會從控制模型反向傳播到上層 VLA 模型。不過,融合的具體細(xì)節(jié)還需大家進(jìn)一步探索。


真實(shí)數(shù)據(jù)、仿真數(shù)據(jù)還是互聯(lián)網(wǎng)數(shù)據(jù)?

仉尚航:沒錯,這確實(shí)是個很有意思的研究方向。不僅 RL 能助力 VLA,VLA 也能反哺 RL,優(yōu)化運(yùn)動控制。剛才大家都提到了數(shù)據(jù),我正好也準(zhǔn)備了相關(guān)問題。就像 π 0.5 和許華哲老師報告中展示的數(shù)據(jù)金字塔,底層是互聯(lián)網(wǎng)數(shù)據(jù),中層是仿真數(shù)據(jù),上層是真機(jī)數(shù)據(jù),這體現(xiàn)了多源數(shù)據(jù)訓(xùn)練的有效性。

我想請教各位老師,VLA 訓(xùn)練該用真機(jī)數(shù)據(jù),還是混合數(shù)據(jù)?若選擇混合,該如何配比?不同訓(xùn)練階段(預(yù)訓(xùn)練、微調(diào)、后訓(xùn)練)又該如何選擇數(shù)據(jù)?高老師先談?wù)劙伞?/p>

高陽:我認(rèn)為數(shù)據(jù)的多樣性最為關(guān)鍵。我們曾在論文《data scaling law in imitation learning》中提出,數(shù)據(jù)的絕對數(shù)量并非核心,多樣性才是重中之重?;诖?,我對仿真數(shù)據(jù)是比較悲觀的。雖然仿真數(shù)據(jù)容易大量生成,也能通過域隨機(jī)化增加隨機(jī)性,但目前沒有仿真器能復(fù)刻物理世界的豐富多樣性,無論是物體種類還是交互形式。

因此,仿真數(shù)據(jù)或許可用于粗糙的預(yù)訓(xùn)練,過往一些抓取類仿真器和數(shù)據(jù)集在現(xiàn)實(shí)應(yīng)用中也取得過一定效果。不過,除了簡單抓取和局部運(yùn)動控制,涉及復(fù)雜通用操作任務(wù)時,仿真器的能力仍遠(yuǎn)達(dá)不到現(xiàn)實(shí)世界的復(fù)雜度。所以我認(rèn)為,豐富的互聯(lián)網(wǎng)圖文數(shù)據(jù)、人類視頻數(shù)據(jù)以及現(xiàn)實(shí)場景采集的遙操數(shù)據(jù),才應(yīng)是 VLA 訓(xùn)練的主要數(shù)據(jù)來源。 


仉尚航:我在具身智能大會聽到你的報告也專門介紹了如何更好地利用互聯(lián)網(wǎng)數(shù)據(jù),要不再給大家介紹一下?

 高陽:千尋智能投入大量精力探索如何利用互聯(lián)網(wǎng)數(shù)據(jù)優(yōu)化 VLA 模型,其中代表性工作之一是提出 Any-point Trajectory Modeling(ATM)。我們從互聯(lián)網(wǎng)人類活動視頻中提取關(guān)鍵點(diǎn)運(yùn)動信息,讓模型預(yù)測這些關(guān)鍵點(diǎn)軌跡,以此學(xué)習(xí)人類行為模式。通過對預(yù)訓(xùn)練后的模型進(jìn)行微調(diào),其泛化能力顯著提升,尤其在場景適配和物體類型識別方面表現(xiàn)出色?;ヂ?lián)網(wǎng)數(shù)據(jù)豐富多樣,我們覺得這一方向極具潛力,還有大量數(shù)據(jù)尚未被充分挖掘和利用。 


仉尚航:非常贊同,數(shù)據(jù)和模型是相輔相成的。若想更好地利用低成本的互聯(lián)網(wǎng)數(shù)據(jù),對模型設(shè)計的要求會更高;而使用高成本的真機(jī)數(shù)據(jù)時,模型設(shè)計或許可以更簡單直接。關(guān)于數(shù)據(jù)方面,高老師提到仿真數(shù)據(jù)因不夠真實(shí),對訓(xùn)練的幫助有限。想問問另外兩位老師,對于 VLA 的數(shù)據(jù),尤其是仿真數(shù)據(jù),你們是同意這一觀點(diǎn),還是有不同的看法呢?

楊耀東:我可以補(bǔ)充一下。首先我也認(rèn)可互聯(lián)網(wǎng)數(shù)據(jù)的重要性,但它存在信噪比低的問題,就像金融數(shù)據(jù),看似豐富卻難以篩選有效信息?;ヂ?lián)網(wǎng)數(shù)據(jù)雖有人的行為軌跡和操作視頻,但對不同任務(wù)場景的適用性差異很大。比如專注夾爪(Gripper)操作研究,互聯(lián)網(wǎng)數(shù)據(jù)幾乎派不上用場,因?yàn)橐曨l中的人類動作難以直接遷移到機(jī)械末端執(zhí)行器,即便遷移到上肢部位,對實(shí)際操作幫助也有限。在靈初智能的實(shí)踐中發(fā)現(xiàn),若要實(shí)現(xiàn)靈巧手的精細(xì)化端到端操作,互聯(lián)網(wǎng)數(shù)據(jù)作用不大,反而是外骨骼設(shè)備采集的精準(zhǔn)數(shù)據(jù),對 sim to real 和后訓(xùn)練 VLA 而言,更能有效提升性能。

這一認(rèn)知與傳統(tǒng)學(xué)術(shù)研究觀點(diǎn)不同。通常認(rèn)為數(shù)據(jù)多樣性越高越好,論文常展示模型在跨實(shí)體、跨任務(wù)場景下的表現(xiàn),但這里存在一個誤區(qū):過多無關(guān)數(shù)據(jù)會稀釋關(guān)鍵信息,導(dǎo)致模型策略性能下降。雖然通用人工智能(AGI)需要多元數(shù)據(jù)融合來提升性能,但畢竟現(xiàn)在通用智能還比較遠(yuǎn),具身智能就更渺小了,而在具體任務(wù)的場景里,這些更高維度、更廣域的數(shù)據(jù)反而是有害的,這是我們在實(shí)踐中得出的經(jīng)驗(yàn)。


仉尚航:好,耀東這邊關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)提出了一些不同的想法,不知道高陽老師有沒有想補(bǔ)充或者討論的?

高陽:我非常同意,其實(shí)互聯(lián)網(wǎng)上數(shù)據(jù)我們統(tǒng)計下來可能只有 1% 的數(shù)據(jù)是有用的,大量數(shù)據(jù)都是無效的,這就需要大量的數(shù)據(jù)清洗工作。只有捕捉到人手操作物體,以及物體間交互關(guān)系的視頻數(shù)據(jù)才具備價值。這和大語言模型不同,大語言模型雖也需清洗數(shù)據(jù),但即便不清洗,也能訓(xùn)練出尚可的模型;而互聯(lián)網(wǎng)視頻數(shù)據(jù)必須經(jīng)過嚴(yán)格、大量的清洗,才能用于訓(xùn)練 。


仉尚航:是的,互聯(lián)網(wǎng)數(shù)據(jù)容易獲取,是個大寶庫,但得想辦法挖掘其中有價值的部分。關(guān)于 VLA 訓(xùn)練中互聯(lián)網(wǎng)數(shù)據(jù)和仿真數(shù)據(jù)這塊,真機(jī)數(shù)據(jù)的價值是毋庸置疑的。趙老師對這方面有什么想法呢?是和剛才老師們觀點(diǎn)相同,還是有不同之處?

趙行:我最初和高陽老師觀點(diǎn)相似,對仿真數(shù)據(jù)持悲觀態(tài)度。因?yàn)闃?gòu)建完全真實(shí)的仿真環(huán)境太難,不僅要視覺真實(shí),還得實(shí)現(xiàn)幾何、物理和行為真實(shí),sim to real gap 會巨大。但后來發(fā)現(xiàn),計算機(jī)視覺領(lǐng)域的可微分渲染技術(shù)(如 3D 高斯 NERF)能縮小這一差距,主要解決物體紋理和幾何真實(shí)性問題。

在我看來,仿真數(shù)據(jù)的作用是放大真實(shí)數(shù)據(jù)。以我們在星海圖的工作為例,通過“real to sim to real”閉環(huán)鏈路,先拍攝機(jī)器人作業(yè)場景視頻,再進(jìn)行幾何重建、新視角渲染,拆解重組場景完成數(shù)據(jù)增廣。這不是憑空創(chuàng)造數(shù)據(jù),而是基于現(xiàn)有數(shù)據(jù)拓展。如今視頻生成模型越來越強(qiáng)大,甚至能僅憑一條拍攝數(shù)據(jù)重建場景,這是個不錯的方向。

不過,這條技術(shù)路線非常依賴真實(shí)數(shù)據(jù),視頻生成模型還無法理解物理幾何規(guī)律,不能替代物理仿真器。目前可行的技術(shù)路線,是通過半重建、半生成的方式將現(xiàn)實(shí)映射到虛擬世界,實(shí)現(xiàn)數(shù)字孿生和數(shù)據(jù)放大,再與真實(shí)數(shù)據(jù)聯(lián)合訓(xùn)練。但仿真終究只是輔助,真實(shí)世界采集的數(shù)據(jù)才是關(guān)鍵。 


仉尚航:是的,我印象深刻。去年8月世界機(jī)器人大會,我和高繼揚(yáng)老師一同參加論壇,當(dāng)時他興奮地跟我提及星海圖即將發(fā)布 Real2Sim2Real(從現(xiàn)實(shí)到仿真再到現(xiàn)實(shí))相關(guān)成果。正如你所說,若仿真數(shù)據(jù)足夠真實(shí),其價值會顯著提升,像 3D 高斯這類技術(shù)助力重建,讓仿真更逼近現(xiàn)實(shí)。

但我一直在思考物理特性模擬的問題。3D 高斯等技術(shù)或許能在外觀層面高度還原,可物體的物理規(guī)律,諸如重力、摩擦力、紋理觸感,以及材質(zhì)重量、表面紋理細(xì)節(jié)等,要實(shí)現(xiàn)高度逼真模擬,似乎還有很長的路要走。所以我想請教一下,仿真數(shù)據(jù)若要更具價值,是必須全方位接近真實(shí),包括這些物理特性,還是僅外觀接近就足夠了呢?

趙行:對,就像剛才提到的 Real2Sim2Real 技術(shù)以及聯(lián)合訓(xùn)練,更多是解決泛化性這個寬泛概念里的具體問題。比如在 Sim2Real Gap 中,包含視覺紋理、幾何、物理動力學(xué)以及行為等方面的差距,目前這些技術(shù)只是盡可能地縮小其中視覺泛化性方面的差距,對于物理和行為交互等方面的泛化性問題,我們還需要一種技術(shù)來攻克后面這些Sim2Real Gap。


如何提高泛化性?

仉尚航:好,我們接著 Sim2Real(從仿真到現(xiàn)實(shí))以及泛化性的問題繼續(xù)探討。之前我們討論過 VLA 的推理能力,而泛化能力也很重要,各位老師在報告中也常提及。那么,該如何進(jìn)一步提升現(xiàn)有 VLA 的泛化能力呢?這其中包括跨本體、跨場景、跨任務(wù)、跨物體等方面的泛化能力。想請老師們給出一些建議,高老師能否先說說呢?  

高陽:我認(rèn)為就 VLA 的泛化能力而言,最簡單直接的方式是利用大量互聯(lián)網(wǎng)的視覺語言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。比如加入各類不同的相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練,還可以引入視頻,并使用輔助的損失函數(shù)。

提升泛化能力方面,無論是大語言模型還是視覺語言模型,都沒有算法上的奇跡。主要是通過各種方式生成大量數(shù)據(jù),這些數(shù)據(jù)一部分來自真實(shí)世界,一部分是通過仿真方法得到的。當(dāng)模型接觸到豐富多樣的數(shù)據(jù)后,就能自然地學(xué)會避免神經(jīng)網(wǎng)絡(luò)中的一些捷徑,從而泛化到新的場景。對于 VLA 來說,在這方面也并無太大不同。

楊耀東:我覺得有個角度值得思考,即把 VLA 當(dāng)作大模型來拓展其泛化能力。從數(shù)據(jù)、模型架構(gòu)和訓(xùn)練角度來看,剛才提到數(shù)據(jù)要多樣,模型架構(gòu)可能改變,訓(xùn)練要增加強(qiáng)化學(xué)習(xí)、端到端等。在此基礎(chǔ)上,或許需要跳出現(xiàn)有框架思考下一代技術(shù)。

比如在大語言模型方面,訓(xùn)練大模型很困難,而人類的強(qiáng)大在于能不斷在線自適應(yīng)學(xué)習(xí)新技能。這對大語言模型意味著測試時的計算、訓(xùn)練或?qū)R,即在不動或只動一點(diǎn)權(quán)重的前提下,快速適應(yīng)新結(jié)構(gòu)、任務(wù)和物體。這在小腦方面尤其重要,因?yàn)槿祟愋∧X的可塑性很強(qiáng),小孩的靈巧操作能力,比如13、14個月大的孩子看幾次示范就能學(xué)會擰發(fā)條。

目前在純語言大模型上已看到一些好跡象,如 John Schulman 提到,模型訓(xùn)練到一定程度后,發(fā)現(xiàn)俄語中的一個錯誤,他用 20 條對應(yīng)的英語數(shù)據(jù)調(diào)整后就修復(fù)了錯誤。所以我們要追尋一種下一代的范式,即無需大動干戈就能快速學(xué)會新能力的方式,也就是研究神經(jīng)網(wǎng)絡(luò)的可塑性,這可能需要算法上的革命,像現(xiàn)在一些 TTT 范式就值得關(guān)注。

另外,我們還需突破現(xiàn)有“大腦加小腦”的大模型認(rèn)知局限,這種認(rèn)知較為片面武斷,或許是出于商業(yè)化或面向大眾、投資人的考慮,便于大家理解“大腦小腦”概念。但人類生理機(jī)制復(fù)雜,以呼吸和心跳為例,按“大腦小腦”分析本應(yīng)歸屬小腦,但實(shí)際由腦干控制。

目前的 VLA,無論是 Helix 還是 π,都缺失“腦干”這樣的結(jié)構(gòu)。所以,對架構(gòu)進(jìn)行創(chuàng)新至關(guān)重要,這可能是實(shí)現(xiàn)強(qiáng)大泛化能力、推動 VLA 向下一階段規(guī)?;l(fā)展的關(guān)鍵。當(dāng)然,當(dāng)下也需做好數(shù)據(jù)優(yōu)化、強(qiáng)化訓(xùn)練、實(shí)現(xiàn)具身認(rèn)知等工作,但要實(shí)現(xiàn)真正的泛化,還需付出更多努力。 

趙行:我認(rèn)為未來機(jī)器人會像地球生物一樣形態(tài)多樣。大概率不需要單一的大腦或 VLA 模型,耀東老師提到的后訓(xùn)練或 test time training 范式更適合具身智能。機(jī)器人各有獨(dú)特本體和作業(yè)空間,不像自動駕駛車追求通用,比如亞馬遜最近展示的倉庫機(jī)器人,用帶觸覺的雙面履帶夾爪,減少對視覺的依賴,特定任務(wù)效率更高。

但我們更需要一套完善工具,包含預(yù)訓(xùn)練 checkpoint、后訓(xùn)練或 test time training 工具,能針對具體場景采集少量數(shù)據(jù)完成適配,最后去把這個問題給解決到 99.9% 的成功率。我們既要重視預(yù)訓(xùn)練數(shù)據(jù)采集,也要關(guān)注后訓(xùn)練范式發(fā)展,甚至可以在其中融入機(jī)器人本體聯(lián)合優(yōu)化,實(shí)現(xiàn)策略訓(xùn)練與本體參數(shù)調(diào)整同步進(jìn)行。最終目標(biāo)是讓各類機(jī)器人如同生物多樣性般,在不同場景高效作業(yè)。 


仉尚航:趙老師提到,提升泛化性不應(yīng)局限于單一模型,而需要算法、數(shù)據(jù)與本體設(shè)計協(xié)同的整體系統(tǒng)或工具。觀察到星海圖與 Physical Intelligence 的合作,他們的論文也涉及用你們的本體及硬件調(diào)整,這讓我思考:VLA是否需要特定構(gòu)型配合?是否并非所有機(jī)器人構(gòu)型都適合 VLA 模型,若想增強(qiáng)其泛化能力,或許需要針對性的構(gòu)型設(shè)計。比如耀東老師提到的靈巧手自由度高,增加了 VLA 實(shí)現(xiàn)的復(fù)雜度,那是否采用三指夾爪反而更利于完成泛化任務(wù)?

總結(jié)一下,我想和老師們探討:VLA與本體構(gòu)型設(shè)計存在怎樣的關(guān)聯(lián)?為了讓 VLA 更準(zhǔn)確、更具泛化性,是否需要設(shè)計特定構(gòu)型或構(gòu)型系列?我們對國內(nèi)多種機(jī)器人做過實(shí)驗(yàn),發(fā)現(xiàn)了這一現(xiàn)象,也希望聽聽各位在產(chǎn)業(yè)界有豐富經(jīng)驗(yàn)、參與本體設(shè)計的老師的看法。

高陽:這個問題很有意思。理論上,VLA 模型和機(jī)器人本體沒有必然綁定,不同手臂、手部數(shù)量的機(jī)器人都能執(zhí)行任務(wù)。但首先要承認(rèn),硬件存在固有局限,VLA 無法突破這些物理限制,比如兩只手就操作不了專為人類五指設(shè)計的剪刀。

其次,若 VLA 能力足夠強(qiáng),就能充分發(fā)揮每個本體的硬件上限。最后,關(guān)于本體數(shù)量,我認(rèn)為未來可能只需少量通用本體。為每個本體單獨(dú)匹配 VLA,從商業(yè)和構(gòu)建成本上看都過高。即使人類作為強(qiáng)大的 VLA,切換操作不同本體也需大量練習(xí),其他機(jī)器人切換本體同樣會產(chǎn)生高額成本。所以,我傾向于少量通用構(gòu)型的機(jī)器人更可能占據(jù)主導(dǎo),它們能降低硬件、軟件及算法開發(fā)的綜合成本,還能勝任各類任務(wù)。

千尋在設(shè)計本體時,目標(biāo)是讓機(jī)器人能完成世界上90% - 95%的任務(wù),這樣才能覆蓋成本、廣泛應(yīng)用。我們的機(jī)器人采用全身力控設(shè)計,各關(guān)節(jié)靈活,力控功能對于機(jī)器人與現(xiàn)實(shí)世界交互至關(guān)重要,就像學(xué)術(shù)界常用的 Frank 力控機(jī)械臂。為平衡初代產(chǎn)品能力,我們選擇輪式底盤而非雙足形態(tài),因?yàn)檩喪降妆P通過性好、占地小,不易受空間限制,這是我們的底層邏輯。 


仉尚航:力控確實(shí)非常重要。關(guān)于本體構(gòu)型設(shè)計和 VLA 模型的關(guān)系,耀東老師有什么想討論的呢?我們其實(shí)很關(guān)注靈初,最近也多謝耀東老師的支持,陳源培在和我們合作研發(fā)關(guān)于靈初的手和臂做收銀任務(wù),也預(yù)期能在智源大會上一起展示。

楊耀東:我不算典型的具身智能研究者,就是懂些靈巧操作。從 2022 年做雙手靈巧操作的實(shí)踐來看,這是個極具挑戰(zhàn)性的問題。一方面,它涉及高自由度控制;另一方面,傳統(tǒng)模仿學(xué)習(xí)難以解決,互聯(lián)網(wǎng)數(shù)據(jù)也無法直接應(yīng)用,因此我們從一開始就選擇了強(qiáng)化學(xué)習(xí)路線。實(shí)踐證明,強(qiáng)化學(xué)習(xí)在雙手配合、操作任務(wù)等方面效果顯著,2022 年我們還實(shí)現(xiàn)了雙手高速拋接。

這段經(jīng)歷讓我認(rèn)識到,很難有通用模型能解決雙手靈巧操作問題,甚至要設(shè)計出通用 VLA 來徹底解決雙手操作也非常困難。人的大腦都無法將右手經(jīng)驗(yàn)直接應(yīng)用到左手,在模型參數(shù)層面實(shí)現(xiàn)技能和軌跡遷移更是難上加難,后訓(xùn)練成本極高,不如針對特定硬件架構(gòu),用垂域數(shù)據(jù)和訓(xùn)練方法定制模型。

所以在靈初的研究中,我們沒有采用端到端大一統(tǒng)模型,而是自下而上,基于硬件設(shè)計外骨骼采集設(shè)備,針對超時打包、掃碼補(bǔ)貨等特定場景采集真人數(shù)據(jù)訓(xùn)練。結(jié)合 VLM 的常識和物理 grounding 能力,在這些場景中獲得了比傳統(tǒng)機(jī)器人更強(qiáng)的泛化能力,具備一定商業(yè)化潛力,但距離實(shí)現(xiàn)人類 95% 的日常操作仍有很大差距。

從宏觀角度看,如今大家都在討論大模型 Agent。Sam Altman 的說法是,Agent 只要能完成人類 3% 的任務(wù),AGI 就算實(shí)現(xiàn),因?yàn)槌松先祟惖?GDP 是個巨大的數(shù)字。但目前具身智能離這個目標(biāo)還很遠(yuǎn),能完成人類 0.3% 的任務(wù)就已十分了不起。這需要產(chǎn)學(xué)研深度融合,探索各類應(yīng)用場景,像高老師、趙老師等眾多科研人員,包括智源開展的 RoboMIND 項目,都非常有意義,若能成功,將為國家乃至人類帶來巨大貢獻(xiàn)。


仉尚航:是的,從數(shù)據(jù)到模型到硬件本體到系統(tǒng),其實(shí)都需要聯(lián)動以及我們多方結(jié)合去努力,甚至最終形成一個生態(tài)。趙老師有什么可以分享的嗎?

趙行:在這個問題上,我們起初就有深入思考。星海圖最早提出“智能定義本體”,這并不完整,這里的“智能”涵蓋智能模型算法、數(shù)據(jù)采集難度以及可解決問題的數(shù)量。正如高老師所說,能解決 90% - 95% 的任務(wù),這些因素共同決定合適的本體形態(tài)。所以第一階段,我們選擇輪式底盤加雙臂夾爪的機(jī)器人形態(tài),它便于智能模型控制、數(shù)據(jù)采集,也能處理不少任務(wù),后續(xù)再逐步添加靈巧手等復(fù)雜部件。

需要說明的是,我們認(rèn)為未來機(jī)器人生態(tài)會豐富多樣。但在 ToC 端,面向家庭消費(fèi)者,大概率會出現(xiàn)通用人形機(jī)器人,因?yàn)槿诵问侨祟愂澜绲摹白畲蠊s數(shù)”,能解決更多問題;而在 ToB 端,商業(yè)和工業(yè)場景中,預(yù)計會有幾種主流形態(tài)的機(jī)器人,針對具體應(yīng)用場景,通過后訓(xùn)練、test time training,或本體與任務(wù)協(xié)同設(shè)計,進(jìn)行手臂加長、輪子加大等細(xì)化改造。這就是我們整體的思路。


長程任務(wù)與商業(yè)落地

仉尚航:最后 20 分鐘有一個我自己非常關(guān)注的問題,就是關(guān)于長程任務(wù)。我們通常用 VLM 拆解長程任務(wù)為原子任務(wù),再由 VLA 執(zhí)行。但 VLA 只能做原子任務(wù)嗎?它能否直接完成長程任務(wù)?目前相關(guān)研究很少,VLA 大多仍在執(zhí)行短程任務(wù)。我想請教大家,VLA 是否有潛力獨(dú)立完成長程任務(wù)?若有,我們是否該朝此方向探索?如果要實(shí)現(xiàn),該怎么做,才能避免先由 VLM 拆解、再讓 VLA 執(zhí)行短程任務(wù)的模式?

高陽:我認(rèn)為這并非最關(guān)鍵、最急需解決的問題。若 VLA 能完成大量短程任務(wù),那搭配上層任務(wù)調(diào)度器,就能解決現(xiàn)實(shí)中多數(shù)問題。屆時,主要挑戰(zhàn)在于調(diào)度器與 VLA 的協(xié)同。直接用 GPT 等做調(diào)度器可能效果欠佳,因其不了解 VLA 的能力邊界,但可通過少量 prompt 使其掌握下層的能力邊界。雖然這種任務(wù)拆解方式并非最優(yōu),卻足以應(yīng)對90% - 95%的任務(wù)。所以,這個問題有研究價值,但建議先搭建好基礎(chǔ)框架,再深入探索會更有意義。


仉尚航:明白,高老師認(rèn)為這不是我們特別緊急要解決的第一個優(yōu)先級,那耀東覺得 VLA 是否需要盡量去解決長程任務(wù)?還是也像高老師這樣覺得說其實(shí)配合一個大腦模型做拆解就可以了。

楊耀東:我認(rèn)為這是個很迫切的任務(wù)。在組建靈初實(shí)驗(yàn)室時,我邀請了北大專門做推理模型 VLA 的梁一韜老師。從 Nvidia 的話語體系看,第一代具身智能是 Minecraft agent,雖操作鼠標(biāo)鍵盤的自由度不高,但開放環(huán)境下任務(wù)復(fù)雜。一年多前,通過語言智能體,在 Minecraft 上的 VLA 運(yùn)用 self reflection(自我反思)、correction(修正)、replanning(重新規(guī)劃)等技術(shù),讓其玩三四個小時不犯錯,完成有稀疏獎勵且需使用多種工具的任務(wù)已沒問題。

與機(jī)器人操作相比,很多機(jī)器人操作視頻時長大概 10 到 15 秒。而像超市補(bǔ)貨這類復(fù)雜任務(wù),籃子里可能有二三十個物體、幾千個 SKU(庫存保有單位),操作過程遠(yuǎn)超 10 到 15 秒,這對現(xiàn)有 VLA 是很大挑戰(zhàn),若不能自我糾錯和重新規(guī)劃,任務(wù)成功率會顯著降低。

在和靈初開發(fā)大腦和小腦時,VLA 的推理能力優(yōu)先級很高。最近做了個靈巧手打麻將的 demo,一鏡到底,機(jī)械臂不僅要計算出牌,還要考慮各種原子動作,如牌的抓取方式等。僅靠 VLM 或強(qiáng)推理模型,沒有端到端且具備embody COT(具身思維鏈)能力的 VLA 是解決不了問題的。打麻將是這樣,補(bǔ)貨、掃碼打包、物料分揀等場景也都需要這種能力。


仉尚航:就是又回到咱們剛才說的閉環(huán)了,要是 VLA 能同時具備記憶、未來預(yù)測反饋閉環(huán),進(jìn)而完成超長任務(wù),確實(shí)很有價值。趙老師,你覺得近期的 VLA 研究是否要聚焦于這類長程任務(wù)?如果需要,該如何推進(jìn)?高老師和耀東老師提出了不同思路,你怎么看?

趙行:在我們的研究中,相對更關(guān)注動作能力本身。畢竟長程推理較難定義,而語言和視覺的定義相對清晰。我們見過不少視覺語言的 reasoning benchmark,但還沒有視覺語言動作的 benchmark,這就急需學(xué)術(shù)界共同去定義并形式化這個問題,然后全力研究。

在機(jī)器人任務(wù)里存在一個大坑。比如做研究時,想讓機(jī)器人做咖啡,那為何非要用VLA模型呢?為什么不自己寫個狀態(tài)機(jī),訓(xùn)練一些動作再串聯(lián)起來解決問題呢?作為評審時,也會問寫論文的人,為什么要用VLA來解決問題,畢竟現(xiàn)有的狀態(tài)機(jī)寫100條規(guī)則就能處理所有情況。

所以,VLA 領(lǐng)域急缺一個好的推理評價體系,讓我們清楚 VLA 的長程任務(wù)是什么,并且在長程任務(wù)中,清楚是哪幾步因?yàn)橥评硎《В恢皇且驗(yàn)閯幼鲌?zhí)行、自適應(yīng)控制或恢復(fù)等能力不足而失敗。目前對于真正的機(jī)器人 VLA 推理模型還沒有一個確定的結(jié)論,這點(diǎn)很重要。 

 

仉尚航:對,趙老師也分享了我們目前為止沒有討論到的層面,就是如何定義和評測推理能力。

趙行:對,現(xiàn)在大家覺得長程只是時間長,但我們還得從任務(wù)的復(fù)雜度以及所需的邏輯推理能力的復(fù)雜度這些角度來看問題,我覺得會更好。


仉尚航:定義、評價、評測的確重要。目前為止我們已經(jīng)跟大家討論了關(guān)于 VLA 模型的架構(gòu)設(shè)計、數(shù)據(jù)、訓(xùn)練策略,包括 RL 等,但還沒討論到的問題就是它的輸出,這也是直播觀眾們比較感興趣的問題。

目前主流的 VLA 輸出范式有四種,分別是自回歸的 Next Action Prediction(OpenVLA,F(xiàn)AST),Diffusion 或者 Flow Match Modeling(Pi0,RDT-1B),和最簡單的基于回歸監(jiān)督的(RoboMamba,RoboFlamingo),同時利用自回歸和 Diffusion 進(jìn)行魯棒 Action 輸出(HybridVLA),大家如何看待這幾種輸出范式的發(fā)展呢?

高陽:從推理實(shí)時性角度看,我認(rèn)為 Diffusion 和 Flow Matching 不可或缺,否則難以保證實(shí)時性。至于預(yù)訓(xùn)練是否采用 Next Token Prediction,這取決于技術(shù)發(fā)展,特別是能否提升 Flow Matching 和 Diffusion 的訓(xùn)練速度,這些都有待進(jìn)一步研究探索。 

楊耀東:我們認(rèn)為 tokenization 至關(guān)重要,因?yàn)槲覀兿M剿骶呱硭季S鏈(embodied COT)和測試時計算(test time compute)的實(shí)現(xiàn)方式。若要以此為基礎(chǔ),無法將動作輸出轉(zhuǎn)化為模型輸入,就無法進(jìn)行 test time compute。

因此,我們深入研究了多種 action tokenization 形式,這或許是短期內(nèi)將大模型成熟技術(shù)范式最快遷移到 VLA 訓(xùn)練中的方法,能快速把大模型的經(jīng)驗(yàn)應(yīng)用到 VLA 上。不過,其中存在諸多工程問題,特別是 tokenization 的形式和表征影響很大,而且最大的弊端是速度問題。

這很考驗(yàn)工程設(shè)計,我們可以通過分塊(chunking)方法規(guī)避,也能探索 hybrid 混合方法。目前來看,自回歸形式依然關(guān)鍵,因?yàn)橄胭x予模型推理能力,從設(shè)計角度,diffusion 這類方法還未顯現(xiàn)出打造強(qiáng)推理模型的明顯趨勢。 


仉尚航:那你會認(rèn)為 Hybrid(混合)的結(jié)構(gòu)可能是近期比較 Promising(有潛力的)的一種方式嗎?

楊耀東:可能是的,我們從靈初這邊發(fā)布的 VLA 角度來講,還是做自回歸形式,主要目的是能讓它做 test time compute,這個是我們比較關(guān)注的點(diǎn)。


仉尚航:大家關(guān)注的這個側(cè)重點(diǎn)也不同,趙老師對 VLA 的輸出范式這塊有什么想法呢?

趙行:當(dāng)下 diffusion model 熱度很高,我對其原理和方法也有不少研究。雖然擴(kuò)散模型在文生圖、文生視頻領(lǐng)域展現(xiàn)出強(qiáng)大能力,但尚未證明自身在預(yù)訓(xùn)練,尤其是多模態(tài)預(yù)訓(xùn)練方面的價值?,F(xiàn)有的文生圖或文生視頻模型,大多使用固定的文本編碼器提取特征,將其作為條件進(jìn)行從噪聲到圖像、視頻的生成,本質(zhì)上更多是訓(xùn)練一個較大的解碼器,始終未能證明可用于多模態(tài)或跨模態(tài)混合預(yù)訓(xùn)練。

反觀下一個token預(yù)測(next token prediction)方法,在 VLM 的研究中,許多工作將圖像切分 patch,經(jīng)線性投影后放入大的 Transformer,用該方法訓(xùn)練能取得良好效果。由此可見,至少目前來看,next token prediction 在預(yù)訓(xùn)練方面的可靠性更高。因此,我更傾向于認(rèn)為自回歸方式在當(dāng)下是更有潛力的研究路線。


仉尚航:好,最后一個問題相信也是大家非常感興趣的具身智能的落地場景。很多投資人、老師們都在討論具身智能第一步能落地的場景是什么?各位老師在產(chǎn)學(xué)研結(jié)合上做得非常出色,對于產(chǎn)業(yè)也有很好的觀察,所以想請問一下大家比較希望具身智能先在哪個場景下面落地?是工業(yè)、家庭、醫(yī)療還是其他? 

高陽:我認(rèn)為在落地應(yīng)用方面,工業(yè)場景最容易實(shí)現(xiàn)。盡管 VLA 前景廣闊,但目前其能力尚處初級階段,現(xiàn)階段適合在需求最迫切的場景落地。

從傳統(tǒng)機(jī)器人四大家族的情況來看,工業(yè)生產(chǎn)是對機(jī)器人需求最旺盛的行業(yè)。例如汽車產(chǎn)業(yè)鏈,大部分總裝線已實(shí)現(xiàn)高度機(jī)器人自動化,工業(yè)客戶清楚機(jī)器人能帶來的價值。相比之下,商業(yè) B 端客戶過去很少使用機(jī)器人,不太了解機(jī)器人應(yīng)用的意義和預(yù)期效果,較難接受。而且工業(yè)場景相對簡單,所以無論是從場景復(fù)雜度,還是客戶使用經(jīng)驗(yàn)來看,工業(yè)場景都是 VLA 最先落地的選擇。   


仉尚航:對,我和高陽老師、趙行老師比較相同的點(diǎn)是之前都做過自動駕駛,和車廠本來就有合作,所以對汽車產(chǎn)業(yè)也非常關(guān)注。那耀東老師覺得哪個落地場景比較 Promising 呢?

楊耀東:這個問題其實(shí)比較難,因?yàn)槲覀兙劢轨`巧手研發(fā),不涉及人形機(jī)器人下半身問題,在靈巧操作領(lǐng)域,類似莫拉維克悖論,看似簡單的任務(wù)(如用螺絲槍打螺絲),用靈巧手實(shí)現(xiàn)卻很難,從泛化性、準(zhǔn)確性等維度看,現(xiàn)有技術(shù)都難以完全模擬人類操作,所以工業(yè)總裝線上雖有大量人工操作,但機(jī)器人替代并非易事,很多東西需要去試。

今年從整個產(chǎn)業(yè)上來講,國內(nèi)目前約 50 - 100 家具身智能公司,去年投資額約 100 億,現(xiàn)階段需要各公司多嘗試不同場景,探尋能提升生產(chǎn)力、產(chǎn)量大、盈利且有 sweet point 的場景,一方面真的能提升生產(chǎn)力,一方面產(chǎn)量又很大,一方面還能掙錢,真能符合這三個圈的并集的技能集,我認(rèn)為不會很多,不太像是短時間內(nèi)我們突然能夠海量生產(chǎn)、廣而告之,然后瘋狂往外撲的局面。

從工業(yè)及 ToB、ToC 角度分析,工業(yè)場景雖適合機(jī)器人應(yīng)用,但工業(yè)機(jī)器人年產(chǎn)量僅 60 萬臺,產(chǎn)量有限,和預(yù)想的差距太大;ToC 領(lǐng)域,人形機(jī)器人雖有前景,但實(shí)際應(yīng)用功能不明確,現(xiàn)階段難以落地;還有 ToBC 模式,即機(jī)器人賣給B端用于C端服務(wù)(如迎賓、倒咖啡),以及文娛類(扭秧歌、閱兵機(jī)器人)等新場景或許有發(fā)展空間,如同無人機(jī)用于煙花表演。當(dāng)前最大挑戰(zhàn)在于機(jī)器人產(chǎn)量少,選擇應(yīng)用場景時需考量規(guī)模和影響力,過小的場景即便能做也缺乏商業(yè)價值,這是我的一些思考。


仉尚航:是的,現(xiàn)在還需要耐心,不同公司探索不同場景,大家把整個生態(tài)做起來也還是蠻好的,可以不用拘泥于一格。那趙老師對落地場景有什么看法呢?

趙行:每個做具身智能的公司都會深入思考過這個問題,我們的結(jié)論是,這一代通用 AI 機(jī)器人不應(yīng)與傳統(tǒng)機(jī)器人或設(shè)備競爭,而要開辟新賽道。傳統(tǒng)機(jī)器人節(jié)拍高、精度高,新一代通用 AI 機(jī)器人應(yīng)避開高精度、高節(jié)拍任務(wù),主攻精度要求不高但需泛化能力的任務(wù),這類任務(wù)在工廠里很常見,比如處理形狀不規(guī)則、位置不定甚至柔性物體的低節(jié)拍任務(wù),現(xiàn)有技術(shù)都可以解決。

然后我們認(rèn)為更大機(jī)會在商業(yè)領(lǐng)域。商業(yè)場景中的任務(wù)同樣對精度和節(jié)拍要求不高,而且在這些場景里,機(jī)器人不僅能發(fā)揮實(shí)用作業(yè)價值,還能提供情緒價值,大概八成實(shí)用價值,兩到三成情緒價值 ,這樣的場景是很好的切入點(diǎn)。


仉尚航:感謝分享,各位老師在落地實(shí)踐與場景探索方面見解深刻。今天交流了所有預(yù)設(shè)問題,感謝三位老師百忙中傾囊相授,讓我收獲頗豐。相信觀眾通過這場圓桌論壇,在科研、產(chǎn)業(yè)及落地應(yīng)用方面均能有所啟發(fā)。平時報告通常僅 30 分鐘,兩小時深度交流尤為珍貴。期待未來看到老師們更多精彩成果,也盼望與各位加強(qiáng)交流、深化合作。今天的交流到此結(jié)束,謝謝大家!

更多具身智能故事,歡迎添加雷峰網(wǎng)作者anna042023交流。雷峰網(wǎng)

相關(guān)文章:

CMU 具身智能風(fēng)云榜:從傳統(tǒng)到全面

MIT 具身智能達(dá)人志

伯克利具身智能圖譜:深度強(qiáng)化學(xué)習(xí)浪尖上的中國 90 后們

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

萬字實(shí)錄:VLA 范式,具身智能的曙光與迷霧丨GAIR Live

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說