JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

本文作者：賴(lài)文昕

2024-12-30 15:05

導(dǎo)語(yǔ)：導(dǎo)語(yǔ)：具身智能的高層感知，可以從認(rèn)知科學(xué)突破。

作者 | 賴(lài)文昕

編輯 | 陳彩嫻

近日，馬爾獎(jiǎng)得主、約翰霍普金斯大學(xué)教授 Alan Yuille 的團(tuán)隊(duì)發(fā)布了一項(xiàng)世界模型方向的重磅工作——GenEx，引起了具身智能領(lǐng)域的廣泛討論與關(guān)注。

作為李飛飛初創(chuàng)公司 World Labs 發(fā)布的同期工作，生成模型 GenEx 的特別之處在于它能讓 AI 具有"想象力"，使智能體通過(guò)想象出來(lái)的觀測(cè)探索生成式世界。

受到心智模型的啟發(fā)，GenEx 希望在一定程度上試圖模擬人類(lèi)大腦中對(duì)世界的認(rèn)知方式和理解機(jī)制，以實(shí)現(xiàn)更智能、更靈活的人工智能系統(tǒng)。

具體而言，GenEx 系統(tǒng)有兩個(gè)相互關(guān)聯(lián)的組件：一個(gè)是想象世界，它能動(dòng)態(tài)地生成可供探索的三維環(huán)境；另一個(gè)是具身智能體，它與這個(gè)環(huán)境相互作用，以完善自身的理解和決策能力——兩個(gè)組件構(gòu)成了一個(gè)共生系統(tǒng)，使得人工智能能夠以類(lèi)似于人類(lèi)認(rèn)知過(guò)程的方式進(jìn)行模擬、探索和學(xué)習(xí)。

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

項(xiàng)目鏈接：https://www.genex.world/

GenEx 僅依據(jù)單張 RGB 圖像就能生成整個(gè)三維連貫的想象環(huán)境，還能通過(guò) 360 度的全景視頻使其變得栩栩如生。

在 GenEx 生成式想象力的驅(qū)動(dòng)下，智能體能執(zhí)行復(fù)雜的具身任務(wù)，包括與目標(biāo)無(wú)關(guān)的探索和目標(biāo)驅(qū)動(dòng)的導(dǎo)航。這些智能體利用對(duì)物理世界中未被觀測(cè)部分的預(yù)測(cè)性預(yù)期來(lái)完善自身認(rèn)知，基于潛在決策模擬不同結(jié)果，并做出更明智的選擇。

而且，GenEx 還可以擴(kuò)展到多智能體場(chǎng)景，當(dāng)某個(gè)智能體導(dǎo)航到其他智能體的位置時(shí)，還能根據(jù)其他智能體想象的認(rèn)知更新自己的認(rèn)知。

這個(gè)工作的核心作者，是約翰霍普金斯大學(xué)即將畢業(yè)的中國(guó)博士生陳杰能。

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

在轉(zhuǎn)向世界模型、空間智能前，陳杰能的研究重點(diǎn)為醫(yī)學(xué)圖像，本科畢業(yè)于同濟(jì)大學(xué)計(jì)算機(jī)系，2020 年到約翰霍普金斯大學(xué)讀博，師從 Alan Yuile。

此前，他發(fā)表了首次將 Transformers 與 U-Net 融合的網(wǎng)絡(luò)模型 TransUNet，至今引用量已超 5000。

自今年起，陳杰能把研究重心轉(zhuǎn)向世界模型與空間智能領(lǐng)域。其研究?jī)?nèi)容主要包括基于單張圖像生成具備交互功能的 3D 世界，并且將這個(gè)生成的世界構(gòu)建為具身智能體的心智模型（mental models），從而助力智能體做出更優(yōu)決策。

從醫(yī)療圖像到具身智能，陳杰能認(rèn)為自己已較好地完成了上一個(gè)使命，“接下來(lái)希望研究新的黃金問(wèn)題，參與到前期探索中?！?/p>

以下是 AI 科技評(píng)論與陳杰能的對(duì)話(huà)。

當(dāng)癌癥遇上AI

AI 科技評(píng)論：您正式讀博前發(fā)布的 TransUNet 至今引用量已超5000，當(dāng)時(shí)是如何想到這個(gè) idea 的？

陳杰能：當(dāng)時(shí)我正在進(jìn)行另一個(gè)項(xiàng)目，目標(biāo)是對(duì)物體邊緣的語(yǔ)義進(jìn)行建模，就有了序列建模的idea，即序列學(xué)習(xí)（Sequential Learning），Transformer 雖然全局學(xué)習(xí)比較好，但難以捕捉物體邊緣的局部細(xì)節(jié)。

在2020年底，Transformer 已經(jīng)證明了在分類(lèi)任務(wù)中表現(xiàn)較好，但對(duì)于它能否做密集預(yù)測(cè)，大家都還在探索中。為了解決這一問(wèn)題，我就想結(jié)合 Transformer 和 UNet 的優(yōu)勢(shì)，從實(shí)際效果來(lái)看，UNet 更擅長(zhǎng)處理局部信息，Transformer 則擅長(zhǎng)處理全局和預(yù)期信息，它們是一個(gè)實(shí)現(xiàn)局部細(xì)節(jié)還原并兼顧長(zhǎng)距離建模的最佳組合，能夠很好地支持多種任務(wù)。

后來(lái)，我繼續(xù)把 TransUNet 擴(kuò)展到 3D 層面，也進(jìn)一步將其應(yīng)用于多癌篩查。TransUNet在今天仍是一個(gè)經(jīng)典的架構(gòu)，廣泛應(yīng)用于分割模型和擴(kuò)散模型等任務(wù)中。

AI 科技評(píng)論：那您是如何接觸計(jì)算機(jī)視覺(jué)，并決定扎根醫(yī)學(xué)影像領(lǐng)域的？

陳杰能：2017 年下半年我在慕尼黑工業(yè)大學(xué)交換，3D 視覺(jué)學(xué)者 Daniel Cremers 是其中一位授課老師，巧的是他也是我現(xiàn)在的導(dǎo)師 Alan Yuille host過(guò)的博士后。當(dāng)時(shí)的計(jì)算機(jī)視覺(jué)課程內(nèi)容偏幾何和理論，我被前沿科研吸引，回來(lái)后便決定參與視覺(jué)的研究，便在同濟(jì)的陳廣老師課題組研究車(chē)輛檢測(cè)。

2019 年暑研，我機(jī)緣巧合聯(lián)系到 Alan Yuille，他與約翰霍普金斯醫(yī)院合作癌癥早篩項(xiàng)目，有抑癌因子 P53 發(fā)現(xiàn)者等知名醫(yī)生參與。他們雖不是 AI 研究者，但也意識(shí)到 AI 在醫(yī)療領(lǐng)域的潛力，這領(lǐng)域有規(guī)?；臋C(jī)會(huì)，同時(shí)還能切實(shí)地幫助到每一個(gè)普通人，這便吸引我鉆研醫(yī)學(xué)影像領(lǐng)域。

AI 科技評(píng)論：所以您又加入達(dá)摩院醫(yī)療 AI 團(tuán)隊(duì)實(shí)習(xí)了?？梢苑窒硪幌伦?CancerUniT 的故事嗎？

陳杰能：負(fù)責(zé)人呂樂(lè)是我在約翰霍普金斯計(jì)算機(jī)系的學(xué)長(zhǎng)，他的導(dǎo)師Gregory D. Hager和我的導(dǎo)師本身就有合作，我們認(rèn)識(shí)的比較早。

當(dāng)時(shí)在醫(yī)療AI領(lǐng)域，大家都在做單一病種的研究，達(dá)摩院希望我能加入去做多癌篩查。具體而言，我們希望開(kāi)發(fā)了一個(gè) AI 模型，能通過(guò)單次CT篩查找出八種癌癥并診斷14種亞型，這八種癌癥是國(guó)內(nèi)最高發(fā)病率高致死率的癌癥，涵蓋了接近80%的患癌病人。

醫(yī)療AI領(lǐng)域涉及眾多方向，其中疾病篩查無(wú)疑是優(yōu)先級(jí)最高的，尤其是針對(duì)癌癥、阿爾茨海默癥和慢性病等主要疾病。癌癥因其發(fā)病率和死亡率雙高，我認(rèn)為更值得在我精力有限的情況下優(yōu)先攻關(guān)，也被我認(rèn)定為一個(gè)黃金問(wèn)題。

對(duì)我來(lái)說(shuō)解決這個(gè)黃金問(wèn)題就像是攀登一個(gè)更高的山峰，如果它能早一些解決，就能幫助到更多的人、使許多家庭受益，我很有熱情，希望能貢獻(xiàn)我的微薄之力加速這個(gè)進(jìn)程。我推進(jìn)工作的過(guò)程中，我和我的合作者一起明確了問(wèn)題的定義，也搭建了一個(gè)高敏感性高特異性的基礎(chǔ)模型，現(xiàn)在，達(dá)摩院正在進(jìn)一步擴(kuò)展我當(dāng)時(shí)開(kāi)發(fā)的多癌模型，我期待這系列模型能盡早在社會(huì)中發(fā)揮實(shí)際作用。

從視覺(jué)基礎(chǔ)模型到空間智能

AI 科技評(píng)論：后面您來(lái)到字節(jié) Seed 團(tuán)隊(duì)做視覺(jué)基礎(chǔ)模型，為什么會(huì)選擇這個(gè)機(jī)會(huì)呢？

陳杰能：我的 mentor Liang-Chieh Chen 在谷歌時(shí)就曾邀請(qǐng)我去實(shí)習(xí)，不過(guò)我當(dāng)時(shí)去了達(dá)摩院，就答應(yīng)下一年再加入，后面字節(jié)成立了核心團(tuán)隊(duì)Seed，他加入并帶領(lǐng)基礎(chǔ)研究組，我也跟著來(lái)到字節(jié)。

2023年業(yè)內(nèi)研究的一大重點(diǎn)是多模態(tài)大模型，Liang-Chieh Chen 在深度學(xué)習(xí)架構(gòu)設(shè)計(jì)方面有著很高的造詣而且經(jīng)驗(yàn)豐富，特別是在MobileNetv2和DeepLab的貢獻(xiàn)。，我希望能對(duì)大模型的視覺(jué)編碼器進(jìn)行一次徹底設(shè)計(jì)，探索新的可能性、進(jìn)一步打磨自己的技術(shù)能力，就此加入了。

AI 科技評(píng)論：第一次主導(dǎo)視覺(jué)編碼器架構(gòu)的設(shè)計(jì)，成功發(fā)表了 ViTamin，感受如何？

陳杰能：其實(shí)在做 ViTamin 的過(guò)程中和完成后的感受都很深刻。

我負(fù)責(zé)基礎(chǔ)架構(gòu)設(shè)計(jì)，需要對(duì)多模態(tài)大模型里的視覺(jué)編碼器架構(gòu)規(guī)劃并探索 scaling law。而由于耗費(fèi)算力較大，常常僅有一次訓(xùn)練模型機(jī)會(huì)，所以設(shè)計(jì)時(shí)得既謹(jǐn)慎又創(chuàng)新。

我們的視覺(jué)編碼器在imageNet零樣本準(zhǔn)確率達(dá)到了83%的SOTA，也能有效的遷移到大模型里，我們探索了一條合理的scaling law。將模型性能優(yōu)化至世界最佳的過(guò)程，是充滿(mǎn)挑戰(zhàn)且極具成就感的。

如果將多模態(tài)模型比作一個(gè)智能體，那么視覺(jué)編碼器就是智能體的眼睛。隨著今年年初公司研究者們認(rèn)識(shí)到了大模型中視覺(jué)編碼器的重要性，并進(jìn)行針對(duì)性的設(shè)計(jì)，我再次感受到此工作的重要性。

此外，ViTamin 最高分模型僅有436M，不足 0.5B，在追求大模型、大規(guī)模參數(shù)量的2023年算是非常小的。而在我們所能獲取的最佳數(shù)據(jù)條件下，這個(gè)規(guī)模已經(jīng)達(dá)到了 scaling law 的極限。有趣的是，從今年開(kāi)始，小模型也變得非常熱門(mén)，現(xiàn)在多模態(tài)模型為了終端優(yōu)化，也只會(huì)采用幾百兆量級(jí)的視覺(jué)編碼器。不難看出，scaling law 最終會(huì)逐步收斂到一個(gè)最佳的設(shè)置。

AI 科技評(píng)論：為什么今年會(huì)從醫(yī)學(xué)影像轉(zhuǎn)向空間智能？空間智能的核心是什么？

陳杰能：我相信工業(yè)界和醫(yī)院的聯(lián)合下，癌癥篩查這一關(guān)鍵問(wèn)題將在未來(lái)幾年得以解決，而我以前的工作有助于其規(guī)模化推廣，算是完成了自己的使命。如今我想探索新領(lǐng)域，而空間智能、具身智能等定義尚新，能參與前期探索頗具意義。

導(dǎo)師Alan在1990年就有研究三維物體的表面曲率，近年實(shí)驗(yàn)室也一直關(guān)注3D 視覺(jué)，我常受到熏陶而感興趣。我今年開(kāi)始著手解決一兩個(gè)黃金問(wèn)題，希望能一起推進(jìn)空間智能與具身智能。

今年空間智能備受關(guān)注，它涉及圖片 3D 建?；蛞曨l 4D 建模，本質(zhì)上是逆向圖形學(xué)單張圖重建三維結(jié)構(gòu)并提取物體類(lèi)別、位置和幾何等信息。

舉個(gè)例子，在虛擬游戲引擎或物理引擎中，通常會(huì)通過(guò)預(yù)設(shè)的場(chǎng)景配置文件給定3D模型，并渲染為2D圖像，這是一個(gè)從場(chǎng)景到圖像的正向渲染過(guò)程；而計(jì)算機(jī)視覺(jué)則是這一過(guò)程的逆向推理，即從2D圖像中重建或推演出三維場(chǎng)景。如果能徹底解決這一挑戰(zhàn)，計(jì)算機(jī)視覺(jué)可能會(huì)有較大的突破，比如在 GPT 的空間推理，以及視頻生成是否表現(xiàn)視覺(jué)場(chǎng)景的物理性，因此，從圖片中推演 3D 場(chǎng)景，是空間智能的一個(gè)核心。

我目前的工作聚焦了空間推演。不久前發(fā)布的 Gemini 2 也特別強(qiáng)調(diào)了空間推演能力，然而，我們最近開(kāi)發(fā)的空間推理基準(zhǔn)3DSRBench的結(jié)果顯示，其準(zhǔn)確率僅為 50%，遠(yuǎn)低于人類(lèi)的 95%。結(jié)果發(fā)布后，DeepMind的相關(guān)人員也提供代碼庫(kù)，共同推動(dòng)大模型在空間推理的進(jìn)展。這表明在空間智能領(lǐng)域，尤其空間推理，機(jī)器與人類(lèi)的能力還存在較大差距。

AI 科技評(píng)論：那空間智能與醫(yī)療圖像之間有何關(guān)聯(lián)與差異呢？

陳杰能：空間智能與醫(yī)療圖像皆涉圖像處理及復(fù)雜場(chǎng)景建模，醫(yī)療圖像的三維理解與空間智能的三維理解目標(biāo)相近，都要將像素?cái)?shù)據(jù)轉(zhuǎn)化為對(duì)三維結(jié)構(gòu)和語(yǔ)義關(guān)系的預(yù)測(cè)，并提取關(guān)鍵的信息如物體位置和形態(tài)。在醫(yī)療影像中，這具體表現(xiàn)為對(duì)器官和病灶的位置、形態(tài)及其空間關(guān)系的精準(zhǔn)解析。

二者也有不同：從數(shù)據(jù)上，醫(yī)療圖像是規(guī)則的三維數(shù)據(jù)，通常處于有限范圍內(nèi)（例如人體高度有限、器官形態(tài)相對(duì)規(guī)則），數(shù)據(jù)復(fù)雜度較低；而空間智能的數(shù)據(jù)更加復(fù)雜，包含大量不規(guī)則、有形變和帶有關(guān)節(jié)活動(dòng)的物體，數(shù)據(jù)的復(fù)雜度明顯更高。從優(yōu)化目標(biāo)上，空間智能和具身智能重實(shí)時(shí)性與泛化性，期望模型在不同環(huán)境泛化良好，達(dá)類(lèi)似小孩智商與感知力；醫(yī)療人工智能則強(qiáng)調(diào)專(zhuān)家性，欲在專(zhuān)項(xiàng)達(dá)醫(yī)生專(zhuān)家水平，所以二者優(yōu)化目標(biāo)迥異。

心智模型之于具身智能

AI 科技評(píng)論：您是從什么時(shí)候開(kāi)始聚焦世界模型的？

陳杰能：我對(duì)世界模型的研究，是與空間智能和具身智能同期進(jìn)行的?？臻g推理是具身智能體感知物理世界的起點(diǎn)，但僅依靠空間感知無(wú)法全面支持智能體對(duì)物理世界的交互理解。構(gòu)建一個(gè)可預(yù)測(cè)、可交互的世界模型，將更好地幫助智能體在真實(shí)世界中進(jìn)行有效決策。

雖然世界模型的定義本身仍百家爭(zhēng)鳴，但在二三十年前就已應(yīng)用于控制論了。它的一個(gè)本質(zhì)定義是：給定當(dāng)前的狀態(tài)分布和動(dòng)作輸入，能否預(yù)測(cè)出未來(lái)下一個(gè)狀態(tài)的分布。這在早年的控制論等領(lǐng)域中有一些實(shí)踐，但早年?duì)顟B(tài)的定義較為簡(jiǎn)單。

我認(rèn)為世界模型本質(zhì)是提供對(duì)世界變化的預(yù)測(cè)性分布，但世界變化不應(yīng)是最初的低維狀態(tài)，而可以是一個(gè)四維世界的狀態(tài)，包括目標(biāo)物體的語(yǔ)義信息、紋理信息、三維幾何結(jié)構(gòu)、形態(tài)、形變、運(yùn)動(dòng)特性，以及物體之間的空間關(guān)系的建模。

我關(guān)注的一個(gè)難點(diǎn)是，能否從圖像觀測(cè)中提取上述的三維空間表征，作為世界模型的狀態(tài)。此外，我也關(guān)注世界模型在具身智能的應(yīng)用。

AI 科技評(píng)論：您不久前發(fā)布了“生成式世界探索者”，從單張圖生成可交互 3D 世界，可以聊聊這個(gè) idea 是怎么誕生的嗎？

陳杰能：人類(lèi)在現(xiàn)實(shí)生活中探索看不到的地方，能通過(guò)發(fā)揮想象力在大腦里構(gòu)建出一個(gè)世界，然后在其中進(jìn)行想象性的探索。這種能力使得我們?nèi)祟?lèi)無(wú)需物理移動(dòng)就能探索到這個(gè)世界未知的地方，還能幫助更好地做出決策——讓AI智能體具備此能力，就是我的初衷。

從實(shí)踐的角度來(lái)看，當(dāng)下看到的事物，無(wú)論是單張圖還是單個(gè)觀察，首先是要從單張圖中生成一個(gè)可交互的 3D 世界，下一步才能在這個(gè) 3D 世界中探索。

AI 科技評(píng)論：那具身智能的心智模型和世界模型又有何關(guān)聯(lián)呢？

陳杰能：心智模型最早在心理學(xué)和認(rèn)知科學(xué)領(lǐng)域被提出，心智模型是指存在于我們腦中的一種認(rèn)知框架，用于表示對(duì)世界的理解。它相當(dāng)于一種內(nèi)部的現(xiàn)實(shí)模擬，幫助人類(lèi)解讀信息、做出決策，并根據(jù)以往的經(jīng)驗(yàn)和知識(shí)預(yù)測(cè)結(jié)果。當(dāng)然世界模型也是根據(jù)過(guò)往的經(jīng)驗(yàn)和知識(shí)，去對(duì)未來(lái)的狀態(tài)分布做出預(yù)測(cè)。因此這兩個(gè)模型的本質(zhì)是相關(guān)聯(lián)的。

心智模型的表征最早主要是關(guān)于語(yǔ)言語(yǔ)義學(xué)特征，如今生成技術(shù)的發(fā)展使視覺(jué)表征成為可能。我的工作實(shí)際上是將心智模型提升到了一個(gè)表征上的新高度，即構(gòu)造出具備空間想象力的心智模型，能想象三維世界中看不到的地方，比如只看到輪子能想象到一輛救護(hù)車(chē)，亦或者通過(guò)動(dòng)作交互，探索到更遠(yuǎn)的看不到的場(chǎng)景。

具身智能體基于此核心能力，無(wú)論走到哪里，都能通過(guò)對(duì)周?chē)h(huán)境的觀察來(lái)構(gòu)造出一個(gè)可探索的三維世界，即生成式的三維世界。在對(duì)生成的世界里，智能體通過(guò)探索發(fā)現(xiàn)未曾見(jiàn)過(guò)的觀測(cè)，并將這些想象出來(lái)的觀測(cè)加入到?jīng)Q策過(guò)程中——因此稱(chēng)之為“生成式世界探索者”。

將生成世界的觀測(cè)融入決策的過(guò)程，可以看做通過(guò)世界模型開(kāi)發(fā)的一種全新策略（policy）。應(yīng)用于具身智能時(shí)，其實(shí)是用在生成式世界收集到觀測(cè)來(lái)補(bǔ)充物理世界中的缺失觀測(cè)，形成更完整的觀測(cè)集，從而構(gòu)建一個(gè)想象力增強(qiáng)的policy。

AI 科技評(píng)論：心智模型屬于對(duì)常識(shí)的理解嗎，比如知道橫著拿紙杯水會(huì)灑出來(lái)？

陳杰能：心智模型作為一種認(rèn)知框架，有基于常識(shí)的理解。然而，“知道橫著拿紙杯水會(huì)灑出來(lái)”，這仍基于對(duì)紙杯和紙杯里的水的完全觀測(cè)，心智模型可以解決更有挑戰(zhàn)性的部分觀測(cè)和缺失觀測(cè)的場(chǎng)景。心智模型是通過(guò)已有環(huán)境信息，去推演和想象那些未觀測(cè)到的環(huán)境部分，比如一陣大風(fēng)是缺失觀測(cè)的，但人類(lèi)的心智模型或許能推演出風(fēng)吹后紙杯會(huì)倒下。

模擬這些未觀測(cè)到的環(huán)境因素，有助于做出更精確的決策，從而提高決策模型的泛化能力。這一方向在未來(lái)會(huì)獲得更多的關(guān)注。

AI 科技評(píng)論：這個(gè)方向在具身智能領(lǐng)域并不熱門(mén)。

陳杰能：是的，領(lǐng)域內(nèi)很多研究者聚焦于提升低層次（low level）策略的魯棒性，而我目前的研究更側(cè)重于高層次（high level）問(wèn)題，旨在為具身智能體構(gòu)建可交互的三維世界模型，以輔助其決策過(guò)程。

在高層次領(lǐng)域，除了心智模型，具身智能體的物理世界的空間理解仍有挑戰(zhàn)，如果把上游的空間理解處理好加上三維心智模型，低層次問(wèn)題會(huì)解決得更輕松，能讓智能體走入真實(shí)世界而非僅限在機(jī)械臂的環(huán)境里。當(dāng)然這兩者最終可以結(jié)合起來(lái)形成多層次模型。

最后，我們開(kāi)發(fā)的生成式世界探索者，不僅是具身智能體的重要組成部分，也已經(jīng)初步證明能夠輔助人類(lèi)的認(rèn)知決策。我希望在這個(gè)多學(xué)科交叉的領(lǐng)域貢獻(xiàn)點(diǎn)力量。

雷峰網(wǎng)作者anna042023將持續(xù)關(guān)注具身智能，歡迎添加交流，互通有無(wú)。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴(lài)文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當(dāng)月熱門(mén)文章

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」