丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

本文作者: 賴文昕   2024-12-30 15:05
導(dǎo)語(yǔ):導(dǎo)語(yǔ):具身智能的高層感知,可以從認(rèn)知科學(xué)突破。

作者 | 賴文昕

編輯 | 陳彩嫻

近日,馬爾獎(jiǎng)得主、約翰霍普金斯大學(xué)教授 Alan Yuille 的團(tuán)隊(duì)發(fā)布了一項(xiàng)世界模型方向的重磅工作——GenEx,引起了具身智能領(lǐng)域的廣泛討論與關(guān)注。

作為李飛飛初創(chuàng)公司 World Labs 發(fā)布的同期工作,生成模型 GenEx 的特別之處在于它能讓 AI 具有"想象力",使智能體通過想象出來(lái)的觀測(cè)探索生成式世界。

受到心智模型的啟發(fā),GenEx 希望在一定程度上試圖模擬人類大腦中對(duì)世界的認(rèn)知方式和理解機(jī)制,以實(shí)現(xiàn)更智能、更靈活的人工智能系統(tǒng)。

具體而言,GenEx 系統(tǒng)有兩個(gè)相互關(guān)聯(lián)的組件:一個(gè)是想象世界,它能動(dòng)態(tài)地生成可供探索的三維環(huán)境;另一個(gè)是具身智能體,它與這個(gè)環(huán)境相互作用,以完善自身的理解和決策能力——兩個(gè)組件構(gòu)成了一個(gè)共生系統(tǒng),使得人工智能能夠以類似于人類認(rèn)知過程的方式進(jìn)行模擬、探索和學(xué)習(xí)。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

項(xiàng)目鏈接:https://www.genex.world/

GenEx 僅依據(jù)單張 RGB 圖像就能生成整個(gè)三維連貫的想象環(huán)境,還能通過 360 度的全景視頻使其變得栩栩如生。

在 GenEx 生成式想象力的驅(qū)動(dòng)下,智能體能執(zhí)行復(fù)雜的具身任務(wù),包括與目標(biāo)無(wú)關(guān)的探索和目標(biāo)驅(qū)動(dòng)的導(dǎo)航。這些智能體利用對(duì)物理世界中未被觀測(cè)部分的預(yù)測(cè)性預(yù)期來(lái)完善自身認(rèn)知,基于潛在決策模擬不同結(jié)果,并做出更明智的選擇。

而且,GenEx 還可以擴(kuò)展到多智能體場(chǎng)景,當(dāng)某個(gè)智能體導(dǎo)航到其他智能體的位置時(shí),還能根據(jù)其他智能體想象的認(rèn)知更新自己的認(rèn)知。

這個(gè)工作的核心作者,是約翰霍普金斯大學(xué)即將畢業(yè)的中國(guó)博士生陳杰能。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

在轉(zhuǎn)向世界模型、空間智能前,陳杰能的研究重點(diǎn)為醫(yī)學(xué)圖像,本科畢業(yè)于同濟(jì)大學(xué)計(jì)算機(jī)系,2020 年到約翰霍普金斯大學(xué)讀博,師從 Alan Yuile。

此前,他發(fā)表了首次將 Transformers 與 U-Net 融合的網(wǎng)絡(luò)模型 TransUNet,至今引用量已超 5000。

自今年起,陳杰能把研究重心轉(zhuǎn)向世界模型與空間智能領(lǐng)域。其研究?jī)?nèi)容主要包括基于單張圖像生成具備交互功能的 3D 世界,并且將這個(gè)生成的世界構(gòu)建為具身智能體的心智模型(mental models),從而助力智能體做出更優(yōu)決策。

從醫(yī)療圖像到具身智能,陳杰能認(rèn)為自己已較好地完成了上一個(gè)使命,“接下來(lái)希望研究新的黃金問題,參與到前期探索中?!?/p>

以下是 AI 科技評(píng)論與陳杰能的對(duì)話。


當(dāng)癌癥遇上AI

AI 科技評(píng)論:您正式讀博前發(fā)布的 TransUNet 至今引用量已超5000,當(dāng)時(shí)是如何想到這個(gè) idea 的?

陳杰能:當(dāng)時(shí)我正在進(jìn)行另一個(gè)項(xiàng)目,目標(biāo)是對(duì)物體邊緣的語(yǔ)義進(jìn)行建模,就有了序列建模的idea,即序列學(xué)習(xí)(Sequential Learning),Transformer 雖然全局學(xué)習(xí)比較好,但難以捕捉物體邊緣的局部細(xì)節(jié)。

在2020年底,Transformer 已經(jīng)證明了在分類任務(wù)中表現(xiàn)較好,但對(duì)于它能否做密集預(yù)測(cè),大家都還在探索中。為了解決這一問題,我就想結(jié)合 Transformer 和 UNet 的優(yōu)勢(shì),從實(shí)際效果來(lái)看,UNet 更擅長(zhǎng)處理局部信息,Transformer 則擅長(zhǎng)處理全局和預(yù)期信息,它們是一個(gè)實(shí)現(xiàn)局部細(xì)節(jié)還原并兼顧長(zhǎng)距離建模的最佳組合,能夠很好地支持多種任務(wù)。

后來(lái),我繼續(xù)把 TransUNet 擴(kuò)展到 3D 層面,也進(jìn)一步將其應(yīng)用于多癌篩查。TransUNet在今天仍是一個(gè)經(jīng)典的架構(gòu),廣泛應(yīng)用于分割模型和擴(kuò)散模型等任務(wù)中。

AI 科技評(píng)論:那您是如何接觸計(jì)算機(jī)視覺,并決定扎根醫(yī)學(xué)影像領(lǐng)域的?

陳杰能:2017 年下半年我在慕尼黑工業(yè)大學(xué)交換,3D 視覺學(xué)者 Daniel Cremers 是其中一位授課老師,巧的是他也是我現(xiàn)在的導(dǎo)師 Alan Yuille host過的博士后。當(dāng)時(shí)的計(jì)算機(jī)視覺課程內(nèi)容偏幾何和理論,我被前沿科研吸引,回來(lái)后便決定參與視覺的研究,便在同濟(jì)的陳廣老師課題組研究車輛檢測(cè)。

2019 年暑研,我機(jī)緣巧合聯(lián)系到 Alan Yuille,他與約翰霍普金斯醫(yī)院合作癌癥早篩項(xiàng)目,有抑癌因子 P53 發(fā)現(xiàn)者等知名醫(yī)生參與。他們雖不是 AI 研究者,但也意識(shí)到 AI 在醫(yī)療領(lǐng)域的潛力,這領(lǐng)域有規(guī)模化的機(jī)會(huì),同時(shí)還能切實(shí)地幫助到每一個(gè)普通人,這便吸引我鉆研醫(yī)學(xué)影像領(lǐng)域。

AI 科技評(píng)論:所以您又加入達(dá)摩院醫(yī)療 AI 團(tuán)隊(duì)實(shí)習(xí)了。可以分享一下做 CancerUniT 的故事嗎?

陳杰能:負(fù)責(zé)人呂樂是我在約翰霍普金斯計(jì)算機(jī)系的學(xué)長(zhǎng),他的導(dǎo)師Gregory D. Hager和我的導(dǎo)師本身就有合作,我們認(rèn)識(shí)的比較早。

當(dāng)時(shí)在醫(yī)療AI領(lǐng)域,大家都在做單一病種的研究,達(dá)摩院希望我能加入去做多癌篩查。具體而言,我們希望開發(fā)了一個(gè) AI 模型,能通過單次CT篩查找出八種癌癥并診斷14種亞型,這八種癌癥是國(guó)內(nèi)最高發(fā)病率高致死率的癌癥,涵蓋了接近80%的患癌病人。

醫(yī)療AI領(lǐng)域涉及眾多方向,其中疾病篩查無(wú)疑是優(yōu)先級(jí)最高的,尤其是針對(duì)癌癥、阿爾茨海默癥和慢性病等主要疾病。癌癥因其發(fā)病率和死亡率雙高,我認(rèn)為更值得在我精力有限的情況下優(yōu)先攻關(guān),也被我認(rèn)定為一個(gè)黃金問題。

對(duì)我來(lái)說(shuō)解決這個(gè)黃金問題就像是攀登一個(gè)更高的山峰,如果它能早一些解決,就能幫助到更多的人、使許多家庭受益,我很有熱情,希望能貢獻(xiàn)我的微薄之力加速這個(gè)進(jìn)程。我推進(jìn)工作的過程中,我和我的合作者一起明確了問題的定義,也搭建了一個(gè)高敏感性高特異性的基礎(chǔ)模型,現(xiàn)在,達(dá)摩院正在進(jìn)一步擴(kuò)展我當(dāng)時(shí)開發(fā)的多癌模型,我期待這系列模型能盡早在社會(huì)中發(fā)揮實(shí)際作用。

從視覺基礎(chǔ)模型到空間智能

AI 科技評(píng)論:后面您來(lái)到字節(jié) Seed 團(tuán)隊(duì)做視覺基礎(chǔ)模型,為什么會(huì)選擇這個(gè)機(jī)會(huì)呢?

陳杰能:我的 mentor Liang-Chieh Chen 在谷歌時(shí)就曾邀請(qǐng)我去實(shí)習(xí),不過我當(dāng)時(shí)去了達(dá)摩院,就答應(yīng)下一年再加入,后面字節(jié)成立了核心團(tuán)隊(duì)Seed,他加入并帶領(lǐng)基礎(chǔ)研究組,我也跟著來(lái)到字節(jié)。

2023年業(yè)內(nèi)研究的一大重點(diǎn)是多模態(tài)大模型,Liang-Chieh Chen 在深度學(xué)習(xí)架構(gòu)設(shè)計(jì)方面有著很高的造詣而且經(jīng)驗(yàn)豐富,特別是在MobileNetv2和DeepLab的貢獻(xiàn)。,我希望能對(duì)大模型的視覺編碼器進(jìn)行一次徹底設(shè)計(jì),探索新的可能性、進(jìn)一步打磨自己的技術(shù)能力,就此加入了。

AI 科技評(píng)論:第一次主導(dǎo)視覺編碼器架構(gòu)的設(shè)計(jì),成功發(fā)表了 ViTamin,感受如何?

陳杰能:其實(shí)在做 ViTamin 的過程中和完成后的感受都很深刻。

我負(fù)責(zé)基礎(chǔ)架構(gòu)設(shè)計(jì),需要對(duì)多模態(tài)大模型里的視覺編碼器架構(gòu)規(guī)劃并探索 scaling law。而由于耗費(fèi)算力較大,常常僅有一次訓(xùn)練模型機(jī)會(huì),所以設(shè)計(jì)時(shí)得既謹(jǐn)慎又創(chuàng)新。

我們的視覺編碼器在imageNet零樣本準(zhǔn)確率達(dá)到了83%的SOTA,也能有效的遷移到大模型里,我們探索了一條合理的scaling law。將模型性能優(yōu)化至世界最佳的過程,是充滿挑戰(zhàn)且極具成就感的。

如果將多模態(tài)模型比作一個(gè)智能體,那么視覺編碼器就是智能體的眼睛。隨著今年年初公司研究者們認(rèn)識(shí)到了大模型中視覺編碼器的重要性,并進(jìn)行針對(duì)性的設(shè)計(jì),我再次感受到此工作的重要性。

此外,ViTamin 最高分模型僅有436M,不足 0.5B,在追求大模型、大規(guī)模參數(shù)量的2023年算是非常小的。而在我們所能獲取的最佳數(shù)據(jù)條件下,這個(gè)規(guī)模已經(jīng)達(dá)到了 scaling law 的極限。有趣的是,從今年開始,小模型也變得非常熱門,現(xiàn)在多模態(tài)模型為了終端優(yōu)化,也只會(huì)采用幾百兆量級(jí)的視覺編碼器。不難看出,scaling law 最終會(huì)逐步收斂到一個(gè)最佳的設(shè)置。

AI 科技評(píng)論:為什么今年會(huì)從醫(yī)學(xué)影像轉(zhuǎn)向空間智能?空間智能的核心是什么?

陳杰能:我相信工業(yè)界和醫(yī)院的聯(lián)合下,癌癥篩查這一關(guān)鍵問題將在未來(lái)幾年得以解決,而我以前的工作有助于其規(guī)?;茝V,算是完成了自己的使命。如今我想探索新領(lǐng)域,而空間智能、具身智能等定義尚新,能參與前期探索頗具意義。

導(dǎo)師Alan在1990年就有研究三維物體的表面曲率,近年實(shí)驗(yàn)室也一直關(guān)注3D 視覺,我常受到熏陶而感興趣。我今年開始著手解決一兩個(gè)黃金問題,希望能一起推進(jìn)空間智能與具身智能。

今年空間智能備受關(guān)注,它涉及圖片 3D 建?;蛞曨l 4D 建模,本質(zhì)上是逆向圖形學(xué)單張圖重建三維結(jié)構(gòu)并提取物體類別、位置和幾何等信息。

舉個(gè)例子,在虛擬游戲引擎或物理引擎中,通常會(huì)通過預(yù)設(shè)的場(chǎng)景配置文件給定3D模型,并渲染為2D圖像,這是一個(gè)從場(chǎng)景到圖像的正向渲染過程;而計(jì)算機(jī)視覺則是這一過程的逆向推理,即從2D圖像中重建或推演出三維場(chǎng)景。如果能徹底解決這一挑戰(zhàn),計(jì)算機(jī)視覺可能會(huì)有較大的突破,比如在 GPT 的空間推理,以及視頻生成是否表現(xiàn)視覺場(chǎng)景的物理性,因此,從圖片中推演 3D 場(chǎng)景,是空間智能的一個(gè)核心。

我目前的工作聚焦了空間推演。不久前發(fā)布的 Gemini 2 也特別強(qiáng)調(diào)了空間推演能力,然而,我們最近開發(fā)的空間推理基準(zhǔn)3DSRBench的結(jié)果顯示,其準(zhǔn)確率僅為 50%,遠(yuǎn)低于人類的 95%。結(jié)果發(fā)布后,DeepMind的相關(guān)人員也提供代碼庫(kù),共同推動(dòng)大模型在空間推理的進(jìn)展。這表明在空間智能領(lǐng)域,尤其空間推理,機(jī)器與人類的能力還存在較大差距。

AI 科技評(píng)論:那空間智能與醫(yī)療圖像之間有何關(guān)聯(lián)與差異呢?

陳杰能:空間智能與醫(yī)療圖像皆涉圖像處理及復(fù)雜場(chǎng)景建模,醫(yī)療圖像的 三維理解與空間智能的 三維理解目標(biāo)相近,都要將像素?cái)?shù)據(jù)轉(zhuǎn)化為對(duì)三維結(jié)構(gòu)和語(yǔ)義關(guān)系的預(yù)測(cè),并提取關(guān)鍵的信息如物體位置和形態(tài)。在醫(yī)療影像中,這具體表現(xiàn)為對(duì)器官和病灶的位置、形態(tài)及其空間關(guān)系的精準(zhǔn)解析。

二者也有不同:從數(shù)據(jù)上,醫(yī)療圖像是規(guī)則的三維數(shù)據(jù),通常處于有限范圍內(nèi)(例如人體高度有限、器官形態(tài)相對(duì)規(guī)則),數(shù)據(jù)復(fù)雜度較低;而空間智能的數(shù)據(jù)更加復(fù)雜,包含大量不規(guī)則、有形變和帶有關(guān)節(jié)活動(dòng)的物體,數(shù)據(jù)的復(fù)雜度明顯更高。從優(yōu)化目標(biāo)上,空間智能和具身智能重實(shí)時(shí)性與泛化性,期望模型在不同環(huán)境泛化良好,達(dá)類似小孩智商與感知力;醫(yī)療人工智能則強(qiáng)調(diào)專家性,欲在專項(xiàng)達(dá)醫(yī)生專家水平,所以二者優(yōu)化目標(biāo)迥異。

心智模型之于具身智能

AI 科技評(píng)論:您是從什么時(shí)候開始聚焦世界模型的?

陳杰能:我對(duì)世界模型的研究,是與空間智能和具身智能同期進(jìn)行的??臻g推理是具身智能體感知物理世界的起點(diǎn),但僅依靠空間感知無(wú)法全面支持智能體對(duì)物理世界的交互理解。構(gòu)建一個(gè)可預(yù)測(cè)、可交互的世界模型,將更好地幫助智能體在真實(shí)世界中進(jìn)行有效決策。

雖然世界模型的定義本身仍百家爭(zhēng)鳴,但在二三十年前就已應(yīng)用于控制論了。它的一個(gè)本質(zhì)定義是:給定當(dāng)前的狀態(tài)分布和動(dòng)作輸入,能否預(yù)測(cè)出未來(lái)下一個(gè)狀態(tài)的分布。這在早年的控制論等領(lǐng)域中有一些實(shí)踐,但早年?duì)顟B(tài)的定義較為簡(jiǎn)單。

我認(rèn)為世界模型本質(zhì)是提供對(duì)世界變化的預(yù)測(cè)性分布,但世界變化不應(yīng)是最初的低維狀態(tài),而可以是一個(gè)四維世界的狀態(tài),包括目標(biāo)物體的語(yǔ)義信息、紋理信息、三維幾何結(jié)構(gòu)、形態(tài)、形變、運(yùn)動(dòng)特性,以及物體之間的空間關(guān)系的建模。

我關(guān)注的一個(gè)難點(diǎn)是,能否從圖像觀測(cè)中提取上述的三維空間表征,作為世界模型的狀態(tài)。此外,我也關(guān)注世界模型在具身智能的應(yīng)用。

AI 科技評(píng)論:您不久前發(fā)布了“生成式世界探索者”,從單張圖生成可交互 3D 世界,可以聊聊這個(gè) idea 是怎么誕生的嗎?

陳杰能:人類在現(xiàn)實(shí)生活中探索看不到的地方,能通過發(fā)揮想象力在大腦里構(gòu)建出一個(gè)世界,然后在其中進(jìn)行想象性的探索。這種能力使得我們?nèi)祟悷o(wú)需物理移動(dòng)就能探索到這個(gè)世界未知的地方,還能幫助更好地做出決策——讓AI智能體具備此能力,就是我的初衷。

從實(shí)踐的角度來(lái)看,當(dāng)下看到的事物,無(wú)論是單張圖還是單個(gè)觀察,首先是要從單張圖中生成一個(gè)可交互的 3D 世界,下一步才能在這個(gè) 3D 世界中探索。

AI 科技評(píng)論:那具身智能的心智模型和世界模型又有何關(guān)聯(lián)呢?

陳杰能:心智模型最早在心理學(xué)和認(rèn)知科學(xué)領(lǐng)域被提出,心智模型是指存在于我們腦中的一種認(rèn)知框架,用于表示對(duì)世界的理解。它相當(dāng)于一種內(nèi)部的現(xiàn)實(shí)模擬,幫助人類解讀信息、做出決策,并根據(jù)以往的經(jīng)驗(yàn)和知識(shí)預(yù)測(cè)結(jié)果。當(dāng)然世界模型也是根據(jù)過往的經(jīng)驗(yàn)和知識(shí),去對(duì)未來(lái)的狀態(tài)分布做出預(yù)測(cè)。因此這兩個(gè)模型的本質(zhì)是相關(guān)聯(lián)的。

心智模型的表征最早主要是關(guān)于語(yǔ)言語(yǔ)義學(xué)特征,如今生成技術(shù)的發(fā)展使視覺表征成為可能。我的工作實(shí)際上是將心智模型提升到了一個(gè)表征上的新高度,即構(gòu)造出具備空間想象力的心智模型,能想象三維世界中看不到的地方,比如只看到輪子能想象到一輛救護(hù)車,亦或者通過動(dòng)作交互,探索到更遠(yuǎn)的看不到的場(chǎng)景。

具身智能體基于此核心能力,無(wú)論走到哪里,都能通過對(duì)周圍環(huán)境的觀察來(lái)構(gòu)造出一個(gè)可探索的三維世界,即生成式的三維世界。在對(duì)生成的世界里,智能體通過探索發(fā)現(xiàn)未曾見過的觀測(cè),并將這些想象出來(lái)的觀測(cè)加入到?jīng)Q策過程中——因此稱之為“生成式世界探索者”。

將生成世界的觀測(cè)融入決策的過程,可以看做通過世界模型開發(fā)的一種全新策略(policy)。應(yīng)用于具身智能時(shí),其實(shí)是用在生成式世界收集到觀測(cè)來(lái)補(bǔ)充物理世界中的缺失觀測(cè),形成更完整的觀測(cè)集,從而構(gòu)建一個(gè)想象力增強(qiáng)的policy。

AI 科技評(píng)論:心智模型屬于對(duì)常識(shí)的理解嗎,比如知道橫著拿紙杯水會(huì)灑出來(lái)?

陳杰能:心智模型作為一種認(rèn)知框架,有基于常識(shí)的理解。然而,“知道橫著拿紙杯水會(huì)灑出來(lái)”,這仍基于對(duì)紙杯和紙杯里的水的完全觀測(cè),心智模型可以解決更有挑戰(zhàn)性的部分觀測(cè)和缺失觀測(cè)的場(chǎng)景。心智模型是通過已有環(huán)境信息,去推演和想象那些未觀測(cè)到的環(huán)境部分,比如一陣大風(fēng)是缺失觀測(cè)的,但人類的心智模型或許能推演出風(fēng)吹后紙杯會(huì)倒下。

模擬這些未觀測(cè)到的環(huán)境因素,有助于做出更精確的決策,從而提高決策模型的泛化能力。這一方向在未來(lái)會(huì)獲得更多的關(guān)注。

AI 科技評(píng)論:這個(gè)方向在具身智能領(lǐng)域并不熱門。

陳杰能:是的,領(lǐng)域內(nèi)很多研究者聚焦于提升低層次(low level)策略的魯棒性,而我目前的研究更側(cè)重于高層次(high level)問題,旨在為具身智能體構(gòu)建可交互的三維世界模型,以輔助其決策過程。

在高層次領(lǐng)域,除了心智模型,具身智能體的物理世界的空間理解仍有挑戰(zhàn),如果把上游的空間理解處理好加上三維心智模型,低層次問題會(huì)解決得更輕松,能讓智能體走入真實(shí)世界而非僅限在機(jī)械臂的環(huán)境里。 當(dāng)然這兩者最終可以結(jié)合起來(lái)形成多層次模型。

最后,我們開發(fā)的生成式世界探索者,不僅是具身智能體的重要組成部分,也已經(jīng)初步證明能夠輔助人類的認(rèn)知決策。我希望在這個(gè)多學(xué)科交叉的領(lǐng)域貢獻(xiàn)點(diǎn)力量。


雷峰網(wǎng)作者anna042023將持續(xù)關(guān)注具身智能,歡迎添加交流,互通有無(wú)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)