0
本文作者: 陳彩嫻 | 2021-09-30 12:02 |
近年來,世界模型(World Model)在機器人、模擬與強化學(xué)習(xí)中均取得了出色的研究結(jié)果。
2018年,Jürgen Schmidhuber 與 David Ha 首次以無監(jiān)督的方式訓(xùn)練世界模型,使模型能快速學(xué)習(xí)環(huán)境中的壓縮時空表征,再將世界模型中的特征作為智能體的輸入,訓(xùn)練出了一個非常壓縮與簡單的策略來解決模擬2D賽車等任務(wù)。
今年2月,Google AI 也用世界模型,在 Atari 游戲中實現(xiàn)了達到人類水平的表現(xiàn)。
但是,相比簡單的游戲環(huán)境,現(xiàn)實的世界環(huán)境要復(fù)雜得多。
不久前,在發(fā)表于 ICCV 2021 的一篇工作(“Pathdreamer: A World Model for Indoor Navigation”)上,Google AI 團隊提出了一個世界模型,叫作“Pathdreamer”,可以僅基于有限的種子觀察與原先計劃的導(dǎo)航路線,生成一幅智能體“肉眼”不可見的建筑物區(qū)域的、360o 高清攝像。
論文鏈接:https://arxiv.org/pdf/2105.08756.pdf
Google AI的團隊將Pathdreamer應(yīng)用于機器人導(dǎo)航任務(wù)中,成功率高達50.4%!僅比ground truth設(shè)置低了 8.6%(59%)!
1、什么是世界模型?
世界模型(World Model)首次由 Jürgen Schmidhuber 與 David Ha 在 NeurIPS 2018中提出,主要出發(fā)點是打造一個通用強化學(xué)習(xí)環(huán)境的生成神經(jīng)網(wǎng)絡(luò)模型,為強化學(xué)習(xí)技術(shù)的落地提供完美的模擬環(huán)境。這篇工作入選了當年 NeurIPS 的 oral paper。
論文地址:https://arxiv.org/pdf/1803.10122.pdf
世界模型的靈感來源于心理學(xué)上的“心理世界模型”(mental model of the world)。
在人對世界的理解過程中,我們往往是以有限的感官所能感知到的事物為基礎(chǔ),形成一個心理世界模型。我們所做的決定和行動都是基于這個模型。雷鋒網(wǎng)
為了處理流經(jīng)我們?nèi)粘I畹拇罅啃畔?,我們的大腦學(xué)會了信息的空間域和時域的抽象表示。我們能夠觀察一個場景并記住其中的抽象描述。雷鋒網(wǎng)
圖注 / 世界模型示例,源自 Scott McCloud 的《理解漫畫》一書
證據(jù)還表明,我們在任何時刻所感知的,都是由我們的大腦根據(jù)我們的內(nèi)部心理模型對未來的預(yù)測所決定的。雷鋒網(wǎng)
心理模型不僅僅是預(yù)測未來,而且會根據(jù)我們當前的運動行為來預(yù)測未來的感官數(shù)據(jù)。我們能夠在這種預(yù)測模型上采取行動,并在我們面臨危險時表現(xiàn)出快速的行為,而不需要有意識地規(guī)劃一個行動路線。
以棒球為例,一個棒球運動員只有毫秒級的時間來決定如何揮動球棍,這個時間甚至比視覺信號從眼球傳到大腦的時間還要短。對專業(yè)運動員來說,這個動作幾乎是下意識的,他們的肌肉在正確的時間和地點揮動球棍,與他們內(nèi)部模型的預(yù)測一致。他們可以根據(jù)他們對未來的預(yù)測迅速采取行動,而不需要有意識地推出可行的擊球計劃。
在許多強化學(xué)習(xí)問題中,智能體既需要一個對過去和現(xiàn)在狀態(tài)的良好描述,還需要一個優(yōu)秀的模型來預(yù)測未來的狀態(tài)。作為真實世界的一個表征,世界模型采用無監(jiān)督的方式進行訓(xùn)練,能取得較好的策略。
2018年,當 Jürgen Schmidhuber 與 David Ha 提出世界模型后,他們將世界模型用于解決一個賽車競速的強化學(xué)習(xí)任務(wù)。
帶有預(yù)測能力的世界模型可以有效地提取空域與時域特征,再將這些特征應(yīng)用于控制模型,然后訓(xùn)練一個最小的控制模型來完成連續(xù)域控制任務(wù),即賽車。
2、Pathdreamer的誕生
受到 Jürgen Schmidhuber 等人的工作啟發(fā),谷歌團隊開始將世界模型的研究思想應(yīng)用在同樣是智能體控制的機器人導(dǎo)航任務(wù)中,使用世界模型來獲取周圍環(huán)境的信息,使智能體能夠在特定的環(huán)境中預(yù)測自己的行為后果。
圖 / 世界模型的工作原理
在了解Pathdreamer之前,我們不妨設(shè)想一下:
如果你出去旅游,住進一間完全陌生的民宿,你會如何判斷房子的方位?
一般來說,當我們推開大門,我們會知道首先映入眼前的是客廳,然后順著客廳猜測臥室、廚房、陽臺等等空間的方位。
圖 / 人的導(dǎo)航習(xí)慣是依據(jù)眼前所見之物來判斷
那么,機器人呢?如果一個機器人來到一個完全陌生的房子里,它會如何導(dǎo)航?
人在判斷方位時,善于利用視覺與常識,通過眼前的事物推理出空間的布局,從而找到自己的目標。但是,對于機器人來說,在一個新的建筑里,要利用語義線索與事物的規(guī)律分布來定位,并不是一件容易的事。
此前,針對上述問題,F(xiàn)acebook AI 提出了一個算法,叫“DD-PPO”,主要是:通過無模型強化學(xué)習(xí)(model-free reinforcement learning),以端到端的方式讓智能體學(xué)習(xí)辨認一個空間內(nèi)的線索、并利用這些線索來完成導(dǎo)航的任務(wù)。
但是,這種方式的學(xué)習(xí)成本高,難以檢驗,而且泛化難,另一個智能體必須從頭開始學(xué)習(xí)同樣的方式、才能掌握依據(jù)理解線索來定位的能力。
相比之下,Pathdreamer 模型可以從單一視角合成一幅沉浸式場景圖,預(yù)測當智能體移動到一個新的視點、或是移動到一個完全看不見的區(qū)域(比如角落)時,智能體可能會看到什么。
這不僅可以用于視頻編輯、使照片看起來栩栩如生,最重要的是,它還可以將人類環(huán)境的知識告訴機器智能體,幫助機器人在現(xiàn)實世界中定位導(dǎo)航。
比如,如果我們給機器人一個任務(wù),讓它在一棟陌生的建筑里尋找某個房間或物體,那么它就可以先在世界模型中進行模擬,學(xué)習(xí)識別物體在空間中可能的位置,減少實際投入后的導(dǎo)航錯誤。
除了模擬導(dǎo)航以外,機器人在Pathdream等世界模型中訓(xùn)練,還可以增加訓(xùn)練數(shù)據(jù)的數(shù)量。
3、Pathdreamer的工作原理
Pathdreamer 將原來的一個或多個觀察序列作為輸入,生成通往目標位置的預(yù)測路線。預(yù)測的路線是事先提供,或由智能體在返回途中接觸到的觀察迭代更新。輸入與預(yù)測均包含 RGB、語義分割與深度圖像。
在內(nèi)部,Pathdreamer 使用了 3D 點云來表示環(huán)境的表面。云中的點都標了它們的 RGB 顏色值和它們的語義分割類,比如墻壁、椅子或桌子。
要在新的建筑物里預(yù)測即將映入眼前的事物,首先要將點云重新投射到新建筑的 2D 圖像中、以提供“指導(dǎo)”圖像,然后,Pathdreamer 會從中生成逼真的高分辨率 RGB、語義分割和深度。
隨著模型的“移動”,點云會積累新的觀察結(jié)果(要么是真實的,要么是預(yù)測的)。使用點云來記憶的一個優(yōu)勢是時序一致性(temporal consistency)——重新訪問的區(qū)域會以與先前觀察一致的方式呈現(xiàn)。
為了將指導(dǎo)圖像轉(zhuǎn)換為合理、真實的圖像輸出,Pathdreamer 分為兩個階段運行:第一階段,用結(jié)構(gòu)生成器生成分割和深度圖像;第二階段,用圖像生成器將分割與深度圖像渲染為 RGB 輸出。
從概念上講,就是第一階段提供了關(guān)于場景的合理高級語義表示,第二階段再將其渲染為逼真的彩色圖像。這兩個階段都用到了卷積神經(jīng)網(wǎng)絡(luò)(CNN):
在具有高度不確定性的區(qū)域,比如拐角或視線以外的房間,可能會出現(xiàn)許多不同的場景。而Pathdreamer能夠生成滿足區(qū)域高度不確定的多樣化結(jié)果。
有感于受到紐約大學(xué)Rob Fergus與Emily Denton提出的隨機視頻生成思想,Pathdreamer的結(jié)構(gòu)生成器以噪音變量為條件,該變量表示指導(dǎo)圖像中沒有捕獲的下一個導(dǎo)航位置的隨機信息。通過對多個噪音變量進行采樣,Pathdreamer可以合成多個不同場景,允許智能體在一條給定的導(dǎo)航路線中對多個合理的結(jié)果進行采樣。
這些不同的輸出不僅反映在第一階段的輸出(語義分割和深度圖像)中,還反映在生成的 RGB 圖像中。
如下圖所示,最左側(cè)的一列指導(dǎo)圖像表示智能體先前看到的像素。其中,黑色像素表示智能體原先看不見的區(qū)域,對此,Pathdreamer 通過對多個隨機噪聲向量進行采樣,生成了不同的圖像輸出。在實踐中,當智能體在一個環(huán)境中定位導(dǎo)航時,它可以通過新的觀察結(jié)果來生成輸出圖像。
Pathdreamer 基于來自 Matterport3D 的圖像和 3D 環(huán)境重建進行訓(xùn)練,并且能夠合成逼真的圖像與連續(xù)的視頻序列。由于輸出圖像具有高分辨率和 360o 無死角的特征,現(xiàn)有的導(dǎo)航機器人可以輕松地將圖像轉(zhuǎn)換,以適應(yīng)機器人配有的相機視野。
4、將Pathdreamer應(yīng)用于視覺導(dǎo)航任務(wù)
他們將 Pathdreamer 應(yīng)用于視覺與語言導(dǎo)航 (VLN) 任務(wù),其中,機器人必須遵循自然語言的指令定位到真實 3D 環(huán)境中的某一個位置。他們使用 Room-to-Room(R2R)數(shù)據(jù)集進行了一項實驗,讓指令機器人在模擬多條可能的行走軌跡前進行規(guī)劃,并根據(jù)導(dǎo)航指令對每一條軌跡進行排名,然后選擇排名第一的軌跡進行導(dǎo)航。
實驗考慮了三種設(shè)置:
1)地面實況(ground truth)設(shè)置:機器人通過與真實的環(huán)境互動(比如移動)來進行規(guī)劃;
2)基線(Baseline)設(shè)置:機器人提前規(guī)劃,無需與導(dǎo)航圖交互、對建筑內(nèi)的導(dǎo)航路線進行編碼,但沒有提供任何視覺觀察;
3)Pathdreamer 設(shè)置:機器人提前規(guī)劃,無需與導(dǎo)航圖交互,且還能接收到Pathdreamer所生成的對應(yīng)視覺觀察。
在Pathdreamer設(shè)置中,機器人提前三步(大約6米)規(guī)劃,導(dǎo)航成功率高達 50.4%,而基線設(shè)置的成功率只有 40.6%。這表明,Pathdreamer對現(xiàn)實室內(nèi)環(huán)境中的有用、且可以訪問的視覺、空間與語義知識進行了編碼。
而在地面實況的設(shè)置中,機器人通過移動進行規(guī)劃,導(dǎo)航成功率達到了 59%。不過,地面實況設(shè)置要求機器人花費大量的時間與資源進行多軌跡探索,在現(xiàn)實世界中的代價可能十分高昂。
圖注:VLN機器人在三種設(shè)置(地面實況、基線與Pathdreamer)中的表現(xiàn)
實驗結(jié)果表明,類似 Pathdreamer 的世界模型在處理復(fù)雜的導(dǎo)航任務(wù)中具有出色表現(xiàn)。
參考鏈接:
1、https://ai.googleblog.com/2021/09/pathdreamer-world-model-for-indoor.html
2、https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/
3、https://ai.googleblog.com/2021/04/model-based-rl-for-decentralized-multi.html
4、https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html
5、https://worldmodels.github.io/
6、https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html
7、https://bair.berkeley.edu/blog/2019/12/12/mbpo/
8、https://blog.csdn.net/hhy_csdn/article/details/88207977
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。