繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

本文作者：陳彩嫻

2021-09-30 12:02

導(dǎo)語(yǔ)：谷歌開(kāi)發(fā)新的世界模型用于機(jī)器人導(dǎo)航，360度無(wú)死角。

近年來(lái)，世界模型（World Model）在機(jī)器人、模擬與強(qiáng)化學(xué)習(xí)中均取得了出色的研究結(jié)果。

2018年，Jürgen Schmidhuber 與 David Ha 首次以無(wú)監(jiān)督的方式訓(xùn)練世界模型，使模型能快速學(xué)習(xí)環(huán)境中的壓縮時(shí)空表征，再將世界模型中的特征作為智能體的輸入，訓(xùn)練出了一個(gè)非常壓縮與簡(jiǎn)單的策略來(lái)解決模擬2D賽車(chē)等任務(wù)。

今年2月，Google AI 也用世界模型，在 Atari 游戲中實(shí)現(xiàn)了達(dá)到人類水平的表現(xiàn)。

但是，相比簡(jiǎn)單的游戲環(huán)境，現(xiàn)實(shí)的世界環(huán)境要復(fù)雜得多。

不久前，在發(fā)表于 ICCV 2021 的一篇工作（“Pathdreamer: A World Model for Indoor Navigation”）上，Google AI 團(tuán)隊(duì)提出了一個(gè)世界模型，叫作“Pathdreamer”，可以僅基于有限的種子觀察與原先計(jì)劃的導(dǎo)航路線，生成一幅智能體“肉眼”不可見(jiàn)的建筑物區(qū)域的、360o 高清攝像。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

論文鏈接：https://arxiv.org/pdf/2105.08756.pdf

Google AI的團(tuán)隊(duì)將Pathdreamer應(yīng)用于機(jī)器人導(dǎo)航任務(wù)中，成功率高達(dá)50.4%！僅比ground truth設(shè)置低了 8.6%（59%）！

1、什么是世界模型？

世界模型（World Model）首次由 Jürgen Schmidhuber 與 David Ha 在 NeurIPS 2018中提出，主要出發(fā)點(diǎn)是打造一個(gè)通用強(qiáng)化學(xué)習(xí)環(huán)境的生成神經(jīng)網(wǎng)絡(luò)模型，為強(qiáng)化學(xué)習(xí)技術(shù)的落地提供完美的模擬環(huán)境。這篇工作入選了當(dāng)年 NeurIPS 的 oral paper。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

論文地址：https://arxiv.org/pdf/1803.10122.pdf

世界模型的靈感來(lái)源于心理學(xué)上的“心理世界模型”（mental model of the world）。

在人對(duì)世界的理解過(guò)程中，我們往往是以有限的感官所能感知到的事物為基礎(chǔ)，形成一個(gè)心理世界模型。我們所做的決定和行動(dòng)都是基于這個(gè)模型。雷鋒網(wǎng)

為了處理流經(jīng)我們?nèi)粘Ｉ畹拇罅啃畔?，我們的大腦學(xué)會(huì)了信息的空間域和時(shí)域的抽象表示。我們能夠觀察一個(gè)場(chǎng)景并記住其中的抽象描述。雷鋒網(wǎng)

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

圖注 / 世界模型示例，源自 Scott McCloud 的《理解漫畫(huà)》一書(shū)

證據(jù)還表明，我們?cè)谌魏螘r(shí)刻所感知的，都是由我們的大腦根據(jù)我們的內(nèi)部心理模型對(duì)未來(lái)的預(yù)測(cè)所決定的。雷鋒網(wǎng)

心理模型不僅僅是預(yù)測(cè)未來(lái)，而且會(huì)根據(jù)我們當(dāng)前的運(yùn)動(dòng)行為來(lái)預(yù)測(cè)未來(lái)的感官數(shù)據(jù)。我們能夠在這種預(yù)測(cè)模型上采取行動(dòng)，并在我們面臨危險(xiǎn)時(shí)表現(xiàn)出快速的行為，而不需要有意識(shí)地規(guī)劃一個(gè)行動(dòng)路線。

以棒球?yàn)槔?，一個(gè)棒球運(yùn)動(dòng)員只有毫秒級(jí)的時(shí)間來(lái)決定如何揮動(dòng)球棍，這個(gè)時(shí)間甚至比視覺(jué)信號(hào)從眼球傳到大腦的時(shí)間還要短。對(duì)專業(yè)運(yùn)動(dòng)員來(lái)說(shuō)，這個(gè)動(dòng)作幾乎是下意識(shí)的，他們的肌肉在正確的時(shí)間和地點(diǎn)揮動(dòng)球棍，與他們內(nèi)部模型的預(yù)測(cè)一致。他們可以根據(jù)他們對(duì)未來(lái)的預(yù)測(cè)迅速采取行動(dòng)，而不需要有意識(shí)地推出可行的擊球計(jì)劃。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

在許多強(qiáng)化學(xué)習(xí)問(wèn)題中，智能體既需要一個(gè)對(duì)過(guò)去和現(xiàn)在狀態(tài)的良好描述，還需要一個(gè)優(yōu)秀的模型來(lái)預(yù)測(cè)未來(lái)的狀態(tài)。作為真實(shí)世界的一個(gè)表征，世界模型采用無(wú)監(jiān)督的方式進(jìn)行訓(xùn)練，能取得較好的策略。

2018年，當(dāng) Jürgen Schmidhuber 與 David Ha 提出世界模型后，他們將世界模型用于解決一個(gè)賽車(chē)競(jìng)速的強(qiáng)化學(xué)習(xí)任務(wù)。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

帶有預(yù)測(cè)能力的世界模型可以有效地提取空域與時(shí)域特征，再將這些特征應(yīng)用于控制模型，然后訓(xùn)練一個(gè)最小的控制模型來(lái)完成連續(xù)域控制任務(wù)，即賽車(chē)。

2、Pathdreamer的誕生

受到 Jürgen Schmidhuber 等人的工作啟發(fā)，谷歌團(tuán)隊(duì)開(kāi)始將世界模型的研究思想應(yīng)用在同樣是智能體控制的機(jī)器人導(dǎo)航任務(wù)中，使用世界模型來(lái)獲取周?chē)h(huán)境的信息，使智能體能夠在特定的環(huán)境中預(yù)測(cè)自己的行為后果。

圖 / 世界模型的工作原理

在了解Pathdreamer之前，我們不妨設(shè)想一下：

如果你出去旅游，住進(jìn)一間完全陌生的民宿，你會(huì)如何判斷房子的方位？

一般來(lái)說(shuō)，當(dāng)我們推開(kāi)大門(mén)，我們會(huì)知道首先映入眼前的是客廳，然后順著客廳猜測(cè)臥室、廚房、陽(yáng)臺(tái)等等空間的方位。繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

圖 / 人的導(dǎo)航習(xí)慣是依據(jù)眼前所見(jiàn)之物來(lái)判斷

那么，機(jī)器人呢？如果一個(gè)機(jī)器人來(lái)到一個(gè)完全陌生的房子里，它會(huì)如何導(dǎo)航？

人在判斷方位時(shí)，善于利用視覺(jué)與常識(shí)，通過(guò)眼前的事物推理出空間的布局，從而找到自己的目標(biāo)。但是，對(duì)于機(jī)器人來(lái)說(shuō)，在一個(gè)新的建筑里，要利用語(yǔ)義線索與事物的規(guī)律分布來(lái)定位，并不是一件容易的事。

此前，針對(duì)上述問(wèn)題，F(xiàn)acebook AI 提出了一個(gè)算法，叫“DD-PPO”，主要是：通過(guò)無(wú)模型強(qiáng)化學(xué)習(xí)（model-free reinforcement learning），以端到端的方式讓智能體學(xué)習(xí)辨認(rèn)一個(gè)空間內(nèi)的線索、并利用這些線索來(lái)完成導(dǎo)航的任務(wù)。

但是，這種方式的學(xué)習(xí)成本高，難以檢驗(yàn)，而且泛化難，另一個(gè)智能體必須從頭開(kāi)始學(xué)習(xí)同樣的方式、才能掌握依據(jù)理解線索來(lái)定位的能力。

相比之下，Pathdreamer 模型可以從單一視角合成一幅沉浸式場(chǎng)景圖，預(yù)測(cè)當(dāng)智能體移動(dòng)到一個(gè)新的視點(diǎn)、或是移動(dòng)到一個(gè)完全看不見(jiàn)的區(qū)域（比如角落）時(shí)，智能體可能會(huì)看到什么。

這不僅可以用于視頻編輯、使照片看起來(lái)栩栩如生，最重要的是，它還可以將人類環(huán)境的知識(shí)告訴機(jī)器智能體，幫助機(jī)器人在現(xiàn)實(shí)世界中定位導(dǎo)航。

比如，如果我們給機(jī)器人一個(gè)任務(wù)，讓它在一棟陌生的建筑里尋找某個(gè)房間或物體，那么它就可以先在世界模型中進(jìn)行模擬，學(xué)習(xí)識(shí)別物體在空間中可能的位置，減少實(shí)際投入后的導(dǎo)航錯(cuò)誤。

除了模擬導(dǎo)航以外，機(jī)器人在Pathdream等世界模型中訓(xùn)練，還可以增加訓(xùn)練數(shù)據(jù)的數(shù)量。

3、Pathdreamer的工作原理

Pathdreamer 將原來(lái)的一個(gè)或多個(gè)觀察序列作為輸入，生成通往目標(biāo)位置的預(yù)測(cè)路線。預(yù)測(cè)的路線是事先提供，或由智能體在返回途中接觸到的觀察迭代更新。輸入與預(yù)測(cè)均包含 RGB、語(yǔ)義分割與深度圖像。

在內(nèi)部，Pathdreamer 使用了 3D 點(diǎn)云來(lái)表示環(huán)境的表面。云中的點(diǎn)都標(biāo)了它們的 RGB 顏色值和它們的語(yǔ)義分割類，比如墻壁、椅子或桌子。

要在新的建筑物里預(yù)測(cè)即將映入眼前的事物，首先要將點(diǎn)云重新投射到新建筑的 2D 圖像中、以提供“指導(dǎo)”圖像，然后，Pathdreamer 會(huì)從中生成逼真的高分辨率 RGB、語(yǔ)義分割和深度。

隨著模型的“移動(dòng)”，點(diǎn)云會(huì)積累新的觀察結(jié)果（要么是真實(shí)的，要么是預(yù)測(cè)的）。使用點(diǎn)云來(lái)記憶的一個(gè)優(yōu)勢(shì)是時(shí)序一致性（temporal consistency）——重新訪問(wèn)的區(qū)域會(huì)以與先前觀察一致的方式呈現(xiàn)。

為了將指導(dǎo)圖像轉(zhuǎn)換為合理、真實(shí)的圖像輸出，Pathdreamer 分為兩個(gè)階段運(yùn)行：第一階段，用結(jié)構(gòu)生成器生成分割和深度圖像；第二階段，用圖像生成器將分割與深度圖像渲染為 RGB 輸出。

從概念上講，就是第一階段提供了關(guān)于場(chǎng)景的合理高級(jí)語(yǔ)義表示，第二階段再將其渲染為逼真的彩色圖像。這兩個(gè)階段都用到了卷積神經(jīng)網(wǎng)絡(luò)（CNN）：

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

在具有高度不確定性的區(qū)域，比如拐角或視線以外的房間，可能會(huì)出現(xiàn)許多不同的場(chǎng)景。而Pathdreamer能夠生成滿足區(qū)域高度不確定的多樣化結(jié)果。

有感于受到紐約大學(xué)Rob Fergus與Emily Denton提出的隨機(jī)視頻生成思想，Pathdreamer的結(jié)構(gòu)生成器以噪音變量為條件，該變量表示指導(dǎo)圖像中沒(méi)有捕獲的下一個(gè)導(dǎo)航位置的隨機(jī)信息。通過(guò)對(duì)多個(gè)噪音變量進(jìn)行采樣，Pathdreamer可以合成多個(gè)不同場(chǎng)景，允許智能體在一條給定的導(dǎo)航路線中對(duì)多個(gè)合理的結(jié)果進(jìn)行采樣。

這些不同的輸出不僅反映在第一階段的輸出（語(yǔ)義分割和深度圖像）中，還反映在生成的 RGB 圖像中。

如下圖所示，最左側(cè)的一列指導(dǎo)圖像表示智能體先前看到的像素。其中，黑色像素表示智能體原先看不見(jiàn)的區(qū)域，對(duì)此，Pathdreamer 通過(guò)對(duì)多個(gè)隨機(jī)噪聲向量進(jìn)行采樣，生成了不同的圖像輸出。在實(shí)踐中，當(dāng)智能體在一個(gè)環(huán)境中定位導(dǎo)航時(shí)，它可以通過(guò)新的觀察結(jié)果來(lái)生成輸出圖像。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？

Pathdreamer 基于來(lái)自 Matterport3D 的圖像和 3D 環(huán)境重建進(jìn)行訓(xùn)練，并且能夠合成逼真的圖像與連續(xù)的視頻序列。由于輸出圖像具有高分辨率和 360o 無(wú)死角的特征，現(xiàn)有的導(dǎo)航機(jī)器人可以輕松地將圖像轉(zhuǎn)換，以適應(yīng)機(jī)器人配有的相機(jī)視野。

4、將Pathdreamer應(yīng)用于視覺(jué)導(dǎo)航任務(wù)

他們將 Pathdreamer 應(yīng)用于視覺(jué)與語(yǔ)言導(dǎo)航 (VLN) 任務(wù)，其中，機(jī)器人必須遵循自然語(yǔ)言的指令定位到真實(shí) 3D 環(huán)境中的某一個(gè)位置。他們使用 Room-to-Room（R2R）數(shù)據(jù)集進(jìn)行了一項(xiàng)實(shí)驗(yàn)，讓指令機(jī)器人在模擬多條可能的行走軌跡前進(jìn)行規(guī)劃，并根據(jù)導(dǎo)航指令對(duì)每一條軌跡進(jìn)行排名，然后選擇排名第一的軌跡進(jìn)行導(dǎo)航。

實(shí)驗(yàn)考慮了三種設(shè)置：

1）地面實(shí)況（ground truth）設(shè)置：機(jī)器人通過(guò)與真實(shí)的環(huán)境互動(dòng)（比如移動(dòng)）來(lái)進(jìn)行規(guī)劃；

2）基線（Baseline）設(shè)置：機(jī)器人提前規(guī)劃，無(wú)需與導(dǎo)航圖交互、對(duì)建筑內(nèi)的導(dǎo)航路線進(jìn)行編碼，但沒(méi)有提供任何視覺(jué)觀察；

3）Pathdreamer 設(shè)置：機(jī)器人提前規(guī)劃，無(wú)需與導(dǎo)航圖交互，且還能接收到Pathdreamer所生成的對(duì)應(yīng)視覺(jué)觀察。

在Pathdreamer設(shè)置中，機(jī)器人提前三步（大約6米）規(guī)劃，導(dǎo)航成功率高達(dá) 50.4%，而基線設(shè)置的成功率只有 40.6%。這表明，Pathdreamer對(duì)現(xiàn)實(shí)室內(nèi)環(huán)境中的有用、且可以訪問(wèn)的視覺(jué)、空間與語(yǔ)義知識(shí)進(jìn)行了編碼。

而在地面實(shí)況的設(shè)置中，機(jī)器人通過(guò)移動(dòng)進(jìn)行規(guī)劃，導(dǎo)航成功率達(dá)到了 59%。不過(guò)，地面實(shí)況設(shè)置要求機(jī)器人花費(fèi)大量的時(shí)間與資源進(jìn)行多軌跡探索，在現(xiàn)實(shí)世界中的代價(jià)可能十分高昂。

繼LSTM之父用世界模型來(lái)模擬2D賽車(chē)后，谷歌又推出全新世界模型助力導(dǎo)航：360度無(wú)死角，就問(wèn)你怕了沒(méi)？