UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

本文作者：高云河

編輯：楊曉凡

2018-09-14 10:06

專題：NeurIPS 2018

導(dǎo)語：從模擬器泛化到真實機器人，我們需要做的還有很多

雷鋒網(wǎng) AI 科技評論按：NIPS 2018 的錄用論文近期已經(jīng)陸續(xù)揭開面紗，強化學習毫不意外地仍然是其中一大熱門的研究領(lǐng)域。來自加州大學伯克利分校人工智能實驗室（BAIR）的研究人員分享了他們獲得了 NIPS 2018 spotlight 的研究成果：Visual Reinforcement Learning with Imagined Goals。他們提出了一種只需要圖片即可進行視覺監(jiān)督的強化學習方法，使得機器人能夠自主設(shè)定目標，并學習達到該目標。下面是雷鋒網(wǎng)對該博客的部分編譯。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

對于機器人，我們希望它能夠在非結(jié)構(gòu)化的復(fù)雜環(huán)境中實現(xiàn)任意目標，例如可以完成各種家務(wù)的私人機器人。想要實現(xiàn)這個目標，一個有效的方法是使用深度強化學習，這是一種強大的學習框架，機器人通過最大化獎勵函數(shù)學到各種行動。然而，經(jīng)典的強化學習方法通常使用人工設(shè)計的獎勵函數(shù)訓(xùn)練機器人去完成任務(wù)。例如，通過每個盤子和器具在桌子上的當前位置和目標位置之間的距離設(shè)計獎勵函數(shù)來訓(xùn)練機器人布置餐桌。這種方法需要人為每個任務(wù)單獨設(shè)計獎勵函數(shù)，還需要例如物體檢測器之類的額外系統(tǒng)作為輔助，這會使得整個系統(tǒng)變得昂貴且脆弱。此外，如果想要機器能夠執(zhí)行各種瑣碎的小任務(wù)，需要在每個新任務(wù)上重復(fù)強化學習的訓(xùn)練過程。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

盡管在模擬環(huán)境中設(shè)計獎勵函數(shù)并建立傳感器系統(tǒng)（門角度測量傳感器，物體檢測傳感器等）相當容易，但是到了現(xiàn)實生活中，這種方法并不實用，如最右圖所示。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

我們的算法只使用視覺就能夠訓(xùn)練解決多種問題的智能體，而沒有使用額外的設(shè)備。上面一行展示了目標圖片，下面一行展示了該策略達到這些目標的過程

在下面的博客中，我們將討論一個無人工監(jiān)督的，可以同時學習多個不同任務(wù)的強化學習算法。對于能夠在無人工干預(yù)的情況下學會技能的智能體（agent），它必須能夠為自己設(shè)定目標（goal），與環(huán)境交互，并評估自己是否已經(jīng)達到目標，并朝目標方向改善其行為。在我們的算法中這一切都是通過最原始的觀測（圖像）來實現(xiàn)的，并沒有手動設(shè)計的額外裝置（如物體檢測器）。比如想要讓機器人到達指定位置狀態(tài)，只需給他一張目標狀態(tài)的圖像，機器人就可以學習到到達指定位置的方法。在算法中，我們引入了一個能夠設(shè)定抽象目標，并向目標主動學習的系統(tǒng)。我們還展示了智能體如何通過這些自主學習技能來執(zhí)行各種用戶指定的目標（例如推動物體，抓取物體，開門等），而無需針對每個任務(wù)的額外訓(xùn)練。文章的最后展示了我們的方法足夠有效，可以在現(xiàn)實世界的 Swayer 機器人中工作。機器人可以自主學習設(shè)定目標并實現(xiàn)目標，在僅有圖像作為系統(tǒng)輸入的前提下，將目標推到指定位置。

給定目標的強化學習

想要實現(xiàn)強化學習，首先要面對一個問題：我們應(yīng)該如何表示世界的狀態(tài)和想要達到的目標呢？在多任務(wù)情況下，枚舉機器人可能需要注意的所有對象是不現(xiàn)實的：對象的數(shù)量和類型在不同情況下會有所不同，并且想準確檢測出它們還需要專用的視覺處理方法。換一種思路，我們可以直接在機器人的傳感器上操作，用機器人相機傳感器捕捉到的圖片表示當前真實世界的狀態(tài)，將我們希望世界是什么樣子的圖片作為目標。想要為機器人制定新任務(wù)，用戶只需提供一個目標圖像即可，比如希望盤子下圖樣子的圖片。在未來，這項工作可以擴展到更復(fù)雜的方式來指定目標，比如通過語言或者演示等來指定。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

目標任務(wù)：將世界變成圖像中的樣子

強化學習的核心思路是訓(xùn)練機器人最大化獎勵函數(shù)。對于給定目標的強化學習方法，獎勵函數(shù)的一種選擇是當前狀態(tài)和目標狀態(tài)之間距離的相反數(shù)，因此最大化獎勵函數(shù)即等價于最小化當前狀態(tài)到目標狀態(tài)的距離。

我們可以訓(xùn)練一個策略來最大化獎勵函數(shù)，這樣學習一個給定目標的 Q 函數(shù)就可以達到目標狀態(tài)。一個給定目標的 Q 函數(shù) Q(s,a,g) 能夠告訴我們，在給定狀態(tài) s 和目標 g 時，行動 a 的好壞。比如，一個 Q 函數(shù)可以告訴我們：「如果我拿著一個盤子（狀態(tài) s）并且想把盤子放在桌子上（目標 g），那么舉手（行動 a）這個動作有多好？」一旦將此 Q 函數(shù)訓(xùn)練好，就可以通過執(zhí)行下面的優(yōu)化策略來提取給定目標的策略：

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

該公式可以簡單的總結(jié)為：「根據(jù) Q 函數(shù)選擇最好的行動」。通過使用這個過程，我們能夠得到最大化所有獎勵函數(shù)之和的策略，即達到不同目標。

Q學習流行的一大原因是：它能夠以離線策略的形式執(zhí)行，即我們訓(xùn)練 Q 函數(shù)所需的所有信息僅為（狀態(tài)，行動，下一步狀態(tài)，目標，獎勵）的采樣：（s, a, s', g, r）。這些數(shù)據(jù)可以通過任何策略收集到，而且可以被多個任務(wù)重復(fù)利用。因此一個簡單的給定目標的Q學習算法流程如下：

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

訓(xùn)練過程中的最大瓶頸在于收集數(shù)據(jù)。如果我們能夠人工生成更多數(shù)據(jù)，我們就能夠在理論上學習解決多種任務(wù)，甚至不需要與真實世界交互。然而不幸的是，想得到準確的真實世界模型相當困難，所以我們通常不得不依賴于采樣以得到（狀態(tài)-行動-下一狀態(tài)）的數(shù)據(jù)：（s，a，s'）。然而，如果我們能夠修改獎勵函數(shù) r(s, g)，我們就可以反過頭重新標注目標，并重新計算獎勵，這樣就使得我們能夠在給定一個（s, a, s'）元組的情況下，人工生成更多數(shù)據(jù)。所以我們可以將訓(xùn)練過程修改為如下：

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

這種目標重采樣的方法的好處是，我們可以同時學習如何一次實現(xiàn)多個目標，而無需從環(huán)境中獲取更多數(shù)據(jù)。總的來說，這種簡單的修改可以大大加快學習速度。

要想實現(xiàn)上述方法，需要有兩個主要假設(shè)：（1）知道獎勵函數(shù)的形式。（2）知道目標的采樣分布 p(g)。之前有研究者使用這種目標重標注策略的工作（ Kaelbling '93 , Andrychowicz '17 , Pong '18）是在真實的狀態(tài)信息上操作（比如物體的笛卡爾位置），這就很容易手動設(shè)計目標分布p(g)和獎勵函數(shù)。然而，在目標狀態(tài)是圖像的基于視覺的任務(wù)上，這兩個假設(shè)在實際中都不成立。首先，我們不清楚應(yīng)該使用哪種獎勵函數(shù)，因為與當前狀態(tài)圖像與目標狀態(tài)圖像之間的像素級距離可能在語義上沒有任何意義。其次，因為我們的目標是圖像，對于第二個假設(shè)，我們需要知道一個目標圖像的分布 p(g)，使得我們可以從中對目標圖像進行采樣。然而圖像的分布相當復(fù)雜，手動設(shè)計目標圖像的分布是一個相當困難的任務(wù)，圖像生成仍然是一個活躍的研究領(lǐng)域。因此，為了解決這兩個問題，在我們的算法中我們希望智能體能夠自主想象出自己的目標，并學習如何實現(xiàn)這些目標。

使用想象的目標的強化學習

圖像作為一種高維信息，直接進行處理相當困難。因此可以通過學習圖像的表示，并使用這種表示來代替圖像本身，以減輕給定目標圖像的 Q 強化學習的挑戰(zhàn)。關(guān)鍵問題是：這種表示應(yīng)該滿足哪些屬性？為了計算語義上有意義的獎勵，需要一種能夠捕捉到圖像變化隱變量的表示。此外，需要一種能夠輕松生成新目標的方法。

我們通過首先訓(xùn)練一個生成隱變量的模型來實現(xiàn)這個目標，我門使用了一個變分自動編碼機（variational autoencoder, VAE）。該生成模型將高維觀察 X，如圖像，轉(zhuǎn)換到低維隱變量 z 中，反之亦然。訓(xùn)練該模型使得隱變量能夠捕捉圖像中變化的潛在變量，這與人類解釋世界和目標的抽象表示類似。給定當前圖像 x 和目標圖像 x_g，將它們分別轉(zhuǎn)換為隱變量 z 和 z_g。然后使用這些隱變量來表示強化學習算法的狀態(tài)和目標。在這個低維隱空間上而不是直接在圖像上學習Q函數(shù)和策略能夠有效加快學習的速度。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

智能體將當前圖像（x）和目標圖像（x_g）編碼到隱空間，使用隱空間中的距離作為獎勵函數(shù)。

使用圖像和目標的隱變量表示也解決了另一個問題：如何計算獎勵。使用隱空間中的距離來作為智能體的獎勵，而不是使用像素級的距離。在完整論文中，我們展示了這種方法與最大化達到目標的概率的目的相符合，而且能夠提供更有效的學習信號。

這種生成模型也很重要，因為它使得智能體能夠更容易地在隱空間中生成目標。特別的是，我們的生成模型能夠使在隱變量空間中的采樣變得不重要：我們只是從VAE先驗中采樣隱變量。我們使用這種采樣機制主要有兩種原因：首先，它為智能體設(shè)置自己的目標提供了一種機制。智能體只是從生成模型中對隱變量的值進行采樣，并嘗試達到該隱目標。第二，該重采樣機制也可以被用于上面提到的重新標記目標的過程中。因為生成模型經(jīng)過訓(xùn)練，可以將真實圖像編碼到先驗圖像中，所以從隱變量先驗中采樣可以生成有意義的隱目標。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

即使沒有人提供目標，智能體也能夠生成它自己的目標

總之，圖像的隱變量能夠（1）捕捉場景的潛在因素，（2）提供有意義的距離進行優(yōu)化，（3）提供有效的目標采樣機制，允許我們有效訓(xùn)練能夠在像素上直接操作的給定目標的強化學習智能體。我們將這個整個方法稱為具有想象目標的強化學習（reinforcement learning with imagined goals, RIG).

實驗

我們進行了實驗，以測試 RIG 是否具有足夠的采樣效率，能夠在合理的時間內(nèi)訓(xùn)練好真實世界的機器人策略。我們測試了機器人的兩種能力：達到用戶指定的位置，和將物體推到目標圖像所示的位置。機器人首先將輸入的目標圖像映射到隱空間中，作為自己的目標來學習。我們可以使用解碼器從隱空間映射回圖片來可視化機器人想象中的目標。在下面的動圖中，上面顯示了解碼出來的“想象”中的目標，而下面一行顯示了實際策略執(zhí)行的情況

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

機器人設(shè)定它自己的目標（上圖），練習達到這個目標（下圖）

通過設(shè)定自己的目標，機器人可以自主的訓(xùn)練達到不同的位置而無需人為參與。只有當人想要機器人執(zhí)行特定任務(wù)時，才需要人類參與。此時，給予機器人目標圖像。因為機器人已經(jīng)通過練習，能夠?qū)崿F(xiàn)很多種目標，可以看到它在沒有經(jīng)過額外訓(xùn)練的情況下，即能實現(xiàn)這個目標。

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

人類給一個目標圖像（上圖），機器人達到這個目標（下圖）

下面展示了使用 RIG 訓(xùn)練了將物體推到指定區(qū)域的策略：

UC伯克利 NIPS 2018 Spotlight論文：依靠視覺想象力的多任務(wù)強化學習

左：Sawyer機器人初始化。右：人類給出一個目標圖片（上圖），機器人達到該目標（下圖）

直接從圖像訓(xùn)練強化學習的策略可以輕松地在不同的任務(wù)中切換，如使機器人到達某個位置變成推動某個物體。只需改變一下物體重新拍一下照片即可。最后，盡管直接根據(jù)像素進行工作，這些實驗并沒有花費很長時間。到達指定位置，只需一小時的訓(xùn)練時間，而推動物體到某位置需要 4.5 小時。許多真實世界的機器人強化學習需要真實的機器人狀態(tài)信息如物體的位置。然而，這通常需要更多的機器，購買并設(shè)置額外的傳感器或者訓(xùn)練物體檢測系統(tǒng)。相比這下，本方法只需 RGB 相機就可以直接從圖像中進行工作。

對于更多結(jié)果，包括各部分對性能的提升以及與基準方法的對比，大家可以閱讀原始論文：https://arxiv.org/abs/1807.04742

未來發(fā)展方向

我們已經(jīng)證明，可以直接從圖像訓(xùn)練真實世界的機器人策略，同時可以以高效的方式實現(xiàn)各種任務(wù)。這個項目有很多令人興奮的后續(xù)發(fā)展?？赡苡幸恍┤蝿?wù)無法用目標圖像表示，但是可以用其他模態(tài)的信息來表示（如語言和演示）。此外，我們雖然提供了一種機制來對自主探索的目標進行采樣，但我們能否以更有理論指導(dǎo)的方式選擇這些目標來進行更好的探索？結(jié)合內(nèi)部動機的思路能夠使得我們的模型更積極的選擇能夠更快達到目標的策略。未來的另外一個方向是訓(xùn)練更好的生成模型，使其能夠理解動態(tài)信息。將環(huán)境的動態(tài)信息編碼能夠使隱空間更適合于強化學習，從而加快學習速度。最后，有些機器人任務(wù)的狀態(tài)難以用傳感器捕捉到，例如操縱可變性對象或者處理數(shù)量可變的對象的場景。進一步拓展 RIG 使得它能夠解決這些任務(wù)將是令人興奮的。

via Berkeley Blog，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章

專題

NeurIPS 2018

本專題其他文章

高云河

知情人士

發(fā)私信

當月熱門文章