谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)

本文作者： AI研習(xí)社-譯站

2019-05-13 11:42

導(dǎo)語：現(xiàn)如今，遷移學(xué)習(xí)在機器學(xué)習(xí)社區(qū)中風(fēng)靡一時。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Everything you need to know about Google’s new PlaNet reinforcement learning network
作者 | Cecelia Shao
翻譯 | 蘿卜菜在種樹
編輯 | 醬番梨、Pita
原文鏈接：
https://towardsdatascience.com/everything-you-need-to-know-about-googles-new-planet-reinforcement-learning-network-144c2ca3f284

谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)

跑步之前先學(xué)會走路。

現(xiàn)如今，遷移學(xué)習(xí)在機器學(xué)習(xí)社區(qū)中風(fēng)靡一時。

遷移學(xué)習(xí)是Google、Salesforce、IBM和Azure云服務(wù)商提供的托管AutoML服務(wù)的基礎(chǔ)。它現(xiàn)在在最新的NLP研究中占據(jù)突出的地位——包括谷歌的BERT以及ULMFIT中有重要的作用。

正如Sebastian在他的博文（NLP’s ImageNet moment has arrived）中寫道：

這些成為舉世聞名的工作是通過展示預(yù)訓(xùn)練語言模型在各種NLP任務(wù)上實現(xiàn)良好的性能。這些方法標(biāo)志著一個分水嶺：它們可能會像預(yù)訓(xùn)練的ImageNet模型對計算機視覺的影響一樣對NLP產(chǎn)生廣泛的影響。

我們也開始看到可以使用跨領(lǐng)域遷移學(xué)習(xí)處理多個任務(wù)的神經(jīng)網(wǎng)絡(luò)的例子。 Paras Chopra 是一個基于PyTorch的很好的教程，可以根據(jù)文本描述進(jìn)行圖像搜索，搜索相似的圖像和文字，并在圖像下面寫上題注。

與其他機器學(xué)習(xí)方法相比，深度強化學(xué)習(xí)因其數(shù)據(jù)量小而聞名，其學(xué)習(xí)過程中存在不穩(wěn)定性（參照 Deepmind關(guān)于RL與神經(jīng)網(wǎng)絡(luò)的論文），以及性能方面的落后。我們已經(jīng)看到強化學(xué)習(xí)的應(yīng)用主要是游戲或機器人，這些場景可以產(chǎn)生大量模擬數(shù)據(jù)。

與此同時，許多人認(rèn)為強化學(xué)習(xí)仍然是實現(xiàn)人工智能最可行的方法。然而，強化學(xué)習(xí)不斷遇到在不同環(huán)境中推廣到許多任務(wù)能力的阻力——這是智能的關(guān)鍵屬性。

畢竟，學(xué)習(xí)并不是一件容易的事情。當(dāng)這些環(huán)境既具有高維感知輸入有不具有進(jìn)展、獎勵或者成功的概念，抑或是極度延遲的概念時，這些強化學(xué)習(xí)的媒介必須處理并得出其環(huán)境的有效表示。最重要的是，它們必須使用這些信息將過去的經(jīng)驗概括為新的情況。

到目前為止，強化學(xué)習(xí)技術(shù)的研究主要聚焦在掌握個人任務(wù)上。對于遷移學(xué)習(xí)是否有助于強化學(xué)習(xí)達(dá)到普適性這一問題，我十分感興趣。因此，當(dāng)谷歌AI團(tuán)隊在今年早些時候發(fā)布深度規(guī)劃網(wǎng)絡(luò)(PlaNet)時，我非常激動。

PlaNet的背后

在這個項目中，PlaNet代理的任務(wù)是規(guī)劃一系列動作，以實現(xiàn)像桿平衡這一的目標(biāo)，教虛擬實體（人或獵豹）走路，或通過在特定位置擊打它來保持盒子旋轉(zhuǎn)。

谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)

深度規(guī)劃網(wǎng)絡(luò)（PlaNet）代理必須執(zhí)行的六個任務(wù)的概述。點擊原文查看詳細(xì)視頻

在谷歌AI博客文章中介紹的PlaNet，這里有六個任務(wù)（加上與該任務(wù)相關(guān)的挑戰(zhàn)）：

Cartpole Balance:從桿平衡開始，代理必須快速識別以保持桿一直直立。
Cartpole Swingup:在一個固定的攝像頭情況下，推車可以移出到攝像頭范圍外。因此，代理必須得到并且記住多個幀的信息。
Finger Spin:預(yù)測兩個獨立的對象，以及它們之間的交互。
Cheetah Run:包含難以準(zhǔn)確預(yù)測的地形，需要一個能夠預(yù)測多種情況的模型。
Cup Catch: 只在球被抓住時才會提供稀疏的獎勵信號。這需要很準(zhǔn)確的預(yù)測，以規(guī)劃精確的行動序列。
Walker Walk:模擬機器人躺在地上，然后學(xué)會站起來并且走路。

PlaNet需要實現(xiàn)這些任務(wù)之間的一些共同目標(biāo)：

代理需要預(yù)測各種可能的未來
代理需要根據(jù)最近操作的結(jié)果/獎勵更新計劃
代理需要在很多時間步驟中保留信息

那么谷歌AI團(tuán)隊是如何實現(xiàn)這些目標(biāo)的呢？

PlaNet AI…and the rest?

PlaNet AI以三種不同的方式區(qū)別于傳統(tǒng)強化學(xué)習(xí)方法：

使用潛在動力學(xué)模型學(xué)習(xí)——PlaNet從一系列隱藏或潛在狀態(tài)而不是圖像中學(xué)習(xí)，以預(yù)測潛在狀態(tài)的未來發(fā)展。
基于模型的計劃——PlaNet在沒有策略網(wǎng)絡(luò)情況下工作，并且基于持續(xù)的計劃做出決策。
遷移學(xué)習(xí)——谷歌AI團(tuán)隊訓(xùn)練了一個PlaNet代理，以解決六種不同的任務(wù)。

讓我們深入研究這其中的每一個差異，看看它們?nèi)绾斡绊懩Ｐ托阅堋?/p>

＃1潛在動力學(xué)模型

作者在這里的主要選擇是使用緊湊的潛在狀態(tài)還是來自環(huán)境的原始感官輸入。

使用緊湊的潛在狀態(tài)空間意味著難度提升，因為代理不僅必須學(xué)會打敗游戲，還必須建立對游戲視覺概念的理解——這使得圖像的編碼和解碼需要大量計算。

使用緊湊潛狀態(tài)空間的關(guān)鍵好處是它允許代理學(xué)習(xí)更多的抽象表示，如對象的位置和速度，同時無需生成圖像。這意味著實際規(guī)劃要快得多，因為代理只需要預(yù)測未來的獎勵而不是圖像或場景。

潛在動力學(xué)模型現(xiàn)在普遍使用，因為研究人員認(rèn)為“同時訓(xùn)練潛在動力學(xué)模型并結(jié)合提供的獎勵將產(chǎn)生對與獎勵信號相關(guān)的變異因素敏感的潛在嵌入，并且在訓(xùn)練期間對模擬的外來因素不敏感?！?/p>

谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)

學(xué)習(xí)潛在動力學(xué)模型——編碼器網(wǎng)絡(luò)（灰色梯形）不是直接使用輸入圖像，而是將圖像信息壓縮成隱藏狀態(tài)（綠色圓圈）。然后使用這些隱藏狀態(tài)來預(yù)測未來圖像（藍(lán)色梯形）和獎勵（藍(lán)色矩形）。

可以通過原文查看《關(guān)于使用深度自動編碼器進(jìn)行高效嵌入式強化學(xué)習(xí)》這篇論文

在自主嵌入式系統(tǒng)中，減少現(xiàn)實世界中采取的行動和學(xué)習(xí)政策所需的能量通常至關(guān)重要。從高維圖像表示中訓(xùn)練強化學(xué)習(xí)代理可能非常耗時且開銷大。自動編碼器是一種深度神經(jīng)網(wǎng)絡(luò)，它用于將像素化圖像等高維數(shù)據(jù)壓縮成小的潛在表示。

#2 model-based的計劃與model-free

谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)

來自Jonathan Hui的圖表顯示了強化學(xué)習(xí)方法的前景

model-based的強化學(xué)習(xí)試圖讓代理了解世界的一般行為。這不是通過直接觀察映射到行動，而是允許代理提前規(guī)劃，通過“想象”他們的長期結(jié)果來更謹(jǐn)慎地選擇行動。采用model-based的方法的好處在于它的樣本效率更高 - 這意味著它不會從頭開始學(xué)習(xí)每個新任務(wù)。

查看model-free模型和model-based的強化學(xué)習(xí)之間差異的一種方法是查看我們是否針對最大獎勵或最低成本進(jìn)行優(yōu)化（model-free=最大獎勵，而 model-based=最低成本）。

像使用Policy Gradients這樣的model-free強化學(xué)習(xí)技術(shù)可以是暴力解決方案，最終發(fā)現(xiàn)正確行為并將其滲透到策略中。Policy Gradients實際上必須接受積極的反饋，并經(jīng)常接受它，以便最終將Policy Gradients參數(shù)給予高回報的動作。

一個有趣的注意事項是任務(wù)類型如何影響您可能選擇使用的方法。在Andrej Kaparthy的帖子“Deep Reinforcement Learning：Pong from Pixels”中，他描述了Policy Gradients可以擊敗人類的游戲/任務(wù)：

“有很多游戲Policy Gradients很容易打敗人類。特別是任何需要精確操作、快速反應(yīng)和不需要長期規(guī)劃的頻繁獎勵信號都是理想的，因為獎勵和行動之間的這些短期相關(guān)性可以通過該方法輕松“注意到”，并且能夠非常好地執(zhí)行得到政策。你可以在我們的Pong代理中看到已經(jīng)發(fā)生過這種情況的提示：它開發(fā)了一種策略，它等待球，然后迅速反彈，以便在邊緣捕獲它。這個球能夠快速啟動并且移動速度快。代理連續(xù)幾次重復(fù)此策略。有許多ATARI游戲，其中Deep Q Learning以這種方式破壞人類的基準(zhǔn)表現(xiàn)——例如Pinball, Breakout等“

#3 遷移學(xué)習(xí)

在第一次訓(xùn)練之后，PlaNet代理已經(jīng)對重力和動力學(xué)有了基本的了解，并且能夠在下一次訓(xùn)練的時候使用此次知識。因此，PlaNet的效率通常比從頭開始學(xué)習(xí)的方法高50倍。這意味著代理只需要查看動畫的五個幀（實際上是1/5秒的鏡頭）就能夠以非常高的精度預(yù)測序列的進(jìn)行在。在應(yīng)用方面，這意味著團(tuán)隊無需培訓(xùn)六個單獨的模型來實現(xiàn)任務(wù)的可靠性。

來自論文：“PlaNet解決了各種基于圖像的控制任務(wù)，在性能方面與先進(jìn)的無代理模型比較，平均效率提高了5000%······這些學(xué)習(xí)動態(tài)可以獨立于任何特定任務(wù)，因此有可能很好地遷移到環(huán)境中的其他任務(wù)?！?/p>

查看PlaNet對D4PG的驚人數(shù)據(jù)效率，僅有2,000代：

谷歌的 PlaNet 強化學(xué)習(xí)網(wǎng)絡(luò)