0
雷鋒網(wǎng) AI 科技評論按,深度強化學習(RL)技術(shù)可用于從視覺輸入中學習復雜任務(wù)的策略,并已成功應(yīng)用于經(jīng)典的 Atari2600 游戲中。最近在這一領(lǐng)域的研究表明,即使在像 Montezuma's Revenge 這樣的游戲所展示的具有挑戰(zhàn)性的探索機制中,它也可能獲得超人的表現(xiàn)。然而,目前許多最先進方法的局限之一是,它們需要與游戲環(huán)境進行大量的交互,且這些交互通常比人類去學習如何玩得好要多得多。
近日,谷歌 AI 發(fā)布了一篇博文,討論了他們的視頻模型中的模擬策略學習模型,雷鋒網(wǎng) AI 科技評論編譯整理如下。
解釋為什么人們能更有效地學習這些任務(wù)的一個假設(shè)是,他們能夠預(yù)測自己行動的效果,從而含蓄地學習一個模型,其行動順序?qū)е吕硐氲慕Y(jié)果。其一般思想是,建立所謂的博弈模型并用它學習一個選擇行為的良好策略,這是基于模型的強化學習(MBRL)的主要前提。
在「基于模型的 Atari 強化學習」中,我們引入了模擬策略學習(SimPLe)算法,這是一個 MBRL 框架,用于訓練 Atari 游戲機的代理,其效率顯著高于當前最先進的技術(shù),只需要使用與游戲環(huán)境的約 100K 交互(相當于真人 2 小時的游戲時間)就能顯示出有競爭力的結(jié)果。此外,我們已經(jīng)將相關(guān)代碼作為 Tensor2Tensor 開源代碼庫的一部分進行了開源。這個版本包含了一個預(yù)訓練的 world 模型,可以用一個簡單的命令行運行,也可以使用類似于 Atari 的界面來播放。
學習 SimPLe world 模型
總的來說,SimPLe 背后的思想是交替學習游戲行為的 world 模型,并使用該模型在模擬游戲環(huán)境中優(yōu)化策略(使用無模型強化學習)。該算法的基本原理已經(jīng)很好地建立起來,并在許多基于模型的強化學習方法中得到應(yīng)用。
SimPLe 的主循環(huán):1)代理開始與真實環(huán)境交互。2)收集的觀測數(shù)據(jù)用于更新當前的 world 模型。3)代理通過學習 world 模型更新策略。
為了訓練一個 Atari 游戲模型,我們首先需要在像素空間中生成合理的未來世界。換言之,我們試圖通過輸入一系列已經(jīng)觀察到的幀以及對游戲發(fā)出的命令(如「左」、「右」等)來預(yù)測下一幀將是什么樣子。在觀察空間中訓練 world 模型的一個重要原因是,它實際上是一種自我監(jiān)督的形式,其中,觀察像素在我們的例子中形成密集而豐富的監(jiān)控信號。
如果成功地訓練了這樣一個模型(例如視頻預(yù)測器),那么一個人基本上擁有一個學習過的游戲環(huán)境模擬器,可以選擇一系列行動,使游戲代理的長期回報最大化。換言之,我們通過來自 world 模型/學習模擬器的序列對策略進行訓練,而不是對來自真實游戲的序列進行策略訓練,因為后者在時間和計算量上花費都非常大。
我們的 world 模型是一個前饋卷積網(wǎng)絡(luò),它接受四幀數(shù)據(jù),預(yù)測下一幀以及反饋(見上圖)。然而,在 Atari 中,未來是不確定的,因為只知道前面四幀數(shù)據(jù)。在某些情況下,例如,在游戲中暫停超過四幀的時間、當乒乓球從幀中消失時,都可能導致模型無法成功預(yù)測后續(xù)幀。我們用一種新的視頻模型架構(gòu)來處理隨機性問題,這種架構(gòu)在這個環(huán)境中做得更好,這是受到先前工作的啟發(fā)。
當 SimPle 模型應(yīng)用到功夫大師身上時,就會看到一個由隨機性引起的問題的例子。在動畫中,左邊是模型的輸出,中間是事實,右邊的面板是兩者之間的像素差異。
在每一次迭代中,在 world 模型經(jīng)過訓練后,我們使用這個學習過的模型來生成動作、觀察和結(jié)果的樣本序列,使用近端策略優(yōu)化(PPO)算法改進游戲策略。其中的一個重要細節(jié)是,數(shù)據(jù)采樣從實際的數(shù)據(jù)集幀開始。SimPle 只使用中等長度的數(shù)據(jù)集,這是因為預(yù)測錯誤通常會隨著時間的推移而疊加,這使得長期預(yù)測非常困難。幸運的是,PPO 算法也可以從其內(nèi)部數(shù)值函數(shù)中學習行動和反饋之間的長期關(guān)系,因此有限長度的數(shù)據(jù)對于反饋稀少的游戲(如高速公路)來說是足夠的。
SimPLe 的效率
成功的一個衡量標準是證明模型是高效的。為此,我們評估了模型與環(huán)境進行 10 萬次交互后的策略輸出,這 10 萬次交互相當于一個人進行大約兩小時的實時游戲。我們在 26 款不同的游戲中比較了我們的 SimPLe 方法和兩種最先進的無模型 RL 方法——Rainbow 和 PPO。在大多數(shù)情況下,SimPLe 方法的采樣效率比其他方法高 2 倍以上。
兩個無模型算法(左:Rainbow,右:PPO)所需的交互次數(shù),以及使用我們的 SimPLe 訓練方法獲得的分數(shù)。紅線表示我們的方法使用的交互次數(shù)。
SimPLe 的成功
SimPLe 方法的結(jié)果令人振奮:對于其中兩個游戲,Pong 和 Freeway,在模擬環(huán)境中訓練的代理能夠達到最高分數(shù)。以下是我們的代理使用我們?yōu)?Pong 訓練的模型玩游戲的視頻:
對于 Freeway、Pong 和 Breakout 來說,SimPLe 可以生成最多 50 步接近像素級的完美預(yù)測,如下圖所示。
SimPLe 可以做出接近像素的完美預(yù)測。在每個動畫中,左邊是模型的輸出,中間是基本事實,右邊的窗格是兩個動畫之間的像素差異。
SimPLe 的驚喜
然而,SimPLe 并不總是做出正確的預(yù)測。最常見的失敗是由于 world 模型不能準確地捕獲或預(yù)測小的但高度相關(guān)的對象。比如,在 Atlantis 戰(zhàn)區(qū),子彈是如此的小,以至于它們往往會消失。
在戰(zhàn)場上,我們發(fā)現(xiàn)模型難以預(yù)測小的相關(guān)部分,例如子彈。
結(jié)論
基于模型的強化學習方法的主要用在交互成本高、速度慢或需要人工標記的環(huán)境中,例如用在多機器人任務(wù)中。在這樣的環(huán)境中,經(jīng)過學習的模擬器能夠更好地理解代理的環(huán)境,并能夠為多任務(wù)強化學習提供更新、更好、更快的方法。雖然 SimPLe 還達不到標準的無模型 RL 方法的性能要求,但它實際上更有效,我們希望將來能夠進一步提高基于模型的技術(shù)的性能。
如果你想開發(fā)你自己的模型和實驗,請移步我們的知識庫和 colab,在那里你可以找到關(guān)于如何使用預(yù)先訓練過的 world 模型一起重現(xiàn)我們工作的說明。
相關(guān)論文地址:https://arxiv.org/abs/1903.00374
via:https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。