0
雷鋒網(wǎng) AI 研習社按,日前,DeepMind 推出一種全新的分布式智能體訓練框架 IMPALA,該框架具有高度可擴展性,將學習和執(zhí)行過程分開,使用了一種名為 V-trace 的離策略(off-policy)修正算法,具有顯著的加速性能,極高的效率。具體如何呢,雷鋒網(wǎng) AI 研習社將其原文編譯整理如下:
深度強化學習 (DeepRL) 在一系列任務(wù)中取得很顯著的成果,比如機器人的連續(xù)控制問題、玩圍棋和 Atari 等游戲。目前為止,我們看到的這些成果僅限于單一任務(wù),每個任務(wù)都要單獨對智能體進行調(diào)參和訓練。
在我們最近的工作中,研究了在多個任務(wù)中訓練單個智能體。
今天我們發(fā)布 DMLab-30,這是一組橫跨很多挑戰(zhàn)的新任務(wù),在視覺統(tǒng)一的環(huán)境中,有著普通的行動空間(action space)。想訓練好一個在許多任務(wù)上都有良好表現(xiàn)的智能體,需要大量的吞吐量,有效利用每個數(shù)據(jù)點。
為此,我們開發(fā)了一種全新的、高度可擴展的分布式智能體訓練框架 IMPALA(重點加權(quán)行動-學習器框架,Importances Weighted Actor-Learner Architectures),這種框架使用了一種名為 V-trace 的離策略(off-policy)修正算法。
DMLab-30
DMLab-30 是通過開源強化學習環(huán)境 DeepMind Lab 設(shè)計的一系列新任務(wù)。有了 DMLab-30,任何深度強化學習研究人員都能夠在大范圍的、有趣的任務(wù)中測試系統(tǒng),支持單獨測試、多任務(wù)環(huán)境測試。
這些任務(wù)被設(shè)計得盡可能多樣化。它們有著不同的目標,有的是學習,有的是記憶,有的則是導航。它們的視覺效果也各不相同,比如有的是色彩鮮艷、現(xiàn)代風格的紋理,有的是黎明、正午或夜晚的沙漠中微妙的棕色和綠色。環(huán)境設(shè)置也不同,從開闊的山區(qū),到直角迷宮,再到開放的圓房間,這里都存在。
此外,一些環(huán)境中還有「機器人」,這些機器人會執(zhí)行以目標為導向的行為。同樣重要的是,任務(wù)不同,目標和獎勵也會有所不同,比如遵循語言指令、使用鑰匙開門、采摘蘑菇、繪制和跟蹤一條復雜的不能回頭的路徑這些任務(wù),最終目的和獎勵都會有所不同。
但是,就行動空間和觀察空間來說,任務(wù)的環(huán)境是一樣的??梢栽诿總€環(huán)境中對智能體進行訓練。在 DMLab 的 GitHub 頁面上可以找到更多關(guān)于訓練環(huán)境的細節(jié)。
IMPALA::重點加權(quán)行動-學習器框架
為了在 DMLab-30 中訓練那些具有挑戰(zhàn)性的任務(wù),我們開發(fā)了一個名為 IMPALA 的分布式智能體框架,它利用 TensorFlow 中高效的分布式框架來最大化數(shù)據(jù)吞吐量。
IMPALA 的靈感來自流行的 A3C 框架,后者使用多個分布式 actor 來學習智能體的參數(shù)。
在這樣的模型中,每個 actor 都使用策略參數(shù)的克隆在環(huán)境中行動。actor 會周期性地暫停探索來共享梯度,這些梯度是用一個中央?yún)?shù)服務(wù)器來計算的,會實時更新(見下圖)。
另一方面,在 IMPALA 中,不會用 actor 來計算梯度。它們只是用來收集經(jīng)驗,這些經(jīng)驗會傳遞給計算梯度的中央學習器,從而得到一個擁有獨立 actor 和 learner 的模型。
現(xiàn)代計算系統(tǒng)有諸多優(yōu)勢,IMPALA 可以利用其優(yōu)勢,用單個 learner 或多個 learner 進行同步更新。以這種方式將學習和行動分離,有助于提高整個系統(tǒng)的吞吐量,因為 actor 不再需要執(zhí)行諸如Batched A2C 框架中的等待學習步驟。
這使我們在環(huán)境中訓練 IMPALA 時不會受到框架渲染時間的變動或任務(wù)重新啟動時間的影響。
IMPALA 中的學習是連續(xù)的,不同于其他框架,每一步學習都要暫停
然而,將行動與學習分離會導致 actor 中的策略落后于 learner。為了彌補這一差異,我們引入 V-trace——條理化的離策略 actor critic 算法,它可以對 actor 落后的軌跡進行補償。可以在我們的論文 IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures 中看到該算法的具體細節(jié)。
IMPALA 中的優(yōu)化模型相對于類似智能體,能多處理 1 到 2 個數(shù)量級的經(jīng)驗,這使得在極具挑戰(zhàn)的環(huán)境中進行學習成為可能。
我們將 IMPALA 與幾個流行的 actor-critic 的方法進行了比較,發(fā)現(xiàn)它具有顯著的加速效果。此外,使用 IMPALA 的情況下,隨著 actor 和 learner 的增長,吞吐量幾乎是按線性增長的。這表明,分布式智能體模型和 V-trace 算法都能支持極大規(guī)模的實驗,支持的規(guī)模甚至可以達到上千臺機器。
當在 DMLab-30 上進行測試時,與 A3C 相比,IMPALA 的數(shù)據(jù)效率提高了 10 倍,最終得分達到后者的兩倍。此外,與單任務(wù)訓練相比,IMPALA 在多任務(wù)環(huán)境下的訓練呈正遷移趨勢。
IMPALA 論文地址:https://arxiv.org/abs/1802.01561
DMLab-30 GitHub地址:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30
via:DeepMind Blog
雷鋒網(wǎng) AI 研習社編譯整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。