DeepMind 推出分布式訓(xùn)練框架 IMPALA，開啟智能體訓(xùn)練新時代

本文作者：汪思穎

2018-02-09 09:48

導(dǎo)語：訓(xùn)練智能體新體驗(yàn)，try it！

雷鋒網(wǎng) AI 研習(xí)社按，日前，DeepMind 推出一種全新的分布式智能體訓(xùn)練框架 IMPALA，該框架具有高度可擴(kuò)展性，將學(xué)習(xí)和執(zhí)行過程分開，使用了一種名為 V-trace 的離策略（off-policy）修正算法，具有顯著的加速性能，極高的效率。具體如何呢，雷鋒網(wǎng) AI 研習(xí)社將其原文編譯整理如下：

深度強(qiáng)化學(xué)習(xí) （DeepRL）在一系列任務(wù)中取得很顯著的成果，比如機(jī)器人的連續(xù)控制問題、玩圍棋和 Atari 等游戲。目前為止，我們看到的這些成果僅限于單一任務(wù)，每個任務(wù)都要單獨(dú)對智能體進(jìn)行調(diào)參和訓(xùn)練。

在我們最近的工作中，研究了在多個任務(wù)中訓(xùn)練單個智能體。

今天我們發(fā)布 DMLab-30，這是一組橫跨很多挑戰(zhàn)的新任務(wù)，在視覺統(tǒng)一的環(huán)境中，有著普通的行動空間（action space）。想訓(xùn)練好一個在許多任務(wù)上都有良好表現(xiàn)的智能體，需要大量的吞吐量，有效利用每個數(shù)據(jù)點(diǎn)。

為此，我們開發(fā)了一種全新的、高度可擴(kuò)展的分布式智能體訓(xùn)練框架 IMPALA（重點(diǎn)加權(quán)行動-學(xué)習(xí)器框架，Importances Weighted Actor-Learner Architectures），這種框架使用了一種名為 V-trace 的離策略（off-policy）修正算法。

DMLab-30

DMLab-30 是通過開源強(qiáng)化學(xué)習(xí)環(huán)境 DeepMind Lab 設(shè)計的一系列新任務(wù)。有了 DMLab-30，任何深度強(qiáng)化學(xué)習(xí)研究人員都能夠在大范圍的、有趣的任務(wù)中測試系統(tǒng)，支持單獨(dú)測試、多任務(wù)環(huán)境測試。

DeepMind 推出分布式訓(xùn)練框架 IMPALA，開啟智能體訓(xùn)練新時代

這些任務(wù)被設(shè)計得盡可能多樣化。它們有著不同的目標(biāo)，有的是學(xué)習(xí)，有的是記憶，有的則是導(dǎo)航。它們的視覺效果也各不相同，比如有的是色彩鮮艷、現(xiàn)代風(fēng)格的紋理，有的是黎明、正午或夜晚的沙漠中微妙的棕色和綠色。環(huán)境設(shè)置也不同，從開闊的山區(qū)，到直角迷宮，再到開放的圓房間，這里都存在。

此外，一些環(huán)境中還有「機(jī)器人」，這些機(jī)器人會執(zhí)行以目標(biāo)為導(dǎo)向的行為。同樣重要的是，任務(wù)不同，目標(biāo)和獎勵也會有所不同，比如遵循語言指令、使用鑰匙開門、采摘蘑菇、繪制和跟蹤一條復(fù)雜的不能回頭的路徑這些任務(wù)，最終目的和獎勵都會有所不同。

但是，就行動空間和觀察空間來說，任務(wù)的環(huán)境是一樣的。可以在每個環(huán)境中對智能體進(jìn)行訓(xùn)練。在 DMLab 的 GitHub 頁面上可以找到更多關(guān)于訓(xùn)練環(huán)境的細(xì)節(jié)。

IMPALA:：重點(diǎn)加權(quán)行動-學(xué)習(xí)器框架

為了在 DMLab-30 中訓(xùn)練那些具有挑戰(zhàn)性的任務(wù)，我們開發(fā)了一個名為 IMPALA 的分布式智能體框架，它利用 TensorFlow 中高效的分布式框架來最大化數(shù)據(jù)吞吐量。

IMPALA 的靈感來自流行的 A3C 框架，后者使用多個分布式 actor 來學(xué)習(xí)智能體的參數(shù)。

在這樣的模型中，每個 actor 都使用策略參數(shù)的克隆在環(huán)境中行動。actor 會周期性地暫停探索來共享梯度，這些梯度是用一個中央?yún)?shù)服務(wù)器來計算的，會實(shí)時更新（見下圖）。

DeepMind 推出分布式訓(xùn)練框架 IMPALA，開啟智能體訓(xùn)練新時代

另一方面，在 IMPALA 中，不會用 actor 來計算梯度。它們只是用來收集經(jīng)驗(yàn)，這些經(jīng)驗(yàn)會傳遞給計算梯度的中央學(xué)習(xí)器，從而得到一個擁有獨(dú)立 actor 和 learner 的模型。

現(xiàn)代計算系統(tǒng)有諸多優(yōu)勢，IMPALA 可以利用其優(yōu)勢，用單個 learner 或多個 learner 進(jìn)行同步更新。以這種方式將學(xué)習(xí)和行動分離，有助于提高整個系統(tǒng)的吞吐量，因?yàn)?actor 不再需要執(zhí)行諸如Batched A2C 框架中的等待學(xué)習(xí)步驟。

這使我們在環(huán)境中訓(xùn)練 IMPALA 時不會受到框架渲染時間的變動或任務(wù)重新啟動時間的影響。

DeepMind 推出分布式訓(xùn)練框架 IMPALA，開啟智能體訓(xùn)練新時代

IMPALA 中的學(xué)習(xí)是連續(xù)的，不同于其他框架，每一步學(xué)習(xí)都要暫停

然而，將行動與學(xué)習(xí)分離會導(dǎo)致 actor 中的策略落后于 learner。為了彌補(bǔ)這一差異，我們引入 V-trace——條理化的離策略 actor critic 算法，它可以對 actor 落后的軌跡進(jìn)行補(bǔ)償?？梢栽谖覀兊恼撐?nbsp;IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures 中看到該算法的具體細(xì)節(jié)。

DeepMind 推出分布式訓(xùn)練框架 IMPALA，開啟智能體訓(xùn)練新時代

IMPALA 中的優(yōu)化模型相對于類似智能體，能多處理 1 到 2 個數(shù)量級的經(jīng)驗(yàn)，這使得在極具挑戰(zhàn)的環(huán)境中進(jìn)行學(xué)習(xí)成為可能。

我們將 IMPALA 與幾個流行的 actor-critic 的方法進(jìn)行了比較，發(fā)現(xiàn)它具有顯著的加速效果。此外，使用 IMPALA 的情況下，隨著 actor 和 learner 的增長，吞吐量幾乎是按線性增長的。這表明，分布式智能體模型和 V-trace 算法都能支持極大規(guī)模的實(shí)驗(yàn)，支持的規(guī)模甚至可以達(dá)到上千臺機(jī)器。

當(dāng)在 DMLab-30 上進(jìn)行測試時，與 A3C 相比，IMPALA 的數(shù)據(jù)效率提高了 10 倍，最終得分達(dá)到后者的兩倍。此外，與單任務(wù)訓(xùn)練相比，IMPALA 在多任務(wù)環(huán)境下的訓(xùn)練呈正遷移趨勢。

IMPALA 論文地址：https://arxiv.org/abs/1802.01561

DMLab-30 GitHub地址：https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

via：DeepMind Blog

雷鋒網(wǎng) AI 研習(xí)社編譯整理

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。