丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給楊鯉萍
發(fā)送

0

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

本文作者: 楊鯉萍 2019-07-23 16:11
導語:一個專注模塊化和快速原型設計的深度強化學習框架

雷鋒網 AI 科技評論按:近日,Github 上開源的一個專注模塊化和快速原型設計的深度強化學習框架 Huskarl 有了新的進展。該框架除了輕松地跨多個 CPU 內核并行計算環(huán)境動態(tài)外,還已經成功實現(xiàn)與 OpenAI Gym 環(huán)境的無縫結合。TensorFlow 發(fā)布了相應的文章來報道此研究成果,雷鋒網 AI 科技評論將其編譯如下。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

背景概述

深度學習革命在計算機視覺和自然語言處理等領域取得了許多最新的進展和突破。尤其是在深度強化學習這個特別的領域,我們已經看到了非凡的進展。2013 年 DeepMind 出版了「用深度強化學習來玩 Atari」,這個模型只通過觀看屏幕上的像素,就可以學習如何玩 Atari 游戲。三年后,AlphaGo 擊敗了圍棋世界冠軍,這一舉動吸引了全球觀眾的注意。在這之后,AlphaZero 又打破了從人類比賽中學習的規(guī)定,將自我學習推廣到任何完美的信息游戲,并有效地成為圍棋、國際象棋和日本將棋的世界冠軍。Huskarl 在這樣的深度學習熱潮之下,有了更深入的研究進展。

模型框架

Huskarl 是一個新的開源框架,用于深度強化學習訓練,專注于模塊化和快速原型設計。它基于 TensorFlow 2.0 構建,并使用了 tf.keras API 以實現(xiàn)其簡潔性和可讀性。

Huskarl 最近在 PoweredByTF 2.0 挑戰(zhàn)賽(https://tensorflow.devpost.com/)中獲得第一名,該挑戰(zhàn)賽意在讓研究人員更易于對深度強化學習算法進行運行、測試、優(yōu)化和對比的操作。

Huskarl 與 TensorFlow 抽象出計算圖的管理以及 Keras 創(chuàng)建高級模型的想法類似,它抽象出了智能體與環(huán)境的交互。這便使用戶能夠專注于開發(fā)和理解算法,同時還可以防止數據泄漏。Huskarl 可以做到與 OpenAI Gym 環(huán)境的無縫結合,其中也包括了 Atari 環(huán)境。下面是創(chuàng)建并可視化深度強化學習網絡(DQN)智能體所需的完整代碼,該智能體將學習 cartpole 平衡問題。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

創(chuàng)建并可視化深度強化學習網絡(DQN)智能體的完整代碼

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!


Huskarl DQN 智能體學習平衡 cartpole(完整動態(tài)圖點擊原文鏈接查看)

目前 Huskarl 支持的一些算法可以在三類可調智能體上運行。

第一類是 DQN 智能體,它可以實現(xiàn)深度 Q 學習(https://arxiv.org/abs/1509.06461)以及多種增強功能,例如:可變步長跟蹤(variable-step traces)、雙 DQN 和可調整的對抗架構(dueling architecture)。DQN 是一種非策略算法,我們的實現(xiàn)默認使用優(yōu)先經驗回放(Prioritized experience replay)。DQN 智能體主要處理離散動作空間的問題。

第二類是 A2C 智能體,它采用了同步、多步的「優(yōu)勢動作-評論」(Advantage Actor-Critic)模型,這是一種基于策略的算法。(有關 A2C 與 A3C 之間差異的更多信息,可參閱此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允許像 A2C 這樣基于策略的算法輕松地同時從多個環(huán)境實例中獲取經驗數據,這有助于數據的整理過程變得更加穩(wěn)定,從而更利于學習。

第三類是 DDPG 智能體,它采用了變步長跟蹤的深度確定性策略梯度(Deep Deterministic Policy Gradient)算法,同時在默認情況下也使用優(yōu)先經驗回放。DDPG 智能體專用于處理連續(xù)動作空間的問題。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

Huskarl DDPG 智能體學習提升鐘擺

Huskarl 可以輕松地跨多個 CPU 內核并行計算環(huán)境動態(tài),這非常很有助于如 A2C 和 PPO 這類策略性(從多個并發(fā)經驗源中學習數據)算法的加速。首先,如果要同時使用多個環(huán)境實例,我們只需為基于策略的智能體和模擬器提供所需數量的環(huán)境實例;然后將環(huán)境實例分布在多個進程上,這些進程將在可用的 CPU 內核上自動并行化;之后我們只需在調用 sim.train()函數時為 max_subprocesses 參數提供所需的值即可,詳情如下面的代碼段所示。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

Huskarl 實現(xiàn)策略性算法加速的代碼段(跳轉原文可查看完整代碼)

另外需要注意的是,為每個環(huán)境實例使用不同的策略非常簡單,無需提供單個策略對象,只需提供策略列表即可。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

Huskarl A2C 智能體同時學習 16 個環(huán)境實例來平衡 cartpole。其中,較粗的藍線表示使用貪婪的目標政策獲得的獎勵,當在其他 15 個環(huán)境中起作用時使用高斯?-貪婪(gaussian epsilon-greedy)策略,epsilon 均值從 0 變?yōu)?1

但如果在某些簡單環(huán)境中,如 cartpole 環(huán)境,強行使用多個進程并行會因進程間通信成本增大而減慢訓練速度。因此,只有在計算成本較高的環(huán)境下,這種多進程并行才能發(fā)揮有利的作用。

所有可運行的智能體都會依賴于每個問題規(guī)范,因此,其使用的神經網絡由用戶提供。這些神經網絡是多樣化的(簡單、淺顯、復雜、富有深度均可)。智能體通常會在內部向所提供的神經網絡添加一個或多個層,以便正確地執(zhí)行它們的預期功能。此外,所有算法都充分利用了自定義 Keras 損失,使其運行能夠盡可能快速與簡潔。目前我們有三個示例(每個智能體一個),這些示例使用了微小的、完全連接的網絡來展示智能體的功能,甚至是使用簡單模型,結果也不會改變。

目前,Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法,PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在計劃中。

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

Huskarl 支持算法列表

未來計劃

我們計劃加入更新穎的深度強化學習算法,例如近端策略優(yōu)化算法(PPO,Proximal Policy Optimization),柔性致動/評價算法(SAC,Soft Actor-Critic)和雙延遲深度確定性策略梯度(TD3,Twin Delayed Deep Deterministic Policy Gradient)。

此外,我們還計劃引入內在的獎勵方法,如好奇心方法(curiosity)和賦權方法(empowerment)。其目的是希望用戶能夠更輕松地交換和組合深度強化學習算法中的不同組件,例如經驗回放、輔助獎勵以及像堆疊樂高積木一樣的智能體任務。同時,我們還計劃在未來開源多智能體環(huán)境和 Unity3D 環(huán)境。

原文地址

https://medium.com/@tensorflow/introducing-huskarl-the-modular-deep-reinforcement-learning-framework-e47d4b228dd3 

Github 地址

https://github.com/danaugrs/huskarl 

雷鋒網 AI 科技評論

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結合!

分享:
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說