丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊鯉萍
發(fā)送

0

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

本文作者: 楊鯉萍 2019-07-23 16:11
導(dǎo)語:一個(gè)專注模塊化和快速原型設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)框架

雷鋒網(wǎng) AI 科技評論按:近日,Github 上開源的一個(gè)專注模塊化和快速原型設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)框架 Huskarl 有了新的進(jìn)展。該框架除了輕松地跨多個(gè) CPU 內(nèi)核并行計(jì)算環(huán)境動(dòng)態(tài)外,還已經(jīng)成功實(shí)現(xiàn)與 OpenAI Gym 環(huán)境的無縫結(jié)合。TensorFlow 發(fā)布了相應(yīng)的文章來報(bào)道此研究成果,雷鋒網(wǎng) AI 科技評論將其編譯如下。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

背景概述

深度學(xué)習(xí)革命在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得了許多最新的進(jìn)展和突破。尤其是在深度強(qiáng)化學(xué)習(xí)這個(gè)特別的領(lǐng)域,我們已經(jīng)看到了非凡的進(jìn)展。2013 年 DeepMind 出版了「用深度強(qiáng)化學(xué)習(xí)來玩 Atari」,這個(gè)模型只通過觀看屏幕上的像素,就可以學(xué)習(xí)如何玩 Atari 游戲。三年后,AlphaGo 擊敗了圍棋世界冠軍,這一舉動(dòng)吸引了全球觀眾的注意。在這之后,AlphaZero 又打破了從人類比賽中學(xué)習(xí)的規(guī)定,將自我學(xué)習(xí)推廣到任何完美的信息游戲,并有效地成為圍棋、國際象棋和日本將棋的世界冠軍。Huskarl 在這樣的深度學(xué)習(xí)熱潮之下,有了更深入的研究進(jìn)展。

模型框架

Huskarl 是一個(gè)新的開源框架,用于深度強(qiáng)化學(xué)習(xí)訓(xùn)練,專注于模塊化和快速原型設(shè)計(jì)。它基于 TensorFlow 2.0 構(gòu)建,并使用了 tf.keras API 以實(shí)現(xiàn)其簡潔性和可讀性。

Huskarl 最近在 PoweredByTF 2.0 挑戰(zhàn)賽(https://tensorflow.devpost.com/)中獲得第一名,該挑戰(zhàn)賽意在讓研究人員更易于對深度強(qiáng)化學(xué)習(xí)算法進(jìn)行運(yùn)行、測試、優(yōu)化和對比的操作。

Huskarl 與 TensorFlow 抽象出計(jì)算圖的管理以及 Keras 創(chuàng)建高級(jí)模型的想法類似,它抽象出了智能體與環(huán)境的交互。這便使用戶能夠?qū)W⒂陂_發(fā)和理解算法,同時(shí)還可以防止數(shù)據(jù)泄漏。Huskarl 可以做到與 OpenAI Gym 環(huán)境的無縫結(jié)合,其中也包括了 Atari 環(huán)境。下面是創(chuàng)建并可視化深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)(DQN)智能體所需的完整代碼,該智能體將學(xué)習(xí) cartpole 平衡問題。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

創(chuàng)建并可視化深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)(DQN)智能體的完整代碼

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!


Huskarl DQN 智能體學(xué)習(xí)平衡 cartpole(完整動(dòng)態(tài)圖點(diǎn)擊原文鏈接查看)

目前 Huskarl 支持的一些算法可以在三類可調(diào)智能體上運(yùn)行。

第一類是 DQN 智能體,它可以實(shí)現(xiàn)深度 Q 學(xué)習(xí)(https://arxiv.org/abs/1509.06461)以及多種增強(qiáng)功能,例如:可變步長跟蹤(variable-step traces)、雙 DQN 和可調(diào)整的對抗架構(gòu)(dueling architecture)。DQN 是一種非策略算法,我們的實(shí)現(xiàn)默認(rèn)使用優(yōu)先經(jīng)驗(yàn)回放(Prioritized experience replay)。DQN 智能體主要處理離散動(dòng)作空間的問題。

第二類是 A2C 智能體,它采用了同步、多步的「優(yōu)勢動(dòng)作-評論」(Advantage Actor-Critic)模型,這是一種基于策略的算法。(有關(guān) A2C 與 A3C 之間差異的更多信息,可參閱此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允許像 A2C 這樣基于策略的算法輕松地同時(shí)從多個(gè)環(huán)境實(shí)例中獲取經(jīng)驗(yàn)數(shù)據(jù),這有助于數(shù)據(jù)的整理過程變得更加穩(wěn)定,從而更利于學(xué)習(xí)。

第三類是 DDPG 智能體,它采用了變步長跟蹤的深度確定性策略梯度(Deep Deterministic Policy Gradient)算法,同時(shí)在默認(rèn)情況下也使用優(yōu)先經(jīng)驗(yàn)回放。DDPG 智能體專用于處理連續(xù)動(dòng)作空間的問題。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

Huskarl DDPG 智能體學(xué)習(xí)提升鐘擺

Huskarl 可以輕松地跨多個(gè) CPU 內(nèi)核并行計(jì)算環(huán)境動(dòng)態(tài),這非常很有助于如 A2C 和 PPO 這類策略性(從多個(gè)并發(fā)經(jīng)驗(yàn)源中學(xué)習(xí)數(shù)據(jù))算法的加速。首先,如果要同時(shí)使用多個(gè)環(huán)境實(shí)例,我們只需為基于策略的智能體和模擬器提供所需數(shù)量的環(huán)境實(shí)例;然后將環(huán)境實(shí)例分布在多個(gè)進(jìn)程上,這些進(jìn)程將在可用的 CPU 內(nèi)核上自動(dòng)并行化;之后我們只需在調(diào)用 sim.train()函數(shù)時(shí)為 max_subprocesses 參數(shù)提供所需的值即可,詳情如下面的代碼段所示。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

Huskarl 實(shí)現(xiàn)策略性算法加速的代碼段(跳轉(zhuǎn)原文可查看完整代碼)

另外需要注意的是,為每個(gè)環(huán)境實(shí)例使用不同的策略非常簡單,無需提供單個(gè)策略對象,只需提供策略列表即可。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

Huskarl A2C 智能體同時(shí)學(xué)習(xí) 16 個(gè)環(huán)境實(shí)例來平衡 cartpole。其中,較粗的藍(lán)線表示使用貪婪的目標(biāo)政策獲得的獎(jiǎng)勵(lì),當(dāng)在其他 15 個(gè)環(huán)境中起作用時(shí)使用高斯?-貪婪(gaussian epsilon-greedy)策略,epsilon 均值從 0 變?yōu)?1

但如果在某些簡單環(huán)境中,如 cartpole 環(huán)境,強(qiáng)行使用多個(gè)進(jìn)程并行會(huì)因進(jìn)程間通信成本增大而減慢訓(xùn)練速度。因此,只有在計(jì)算成本較高的環(huán)境下,這種多進(jìn)程并行才能發(fā)揮有利的作用。

所有可運(yùn)行的智能體都會(huì)依賴于每個(gè)問題規(guī)范,因此,其使用的神經(jīng)網(wǎng)絡(luò)由用戶提供。這些神經(jīng)網(wǎng)絡(luò)是多樣化的(簡單、淺顯、復(fù)雜、富有深度均可)。智能體通常會(huì)在內(nèi)部向所提供的神經(jīng)網(wǎng)絡(luò)添加一個(gè)或多個(gè)層,以便正確地執(zhí)行它們的預(yù)期功能。此外,所有算法都充分利用了自定義 Keras 損失,使其運(yùn)行能夠盡可能快速與簡潔。目前我們有三個(gè)示例(每個(gè)智能體一個(gè)),這些示例使用了微小的、完全連接的網(wǎng)絡(luò)來展示智能體的功能,甚至是使用簡單模型,結(jié)果也不會(huì)改變。

目前,Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法,PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在計(jì)劃中。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

Huskarl 支持算法列表

未來計(jì)劃

我們計(jì)劃加入更新穎的深度強(qiáng)化學(xué)習(xí)算法,例如近端策略優(yōu)化算法(PPO,Proximal Policy Optimization),柔性致動(dòng)/評價(jià)算法(SAC,Soft Actor-Critic)和雙延遲深度確定性策略梯度(TD3,Twin Delayed Deep Deterministic Policy Gradient)。

此外,我們還計(jì)劃引入內(nèi)在的獎(jiǎng)勵(lì)方法,如好奇心方法(curiosity)和賦權(quán)方法(empowerment)。其目的是希望用戶能夠更輕松地交換和組合深度強(qiáng)化學(xué)習(xí)算法中的不同組件,例如經(jīng)驗(yàn)回放、輔助獎(jiǎng)勵(lì)以及像堆疊樂高積木一樣的智能體任務(wù)。同時(shí),我們還計(jì)劃在未來開源多智能體環(huán)境和 Unity3D 環(huán)境。

原文地址

https://medium.com/@tensorflow/introducing-huskarl-the-modular-deep-reinforcement-learning-framework-e47d4b228dd3 

Github 地址

https://github.com/danaugrs/huskarl 

雷鋒網(wǎng) AI 科技評論

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Huskarl 最近進(jìn)展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

分享:
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說