丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

開源巨獻(xiàn):27個(gè)深度強(qiáng)化學(xué)習(xí)算法的實(shí)例項(xiàng)目

本文作者: AI研習(xí)社-譯站 2020-11-25 10:47
導(dǎo)語(yǔ):在這里,您可以找到幾個(gè)致力于“深度強(qiáng)化學(xué)習(xí)”方法的項(xiàng)目。

譯者:AI研習(xí)社(宋怡然

雙語(yǔ)原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms


在這里,您可以找到幾個(gè)致力于“深度強(qiáng)化學(xué)習(xí)”方法的項(xiàng)目。 項(xiàng)目以矩陣形式部署:[env x model],其中env是要解決的環(huán)境,而model是解決該環(huán)境的模型/算法。 在某些情況下,可以通過(guò)幾種算法來(lái)解決同一環(huán)境。 所有項(xiàng)目均以包含培訓(xùn)日志的Jupyter筆記本的形式呈現(xiàn)。
支持以下環(huán)境:

AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.

在Udacity深度強(qiáng)化學(xué)習(xí)學(xué)位計(jì)劃的框架內(nèi)解決了四個(gè)環(huán)境(導(dǎo)航,爬蟲,到達(dá)者,網(wǎng)球)。

蒙特卡洛方法 

在蒙特卡洛(MC)中,我們玩游戲的情節(jié)直到到達(dá)終點(diǎn),我們從途中獲得了獎(jiǎng)勵(lì)然后返回情節(jié)的開始。 我們重復(fù)此方法至足夠的次數(shù),然后平均每個(gè)狀態(tài)的值。

時(shí)差方法與Q學(xué)習(xí)

連續(xù)空間中的強(qiáng)化學(xué)習(xí)(深度Q網(wǎng)絡(luò))

函數(shù)逼近和神經(jīng)網(wǎng)絡(luò)

通用逼近定理(UAT)規(guī)定,只要滿足有關(guān)激活函數(shù)形式的輕微假設(shè),就可以使用包含具有有限數(shù)量節(jié)點(diǎn)的單個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)來(lái)近似任何連續(xù)函數(shù)。

基于策略的方法,爬山模擬退火

在許多情況下,隨機(jī)重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術(shù),因?yàn)樗粫?huì)偶然錯(cuò)誤地將局部極值作為全局極值。

策略漸變方法REINFORCE,PPO

定義一個(gè)性能指標(biāo)J(\ theta)以使其最大化。 通過(guò)近似梯度上升來(lái)學(xué)習(xí)策略參數(shù)\ theta。

關(guān)鍵行為法,A3C,A2CDDPG,TD3,SAC

A3C與A2C的主要區(qū)別在于異步部分。  A3C由具有權(quán)重的多個(gè)獨(dú)立代理(網(wǎng)絡(luò))組成,它們與環(huán)境的不同副本并行進(jìn)行交互。 因此,他們可以在更少的時(shí)間內(nèi)探索狀態(tài)-行動(dòng)空間的更大部分。

項(xiàng)目,模型和方法

AntBulletEnvSoft Actor-Critic (SAC)

BipedalWalker, Twin Delayed DDPG (TD3)

BipedalWalker, PPO, Vectorized Environment

BipedalWalker, Soft Actor-Critic (SAC)

BipedalWalker, A2C, Vectorized Environment

CarRacing with PPO, Learning from Raw Pixels

CartPole, Policy Based Methods, Hill Climbing

CartPole, Policy Gradient Methods, REINFORCE

Cartpole, DQN

Cartpole, Double DQN

HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Soft Actor-Critic (SAC)

LunarLander-v2, DQN

LunarLanderContinuous-v2, DDPG

Markov Decision Process, Monte-Carlo, Gridworld 6x6

MinitaurBulletEnv, Soft Actor-Critic (SAC)

MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

Pong, Policy Gradient Methods, PPO

Pong, Policy Gradient Methods, REINFORCE

Snake, DQN, Pygame

Udacity Project 1: Navigation, DQN, ReplayBuffer

Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)

Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler

Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis

Walker2DBulletEnv, Twin Delayed DDPG (TD3)

Walker2DBulletEnv, Soft Actor-Critic (SAC)

DQN和Double DQN的項(xiàng)目

PPO的項(xiàng)目

TD3的項(xiàng)目

Soft Actor-Critic (SAC) 的項(xiàng)目

BipedalWalker,與不同模型的混合

CartPole與不同模型的混合

更多鏈接

  • 有關(guān)Policy-Gradient Methods策略梯度方法,參見 123.

  • 有關(guān) REINFORCE,參見 123.

  • 有關(guān) PPO,參見 12345.

  • 有關(guān) DDPG,參見 12.

  • 有關(guān) Actor-Critic MethodsA3C,參見 1234.

  • 有關(guān) TD3,參見 123

  • 有關(guān) SAC,參見 12345

  • 有關(guān) A2C,參見 12345 

TowardsDataScience網(wǎng)站上的文章

貝爾曼方程式在深度強(qiáng)化學(xué)習(xí)中如何工作?

深度Q網(wǎng)絡(luò)中一對(duì)相互關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)

深度強(qiáng)化學(xué)習(xí)的三個(gè)方面:噪聲,高估和探索

我在上述項(xiàng)目中開發(fā)的相關(guān)視頻


AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。

開源巨獻(xiàn):27個(gè)深度強(qiáng)化學(xué)習(xí)算法的實(shí)例項(xiàng)目

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

開源巨獻(xiàn):27個(gè)深度強(qiáng)化學(xué)習(xí)算法的實(shí)例項(xiàng)目

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)