0
本文作者: AI研習(xí)社-譯站 | 2020-11-25 10:47 |
譯者:AI研習(xí)社(宋怡然)
雙語(yǔ)原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms
在這里,您可以找到幾個(gè)致力于“深度強(qiáng)化學(xué)習(xí)”方法的項(xiàng)目。 項(xiàng)目以矩陣形式部署:[env x model],其中env是要解決的環(huán)境,而model是解決該環(huán)境的模型/算法。 在某些情況下,可以通過(guò)幾種算法來(lái)解決同一環(huán)境。 所有項(xiàng)目均以包含培訓(xùn)日志的Jupyter筆記本的形式呈現(xiàn)。
支持以下環(huán)境:
AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.
在Udacity深度強(qiáng)化學(xué)習(xí)學(xué)位計(jì)劃的框架內(nèi)解決了四個(gè)環(huán)境(導(dǎo)航,爬蟲,到達(dá)者,網(wǎng)球)。
- 蒙特卡洛方法
在蒙特卡洛(MC)中,我們玩游戲的情節(jié)直到到達(dá)終點(diǎn),我們從途中獲得了獎(jiǎng)勵(lì)然后返回情節(jié)的開始。 我們重復(fù)此方法至足夠的次數(shù),然后平均每個(gè)狀態(tài)的值。
- 連續(xù)空間中的強(qiáng)化學(xué)習(xí)(深度Q網(wǎng)絡(luò))
- 函數(shù)逼近和神經(jīng)網(wǎng)絡(luò)
通用逼近定理(UAT)規(guī)定,只要滿足有關(guān)激活函數(shù)形式的輕微假設(shè),就可以使用包含具有有限數(shù)量節(jié)點(diǎn)的單個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)來(lái)近似任何連續(xù)函數(shù)。
在許多情況下,隨機(jī)重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術(shù),因?yàn)樗粫?huì)偶然錯(cuò)誤地將局部極值作為全局極值。
定義一個(gè)性能指標(biāo)J(\ theta)以使其最大化。 通過(guò)近似梯度上升來(lái)學(xué)習(xí)策略參數(shù)\ theta。
- 關(guān)鍵行為法,A3C,A2C,DDPG,TD3,SAC
A3C與A2C的主要區(qū)別在于異步部分。 A3C由具有權(quán)重的多個(gè)獨(dú)立代理(網(wǎng)絡(luò))組成,它們與環(huán)境的不同副本并行進(jìn)行交互。 因此,他們可以在更少的時(shí)間內(nèi)探索狀態(tài)-行動(dòng)空間的更大部分。
AntBulletEnv, Soft Actor-Critic (SAC)
BipedalWalker, Twin Delayed DDPG (TD3)
BipedalWalker, PPO, Vectorized Environment
BipedalWalker, Soft Actor-Critic (SAC)
BipedalWalker, A2C, Vectorized Environment
CarRacing with PPO, Learning from Raw Pixels
CartPole, Policy Based Methods, Hill Climbing
CartPole, Policy Gradient Methods, REINFORCE
HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Soft Actor-Critic (SAC)
LunarLanderContinuous-v2, DDPG
Markov Decision Process, Monte-Carlo, Gridworld 6x6
MinitaurBulletEnv, Soft Actor-Critic (SAC)
MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)
Pong, Policy Gradient Methods, PPO
Pong, Policy Gradient Methods, REINFORCE
Udacity Project 1: Navigation, DQN, ReplayBuffer
Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)
Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler
Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis
Walker2DBulletEnv, Twin Delayed DDPG (TD3)
Walker2DBulletEnv, Soft Actor-Critic (SAC)
DQN和Double DQN的項(xiàng)目
PPO的項(xiàng)目
Pong, 8個(gè)并行代理
CarRacing, 單一代理,從像素中學(xué)習(xí)
C r a w l e r , 12 個(gè)并行代理
BipedalWalker, 16 個(gè)并行代理
貝爾曼方程式在深度強(qiáng)化學(xué)習(xí)中如何工作?
深度Q網(wǎng)絡(luò)中一對(duì)相互關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)
深度強(qiáng)化學(xué)習(xí)的三個(gè)方面:噪聲,高估和探索
AI研習(xí)社是AI學(xué)術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學(xué)術(shù)機(jī)構(gòu)和產(chǎn)業(yè)界合作,通過(guò)提供學(xué)習(xí)、實(shí)戰(zhàn)和求職服務(wù),為AI學(xué)術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺(tái),致力成為中國(guó)最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。