0
譯者:AI研習社(宋怡然)
雙語原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms
在這里,您可以找到幾個致力于“深度強化學習”方法的項目。 項目以矩陣形式部署:[env x model],其中env是要解決的環(huán)境,而model是解決該環(huán)境的模型/算法。 在某些情況下,可以通過幾種算法來解決同一環(huán)境。 所有項目均以包含培訓日志的Jupyter筆記本的形式呈現(xiàn)。
支持以下環(huán)境:
AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.
在Udacity深度強化學習學位計劃的框架內(nèi)解決了四個環(huán)境(導(dǎo)航,爬蟲,到達者,網(wǎng)球)。
- 蒙特卡洛方法
在蒙特卡洛(MC)中,我們玩游戲的情節(jié)直到到達終點,我們從途中獲得了獎勵然后返回情節(jié)的開始。 我們重復(fù)此方法至足夠的次數(shù),然后平均每個狀態(tài)的值。
- 時差方法與Q學習
- 連續(xù)空間中的強化學習(深度Q網(wǎng)絡(luò))
- 函數(shù)逼近和神經(jīng)網(wǎng)絡(luò)
通用逼近定理(UAT)規(guī)定,只要滿足有關(guān)激活函數(shù)形式的輕微假設(shè),就可以使用包含具有有限數(shù)量節(jié)點的單個隱藏層的前饋神經(jīng)網(wǎng)絡(luò)來近似任何連續(xù)函數(shù)。
在許多情況下,隨機重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術(shù),因為它不會偶然錯誤地將局部極值作為全局極值。
定義一個性能指標J(\ theta)以使其最大化。 通過近似梯度上升來學習策略參數(shù)\ theta。
- 關(guān)鍵行為法,A3C,A2C,DDPG,TD3,SAC
A3C與A2C的主要區(qū)別在于異步部分。 A3C由具有權(quán)重的多個獨立代理(網(wǎng)絡(luò))組成,它們與環(huán)境的不同副本并行進行交互。 因此,他們可以在更少的時間內(nèi)探索狀態(tài)-行動空間的更大部分。
AntBulletEnv, Soft Actor-Critic (SAC)
BipedalWalker, Twin Delayed DDPG (TD3)
BipedalWalker, PPO, Vectorized Environment
BipedalWalker, Soft Actor-Critic (SAC)
BipedalWalker, A2C, Vectorized Environment
CarRacing with PPO, Learning from Raw Pixels
CartPole, Policy Based Methods, Hill Climbing
CartPole, Policy Gradient Methods, REINFORCE
HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Twin Delayed DDPG (TD3)
HopperBulletEnv, Soft Actor-Critic (SAC)
LunarLanderContinuous-v2, DDPG
Markov Decision Process, Monte-Carlo, Gridworld 6x6
MinitaurBulletEnv, Soft Actor-Critic (SAC)
MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)
Pong, Policy Gradient Methods, PPO
Pong, Policy Gradient Methods, REINFORCE
Udacity Project 1: Navigation, DQN, ReplayBuffer
Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)
Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler
Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis
Walker2DBulletEnv, Twin Delayed DDPG (TD3)
Walker2DBulletEnv, Soft Actor-Critic (SAC)
DQN和Double DQN的項目
PPO的項目
Pong, 8個并行代理
CarRacing, 單一代理,從像素中學習
C r a w l e r , 12 個并行代理
BipedalWalker, 16 個并行代理
深度Q網(wǎng)絡(luò)中一對相互關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)
AI研習社是AI學術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務(wù),為AI學術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。