資料 | Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

本文作者： AI研習(xí)社

2020-07-16 09:58

導(dǎo)語(yǔ)：書(shū)中包括線性規(guī)劃單純形方法、對(duì)偶理論、靈敏度分析、運(yùn)輸問(wèn)題、內(nèi)點(diǎn)算法、非線性規(guī)劃KT條件、無(wú)約束優(yōu)化方法、約束優(yōu)化方法、整數(shù)規(guī)劃和動(dòng)態(tài)規(guī)劃等內(nèi)容。

下載地址：https://www.yanxishe.com/resourceDetail/1954?from=leiphonecolumn_res0716

內(nèi)容簡(jiǎn)介 · · · · · ·

強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法，在智能體及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。

《Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)》共13章，主要包括強(qiáng)化學(xué)習(xí)的各種要素，即智能體、環(huán)境、策略和模型以及相應(yīng)平臺(tái)和庫(kù)；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置；馬爾可夫鏈和馬爾可夫過(guò)程及其與強(qiáng)化學(xué)習(xí)問(wèn)題建模之間的關(guān)系，動(dòng)態(tài)規(guī)劃的基本概念；蒙特卡羅方法以及不同類型的蒙特卡羅預(yù)測(cè)和控制方法；時(shí)間差分學(xué)習(xí)、預(yù)測(cè)、離線/在線策略控制等；多臂賭博機(jī)問(wèn)題以及相關(guān)的各種探索策略方法；深度學(xué)習(xí)的各種基本概念和RNN、LSTM、CNN等神經(jīng)網(wǎng)絡(luò)；深度強(qiáng)化學(xué)習(xí)算法DQN，以及雙DQN和對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu)等改進(jìn)架構(gòu)；DRQN以及DARQN；A3C網(wǎng)絡(luò)的基本工作原理及架構(gòu)；策略梯度和優(yōu)化問(wèn)題；最后介紹了強(qiáng)化學(xué)習(xí)的全新進(jìn)展以及未來(lái)發(fā)展。

作者簡(jiǎn)介 · · · · · ·

Sudharsan Ravichandiran 是一位數(shù)據(jù)科學(xué)家、研究員、人工智能愛(ài)好者以及 YouTuber（搜索 Sudharsan reinforcement learning），獲得了 Anna 大學(xué)信息技術(shù)學(xué)士學(xué)位。他的研究領(lǐng)域包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)，其中包括自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)。他曾是一名自由職業(yè)的網(wǎng)頁(yè)開(kāi)發(fā)人員和設(shè)計(jì)師，所設(shè)計(jì)開(kāi)發(fā)的網(wǎng)站屢獲殊榮，同時(shí)也熱衷于開(kāi)源，擅長(zhǎng)解答堆棧溢出問(wèn)題。

原書(shū)審稿人簡(jiǎn)介 Sujit Pal 是 Elsevier 實(shí)驗(yàn)室的技術(shù)研究總監(jiān)， Elsevier 實(shí)驗(yàn)室是 Reed-Elservier 集團(tuán)公司下的一個(gè)先進(jìn)技術(shù)團(tuán)隊(duì)，研究領(lǐng)域包括語(yǔ)義檢索、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。他在 Elsevier 實(shí)驗(yàn)室主要從事搜索質(zhì)量檢測(cè)與改進(jìn)、圖像分類和重復(fù)率檢測(cè)、醫(yī)學(xué)和科學(xué)語(yǔ)料庫(kù)的標(biāo)注與本體開(kāi)發(fā)。他曾與 Antonio Gulli 合作撰寫了一本關(guān)于深度學(xué)習(xí)的著作，并在博客 Slamon Run 上撰寫了一些科技文章。

Suriyadeepan Ramamoorthy 是一名來(lái)自印度 Puducherry 的 AI 研究人員和工程師，主要研究領(lǐng)域是自然語(yǔ)言理解和推理，同時(shí)積極撰寫有關(guān)深度學(xué)習(xí)的博客文章。在 SAAMA 技術(shù)中，他將先進(jìn)的深度學(xué)習(xí)技術(shù)應(yīng)用于生物醫(yī)學(xué)文本分析，同時(shí)也是一名積極推動(dòng) FSFTN領(lǐng)域發(fā)展的免費(fèi)軟件宣傳者，另外對(duì)社交網(wǎng)絡(luò)、數(shù)據(jù)可視化和創(chuàng)造性編程也非常感興趣。

補(bǔ)充說(shuō)明 · · · · · ·

本站所有資源版權(quán)均屬于原作者所有，這里所提供資源均只能用于參考學(xué)習(xí)用，請(qǐng)勿直接商用。如需刪除，請(qǐng)聯(lián)系 kefu@yanxishe.com

AI 研習(xí)社已經(jīng)和阿里大文娛、曠視、搜狗搜索、小米等知名公司達(dá)成聯(lián)系，幫助大家更好地求職找工作，一鍵投遞簡(jiǎn)歷至 HR 后臺(tái)，準(zhǔn)備了一些內(nèi)推渠道群。

歡迎大家添加研習(xí)社小學(xué)妹微信（aiyanxishe），小學(xué)妹拉你加入（備注求職）。

資料 | Python強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)：應(yīng)用OpenAI Gym和TensorFlow精通強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)