【官方授權(quán)】2018 秋季伯克利大學 CS 294-112 《深度強化學習》學習小組成員招募

本文作者： AI研習社-譯站

2018-12-19 10:57

導語：AI 研習社獲得官方授權(quán)，漢化翻譯伯克利大學 CS 294-112 《深度強化學習》，于本周四（2018 年 12 月 20 日）正式上線中文字幕版。

AI 研習社又有新的學習小組啦！趕快加入我們吧！

掃描二維碼，即可加入小組

【官方授權(quán)】2018 秋季伯克利大學 CS 294-112 《深度強化學習》學習小組成員招募

課程開始后，小組成員可免費觀看課程視頻~

AI 研習社獲得官方授權(quán)，漢化翻譯伯克利大學 CS 294-112 《深度強化學習》，于本周四（2018 年 12 月 20 日）正式上線中文字幕版。

伯克利大學 CS 294-112 《深度強化學習》為官方開源最新版本，由伯克利大學該門課程授課講師 Sergey Levine 授權(quán) AI 研習社翻譯。

觀看網(wǎng)址：https://ai.yanxishe.com/page/groupDetail/30（加入小組后即可直接觀看）

課程主頁：http://rail.eecs.berkeley.edu/deeprlcourse/

油管鏈接：https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR-j5A1mkxK26gh_qg37

12 月 20 日開始正式同步更新在 AI 研習社，大約1到2周更新一次。

該課程主題選擇深度增強學習，即緊跟當前人工智能研究的熱點，又可作為深度學習的后續(xù)方向，值得推薦。

先修要求

想要學習伯克利大學 CS 294-112 《深度強化學習》這門課程，學生需要先學習 CS189 或者其他同等學力課程。本課程將假定學生掌握強化學習、數(shù)值優(yōu)化和機器學習的相關背景知識。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

如果你對上述主題不是非常了解，那么需要自主學習補充以下知識點：

增強學習和馬爾科夫決策過程（MDPs）

MDPs的定義

具體算法：策略迭代和價值迭代

搜索算法

數(shù)值最優(yōu)化方法

梯度下降和隨機梯度下降

反向傳播算法

機器學習

分類和回歸問題：用什么樣的損失函數(shù)，如何擬合線性或非線性模型

訓練/測試誤差，過擬合

視頻截圖

【官方授權(quán)】2018 秋季伯克利大學 CS 294-112 《深度強化學習》學習小組成員招募

課程大綱

第一講：課程介紹和概覽

第二講：監(jiān)督學習和模仿學習

第三講：TensorFlow 和神經(jīng)網(wǎng)絡簡述

第四講：強化學習簡介

第五講：策略梯度簡介

第六講：Actor-Critic 算法簡介

第七講：價值函數(shù)介紹

第八講：高級 Q-學習算法

第九講：高級策略梯度

第十講：最優(yōu)控制和規(guī)劃

第十一講：基于模型的強化學習

第十二講：高級強化學習和圖像處理應用

第十三講：利用模仿優(yōu)化控制器學習策略

第十四講：概率和變分推斷入門

第十五講：推斷和控制之間的聯(lián)系

第十六講：逆向強化學習

第十七講：探索（上）

第十八講：探索（下）

第十九講：遷移學習與多任務學習

第二十講：元學習

第二十一講：平行結(jié)構(gòu)和強化學習系統(tǒng)設計

第二十二講：進階模仿學習和開放性問題

第二十三講：客座講師：Craig Boutilier

第二十四講：客座講師：Gregory Kahn

第二十五講：客座講師：Quoc Le & Barret Zoph

第二十六講：客座講師：Karol Hausman

快來加入學習小組吧！

點擊鏈接：https://ai.yanxishe.com/page/groupDetail/30 選擇【加入小組】

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

9人收藏

AI研習社-譯站

知情人士

AI研習社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學習知識的門檻。（原雷鋒字幕組）

掃描關注作者微信

發(fā)私信

當月熱門文章