0
本文作者: AI研習(xí)社-譯站 | 2018-12-19 10:57 |
AI 研習(xí)社又有新的學(xué)習(xí)小組啦!趕快加入我們吧!
掃描二維碼,即可加入小組
課程開始后,小組成員可免費觀看課程視頻~
AI 研習(xí)社獲得官方授權(quán),漢化翻譯伯克利大學(xué) CS 294-112 《深度強化學(xué)習(xí)》,于本周四(2018 年 12 月 20 日)正式上線中文字幕版。
伯克利大學(xué) CS 294-112 《深度強化學(xué)習(xí)》為官方開源最新版本,由伯克利大學(xué)該門課程授課講師 Sergey Levine 授權(quán) AI 研習(xí)社翻譯。
觀看網(wǎng)址:https://ai.yanxishe.com/page/groupDetail/30(加入小組后即可直接觀看)
課程主頁:http://rail.eecs.berkeley.edu/deeprlcourse/
油管鏈接:https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR-j5A1mkxK26gh_qg37
12 月 20 日開始正式同步更新在 AI 研習(xí)社,大約1到2周更新一次。
該課程主題選擇深度增強學(xué)習(xí),即緊跟當(dāng)前人工智能研究的熱點,又可作為深度學(xué)習(xí)的后續(xù)方向,值得推薦。
想要學(xué)習(xí)伯克利大學(xué) CS 294-112 《深度強化學(xué)習(xí)》這門課程,學(xué)生需要先學(xué)習(xí) CS189 或者其他同等學(xué)力課程。本課程將假定學(xué)生掌握強化學(xué)習(xí)、數(shù)值優(yōu)化和機器學(xué)習(xí)的相關(guān)背景知識。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
如果你對上述主題不是非常了解,那么需要自主學(xué)習(xí)補充以下知識點:
增強學(xué)習(xí)和馬爾科夫決策過程(MDPs)
MDPs的定義
具體算法:策略迭代和價值迭代
搜索算法
數(shù)值最優(yōu)化方法
梯度下降和隨機梯度下降
反向傳播算法
機器學(xué)習(xí)
分類和回歸問題:用什么樣的損失函數(shù),如何擬合線性或非線性模型
訓(xùn)練/測試誤差,過擬合
視頻截圖
第一講:課程介紹和概覽
第二講:監(jiān)督學(xué)習(xí)和模仿學(xué)習(xí)
第三講:TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述
第四講:強化學(xué)習(xí)簡介
第五講:策略梯度簡介
第六講:Actor-Critic 算法簡介
第七講:價值函數(shù)介紹
第八講:高級 Q-學(xué)習(xí)算法
第九講:高級策略梯度
第十講:最優(yōu)控制和規(guī)劃
第十一講:基于模型的強化學(xué)習(xí)
第十二講:高級強化學(xué)習(xí)和圖像處理應(yīng)用
第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略
第十四講:概率和變分推斷入門
第十五講:推斷和控制之間的聯(lián)系
第十六講:逆向強化學(xué)習(xí)
第十七講:探索(上)
第十八講:探索(下)
第十九講:遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)
第二十講:元學(xué)習(xí)
第二十一講:平行結(jié)構(gòu)和強化學(xué)習(xí)系統(tǒng)設(shè)計
第二十二講:進階模仿學(xué)習(xí)和開放性問題
第二十三講:客座講師:Craig Boutilier
第二十四講:客座講師:Gregory Kahn
第二十五講:客座講師:Quoc Le & Barret Zoph
第二十六講:客座講師:Karol Hausman
快來加入學(xué)習(xí)小組吧!
點擊鏈接:https://ai.yanxishe.com/page/groupDetail/30 選擇【加入小組】
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。