0
本文作者: AI研習(xí)社 | 2019-11-27 15:01 |
AI 研習(xí)社獲得官方授權(quán),漢化翻譯伯克利 CS 294-112 《深度強化學(xué)習(xí)》,今天更新至第十三講啦~
我們先來一睹為快——
第十三講:
利用模仿優(yōu)化控制器學(xué)習(xí)策略
上手視頻約 5 分鐘
翻譯 | 郭瑋 王明輝 張璐
字幕 | 唐里 后期 | 唐里
看完是不是不夠過癮!
進入小組:https://ai.yanxishe.com/page/groupDetail/30 觀看完整視頻
同時,針對這門課程,我們同樣開設(shè)了微信社群,
回復(fù)字幕君(微信:leiphonefansub)
你加入該課程小組的截圖
我們將你拉入微信群聊
加時備注“CS294加群”~
截止到今日,AI研習(xí)社學(xué)習(xí)2018秋季CS294-112深度強化學(xué)習(xí)小組成員人數(shù)將近3000人啦!
在AI研習(xí)社,這里有濃厚的學(xué)習(xí)氛圍——
小組成員在這里打卡,記錄自己的學(xué)習(xí)成果,在這里交流筆記心得——
「小組」產(chǎn)品上線后,AI 研習(xí)社推出了一系列的激勵計劃,鼓勵各位組員學(xué)習(xí)視頻課程,表現(xiàn)積極的學(xué)員還將獲得由 AI 研習(xí)社提供的福利,這些福利包括但不限于機械鍵盤、雙肩背包以及 AI 研習(xí)社定制的「浪中求穩(wěn)」保溫杯。
心動了嗎,趕快將“AI研習(xí)小組”小程序添加到“我的小程序”吧!隨時隨地都能學(xué)習(xí)名校經(jīng)典課程,和上千位小伙伴們一起,共同進步。
伯克利 CS 294-112 《深度強化學(xué)習(xí)》為官方開源最新版本,由伯克利大學(xué)該門課程授課講師 Sergey Levine 授權(quán) AI 研習(xí)社翻譯。
12 月 20 日開始正式同步更新在 AI 研習(xí)社,大約 1 到 2 周更新一次。
該課程主題選擇深度增強學(xué)習(xí),即緊跟當(dāng)前人工智能研究的熱點,又可作為深度學(xué)習(xí)的后續(xù)方向,值得推薦。
想要學(xué)習(xí)伯克利 CS 294-112 《深度強化學(xué)習(xí)》這門課程,學(xué)生需要先學(xué)習(xí) CS189 或者其他同等學(xué)力課程。本課程將假定學(xué)生掌握強化學(xué)習(xí)、數(shù)值優(yōu)化和機器學(xué)習(xí)的相關(guān)背景知識。
如果你對上述主題不是非常了解,那么需要自主學(xué)習(xí)補充以下知識點:
增強學(xué)習(xí)和馬爾科夫決策過程(MDPs)
MDPs的定義
具體算法:策略迭代和價值迭代
搜索算法
數(shù)值最優(yōu)化方法
梯度下降和隨機梯度下降
反向傳播算法
機器學(xué)習(xí)
分類和回歸問題:用什么樣的損失函數(shù),如何擬合線性或非線性模型
訓(xùn)練/測試誤差,過擬合
比較有趣,講課用很多例子來解釋,不是那種光給你一大堆公式概念的,感覺偏重實際應(yīng)用和前沿技術(shù)一點,推薦大家來看。
@周清逸
這門課是基本覆蓋了強化學(xué)習(xí)的主要內(nèi)容和前沿的研究話題,通過理論到應(yīng)用例子的講述,以及五次作業(yè)(實際上是七次)的實踐練習(xí)對經(jīng)典算法的復(fù)現(xiàn),可以讓學(xué)生達(dá)到在強化學(xué)習(xí)領(lǐng)域的入門研究水平。重點是免費!課程有中文字幕!有作業(yè)參考!不過這門課并不是零門檻,需要上過機器學(xué)習(xí)課程,最好是還上過深度學(xué)習(xí)(比如cmu deeplearning),最最好用過tensorflow(因為作業(yè)的官方基礎(chǔ)代碼只有tensorflow版本)。
@朱海浩
側(cè)重于增強學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,應(yīng)用在機器人方面的例子比較多,翻譯的話老師語速挺快的,雖然語氣詞比較多,整體邏輯很清晰。
@段小杰
第一講:課程介紹和概覽
第二講:監(jiān)督學(xué)習(xí)和模仿學(xué)習(xí)
第三講:TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述
第四講:強化學(xué)習(xí)簡介
第五講:策略梯度簡介
第六講:Actor-Critic 算法簡介
第七講:價值函數(shù)介紹
第八講:高級 Q-學(xué)習(xí)算法
第九講:高級策略梯度
第十講:最優(yōu)控制和規(guī)劃
第十一講:基于模型的強化學(xué)習(xí)
第十二講:高級強化學(xué)習(xí)和圖像處理應(yīng)用
第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略
第十四講:概率和變分推斷入門
第十五講:推斷和控制之間的聯(lián)系
第十六講:逆向強化學(xué)習(xí)
第十七講:探索(上)
第十八講:探索(下)
第十九講:遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)
第二十講:元學(xué)習(xí)
第二十一講:平行結(jié)構(gòu)和強化學(xué)習(xí)系統(tǒng)設(shè)計
第二十二講:進階模仿學(xué)習(xí)和開放性問題
第二十三講:客座講師:Craig Boutilier
第二十四講:客座講師:Gregory Kahn
第二十五講:客座講師:Quoc Le & Barret Zoph
第二十六講:客座講師:Karol Hausman
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。