伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

本文作者： AI研習(xí)社

2019-11-27 15:01

導(dǎo)語：AI 研習(xí)社獲得官方授權(quán)，漢化翻譯伯克利 CS 294-112 《深度強(qiáng)化學(xué)習(xí)》，今天更新至第十三講啦~

語音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

AI 研習(xí)社獲得官方授權(quán)，漢化翻譯伯克利 CS 294-112 《深度強(qiáng)化學(xué)習(xí)》，今天更新至第十三講啦~

我們先來一睹為快——

第十三講：

利用模仿優(yōu)化控制器學(xué)習(xí)策略

上手視頻約 5 分鐘

翻譯 | 郭瑋王明輝張璐

字幕 | 唐里后期 | 唐里

看完是不是不夠過癮！

進(jìn)入小組：https://ai.yanxishe.com/page/groupDetail/30 觀看完整視頻

同時，針對這門課程，我們同樣開設(shè)了微信社群，

回復(fù)字幕君（微信：leiphonefansub）

你加入該課程小組的截圖

我們將你拉入微信群聊

伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

加時備注“CS294加群”~

小組介紹

截止到今日，AI研習(xí)社學(xué)習(xí)2018秋季CS294-112深度強(qiáng)化學(xué)習(xí)小組成員人數(shù)將近3000人啦！

在AI研習(xí)社，這里有濃厚的學(xué)習(xí)氛圍——

伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

小組成員在這里打卡，記錄自己的學(xué)習(xí)成果，在這里交流筆記心得——

伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

「小組」產(chǎn)品上線后，AI 研習(xí)社推出了一系列的激勵計劃，鼓勵各位組員學(xué)習(xí)視頻課程，表現(xiàn)積極的學(xué)員還將獲得由 AI 研習(xí)社提供的福利，這些福利包括但不限于機(jī)械鍵盤、雙肩背包以及 AI 研習(xí)社定制的「浪中求穩(wěn)」保溫杯。

心動了嗎，趕快將“AI研習(xí)小組”小程序添加到“我的小程序”吧！隨時隨地都能學(xué)習(xí)名校經(jīng)典課程，和上千位小伙伴們一起，共同進(jìn)步。

課程介紹

伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

伯克利 CS 294-112 《深度強(qiáng)化學(xué)習(xí)》為官方開源最新版本，由伯克利大學(xué)該門課程授課講師 Sergey Levine 授權(quán) AI 研習(xí)社翻譯。

12 月 20 日開始正式同步更新在 AI 研習(xí)社，大約 1 到 2 周更新一次。

該課程主題選擇深度增強(qiáng)學(xué)習(xí)，即緊跟當(dāng)前人工智能研究的熱點，又可作為深度學(xué)習(xí)的后續(xù)方向，值得推薦。

先修要求

想要學(xué)習(xí)伯克利 CS 294-112 《深度強(qiáng)化學(xué)習(xí)》這門課程，學(xué)生需要先學(xué)習(xí) CS189 或者其他同等學(xué)力課程。本課程將假定學(xué)生掌握強(qiáng)化學(xué)習(xí)、數(shù)值優(yōu)化和機(jī)器學(xué)習(xí)的相關(guān)背景知識。

如果你對上述主題不是非常了解，那么需要自主學(xué)習(xí)補(bǔ)充以下知識點：

增強(qiáng)學(xué)習(xí)和馬爾科夫決策過程（MDPs）

MDPs的定義

具體算法：策略迭代和價值迭代

搜索算法

數(shù)值最優(yōu)化方法

梯度下降和隨機(jī)梯度下降

反向傳播算法

機(jī)器學(xué)習(xí)

分類和回歸問題：用什么樣的損失函數(shù)，如何擬合線性或非線性模型

訓(xùn)練/測試誤差，過擬合

視頻截圖

伯克利《深度強(qiáng)化學(xué)習(xí)》更新 | 第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

譯者評價

比較有趣，講課用很多例子來解釋，不是那種光給你一大堆公式概念的，感覺偏重實際應(yīng)用和前沿技術(shù)一點，推薦大家來看。

@周清逸

這門課是基本覆蓋了強(qiáng)化學(xué)習(xí)的主要內(nèi)容和前沿的研究話題，通過理論到應(yīng)用例子的講述，以及五次作業(yè)（實際上是七次）的實踐練習(xí)對經(jīng)典算法的復(fù)現(xiàn)，可以讓學(xué)生達(dá)到在強(qiáng)化學(xué)習(xí)領(lǐng)域的入門研究水平。重點是免費！課程有中文字幕！有作業(yè)參考！不過這門課并不是零門檻，需要上過機(jī)器學(xué)習(xí)課程，最好是還上過深度學(xué)習(xí)（比如cmu deeplearning），最最好用過tensorflow（因為作業(yè)的官方基礎(chǔ)代碼只有tensorflow版本）。

@朱海浩

側(cè)重于增強(qiáng)學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合，應(yīng)用在機(jī)器人方面的例子比較多，翻譯的話老師語速挺快的，雖然語氣詞比較多，整體邏輯很清晰。

@段小杰

課程大綱

第一講：課程介紹和概覽

第二講：監(jiān)督學(xué)習(xí)和模仿學(xué)習(xí)

第三講：TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述

第四講：強(qiáng)化學(xué)習(xí)簡介

第五講：策略梯度簡介

第六講：Actor-Critic 算法簡介

第七講：價值函數(shù)介紹

第八講：高級 Q-學(xué)習(xí)算法

第九講：高級策略梯度

第十講：最優(yōu)控制和規(guī)劃

第十一講：基于模型的強(qiáng)化學(xué)習(xí)

第十二講：高級強(qiáng)化學(xué)習(xí)和圖像處理應(yīng)用

第十三講：利用模仿優(yōu)化控制器學(xué)習(xí)策略

第十四講：概率和變分推斷入門

第十五講：推斷和控制之間的聯(lián)系

第十六講：逆向強(qiáng)化學(xué)習(xí)

第十七講：探索（上）

第十八講：探索（下）

第十九講：遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)

第二十講：元學(xué)習(xí)

第二十一講：平行結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)計

第二十二講：進(jìn)階模仿學(xué)習(xí)和開放性問題

第二十三講：客座講師：Craig Boutilier

第二十四講：客座講師：Gregory Kahn

第二十五講：客座講師：Quoc Le & Barret Zoph

第二十六講：客座講師：Karol Hausman

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請訪問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年