丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

本文作者: AI研習(xí)社 2019-11-27 15:01
導(dǎo)語:AI 研習(xí)社獲得官方授權(quán),漢化翻譯伯克利 CS 294-112 《深度強化學(xué)習(xí)》,今天更新至第十三講啦~

AI 研習(xí)社獲得官方授權(quán),漢化翻譯伯克利 CS 294-112 《深度強化學(xué)習(xí)》,今天更新至第十三講啦~

我們先來一睹為快——

第十三講:

利用模仿優(yōu)化控制器學(xué)習(xí)策略

上手視頻約 5 分鐘

翻譯 | 郭瑋 王明輝 張璐

字幕 | 唐里     后期 | 唐里

看完是不是不夠過癮!

進入小組:https://ai.yanxishe.com/page/groupDetail/30 觀看完整視頻

同時,針對這門課程,我們同樣開設(shè)了微信社群,

回復(fù)字幕君(微信:leiphonefansub)

你加入該課程小組的截圖

我們將你拉入微信群聊

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

加時備注“CS294加群”~

  小組介紹          

截止到今日,AI研習(xí)社學(xué)習(xí)2018秋季CS294-112深度強化學(xué)習(xí)小組成員人數(shù)將近3000人啦!

在AI研習(xí)社,這里有濃厚的學(xué)習(xí)氛圍——

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略



小組成員在這里打卡,記錄自己的學(xué)習(xí)成果,在這里交流筆記心得——

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略


「小組」產(chǎn)品上線后,AI 研習(xí)社推出了一系列的激勵計劃,鼓勵各位組員學(xué)習(xí)視頻課程,表現(xiàn)積極的學(xué)員還將獲得由 AI 研習(xí)社提供的福利,這些福利包括但不限于機械鍵盤、雙肩背包以及 AI 研習(xí)社定制的「浪中求穩(wěn)」保溫杯。


心動了嗎,趕快將“AI研習(xí)小組”小程序添加到“我的小程序”吧!隨時隨地都能學(xué)習(xí)名校經(jīng)典課程,和上千位小伙伴們一起,共同進步。


  課程介紹

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

伯克利 CS 294-112 《深度強化學(xué)習(xí)》為官方開源最新版本,由伯克利大學(xué)該門課程授課講師 Sergey Levine 授權(quán) AI 研習(xí)社翻譯。

12 月 20 日開始正式同步更新在 AI 研習(xí)社,大約 1 到 2 周更新一次。

該課程主題選擇深度增強學(xué)習(xí),即緊跟當(dāng)前人工智能研究的熱點,又可作為深度學(xué)習(xí)的后續(xù)方向,值得推薦。


  先修要求

想要學(xué)習(xí)伯克利 CS 294-112 《深度強化學(xué)習(xí)》這門課程,學(xué)生需要先學(xué)習(xí) CS189 或者其他同等學(xué)力課程。本課程將假定學(xué)生掌握強化學(xué)習(xí)、數(shù)值優(yōu)化和機器學(xué)習(xí)的相關(guān)背景知識。

如果你對上述主題不是非常了解,那么需要自主學(xué)習(xí)補充以下知識點:

  • 增強學(xué)習(xí)和馬爾科夫決策過程(MDPs)

MDPs的定義

具體算法:策略迭代和價值迭代

搜索算法

  • 數(shù)值最優(yōu)化方法

梯度下降和隨機梯度下降

反向傳播算法

  • 機器學(xué)習(xí)

分類和回歸問題:用什么樣的損失函數(shù),如何擬合線性或非線性模型

訓(xùn)練/測試誤差,過擬合


  視頻截圖

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略


  譯者評價

比較有趣,講課用很多例子來解釋,不是那種光給你一大堆公式概念的,感覺偏重實際應(yīng)用和前沿技術(shù)一點,推薦大家來看。

@周清逸

這門課是基本覆蓋了強化學(xué)習(xí)的主要內(nèi)容和前沿的研究話題,通過理論到應(yīng)用例子的講述,以及五次作業(yè)(實際上是七次)的實踐練習(xí)對經(jīng)典算法的復(fù)現(xiàn),可以讓學(xué)生達(dá)到在強化學(xué)習(xí)領(lǐng)域的入門研究水平。重點是免費!課程有中文字幕!有作業(yè)參考!不過這門課并不是零門檻,需要上過機器學(xué)習(xí)課程,最好是還上過深度學(xué)習(xí)(比如cmu deeplearning),最最好用過tensorflow(因為作業(yè)的官方基礎(chǔ)代碼只有tensorflow版本)。

@朱海浩

側(cè)重于增強學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,應(yīng)用在機器人方面的例子比較多,翻譯的話老師語速挺快的,雖然語氣詞比較多,整體邏輯很清晰。

@段小杰


  課程大綱

第一講:課程介紹和概覽

第二講:監(jiān)督學(xué)習(xí)和模仿學(xué)習(xí)

第三講:TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述

第四講:強化學(xué)習(xí)簡介

第五講:策略梯度簡介

第六講:Actor-Critic 算法簡介

第七講:價值函數(shù)介紹

第八講:高級 Q-學(xué)習(xí)算法

第九講:高級策略梯度

第十講:最優(yōu)控制和規(guī)劃

第十一講:基于模型的強化學(xué)習(xí)

第十二講:高級強化學(xué)習(xí)和圖像處理應(yīng)用

第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

第十四講:概率和變分推斷入門

第十五講:推斷和控制之間的聯(lián)系

第十六講:逆向強化學(xué)習(xí)

第十七講:探索(上)

第十八講:探索(下)

第十九講:遷移學(xué)習(xí)與多任務(wù)學(xué)習(xí)

第二十講:元學(xué)習(xí)

第二十一講:平行結(jié)構(gòu)和強化學(xué)習(xí)系統(tǒng)設(shè)計

第二十二講:進階模仿學(xué)習(xí)和開放性問題

第二十三講:客座講師:Craig Boutilier

第二十四講:客座講師:Gregory Kahn

第二十五講:客座講師:Quoc Le & Barret Zoph

第二十六講:客座講師:Karol Hausman  

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

伯克利《深度強化學(xué)習(xí)》更新 | 第十三講:利用模仿優(yōu)化控制器學(xué)習(xí)策略

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說