動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

本文作者：叢末

2018-11-11 16:35

導(dǎo)語：資源包含了易懂的深度強化學(xué)習(xí)代碼示例、習(xí)題、文檔和教程。

雷鋒網(wǎng) AI 科技評論編者按：日前，OpenAI 發(fā)布了深度強化學(xué)習(xí)教育資源 Spinning Up，內(nèi)容包括易懂的深度強化學(xué)習(xí)代碼示例、習(xí)題、文檔和教程。據(jù) OpenAI 發(fā)布的博客稱，零基礎(chǔ)的深度強化學(xué)習(xí)「小白」通過自學(xué) Spinning Up，也能快速掌握這一技能，甚至成為該領(lǐng)域的從業(yè)者。雷鋒網(wǎng) AI 科技評論對該博文進行編譯如下：

OpenAI 發(fā)布的深度強化學(xué)習(xí)教育資源 Spinning Up，旨在讓所有人學(xué)完后，都能成為一位熟練掌握深度強化學(xué)習(xí)技能的從業(yè)者。 Spinning Up 包含了易懂的深度強化學(xué)習(xí)代碼示例、習(xí)題、文檔和教程。

動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

OpenAI 認為深度學(xué)習(xí)——尤其是深度強化學(xué)習(xí)——將在強大的 AI 技術(shù)發(fā)展中發(fā)揮核心作用。雖然現(xiàn)在有很多可用的資源能讓人們快速提升深度學(xué)習(xí)技能，但是深度強化學(xué)習(xí)的掌握會更具挑戰(zhàn)性。對此，OpenAI 設(shè)計了 Spinning Up 這套課程來幫助人們學(xué)會使用這些技術(shù)，并培養(yǎng)對于這些技術(shù)的認知。

OpenAI 開發(fā) Spinning Up 的靈感來源于與其學(xué)者和研究員合作的工作，在此過程中，他們發(fā)現(xiàn)，如果得到正確的指導(dǎo)和資源，在機器學(xué)習(xí)方面的經(jīng)驗很少甚至沒有經(jīng)驗的人也能夠快速提升為這一領(lǐng)域的從業(yè)者。深度強化學(xué)習(xí)的這份 Spinning Up 資源正是考慮到這種需求所開發(fā)的，它已被整合到了 2019 年學(xué)者和研究員團隊的課程（https://blog.openai.com/openai-scholars-2019/）中。

OpenAI 還發(fā)現(xiàn)，掌握強化學(xué)習(xí)的技能能夠幫助人們參與到跨學(xué)科研究領(lǐng)域中，例如 AI 安全，該領(lǐng)域就涉及到強化學(xué)習(xí)和其他技能的結(jié)合。此外，還有很多人向 OpenAI 尋求從零開始學(xué)習(xí)強化學(xué)習(xí)的指導(dǎo)，因而他們決定將所給出的這些非正式建議體系化。

動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

深度強化學(xué)習(xí) Spinning Up 包括以下核心內(nèi)容：

強化學(xué)習(xí)術(shù)語、各類算法以及基本理論的簡介；
一篇關(guān)于怎樣成長為一名強化學(xué)習(xí)研究者的總結(jié)；
一份按照主題排列的重點論文列表；
一份完善記錄各類強化學(xué)習(xí)算法簡介以及單獨實現(xiàn)方式的代碼文檔，這些算法包括：原始的策略梯度（VPG）、信任區(qū)域策略優(yōu)化（TRPO）、近端策略優(yōu)化（PPO）、深度確定策略梯度（DDPG）等；
一些熱身練習(xí)題。

提供長期支持

針對這個項目，OpenAI 有以下支持計劃：

高帶寬軟件支持期：發(fā)布后的前三周，OpenAI 將快速處理 bug 修復(fù)、安裝等問題，以及解決文檔中的錯誤和歧義，并努力簡化用戶體驗，讓他們盡可以簡單地使用 Spinning Up 自學(xué)。

2019 年 4 月的主要核查：發(fā)布 Spinning Up 約六個月后，OpenAI 將基于從社區(qū)收到的反饋，認真核查軟件包的狀態(tài)，并公布未來的改進方案。

內(nèi)部開發(fā)的公開發(fā)布： OpenAI 如果在與學(xué)者和研究員共事時，對深度強化學(xué)習(xí)中的 Spinning Up 進行了修改，會將修改發(fā)送到公開報告中，并立即向所有人開放。

OpenAI 教育

深度強化學(xué)習(xí)的 Spinning Up 是 OpenAI 新教育倡議的一部分，在這里，他們正「spinning up』地來保證實現(xiàn)《OpenAI 章程》的宗旨之一：「尋找創(chuàng)建一個讓全球社區(qū)進行協(xié)作的方法，從而解決 AGI 的全球化挑戰(zhàn)?！顾麄兿Ｍ?Spinning Up 可以讓更多人熟悉深度強化學(xué)習(xí)，并以此來推動安全、廣泛受益的人工智能的前進。

動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

2019 年 2 月 2 日，他們將在 OpenAI 舊金山分部舉辦一個深度強化學(xué)習(xí) Spinning Up 研修班，包括 3 小時的課程講解和 5 小時的半結(jié)構(gòu)化開源、項目開發(fā)和分組會議——整場會議全部由 OpenAI 技術(shù)人員進行支持。我們希望參會者有軟件工程經(jīng)驗，并要求他們有學(xué)習(xí)過機器學(xué)習(xí)但沒有正式的機器學(xué)習(xí)經(jīng)驗。感興趣的讀者可以填報申請表（https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform）報名。

合作伙伴

OpenAI 還將與其它組織進行合作，來指導(dǎo)人們學(xué)會使用這些資源。他們的第一個合作伙伴是加州大學(xué)伯克利分校的 Center for Human-Compatible AI (CHAI)，二者將在 2019 年初合作舉辦一個關(guān)于深度 RL 的研修班，類似于計劃在 OpenAI 舉辦的 Spinning Up 研修班。

動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

Hello World

了解深度強化學(xué)習(xí)算法表現(xiàn)如何的最好方法，就是運行它們。而有了 Spinning Up，這就變得像下面這段代碼一樣簡單：

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

在訓(xùn)練的最后階段，你將獲得關(guān)于如何從實驗中查看數(shù)據(jù)以及觀看受過訓(xùn)練的智能體視頻的指導(dǎo)。

Spinning Up 的執(zhí)行可與 Classic Control、Box2D 和 MuJoCo 任務(wù)套件中的 Gym 環(huán)境兼容。

動態(tài) | 從零開始快速入門深度強化學(xué)習(xí)，OpenAI 發(fā)布學(xué)習(xí)資源 Spinning Up

另外，考慮到新入門者，OpenAI 為 Spinning Up 設(shè)計代碼的思路是，使其盡可能地更短、更友好，以及更易于學(xué)習(xí)。OpenAI 的目標(biāo)是，用最少的執(zhí)行步驟來演示理論如何變成代碼，規(guī)避深度強化學(xué)習(xí)庫中常見的抽象層和模糊層。相比于提高代碼可重用性的模塊化設(shè)計，OpenAI 更看重代碼的清晰易讀，代碼重用僅限于日志記錄和并行化工具。Spinning Up 提供的代碼都帶有注釋，這樣使用者總是能夠明白現(xiàn)在進行到了哪里，并在相應(yīng)的閱讀文檔頁面上得到背景材料（和偽代碼）的支持。

Via：https://blog.openai.com/spinning-up-in-deep-rl/ ，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章

叢末

編輯

發(fā)私信

當(dāng)月熱門文章