0
本文作者: 叢末 | 2018-11-11 16:35 |
雷鋒網(wǎng) AI 科技評論編者按:日前,OpenAI 發(fā)布了深度強化學(xué)習(xí)教育資源 Spinning Up,內(nèi)容包括易懂的深度強化學(xué)習(xí)代碼示例、習(xí)題、文檔和教程。據(jù) OpenAI 發(fā)布的博客稱,零基礎(chǔ)的深度強化學(xué)習(xí)「小白」通過自學(xué) Spinning Up,也能快速掌握這一技能,甚至成為該領(lǐng)域的從業(yè)者。雷鋒網(wǎng) AI 科技評論對該博文進行編譯如下:
OpenAI 發(fā)布的深度強化學(xué)習(xí)教育資源 Spinning Up,旨在讓所有人學(xué)完后,都能成為一位熟練掌握深度強化學(xué)習(xí)技能的從業(yè)者。 Spinning Up 包含了易懂的深度強化學(xué)習(xí)代碼示例、習(xí)題、文檔和教程。
OpenAI 認為深度學(xué)習(xí)——尤其是深度強化學(xué)習(xí)——將在強大的 AI 技術(shù)發(fā)展中發(fā)揮核心作用。雖然現(xiàn)在有很多可用的資源能讓人們快速提升深度學(xué)習(xí)技能,但是深度強化學(xué)習(xí)的掌握會更具挑戰(zhàn)性。對此,OpenAI 設(shè)計了 Spinning Up 這套課程來幫助人們學(xué)會使用這些技術(shù),并培養(yǎng)對于這些技術(shù)的認知。
OpenAI 開發(fā) Spinning Up 的靈感來源于與其學(xué)者和研究員合作的工作,在此過程中,他們發(fā)現(xiàn),如果得到正確的指導(dǎo)和資源,在機器學(xué)習(xí)方面的經(jīng)驗很少甚至沒有經(jīng)驗的人也能夠快速提升為這一領(lǐng)域的從業(yè)者。深度強化學(xué)習(xí)的這份 Spinning Up 資源正是考慮到這種需求所開發(fā)的,它已被整合到了 2019 年學(xué)者和研究員團隊的課程(https://blog.openai.com/openai-scholars-2019/)中。
OpenAI 還發(fā)現(xiàn),掌握強化學(xué)習(xí)的技能能夠幫助人們參與到跨學(xué)科研究領(lǐng)域中,例如 AI 安全,該領(lǐng)域就涉及到強化學(xué)習(xí)和其他技能的結(jié)合。此外,還有很多人向 OpenAI 尋求從零開始學(xué)習(xí)強化學(xué)習(xí)的指導(dǎo),因而他們決定將所給出的這些非正式建議體系化。
深度強化學(xué)習(xí) Spinning Up 包括以下核心內(nèi)容:
強化學(xué)習(xí)術(shù)語、各類算法以及基本理論的簡介;
一篇關(guān)于怎樣成長為一名強化學(xué)習(xí)研究者的總結(jié);
一份按照主題排列的重點論文列表;
一份完善記錄各類強化學(xué)習(xí)算法簡介以及單獨實現(xiàn)方式的代碼文檔,這些算法包括:原始的策略梯度(VPG)、信任區(qū)域策略優(yōu)化(TRPO)、近端策略優(yōu)化(PPO)、深度確定策略梯度(DDPG)等;
一些熱身練習(xí)題。
針對這個項目,OpenAI 有以下支持計劃:
高帶寬軟件支持期:發(fā)布后的前三周,OpenAI 將快速處理 bug 修復(fù)、安裝等問題,以及解決文檔中的錯誤和歧義,并努力簡化用戶體驗,讓他們盡可以簡單地使用 Spinning Up 自學(xué)。
2019 年 4 月的主要核查: 發(fā)布 Spinning Up 約六個月后,OpenAI 將基于從社區(qū)收到的反饋,認真核查軟件包的狀態(tài),并公布未來的改進方案。
內(nèi)部開發(fā)的公開發(fā)布: OpenAI 如果在與學(xué)者和研究員共事時,對深度強化學(xué)習(xí)中的 Spinning Up 進行了修改,會將修改發(fā)送到公開報告中,并立即向所有人開放。
深度強化學(xué)習(xí)的 Spinning Up 是 OpenAI 新教育倡議的一部分,在這里,他們正「spinning up』地來保證實現(xiàn)《OpenAI 章程》的宗旨之一:「尋找創(chuàng)建一個讓全球社區(qū)進行協(xié)作的方法,從而解決 AGI 的全球化挑戰(zhàn)?!顾麄兿M?Spinning Up 可以讓更多人熟悉深度強化學(xué)習(xí),并以此來推動安全、廣泛受益的人工智能的前進。
2019 年 2 月 2 日,他們將在 OpenAI 舊金山分部舉辦一個深度強化學(xué)習(xí) Spinning Up 研修班,包括 3 小時的課程講解和 5 小時的半結(jié)構(gòu)化開源、項目開發(fā)和分組會議——整場會議全部由 OpenAI 技術(shù)人員進行支持。我們希望參會者有軟件工程經(jīng)驗,并要求他們有學(xué)習(xí)過機器學(xué)習(xí)但沒有正式的機器學(xué)習(xí)經(jīng)驗。感興趣的讀者可以填報申請表(https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform)報名。
OpenAI 還將與其它組織進行合作,來指導(dǎo)人們學(xué)會使用這些資源。他們的第一個合作伙伴是加州大學(xué)伯克利分校的 Center for Human-Compatible AI (CHAI),二者將在 2019 年初合作舉辦一個關(guān)于深度 RL 的研修班,類似于計劃在 OpenAI 舉辦的 Spinning Up 研修班。
了解深度強化學(xué)習(xí)算法表現(xiàn)如何的最好方法,就是運行它們。而有了 Spinning Up,這就變得像下面這段代碼一樣簡單:
python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world
在訓(xùn)練的最后階段,你將獲得關(guān)于如何從實驗中查看數(shù)據(jù)以及觀看受過訓(xùn)練的智能體視頻的指導(dǎo)。
Spinning Up 的執(zhí)行可與 Classic Control、Box2D 和 MuJoCo 任務(wù)套件中的 Gym 環(huán)境兼容。
另外,考慮到新入門者,OpenAI 為 Spinning Up 設(shè)計代碼的思路是,使其盡可能地更短、更友好,以及更易于學(xué)習(xí)。OpenAI 的目標是,用最少的執(zhí)行步驟來演示理論如何變成代碼,規(guī)避深度強化學(xué)習(xí)庫中常見的抽象層和模糊層。相比于提高代碼可重用性的模塊化設(shè)計,OpenAI 更看重代碼的清晰易讀,代碼重用僅限于日志記錄和并行化工具。Spinning Up 提供的代碼都帶有注釋,這樣使用者總是能夠明白現(xiàn)在進行到了哪里,并在相應(yīng)的閱讀文檔頁面上得到背景材料(和偽代碼)的支持。
Via:https://blog.openai.com/spinning-up-in-deep-rl/ ,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。