0
本文作者: 汪思穎 | 2018-04-06 13:41 |
雷鋒網(wǎng) AI 研習社按:日前,OpenAI 啟動一項遷移學(xué)習比賽,這一比賽為期兩個月(4 月 5 日-6 月 5 日),參賽者需要讓智能體來玩風靡一時的 Sonic The Hedgehog(刺猬索尼克)游戲。這一比賽將會評出三大獎項,參賽者有機會獲得豐厚獎勵,并與 OpenAI 共同撰寫比賽技術(shù)文檔。
雷鋒網(wǎng) AI 研習社將在下文介紹關(guān)于比賽的詳細信息。
在 OpenAI 官網(wǎng)可以看到,這次比賽將會衡量強化學(xué)習算法基于以往經(jīng)驗的泛化能力?!霸诘湫偷膹娀瘜W(xué)習研究中,算法是在相同環(huán)境下進行訓(xùn)練的,這使得算法擅長記憶,并有很多超參數(shù)。此次競賽將會在電子游戲關(guān)卡中測試算法——參賽選手需要讓智能體玩 Sonic The Hedgehog(刺猬索尼克)游戲,用于測試的游戲關(guān)卡此前從沒出現(xiàn)過。
此次比賽基于 Gym Retro 平臺。此外,為了助于大家比賽,OpenAI 也開源 retro-baselines,這一工具展示了如何在比賽任務(wù)中運行多個強化學(xué)習算法。比賽為期兩個月(4 月 5 日-6 月 5 日),獲勝者將得到一些很棒的獎品。
以下是參賽詳情:
參賽者訓(xùn)練智能體(或者編寫腳本)來玩 Sonic The Hedgehog 游戲;
參賽者將智能體打包到 Docker 容器提交;
OpenAI 對提交的智能體進行一套秘密測試;
排行榜上會出現(xiàn)智能體的得分情況。
下面的圖解對這個過程進行了詳細說明。
OpenAI 表示,強化學(xué)習的下一步是利用以往經(jīng)驗快速在新環(huán)境中學(xué)習。目前的算法很容易記憶,但不能很好地適應(yīng)新的情況。雖然這次比賽的重點是電子游戲,但他們希望獲勝的技術(shù)能適用于更廣泛的領(lǐng)域。
比賽規(guī)則如下:
一個團隊只能用一個帳戶;
可以與其他團隊分享短代碼片段或指導(dǎo)代碼,但不能分享完整或部分解決方案;
參賽選手只能隸屬于一個團隊。
下面是對「最佳成績獎」(Best Score)和「最佳代碼獎」(Best Writeup)的介紹。要想爭奪這兩類獎項,參賽者必須在比賽最后階段將自己提交的智能體開源。每類獎項的前三名都將獲得獎勵。
此外,還有額外的「最佳支持獎」(Best Supporting Materials)。
所有獲獎?wù)邔⑹苎c OpenAI 一起完成這一比賽的技術(shù)報告。
比賽規(guī)則頁面:https://contest.openai.com/details
Leaderboard 頁面:https://contest.openai.com/leaderboard
Benchmark 詳細描述:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-contest/gotta_learn_fast_report.pdf
雷鋒網(wǎng) AI 研習社編譯整理。
via:https://contest.openai.com
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。