0
本文作者: 汪思穎 | 2018-04-06 13:41 |
雷鋒網(wǎng) AI 研習(xí)社按:日前,OpenAI 啟動(dòng)一項(xiàng)遷移學(xué)習(xí)比賽,這一比賽為期兩個(gè)月(4 月 5 日-6 月 5 日),參賽者需要讓智能體來玩風(fēng)靡一時(shí)的 Sonic The Hedgehog(刺猬索尼克)游戲。這一比賽將會(huì)評(píng)出三大獎(jiǎng)項(xiàng),參賽者有機(jī)會(huì)獲得豐厚獎(jiǎng)勵(lì),并與 OpenAI 共同撰寫比賽技術(shù)文檔。
雷鋒網(wǎng) AI 研習(xí)社將在下文介紹關(guān)于比賽的詳細(xì)信息。
在 OpenAI 官網(wǎng)可以看到,這次比賽將會(huì)衡量強(qiáng)化學(xué)習(xí)算法基于以往經(jīng)驗(yàn)的泛化能力?!霸诘湫偷膹?qiáng)化學(xué)習(xí)研究中,算法是在相同環(huán)境下進(jìn)行訓(xùn)練的,這使得算法擅長(zhǎng)記憶,并有很多超參數(shù)。此次競(jìng)賽將會(huì)在電子游戲關(guān)卡中測(cè)試算法——參賽選手需要讓智能體玩 Sonic The Hedgehog(刺猬索尼克)游戲,用于測(cè)試的游戲關(guān)卡此前從沒出現(xiàn)過。
此次比賽基于 Gym Retro 平臺(tái)。此外,為了助于大家比賽,OpenAI 也開源 retro-baselines,這一工具展示了如何在比賽任務(wù)中運(yùn)行多個(gè)強(qiáng)化學(xué)習(xí)算法。比賽為期兩個(gè)月(4 月 5 日-6 月 5 日),獲勝者將得到一些很棒的獎(jiǎng)品。
以下是參賽詳情:
參賽者訓(xùn)練智能體(或者編寫腳本)來玩 Sonic The Hedgehog 游戲;
參賽者將智能體打包到 Docker 容器提交;
OpenAI 對(duì)提交的智能體進(jìn)行一套秘密測(cè)試;
排行榜上會(huì)出現(xiàn)智能體的得分情況。
下面的圖解對(duì)這個(gè)過程進(jìn)行了詳細(xì)說明。
OpenAI 表示,強(qiáng)化學(xué)習(xí)的下一步是利用以往經(jīng)驗(yàn)快速在新環(huán)境中學(xué)習(xí)。目前的算法很容易記憶,但不能很好地適應(yīng)新的情況。雖然這次比賽的重點(diǎn)是電子游戲,但他們希望獲勝的技術(shù)能適用于更廣泛的領(lǐng)域。
比賽規(guī)則如下:
一個(gè)團(tuán)隊(duì)只能用一個(gè)帳戶;
可以與其他團(tuán)隊(duì)分享短代碼片段或指導(dǎo)代碼,但不能分享完整或部分解決方案;
參賽選手只能隸屬于一個(gè)團(tuán)隊(duì)。
下面是對(duì)「最佳成績(jī)獎(jiǎng)」(Best Score)和「最佳代碼獎(jiǎng)」(Best Writeup)的介紹。要想爭(zhēng)奪這兩類獎(jiǎng)項(xiàng),參賽者必須在比賽最后階段將自己提交的智能體開源。每類獎(jiǎng)項(xiàng)的前三名都將獲得獎(jiǎng)勵(lì)。
此外,還有額外的「最佳支持獎(jiǎng)」(Best Supporting Materials)。
所有獲獎(jiǎng)?wù)邔⑹苎c OpenAI 一起完成這一比賽的技術(shù)報(bào)告。
比賽規(guī)則頁(yè)面:https://contest.openai.com/details
Leaderboard 頁(yè)面:https://contest.openai.com/leaderboard
Benchmark 詳細(xì)描述:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-contest/gotta_learn_fast_report.pdf
雷鋒網(wǎng) AI 研習(xí)社編譯整理。
via:https://contest.openai.com
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。