0
本文作者: AI研習(xí)社-譯站 | 2019-06-21 17:29 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Introducing Google Research Football: A Novel Reinforcement Learning Environment
作者 | Karol Kurach、Olivier Bachem
翻譯 | 汪鵬 編輯 | 王立魚
原文鏈接:
https://ai.googleblog.com/2019/06/introducing-google-research-football.html
強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是培養(yǎng)能夠與環(huán)境互動(dòng)并解決復(fù)雜任務(wù)的智能體,實(shí)現(xiàn)在機(jī)器人,自動(dòng)駕駛汽車等領(lǐng)域中的實(shí)際應(yīng)用。通過讓智能體玩游戲,如標(biāo)志性的 Atari console games , Alphago ,或大型游戲,如Dota 2或魔獸世界 2 ,所有這些都提供了新算法和新算法的挑戰(zhàn)性環(huán)境,推動(dòng)了這一領(lǐng)域的快速發(fā)展。可以以安全,可重復(fù)的方式快速測試想法。對于RL來說,足球比賽尤其具有挑戰(zhàn)性,因?yàn)樗枰诙唐诳刂?,學(xué)習(xí)概念(如傳球)和高水平戰(zhàn)略之間實(shí)現(xiàn)自然平衡。
今天我們很高興地宣布推出 Google Research Football Environment,這是一個(gè)全新的RL環(huán)境,智能體的目標(biāo)是掌握世界上最受歡迎的體育足球。以流行的足球游戲?yàn)槟P?,足球環(huán)境提供基于物理的3D足球模擬,其中智能體控制他們團(tuán)隊(duì)中的一個(gè)或所有足球運(yùn)動(dòng)員,學(xué)習(xí)如何在他們之間傳球,并設(shè)法克服對手的防守以進(jìn)球。足球環(huán)境提供了幾個(gè)關(guān)鍵組件:高度優(yōu)化的游戲引擎,一系列嚴(yán)格的研究問題,稱為足球基準(zhǔn),以及足球?qū)W院,一組逐步變硬的RL場景。為了便于研究,我們在Github上發(fā)布了基礎(chǔ)開源代碼的測試版。
足球環(huán)境的核心是一個(gè)高級的足球模擬,稱為足球引擎,它基于大量修改版本的游戲足球。根據(jù)兩支對方球隊(duì)的輸入動(dòng)作,它模擬了足球的比賽,包括進(jìn)球,犯規(guī),角球和點(diǎn)球,以及越位。 足球引擎采用高度優(yōu)化的C ++代碼編寫,允許它在現(xiàn)成的機(jī)器上運(yùn)行,無論是GPU還是沒有基于GPU的渲染。這使其在單個(gè)六核機(jī)器上達(dá)到每天大約2500萬步的性能。
足球引擎是一種先進(jìn)的足球模擬,支持所有主要的足球規(guī)則,如開球(左上),進(jìn)球(右上),犯規(guī),牌(左下),角球和點(diǎn)球(右下)和越位。
足球引擎還具有針對RL的額外功能。首先,它允許從不同的狀態(tài)表示中學(xué)習(xí),這些狀態(tài)表示包含諸如玩家位置之類的語義信息,以及從原始像素學(xué)習(xí)。其次,為了研究隨機(jī)性的影響,它可以在隨機(jī)模式(默認(rèn)啟用)中運(yùn)行,其中在環(huán)境和對手AI動(dòng)作中都存在隨機(jī)性,并且在確定性模式中,其中沒有隨機(jī)性。第三,足球引擎開箱即用,與廣泛使用的OpenAI Gym API兼容。最后,研究人員可以通過使用鍵盤或游戲手柄與對方或其代理人對戰(zhàn)來獲得對游戲的感覺。
通過足球基準(zhǔn)測試,我們?yōu)榛谧闱蛞娴腞L研究提出了一系列基準(zhǔn)問題。這些基準(zhǔn)的目標(biāo)是針對固定的基于規(guī)則的對手進(jìn)行足球的“標(biāo)準(zhǔn)”游戲,該對手是為此目的而手工設(shè)計(jì)的。我們提供三個(gè)版本:簡單足球難度,中等難度和困難難度,對手的實(shí)力不同。
作為參考,我們提供兩種最先進(jìn)的強(qiáng)化學(xué)習(xí)算法的基準(zhǔn)測試結(jié)果:DQN和IMPALA,它們既可以在一臺機(jī)器上的多個(gè)過程中運(yùn)行,也可以在多臺機(jī)器上同時(shí)運(yùn)行。我們研究了為算法提供的唯一獎(jiǎng)勵(lì)是獲得的目標(biāo)以及我們?yōu)閷⑶蛞平繕?biāo)而提供額外獎(jiǎng)勵(lì)的設(shè)置。
我們的研究結(jié)果表明,足球基準(zhǔn)是各種困難的有趣研究問題。特別是,簡單足球難度似乎適用于單機(jī)算法的研究,而足球困難基準(zhǔn)則證明即使對于大規(guī)模分布式RL算法也具有挑戰(zhàn)性?;诃h(huán)境的性質(zhì)和基準(zhǔn)的難度,我們期望它們可用于研究當(dāng)前的科學(xué)挑戰(zhàn),例如樣本有效RL,稀疏獎(jiǎng)勵(lì)或基于模型的RL。
不同基線的不同難度級別的代理與對手的平均目標(biāo)差異。 簡單的對手可以被訓(xùn)練為2000萬步的DQN代理打敗,而中等和困難的對手需要分布式算法,例如訓(xùn)練2億步的IMPALA
完整足球基準(zhǔn)下,訓(xùn)練智能體可能具有挑戰(zhàn)性,我們還提供足球?qū)W院,各種難度的各種場景。這使研究人員能夠開始研究新的研究思路,允許測試高級概念(例如傳遞),并為研究課程學(xué)習(xí)研究思路提供基礎(chǔ),智能體可以從逐漸困難的情景中學(xué)習(xí)。足球?qū)W院場景的示例包括智能體必須學(xué)習(xí)如何針對空目標(biāo)進(jìn)行評分的設(shè)置,他們必須學(xué)習(xí)如何在玩家之間快速傳遞,以及他們必須學(xué)習(xí)如何執(zhí)行反擊。使用簡單的API,研究人員可以進(jìn)一步定義自己的場景并訓(xùn)練代理來解決它們。
熱門:一個(gè)成功的策略,朝著目標(biāo)(根據(jù)需要,因?yàn)橐恍κ肿分鹞覀兊那騿T)和對陣守門員的比分。第二:駕駛和完成反擊的美妙方式。第三:解決2對1比賽的簡單方法。底部:角球后角球得分。
足球基準(zhǔn)和足球?qū)W院考慮標(biāo)準(zhǔn)的RL設(shè)置,其中智能體與固定的對手競爭,即,對手可以被認(rèn)為是環(huán)境的一部分。然而,實(shí)際上,足球是一個(gè)雙人游戲,兩個(gè)不同的團(tuán)隊(duì)競爭,而一個(gè)人必須適應(yīng)對方團(tuán)隊(duì)的行動(dòng)和戰(zhàn)略。足球引擎為研究這種環(huán)境提供了獨(dú)特的機(jī)會(huì),一旦我們完成了實(shí)現(xiàn)自我發(fā)揮的持續(xù)努力,就可以研究更有趣的研究設(shè)置。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【谷歌發(fā)布一個(gè)新的強(qiáng)化學(xué)習(xí)環(huán)境:Google Research Football】即可訪問!
今日資源推薦:
一份可以作為Python編程語言的指南或者教程。它主要是為新手而設(shè)計(jì),不過對于有經(jīng)驗(yàn)的程序員來說,它同樣有用。即便你對計(jì)算機(jī)的了解只是如何在計(jì)算機(jī)上保存文本文件,你都可以通過本書學(xué)習(xí)Python。如果你有編程經(jīng)驗(yàn),你也可以使用本書學(xué)習(xí)Python。
點(diǎn)擊鏈接即可獲取:https://ai.yanxishe.com/page/resourceDetail/535
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。