0
本文作者: AI研習(xí)社-譯站 | 2017-09-27 17:35 |
雷鋒網(wǎng)AI研習(xí)社【本期論文】
StarCraft II: A New Challenge for Reinforcement Learning
星際爭霸 II:增強(qiáng)學(xué)習(xí)的新挑戰(zhàn)
上個月,DeepMind和暴雪終于開源了《星際爭霸II 》的機(jī)器學(xué)習(xí)平臺。本文介紹了基于星際爭霸II游戲的強(qiáng)化學(xué)習(xí)環(huán)境SC2LE(《星際爭霸II 》學(xué)習(xí)環(huán)境)。
論文描述《星際爭霸II 》行動和獎勵規(guī)范,并提供一個開源的Python界面,用于與游戲引擎進(jìn)行通信。暴雪提供游戲輸入輸出的API,DeepMind又做了層基于Python的封裝。
除了主要的游戲地圖,他們提供了一套專注于《星際爭霸II 》游戲不同元素的迷你游戲。對于主要的游戲地圖,還提供了一個伴隨專業(yè)玩家的游戲重播數(shù)據(jù)數(shù)據(jù)集。從該數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的初始基線結(jié)果,預(yù)測游戲結(jié)果和玩家行為。
文中使用了被稱為Blizzard分?jǐn)?shù)的一個中間分?jǐn)?shù),這個分?jǐn)?shù)包含了一個對當(dāng)前資源、等級以及單位和建筑的加權(quán)和,如果玩家贏得戰(zhàn)斗而且管理好資源,這個分?jǐn)?shù)就會單調(diào)增加,失敗的時候,這個分?jǐn)?shù)就會減少。此外,系統(tǒng)還使用了一系列的特征層為AI編碼相關(guān)信息,比如地形高度、相機(jī)位置、屏幕中單位的血量以及各種其他信息。
最后,提出了應(yīng)用于《星際爭霸II 》的規(guī)范深強(qiáng)化學(xué)習(xí)的初始基線結(jié)果。DeepMind之后也會發(fā)布上百萬幀的選手游戲記錄,這對模擬環(huán)境研究也會有很大的幫助。
? 觀看論文解讀大概需要 6 分鐘
學(xué)霸們還請自行閱讀論文以獲得更多細(xì)節(jié)
論文原址: https://arxiv.org/abs/1708.04782
Github: https://github.com/Blizzard/s2client
雷鋒網(wǎng)AI研習(xí)社出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時間閱覽前沿技術(shù),了解 AI 領(lǐng)域的最新研究成果。歡迎關(guān)注雷鋒網(wǎng)雷鋒字幕組專欄,獲得更多AI知識~感謝志愿者對本期內(nèi)容作出貢獻(xiàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。