0
本文作者: AI研習社-譯站 | 2017-09-27 17:35 |
雷鋒網(wǎng)AI研習社【本期論文】
StarCraft II: A New Challenge for Reinforcement Learning
星際爭霸 II:增強學習的新挑戰(zhàn)
上個月,DeepMind和暴雪終于開源了《星際爭霸II 》的機器學習平臺。本文介紹了基于星際爭霸II游戲的強化學習環(huán)境SC2LE(《星際爭霸II 》學習環(huán)境)。
論文描述《星際爭霸II 》行動和獎勵規(guī)范,并提供一個開源的Python界面,用于與游戲引擎進行通信。暴雪提供游戲輸入輸出的API,DeepMind又做了層基于Python的封裝。
除了主要的游戲地圖,他們提供了一套專注于《星際爭霸II 》游戲不同元素的迷你游戲。對于主要的游戲地圖,還提供了一個伴隨專業(yè)玩家的游戲重播數(shù)據(jù)數(shù)據(jù)集。從該數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡的初始基線結(jié)果,預測游戲結(jié)果和玩家行為。
文中使用了被稱為Blizzard分數(shù)的一個中間分數(shù),這個分數(shù)包含了一個對當前資源、等級以及單位和建筑的加權(quán)和,如果玩家贏得戰(zhàn)斗而且管理好資源,這個分數(shù)就會單調(diào)增加,失敗的時候,這個分數(shù)就會減少。此外,系統(tǒng)還使用了一系列的特征層為AI編碼相關信息,比如地形高度、相機位置、屏幕中單位的血量以及各種其他信息。
最后,提出了應用于《星際爭霸II 》的規(guī)范深強化學習的初始基線結(jié)果。DeepMind之后也會發(fā)布上百萬幀的選手游戲記錄,這對模擬環(huán)境研究也會有很大的幫助。
? 觀看論文解讀大概需要 6 分鐘
學霸們還請自行閱讀論文以獲得更多細節(jié)
論文原址: https://arxiv.org/abs/1708.04782
Github: https://github.com/Blizzard/s2client
雷鋒網(wǎng)AI研習社出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時間閱覽前沿技術(shù),了解 AI 領域的最新研究成果。歡迎關注雷鋒網(wǎng)雷鋒字幕組專欄,獲得更多AI知識~感謝志愿者對本期內(nèi)容作出貢獻。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。