DeepMind發(fā)布《星際爭霸 II》深度學(xué)習(xí)環(huán)境 | 2分鐘讀論文

本文作者： AI研習(xí)社-譯站

2017-09-27 17:35

導(dǎo)語：雷鋒網(wǎng)AI 研習(xí)社出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術(shù)，了解 AI 領(lǐng)域的最新研究成果。

雷鋒網(wǎng)AI研習(xí)社【本期論文】

StarCraft II: A New Challenge for Reinforcement Learning

星際爭霸 II:增強(qiáng)學(xué)習(xí)的新挑戰(zhàn)

上個月，DeepMind和暴雪終于開源了《星際爭霸II 》的機(jī)器學(xué)習(xí)平臺。本文介紹了基于星際爭霸II游戲的強(qiáng)化學(xué)習(xí)環(huán)境SC2LE（《星際爭霸II 》學(xué)習(xí)環(huán)境）。

DeepMind發(fā)布《星際爭霸 II》深度學(xué)習(xí)環(huán)境 | 2分鐘讀論文

論文描述《星際爭霸II 》行動和獎勵規(guī)范，并提供一個開源的Python界面，用于與游戲引擎進(jìn)行通信。暴雪提供游戲輸入輸出的API，DeepMind又做了層基于Python的封裝。

除了主要的游戲地圖，他們提供了一套專注于《星際爭霸II 》游戲不同元素的迷你游戲。對于主要的游戲地圖，還提供了一個伴隨專業(yè)玩家的游戲重播數(shù)據(jù)數(shù)據(jù)集。從該數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的初始基線結(jié)果，預(yù)測游戲結(jié)果和玩家行為。

DeepMind發(fā)布《星際爭霸 II》深度學(xué)習(xí)環(huán)境 | 2分鐘讀論文

文中使用了被稱為Blizzard分?jǐn)?shù)的一個中間分?jǐn)?shù)，這個分?jǐn)?shù)包含了一個對當(dāng)前資源、等級以及單位和建筑的加權(quán)和，如果玩家贏得戰(zhàn)斗而且管理好資源，這個分?jǐn)?shù)就會單調(diào)增加，失敗的時候，這個分?jǐn)?shù)就會減少。此外，系統(tǒng)還使用了一系列的特征層為AI編碼相關(guān)信息，比如地形高度、相機(jī)位置、屏幕中單位的血量以及各種其他信息。

最后，提出了應(yīng)用于《星際爭霸II 》的規(guī)范深強(qiáng)化學(xué)習(xí)的初始基線結(jié)果。DeepMind之后也會發(fā)布上百萬幀的選手游戲記錄，這對模擬環(huán)境研究也會有很大的幫助。

? 觀看論文解讀大概需要 6 分鐘

學(xué)霸們還請自行閱讀論文以獲得更多細(xì)節(jié)

論文原址: https://arxiv.org/abs/1708.04782

Github: https://github.com/Blizzard/s2client

雷鋒網(wǎng)AI研習(xí)社出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術(shù)，了解 AI 領(lǐng)域的最新研究成果。歡迎關(guān)注雷鋒網(wǎng)雷鋒字幕組專欄，獲得更多AI知識~感謝志愿者對本期內(nèi)容作出貢獻(xiàn)。

DeepMind發(fā)布《星際爭霸 II》深度學(xué)習(xí)環(huán)境 | 2分鐘讀論文