0
本文作者: 叢末 | 2019-12-29 23:46 |
圍棋被攻克之后,多人在線戰(zhàn)術競技游戲(MOBA)已經(jīng)成為測試檢驗前沿人工智能的動作決策和預測能力的重要平臺?;隍v訊天美工作室開發(fā)的熱門 MOBA 類手游《王者榮耀》,騰訊 AI Lab 正努力探索強化學習技術在復雜環(huán)境中的應用潛力。本文即是其中的一項成果,研究用深度強化學習來為智能體預測游戲動作的方法,論文已被AAAI-2020接收。
此技術支持了騰訊此前推出的策略協(xié)作型 AI 「絕悟」1v1版本,該版本曾在今年8月上海舉辦的國際數(shù)碼互動娛樂展覽會China Joy首次亮相,在2100多場和頂級業(yè)余玩家體驗測試中勝率達到99.8%。
除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺,打造產(chǎn)學研生態(tài)。王者榮耀會開放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進相關AI研究,并通過平臺定期測評,讓“開悟”成為展示多智能體決策研究實力的平臺。目前“開悟”平臺已啟動高校內測,預計在2020年5月全面開放高校測試,并且在測試環(huán)境上,支持1v1,5v5等多種模式;2020年12月,我們計劃舉辦第一屆的AI在王者榮耀應用的水平測試。
以下是本次入選論文的詳細解讀:
arxiv 鏈接:https://arxiv.org/abs/1912.09729
絕悟5v5版本達到職業(yè)水平:https://mp.weixin.qq.com/s/h7JOSs90MVQ8XzUnKJ48Iw
AI開放平臺「開悟」啟動:https://mp.weixin.qq.com/s/jaZJtkljVBib0mj1iOJQbg
在競爭環(huán)境中學習具備復雜動作決策能力的智能體這一任務上,深度強化學習(DRL)已經(jīng)得到了廣泛的應用。在競爭環(huán)境中,很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺,即一個智能體對抗另一個智能體(1v1)。
其中 Atari 游戲和棋盤游戲已經(jīng)得到了廣泛的研究,比如 2015 年 Mnih et al. 使用深度 Q 網(wǎng)絡訓練了一個在 Atari 游戲上媲美人類水平的智能體;2016 年 Silver et al. 通過將監(jiān)督學習與自博弈整合進訓練流程中而將智能體的圍棋棋力提升到了足以擊敗職業(yè)棋手的水平;2017 年 Silver et al. 又更進一步將更通用的 DRL 方法應用到了國際象棋和日本將棋上。
本文研究的是一種復雜度更高一籌的MOBA 1v1 游戲。即時戰(zhàn)略游戲(RTS)被視為 AI 研究的一個重大挑戰(zhàn)。而MOBA 1v1 游戲就是一種需要高度復雜的動作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲,MOBA 的游戲環(huán)境要復雜得多,AI的動作預測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲為例,其狀態(tài)和所涉動作的數(shù)量級分別可達 10^600 和 10^18000,而圍棋中相應的數(shù)字則為 10^170 和 10^360,參見下表 1。
表 1:圍棋與 MOBA 1v1 游戲的比較
此外,MOBA 1v1 的游戲機制也很復雜。要在游戲中獲勝,智能體必須在部分可觀察的環(huán)境中學會規(guī)劃、攻擊、防御、控制技能組合以及誘導和欺騙對手。除了玩家與對手的智能體,游戲中還有其它很多游戲單位,比如小兵和炮塔。這會給目標選擇帶來困難,因為這需要精細的決策序列和相應的動作執(zhí)行。
此外,MOBA 游戲中不同英雄的玩法也不一樣,因此就需要一個穩(wěn)健而統(tǒng)一的建模方式。還有一點也很重要:MOBA 1v1游戲缺乏高質量人類游戲數(shù)據(jù)以便進行監(jiān)督學習,因為玩家在玩 1v1 模式時通常只是為了練習英雄,而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。
需要強調,本論文關注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲,因為后者更注重所有智能體的團隊合作策略而不是單個智能體的動作決策??紤]到這一點,MOBA 1v1游戲更適合用來研究游戲中的復雜動作決策問題。
為了解決這些難題,本文設計了一種深度強化學習框架,并探索了一些算法層面的創(chuàng)新,對 MOBA 1v1 游戲這樣的多智能體競爭環(huán)境進行了大規(guī)模的高效探索。文中設計的神經(jīng)網(wǎng)絡架構包含了對多模態(tài)輸入的編碼、對動作中相關性的解耦、探索剪枝機制以及攻擊注意機制,以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。
為了全面評估訓練得到的 AI 智能體的能力上限和策略穩(wěn)健性,新設計的方法與職業(yè)玩家、頂級業(yè)務玩家以及其它在 MOBA 1v1 游戲上的先進方法進行了比較。
本文有以下貢獻:
對需要高度復雜的動作決策的 MOBA 1v1 游戲 AI 智能體的構建進行了全面而系統(tǒng)的研究。在系統(tǒng)設計方面,本文提出了一種深度強化學習框架,能提供可擴展的和異步策略的訓練。在算法設計方面,本文開發(fā)了一種用于建模 MOBA 動作決策的 actor-critic 神經(jīng)網(wǎng)絡。網(wǎng)絡的優(yōu)化使用了一種多標簽近端策略優(yōu)化(PPO)目標,并提出了對動作依賴關系的解耦方法、用于目標選取的注意機制、用于高效探索的動作掩碼、用于學習技能組合 LSTM 以及一個用于確保訓練收斂的改進版 PPO——dual-clip PPO。
在《王者榮耀》1v1 模式上的大量實驗表明,訓練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業(yè)玩家。
1、系統(tǒng)設計
考慮到復雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓練速度。因此,本文設計了一種高可擴展低耦合的系統(tǒng)架構來構建數(shù)據(jù)并行化。具體來說,這個架構包含四個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。如圖 1 所示。
圖 1:系統(tǒng)設計概況
AI 服務器實現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡尽S洃洺厥菙?shù)據(jù)存儲模塊,能為RL 學習器提供訓練實例。這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設計和環(huán)境邏輯上。這樣的系統(tǒng)設計也可用于其它的多智能體競爭問題。
2、算法設計
RL 學習器中實現(xiàn)了一個 actor-critic 神經(jīng)網(wǎng)絡,其目標是建模 MOBA 1v1 游戲中的動作依賴關系。如圖2所示。
圖 2:論文實現(xiàn)的actor-critic網(wǎng)絡
為了實現(xiàn)有效且高效的訓練,本文提出了一系列創(chuàng)新的算法策略:
1.目標注意力機制:用于幫助AI在 MOBA 戰(zhàn)斗中選擇目標。
2.LSTM:為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害。
3.動作依賴關系的解耦:用于構建多標簽近端策略優(yōu)化(PPO)目標。
4.動作掩碼:這是一種基于游戲知識的剪枝方法,為了引導強化學習過程中的探索而開發(fā)。
5.dual-clip PPO:這是 PPO 算法的一種改進版本,使用它是為了確保使用大和有偏差的數(shù)據(jù)批進行訓練時的收斂性。如圖3所示。
圖 3:論文提出的dual-clip PPO算法示意圖,左為標準PPO,右為dual-clip PPO
有關這些算法的更多詳情與數(shù)學描述請參閱原論文。
3、實驗
系統(tǒng)設置
測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現(xiàn)實世界中的表現(xiàn),這個 AI 模型與《王者榮耀》職業(yè)選手和頂級業(yè)余人類玩家打了大量比賽。實驗中 AI 模型的動作預測時間間隔為 133 ms,這大約是業(yè)余高手玩家的反應時間。另外,論文方法還與已有研究中的基準方法進行了比較,其中包括游戲內置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實驗還使用Elo分數(shù)對不同版本的模型進行了比較。
實驗結果
探索動作決策能力的上限
表 3 給出了AI和多名頂級職業(yè)選手的比賽結果。需要指出這些職業(yè)玩家玩的都是他們擅長的英雄??梢钥吹?AI 能在多種不同類型的英雄上擊敗職業(yè)選手。
表 3:AI 與職業(yè)選手使用不同類型英雄比賽的結果
評估動作決策能力的穩(wěn)健性
實驗進一步評估了 AI 學習的策略能否應對不同的頂級人類玩家。在2019年8月份,王者榮耀1v1 AI對公眾亮相,與大量頂級業(yè)余玩家進行了2100場對戰(zhàn)。AI勝率達到99.81%。
表 4:AI 與不同頂級人類玩家的比賽結果
基準比較
可以看到,用論文新方法訓練的 AI 的表現(xiàn)顯著優(yōu)于多種baseline方法。
圖 4:擊敗同一基準對手的平均時長比較
訓練過程中模型能力的進展
圖 5 展示了訓練過程中 Elo 分數(shù)的變化情況,這里給出的是使用射手英雄「狄仁杰」的例子??梢杂^察到 Elo 分數(shù)會隨訓練時長而增長,并在大約 80 小時后達到相對穩(wěn)定的水平。此外,Elo 的增長率與訓練時間成反比。
圖 5:訓練過程中 Elo 分數(shù)的變化情況
控制變量研究
為了理解論文方法中不同組件和設置的效果,控制變量實驗是必不可少的。表 5 展示了使用同樣訓練資源的不同「狄仁杰」AI 版本的實驗結果。
表 5:控制變量實驗
4、未來工作
本文提出的框架和算法將在未來開源,而且為了促進對復雜游戲的進一步研究,騰訊也將在未來把《王者榮耀》的游戲內核提供給社區(qū)使用,并且還會通過虛擬云的形式向社區(qū)提供計算資源。
雷鋒網(wǎng) AI 科技評論報道。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。