對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

本文作者：任平

2021-12-08 12:52

導(dǎo)語(yǔ)：可能是史上最強(qiáng)的多智能體決策智能挑戰(zhàn)賽，來了!

2021年11月，全球首屆“ AI《球球大作戰(zhàn)》：Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競(jìng)賽活動(dòng)，本次比賽旨在推動(dòng)決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng)，打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。

在比賽之際，雷鋒網(wǎng)&AI科技評(píng)論對(duì)話了本次競(jìng)賽的核心設(shè)計(jì)團(tuán)隊(duì)成員劉宇和周航，他們二人，一個(gè)為商湯科技研究總監(jiān)，也是OpenDILab項(xiàng)目負(fù)責(zé)人；一個(gè)為前星際職業(yè)選手iA，目前任商湯決策智能游戲AI組高級(jí)研究員；殊途而同歸，他們?nèi)绾瓮ㄟ^ 「游戲 × 決策」方式走到一起，他們會(huì)更看中什么樣的“策略高手”？

在現(xiàn)實(shí)之外，還有另一個(gè)世界，游戲世界。它將人情世故、弱肉強(qiáng)食、情義背叛、謀略運(yùn)籌挪于方寸之間，功成名就，皆在俯仰間。以游戲世界之有涯，演繹人際種種浮沉。古人制蠱王，今人造腦王，科技的進(jìn)步，將對(duì)抗的秘密搬上臺(tái)面。

而今這場(chǎng)競(jìng)技，被命名為Go-Bigger多智能體決策智能挑戰(zhàn)賽。比賽由OpenDILab主辦，上海人工智能實(shí)驗(yàn)室作為學(xué)術(shù)指導(dǎo)，商湯決策智能團(tuán)隊(duì)和巨人網(wǎng)絡(luò)等多元化組織聯(lián)合打造。靈感來自于巨人網(wǎng)絡(luò)自主研發(fā)的一款超火爆休閑競(jìng)技手游《球球大作戰(zhàn)》，多方共同開啟全球首屆AI版《球球大作戰(zhàn)》。

對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境：https://github.com/opendilab/GoBigger

AI球球大作戰(zhàn)采用了類似《球球大作戰(zhàn)》的物理引擎設(shè)計(jì)，具有相對(duì)較大的地圖，球球具有分裂、吐孢子、中吐等高階動(dòng)作空間，但是提供了適合強(qiáng)化學(xué)習(xí)或行為樹AI編寫的抽象接口。

劉宇說到，“Go-Bigger并不像星際爭(zhēng)霸或Dota2這種重型游戲環(huán)境，我們對(duì)它的定位是人人可以參加的中型游戲AI競(jìng)技環(huán)境，推動(dòng)學(xué)術(shù)界關(guān)注更大一些的決策問題。相比學(xué)術(shù)界用的最多的Atari、Mojoco、SMAC要大不少，但又可以在小型的實(shí)驗(yàn)室中完成——一臺(tái)機(jī)器、一塊GPU就能訓(xùn)練起來。它面向大眾、學(xué)生、研究員，更適合用「學(xué)術(shù)比賽」來描述它?！?/p>

從參與籌辦比賽的各方來看，學(xué)術(shù)價(jià)值，在Go-Bigger身上非常明顯。它由上海人工智能實(shí)驗(yàn)室作為學(xué)術(shù)指導(dǎo)，商湯科技、巨人網(wǎng)絡(luò)、上汽集團(tuán)人工智能實(shí)驗(yàn)室聯(lián)合主辦，全球高校人工智能學(xué)術(shù)聯(lián)盟、浙江大學(xué)上海高等研究院、上海交通大學(xué)清源研究院聯(lián)合協(xié)辦，OSCHINA、深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作為支持。

從產(chǎn)業(yè)出發(fā)，關(guān)注底層技術(shù)，并進(jìn)一步攏合各大高校和實(shí)驗(yàn)室，其實(shí)就是商湯的原創(chuàng)基因。

一、Go-Bigger比拼決策戰(zhàn)術(shù)

周航和劉宇都說到，“球球大作戰(zhàn)的門檻很低，但是上限很高?！?/p>

與風(fēng)靡全球的agar.io、《球球大作戰(zhàn)》等游戲類似，在Go-Bigger中，每局比賽十分鐘，大球吃掉小球而獲得更大重量和體積，但同時(shí)要避免被更大的球吃掉。當(dāng)球達(dá)到足夠大時(shí)，玩家（AI）可使其分裂或融合，和同伴完美配合來輸出博弈策略。每個(gè)隊(duì)伍都需和其他隊(duì)伍對(duì)抗，總重量更大的團(tuán)隊(duì)獲勝。

對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境演示圖

游戲中有四類小球，分別為分身球、孢子球、食物球、荊棘球，挑戰(zhàn)不同決策路徑。

分身球是玩家在游戲中控制移動(dòng)或者技能釋放的球，可以通過覆蓋其他球的中心點(diǎn)來吃掉比自己小的球。
孢子球由玩家的分身球發(fā)射產(chǎn)生，會(huì)留在地圖上且可被其他玩家吃掉。
食物球是游戲中的中立資源，其數(shù)量會(huì)保持動(dòng)態(tài)平衡。如玩家的分身球吃了一個(gè)食物球，食物球的重量將被傳遞到分身球。
荊棘球也是游戲中的中立資源，其尺寸更大、數(shù)量更少。如玩家的分身球吃了一個(gè)荊棘球，荊棘球的大小將被傳遞到分身球，同時(shí)分身球會(huì)爆炸并分裂成多個(gè)（10個(gè)）分身。此外，荊棘球可通過吃掉孢子球而被玩家移動(dòng)。

對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

分身球

對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

孢子球，食物球
對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

荊棘球

此外，Go-Bigger還包含一系列與《球球大作戰(zhàn)》類似的游戲規(guī)則：

球重量越小，移動(dòng)速度越快；
分身更多可以快速發(fā)育，但自身重量被分散，面臨被吃的風(fēng)險(xiǎn)。
每個(gè)玩家的總重量會(huì)隨著時(shí)間緩慢衰減，體重越大，衰減速度越大在戰(zhàn)斗階段，分裂后的玩家需要盡快合球，因此，同一隊(duì)伍中不同球球的配合尤為關(guān)鍵。
同隊(duì)伍玩家之間不會(huì)完全吞噬（會(huì)保留最后一個(gè)球）。

由于這種規(guī)則設(shè)置，球球在不同發(fā)展階段，策略各不相同。

在球球發(fā)育前期，重量太小無(wú)法分裂，一邊吃食物完成原始積累，一邊防御被吃，就催化了團(tuán)隊(duì)合作--多球行動(dòng)。

比如，當(dāng)自己進(jìn)食足夠多，并達(dá)到分身程度時(shí)，將小分身喂給隊(duì)友，只留一個(gè)，同伴和自己都會(huì)完成第一次原始積累，并增加團(tuán)隊(duì)整體重量。

隨著大家爭(zhēng)相完成原始積累，比賽進(jìn)入中期。防御轉(zhuǎn)為攻擊，暗爭(zhēng)轉(zhuǎn)為明爭(zhēng)。而此時(shí)，持久戰(zhàn)還是速度戰(zhàn)、先滅大還是先滅小、霸屏攻擊還是輕騎后抄，不同策略組合將游戲推向高潮。

距離，方向，速度以及分身后的密度成為影響獲勝關(guān)鍵。

其中一種攻擊策略為先滅小而后搏大，大球率先攻擊發(fā)育不良的球，合成大球，隨后尋找實(shí)力略弱的大球，判斷距離、分身快速逼近、近身后合球鯨吞。幾輪下來，大球進(jìn)入排行榜頭列，為后續(xù)決戰(zhàn)做好準(zhǔn)備。

隨著游戲進(jìn)入后期，戰(zhàn)場(chǎng)上的玩家也所剩無(wú)幾，實(shí)力相當(dāng)?shù)拇笄驔Q戰(zhàn)，成為賽點(diǎn)關(guān)鍵！

首先，大球的移動(dòng)速度非常慢，選擇時(shí)機(jī)分身移動(dòng)，快速移動(dòng)并合成干掉對(duì)方，成為大球玩家心中既心照不宣，又秘而不發(fā)的護(hù)身之法。你死我亡，弱肉強(qiáng)食，生命法則向是如此。

但與此同時(shí)，作戰(zhàn)的另一機(jī)制——自我衰亡被觸發(fā)。

大球的體重并不是一成不變的，而是以一個(gè)相當(dāng)快的速度流失體重，體重衰減率是每秒鐘千分之二。因此，游戲進(jìn)入下一階段——霸屏團(tuán)隊(duì)的優(yōu)勢(shì)維持、其它團(tuán)隊(duì)的反擊。

由于霸屏團(tuán)隊(duì)體重流失速度相當(dāng)快，如果只是用常規(guī)的攻擊手段，增加的體重往往不能和流失的體重相抵。而同時(shí)，大球的移動(dòng)速度十分緩慢，攻擊效率十分低下，多數(shù)大球團(tuán)隊(duì)會(huì)采用多分身模式攻擊。

因?yàn)橐呀?jīng)是優(yōu)勢(shì)團(tuán)隊(duì)，即便多分身，其它團(tuán)隊(duì)也往往不能對(duì)多分身造成威脅，因此大球往往以相對(duì)高的速度地毯式掃蕩。

縱觀決戰(zhàn)之勢(shì)，無(wú)論是大球燃燒心火，擊潰其身；還是分身求勝，蠶食殆盡，往往并不隨心所欲。在對(duì)抗同時(shí)，作戰(zhàn)時(shí)間所剩無(wú)幾。

此外，還有多少小球蟄伏暗處，醞釀反擊，在最后階段逆轉(zhuǎn)局勢(shì)，并非新事。

在萌萌的小球之內(nèi)，涌動(dòng)著規(guī)則和博弈的暗流。周航回應(yīng)道，這就是Go-Bigger門檻很低，但是上限很高的原因。

“游戲環(huán)境非常簡(jiǎn)單直觀，因?yàn)榇蠹叶纪孢^類似的游戲，像大魚吃小魚、剪刀石頭布、圍棋。它們都有很直觀的名字，都用簡(jiǎn)單的環(huán)境系統(tǒng)構(gòu)建出博弈場(chǎng)景。但不同的是，Go-Bigger涉及到多智能體的配合和對(duì)抗，會(huì)有更高的決策復(fù)雜度?！?nbsp;

二、游戲環(huán)境如何設(shè)計(jì)

人工智能現(xiàn)在已經(jīng)廣泛應(yīng)用在感知優(yōu)化場(chǎng)景，但是想讓模型具有真正的智能，則需要將其落實(shí)到一些需要進(jìn)行決策的場(chǎng)景。

游戲，則是決策智能（DI）天然的訓(xùn)練場(chǎng)。

如果將一個(gè)游戲環(huán)境比作一個(gè)小社會(huì)，那么不同的游戲角色則是生活其中的人類。只有人類數(shù)量足夠多，才足以反映其中的群體關(guān)系，并進(jìn)一步模擬人類社會(huì)的生活圖景。因此，在復(fù)雜游戲中的多智能體博弈，成為推動(dòng)決策智能發(fā)展的關(guān)鍵。

Go-Bigger涉及多智能體博弈，不可避免要權(quán)衡同一團(tuán)隊(duì)中的個(gè)體行動(dòng)與合作行動(dòng)、不同團(tuán)隊(duì)間的合作與競(jìng)爭(zhēng)、表征和交換與其它智能體的環(huán)境信息。但要從零開始實(shí)現(xiàn)上述算法和訓(xùn)練流程非常復(fù)雜，決策智能框架DI-engine大大簡(jiǎn)化了設(shè)計(jì)過程。

其內(nèi)部已經(jīng)集成了支持多智能體的DQN算法實(shí)現(xiàn)和一系列相關(guān)訣竅，以及玩家自我對(duì)戰(zhàn)和對(duì)抗機(jī)器人的訓(xùn)練組件，只需實(shí)現(xiàn)相應(yīng)的環(huán)境封裝，神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練主函數(shù)即可。

此外，Go-Bigger支持RL環(huán)境，提供了三種交互模式。

為幫助用戶在強(qiáng)化學(xué)習(xí)領(lǐng)域的多智能體策略學(xué)習(xí)，Go-Bigger提供了符合gym.Env標(biāo)準(zhǔn)的接口供其使用。在一局游戲中，Go-Bigger默認(rèn)設(shè)置含有20個(gè)狀態(tài)幀和5個(gè)動(dòng)作幀。每個(gè)狀態(tài)幀都會(huì)對(duì)當(dāng)前地圖內(nèi)所有單位進(jìn)行仿真和狀態(tài)處理，而動(dòng)作幀會(huì)在此基礎(chǔ)上，附加對(duì)單位的動(dòng)作控制，即改變單位的速度、方向等屬性，或使單位啟用分裂、發(fā)射或停止等技能。

為了更方便地對(duì)環(huán)境進(jìn)行探索，Go-Bigger還提供了必要的可視化工具。在與環(huán)境進(jìn)行交互的時(shí)候，可以直接保存本局包含全局視角及各個(gè)玩家視角的錄像。此外，Go-Bigger提供了單人全局視野、雙人全局視野、單人局部視野三種人機(jī)交互模式，使得用戶可以快速了解環(huán)境規(guī)則。

對(duì)戰(zhàn)6億用戶競(jìng)技手游：聚焦復(fù)雜游戲中的多智能體博弈

單人全局視野、雙人全局視野、單人局部視野

可視化除了方便用戶設(shè)計(jì)智能體的決策路徑，還將智能體的決策進(jìn)化提供一個(gè)參考。

目前基于強(qiáng)化學(xué)習(xí)等方法的決策智能，主要還是在學(xué)習(xí)「狀態(tài)」到「動(dòng)作」的映射，離可解釋的、因果關(guān)系的、可互動(dòng)的決策還有很遠(yuǎn)距離。但游戲本身的可視化形式，會(huì)直接展示智能體的策略。

整個(gè)游戲環(huán)境的搭建，不僅涉及到大的封裝模塊，還有小的動(dòng)作設(shè)計(jì)。劉宇說到，我們?cè)谠O(shè)計(jì)這個(gè)引擎的時(shí)候，不僅要兼顧它是否有趣（可視化、難度低），還要考慮它對(duì)研究者來說是否有用（動(dòng)作歧義、公平）。

在復(fù)雜的游戲環(huán)境中，如何做到公平性，保證所有智能體從同一起點(diǎn)進(jìn)化，并演化出最多的決策路徑，除了球球背后的參賽選手出奇斗勇，還要有公平的評(píng)測(cè)系統(tǒng)--天梯系統(tǒng)。參賽選手只需基于大賽提供的接口，給出智能體在每一幀的動(dòng)作，最后將代碼以及相關(guān)模型或文件提交即可加入測(cè)試天梯。OpenDILab團(tuán)隊(duì)將使用選手提供的環(huán)境及代碼進(jìn)行指定競(jìng)賽的模型測(cè)試工作，決出最后的贏家！

三、決策智能研究剛剛上路

在Go-Bigger游戲中，設(shè)計(jì)了球球?qū)箷r(shí)間、成長(zhǎng)加速度、分裂、消失、衰亡等約束條件，它們其實(shí)廣泛存在于現(xiàn)實(shí)世界，比如人的生命周期，微觀生物學(xué)中細(xì)胞免疫等。

天然擁有很高的社會(huì)擬合度，是用游戲做決策智能研究的優(yōu)勢(shì)。

劉宇說，Go-Bigger項(xiàng)目只想做好一件事，就是想通過打造一款類似于球球大作戰(zhàn)和AGAR這樣家喻戶曉的游戲，讓大家先把游戲AI和決策智能聯(lián)系起來，且人人可上手。

“現(xiàn)在Go-Bigger希望做的，其實(shí)非常像CV領(lǐng)域的ImageNet?！?/strong>

十年來，計(jì)算機(jī)視覺一直是最火爆的領(lǐng)域。但是CV是如何發(fā)展起來的，“其實(shí)就是開源了更大的數(shù)據(jù)集?！?/p>

劉宇說到，“在ImageNet比賽之前，數(shù)據(jù)集都非常小，研究員很難定義產(chǎn)業(yè)界真正需要的算法問題。但I(xiàn)mageNet的推出，為當(dāng)時(shí)的技術(shù)帶來了挑戰(zhàn)，隨著GPU的算力提升，越來越多的人涌入到CV領(lǐng)域，成就了現(xiàn)在深度學(xué)習(xí)+計(jì)算機(jī)視覺的蓬勃發(fā)展?！?/p>

現(xiàn)在決策智能領(lǐng)域的大多數(shù)工作者，很難接觸到像星際、DOTA2這樣的資源，在相對(duì)較理想的小數(shù)據(jù)集和仿真環(huán)境中做實(shí)驗(yàn)、發(fā)論文，是學(xué)術(shù)研究的常態(tài)。

“而決策智能將走向何方，其實(shí)就是從訓(xùn)練平臺(tái)和仿真環(huán)境兩個(gè)方向發(fā)力。我們希望在保持現(xiàn)有資源能夠接觸的情況下，能讓決策智能更接近真實(shí)場(chǎng)景，并逐漸推動(dòng)行業(yè)中更多的平臺(tái)開源?！眲⒂钫f到。

決策智能的研究剛剛上路，首先是數(shù)據(jù)的問題，其次是標(biāo)準(zhǔn)化的問題。

目前，決策智能的標(biāo)準(zhǔn)化難題是三塊：

一個(gè)是環(huán)境觀測(cè)的標(biāo)準(zhǔn)化
二個(gè)是動(dòng)作空間的標(biāo)準(zhǔn)化
三個(gè)是算法工作流的標(biāo)準(zhǔn)化

“CV標(biāo)準(zhǔn)化做得好，因?yàn)檫@里面所有的數(shù)據(jù)都可以用非常規(guī)整的tensor來表示，像PyTorch、 TensorFlow?！?/p>

但在決策智能領(lǐng)域，會(huì)涉及到多模態(tài)的輸入，比如空間信息（Spatial info）、實(shí)體信息（Entity info）、Scalar info（標(biāo)量信息）?！?strong>難點(diǎn)是將所有模態(tài)都統(tǒng)一到一個(gè)數(shù)據(jù)格式下。”劉宇說到，“目前一些做法是將各種模態(tài)的數(shù)據(jù)統(tǒng)一到一個(gè)encoder，讓它們映射到同一個(gè)observation space(觀測(cè)空間)?！?/p>

有了狀態(tài)空間后，就需要決策做什么動(dòng)作。

比如，強(qiáng)化學(xué)習(xí)領(lǐng)域很多算法很難同時(shí)支持離散和連續(xù)兩種動(dòng)作空間。而真實(shí)場(chǎng)景里還有更復(fù)雜的動(dòng)作空間，比如前后依賴的動(dòng)作空間、序列的動(dòng)作空間，跟馬爾可夫鏈性質(zhì)不太相關(guān)的或者違背的動(dòng)作空間。“這些動(dòng)作空間如何大一統(tǒng)到一個(gè)訓(xùn)練的平臺(tái)和一個(gè)訓(xùn)練流里，也是非常難的問題。”

“我們希望通過算法設(shè)計(jì)出新的head（決策智能訓(xùn)練網(wǎng)絡(luò)的頭），后期只需要做一些plug in（插件）的工作，幾乎能夠適配所有的算法。”

第三塊是算法的標(biāo)準(zhǔn)化。各種算法之間的差異性非常大且難以抽象，如果強(qiáng)行把所有算法兼容到一套框架內(nèi)，代碼會(huì)非常冗余?！拔覀儸F(xiàn)在想要從計(jì)算流的角度思考強(qiáng)化學(xué)習(xí)的優(yōu)化過程，把強(qiáng)化學(xué)習(xí)里所有原子模塊拆分，類似PyTorch里operator，那么以后只需要拼算法積木，或者研發(fā)一個(gè)新的強(qiáng)化學(xué)習(xí)算法?！?/p>

這件事本身是很長(zhǎng)期主義的一件事，Go-Bigger只是一個(gè)開始。

劉宇說，“我們希望用5年時(shí)間，從工具和學(xué)術(shù)問題定義兩個(gè)方面推動(dòng)決策智能落地，能夠讓平臺(tái)、算法集、生產(chǎn)的工具鏈適配到幾乎所有決策智能行業(yè)應(yīng)用上，將行業(yè)和學(xué)術(shù)的各自為陣，變成欣欣向榮?！?/p>

比賽持續(xù)到明年4月，那時(shí)，“我們期待所有選手百家爭(zhēng)鳴，能夠定義出新的問題，也會(huì)設(shè)計(jì)出更多樣性的算法，既有純強(qiáng)化學(xué)習(xí)的，也有結(jié)合硬編碼和強(qiáng)化學(xué)習(xí)的。當(dāng)然，我們希望訓(xùn)練出的AI不僅能處理好輸贏，還能兼顧到游戲的擬人性?！?/p>

如今，全球首屆“ AI《球球大作戰(zhàn)》：Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競(jìng)賽活動(dòng)，本次比賽旨在推動(dòng)決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng)，打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。協(xié)作、博弈、對(duì)抗，精彩紛呈，歡迎前來挑戰(zhàn)！

比賽詳情請(qǐng)見：https://mp.weixin.qq.com/s/1hVFFWBVSUx-BT6Fnn_sMA

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。