丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給任平
發(fā)送

0

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

本文作者: 任平 2021-12-08 12:52
導(dǎo)語:可能是史上最強(qiáng)的多智能體決策智能挑戰(zhàn)賽,來了!

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

2021年11月,全球首屆“ AI《球球大作戰(zhàn)》:Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競(jìng)賽活動(dòng),本次比賽旨在推動(dòng)決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng),打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。


在比賽之際,雷鋒網(wǎng)&AI科技評(píng)論對(duì)話了本次競(jìng)賽的核心設(shè)計(jì)團(tuán)隊(duì)成員劉宇和周航,他們二人,一個(gè)為商湯科技研究總監(jiān),也是OpenDILab項(xiàng)目負(fù)責(zé)人;一個(gè)為前星際職業(yè)選手iA,目前任商湯決策智能游戲AI組高級(jí)研究員;殊途而同歸,他們?nèi)绾瓮ㄟ^ 「游戲 × 決策」方式走到一起,他們會(huì)更看中什么樣的“策略高手”?

在現(xiàn)實(shí)之外,還有另一個(gè)世界,游戲世界。它將人情世故、弱肉強(qiáng)食、情義背叛、謀略運(yùn)籌挪于方寸之間,功成名就,皆在俯仰間。以游戲世界之有涯,演繹人際種種浮沉。古人制蠱王,今人造腦王,科技的進(jìn)步,將對(duì)抗的秘密搬上臺(tái)面。

而今這場(chǎng)競(jìng)技,被命名為Go-Bigger多智能體決策智能挑戰(zhàn)賽。比賽由OpenDILab主辦,上海人工智能實(shí)驗(yàn)室作為學(xué)術(shù)指導(dǎo),商湯決策智能團(tuán)隊(duì)和巨人網(wǎng)絡(luò)等多元化組織聯(lián)合打造 。靈感來自于巨人網(wǎng)絡(luò)自主研發(fā)的一款超火爆休閑競(jìng)技手游《球球大作戰(zhàn)》,多方共同開啟全球首屆AI版《球球大作戰(zhàn)》。

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境:https://github.com/opendilab/GoBigger

AI球球大作戰(zhàn)采用了類似《球球大作戰(zhàn)》的物理引擎設(shè)計(jì),具有相對(duì)較大的地圖,球球具有分裂、吐孢子、中吐等高階動(dòng)作空間,但是提供了適合強(qiáng)化學(xué)習(xí)或行為樹AI編寫的抽象接口。

劉宇說到,“Go-Bigger并不像星際爭(zhēng)霸或Dota2這種重型游戲環(huán)境,我們對(duì)它的定位是人人可以參加的中型游戲AI競(jìng)技環(huán)境,推動(dòng)學(xué)術(shù)界關(guān)注更大一些的決策問題。相比學(xué)術(shù)界用的最多的Atari、Mojoco、SMAC要大不少,但又可以在小型的實(shí)驗(yàn)室中完成——一臺(tái)機(jī)器、一塊GPU就能訓(xùn)練起來。它面向大眾、學(xué)生、研究員,更適合用 「學(xué)術(shù)比賽」來描述它?!?/p>

從參與籌辦比賽的各方來看,學(xué)術(shù)價(jià)值,在Go-Bigger身上非常明顯。它由上海人工智能實(shí)驗(yàn)室作為學(xué)術(shù)指導(dǎo),商湯科技、巨人網(wǎng)絡(luò)、上汽集團(tuán)人工智能實(shí)驗(yàn)室聯(lián)合主辦,全球高校人工智能學(xué)術(shù)聯(lián)盟、浙江大學(xué)上海高等研究院、上海交通大學(xué)清源研究院聯(lián)合協(xié)辦,OSCHINA、深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作為支持。

從產(chǎn)業(yè)出發(fā),關(guān)注底層技術(shù),并進(jìn)一步攏合各大高校和實(shí)驗(yàn)室,其實(shí)就是商湯的原創(chuàng)基因。 


一、Go-Bigger比拼決策戰(zhàn)術(shù)

周航和劉宇都說到,“球球大作戰(zhàn)的門檻很低,但是上限很高?!?/p>

與風(fēng)靡全球的agar.io、《球球大作戰(zhàn)》等游戲類似,在Go-Bigger中,每局比賽十分鐘,大球吃掉小球而獲得更大重量和體積,但同時(shí)要避免被更大的球吃掉。當(dāng)球達(dá)到足夠大時(shí),玩家(AI)可使其分裂或融合,和同伴完美配合來輸出博弈策略。每個(gè)隊(duì)伍都需和其他隊(duì)伍對(duì)抗,總重量更大的團(tuán)隊(duì)獲勝。

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境演示圖

游戲中有四類小球,分別為分身球、孢子球、食物球、荊棘球,挑戰(zhàn)不同決策路徑。 

  • 分身球是玩家在游戲中控制移動(dòng)或者技能釋放的球,可以通過覆蓋其他球的中心點(diǎn)來吃掉比自己小的球。

  • 孢子球由玩家的分身球發(fā)射產(chǎn)生,會(huì)留在地圖上且可被其他玩家吃掉。

  • 食物球是游戲中的中立資源,其數(shù)量會(huì)保持動(dòng)態(tài)平衡。如玩家的分身球吃了一個(gè)食物球,食物球的重量將被傳遞到分身球。

  • 荊棘球也是游戲中的中立資源,其尺寸更大、數(shù)量更少。如玩家的分身球吃了一個(gè)荊棘球,荊棘球的大小將被傳遞到分身球,同時(shí)分身球會(huì)爆炸并分裂成多個(gè)(10個(gè))分身。此外,荊棘球可通過吃掉孢子球而被玩家移動(dòng)。

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

分身球

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

孢子球,食物球 
對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

荊棘球

此外,Go-Bigger還包含一系列與《球球大作戰(zhàn)》類似的游戲規(guī)則:

  • 球重量越小,移動(dòng)速度越快;

  • 分身更多可以快速發(fā)育,但自身重量被分散,面臨被吃的風(fēng)險(xiǎn)。

  • 每個(gè)玩家的總重量會(huì)隨著時(shí)間緩慢衰減,體重越大,衰減速度越大在戰(zhàn)斗階段,分裂后的玩家需要盡快合球,因此,同一隊(duì)伍中不同球球的配合尤為關(guān)鍵。

  • 同隊(duì)伍玩家之間不會(huì)完全吞噬(會(huì)保留最后一個(gè)球)。

由于這種規(guī)則設(shè)置,球球在不同發(fā)展階段,策略各不相同。

在球球發(fā)育前期,重量太小無法分裂,一邊吃食物完成原始積累,一邊防御被吃,就催化了團(tuán)隊(duì)合作--多球行動(dòng)。

比如,當(dāng)自己進(jìn)食足夠多,并達(dá)到分身程度時(shí),將小分身喂給隊(duì)友,只留一個(gè),同伴和自己都會(huì)完成第一次原始積累,并增加團(tuán)隊(duì)整體重量。

隨著大家爭(zhēng)相完成原始積累,比賽進(jìn)入中期。防御轉(zhuǎn)為攻擊,暗爭(zhēng)轉(zhuǎn)為明爭(zhēng)。而此時(shí),持久戰(zhàn)還是速度戰(zhàn)、先滅大還是先滅小、霸屏攻擊還是輕騎后抄,不同策略組合將游戲推向高潮。

距離,方向,速度以及分身后的密度成為影響獲勝關(guān)鍵。

其中一種攻擊策略為先滅小而后搏大,大球率先攻擊發(fā)育不良的球,合成大球,隨后尋找實(shí)力略弱的大球,判斷距離、分身快速逼近、近身后合球鯨吞。幾輪下來,大球進(jìn)入排行榜頭列,為后續(xù)決戰(zhàn)做好準(zhǔn)備。

隨著游戲進(jìn)入后期,戰(zhàn)場(chǎng)上的玩家也所剩無幾,實(shí)力相當(dāng)?shù)拇笄驔Q戰(zhàn),成為賽點(diǎn)關(guān)鍵!

首先,大球的移動(dòng)速度非常慢,選擇時(shí)機(jī)分身移動(dòng),快速移動(dòng)并合成干掉對(duì)方,成為大球玩家心中既心照不宣,又秘而不發(fā)的護(hù)身之法。你死我亡,弱肉強(qiáng)食,生命法則向是如此。

但與此同時(shí),作戰(zhàn)的另一機(jī)制——自我衰亡被觸發(fā)。

大球的體重并不是一成不變的,而是以一個(gè)相當(dāng)快的速度流失體重,體重衰減率是每秒鐘千分之二。因此,游戲進(jìn)入下一階段——霸屏團(tuán)隊(duì)的優(yōu)勢(shì)維持、其它團(tuán)隊(duì)的反擊。

由于霸屏團(tuán)隊(duì)體重流失速度相當(dāng)快,如果只是用常規(guī)的攻擊手段,增加的體重往往不能和流失的體重相抵。而同時(shí),大球的移動(dòng)速度十分緩慢,攻擊效率十分低下,多數(shù)大球團(tuán)隊(duì)會(huì)采用多分身模式攻擊。

因?yàn)橐呀?jīng)是優(yōu)勢(shì)團(tuán)隊(duì),即便多分身,其它團(tuán)隊(duì)也往往不能對(duì)多分身造成威脅,因此大球往往以相對(duì)高的速度地毯式掃蕩。

縱觀決戰(zhàn)之勢(shì),無論是大球燃燒心火,擊潰其身;還是分身求勝,蠶食殆盡,往往并不隨心所欲。在對(duì)抗同時(shí),作戰(zhàn)時(shí)間所剩無幾。

此外,還有多少小球蟄伏暗處,醞釀反擊,在最后階段逆轉(zhuǎn)局勢(shì),并非新事。

在萌萌的小球之內(nèi),涌動(dòng)著規(guī)則和博弈的暗流。周航回應(yīng)道,這就是Go-Bigger門檻很低,但是上限很高的原因。

“游戲環(huán)境非常簡(jiǎn)單直觀,因?yàn)榇蠹叶纪孢^類似的游戲,像大魚吃小魚、剪刀石頭布、圍棋。它們都有很直觀的名字,都用簡(jiǎn)單的環(huán)境系統(tǒng)構(gòu)建出博弈場(chǎng)景。但不同的是,Go-Bigger涉及到多智能體的配合和對(duì)抗,會(huì)有更高的決策復(fù)雜度。” 


二、游戲環(huán)境如何設(shè)計(jì)

人工智能現(xiàn)在已經(jīng)廣泛應(yīng)用在感知優(yōu)化場(chǎng)景,但是想讓模型具有真正的智能,則需要將其落實(shí)到一些需要進(jìn)行決策的場(chǎng)景。

游戲,則是決策智能(DI)天然的訓(xùn)練場(chǎng)。

如果將一個(gè)游戲環(huán)境比作一個(gè)小社會(huì),那么不同的游戲角色則是生活其中的人類。只有人類數(shù)量足夠多,才足以反映其中的群體關(guān)系,并進(jìn)一步模擬人類社會(huì)的生活圖景。因此,在復(fù)雜游戲中的多智能體博弈,成為推動(dòng)決策智能發(fā)展的關(guān)鍵。

Go-Bigger涉及多智能體博弈,不可避免要權(quán)衡同一團(tuán)隊(duì)中的個(gè)體行動(dòng)與合作行動(dòng)、不同團(tuán)隊(duì)間的合作與競(jìng)爭(zhēng)、表征和交換與其它智能體的環(huán)境信息。但要從零開始實(shí)現(xiàn)上述算法和訓(xùn)練流程非常復(fù)雜,決策智能框架DI-engine大大簡(jiǎn)化了設(shè)計(jì)過程。

其內(nèi)部已經(jīng)集成了支持多智能體的DQN算法實(shí)現(xiàn)和一系列相關(guān)訣竅,以及玩家自我對(duì)戰(zhàn)和對(duì)抗機(jī)器人的訓(xùn)練組件,只需實(shí)現(xiàn)相應(yīng)的環(huán)境封裝,神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練主函數(shù)即可。

此外,Go-Bigger支持RL環(huán)境,提供了三種交互模式。

為幫助用戶在強(qiáng)化學(xué)習(xí)領(lǐng)域的多智能體策略學(xué)習(xí),Go-Bigger提供了符合gym.Env標(biāo)準(zhǔn)的接口供其使用。在一局游戲中,Go-Bigger默認(rèn)設(shè)置含有20個(gè)狀態(tài)幀和5個(gè)動(dòng)作幀。每個(gè)狀態(tài)幀都會(huì)對(duì)當(dāng)前地圖內(nèi)所有單位進(jìn)行仿真和狀態(tài)處理,而動(dòng)作幀會(huì)在此基礎(chǔ)上,附加對(duì)單位的動(dòng)作控制,即改變單位的速度、方向等屬性,或使單位啟用分裂、發(fā)射或停止等技能。

為了更方便地對(duì)環(huán)境進(jìn)行探索,Go-Bigger還提供了必要的可視化工具。在與環(huán)境進(jìn)行交互的時(shí)候,可以直接保存本局包含全局視角及各個(gè)玩家視角的錄像。此外,Go-Bigger提供了單人全局視野、雙人全局視野、單人局部視野三種人機(jī)交互模式,使得用戶可以快速了解環(huán)境規(guī)則。

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

單人全局視野、雙人全局視野、單人局部視野 

可視化除了方便用戶設(shè)計(jì)智能體的決策路徑,還將智能體的決策進(jìn)化提供一個(gè)參考。

目前基于強(qiáng)化學(xué)習(xí)等方法的決策智能,主要還是在學(xué)習(xí)「狀態(tài)」到「動(dòng)作」的映射,離可解釋的、因果關(guān)系的、可互動(dòng)的決策還有很遠(yuǎn)距離。但游戲本身的可視化形式,會(huì)直接展示智能體的策略。

整個(gè)游戲環(huán)境的搭建,不僅涉及到大的封裝模塊,還有小的動(dòng)作設(shè)計(jì)。劉宇說到,我們?cè)谠O(shè)計(jì)這個(gè)引擎的時(shí)候,不僅要兼顧它是否有趣(可視化、難度低),還要考慮它對(duì)研究者來說是否有用(動(dòng)作歧義、公平)。

在復(fù)雜的游戲環(huán)境中,如何做到公平性,保證所有智能體從同一起點(diǎn)進(jìn)化,并演化出最多的決策路徑,除了球球背后的參賽選手出奇斗勇,還要有公平的評(píng)測(cè)系統(tǒng)--天梯系統(tǒng)。參賽選手只需基于大賽提供的接口,給出智能體在每一幀的動(dòng)作,最后將代碼以及相關(guān)模型或文件提交即可加入測(cè)試天梯。OpenDILab團(tuán)隊(duì)將使用選手提供的環(huán)境及代碼進(jìn)行指定競(jìng)賽的模型測(cè)試工作,決出最后的贏家!

三、決策智能研究剛剛上路

在Go-Bigger游戲中,設(shè)計(jì)了球球?qū)箷r(shí)間、成長加速度、分裂、消失、衰亡等約束條件,它們其實(shí)廣泛存在于現(xiàn)實(shí)世界,比如人的生命周期,微觀生物學(xué)中細(xì)胞免疫等。

天然擁有很高的社會(huì)擬合度,是用游戲做決策智能研究的優(yōu)勢(shì)。

劉宇說,Go-Bigger項(xiàng)目只想做好一件事,就是想通過打造一款類似于球球大作戰(zhàn)和AGAR這樣家喻戶曉的游戲,讓大家先把游戲AI和決策智能聯(lián)系起來,且人人可上手。

“現(xiàn)在Go-Bigger希望做的,其實(shí)非常像CV領(lǐng)域的ImageNet。”

十年來,計(jì)算機(jī)視覺一直是最火爆的領(lǐng)域。但是CV是如何發(fā)展起來的,“其實(shí)就是開源了更大的數(shù)據(jù)集?!?/p>

劉宇說到,“在ImageNet比賽之前,數(shù)據(jù)集都非常小,研究員很難定義產(chǎn)業(yè)界真正需要的算法問題。但I(xiàn)mageNet的推出,為當(dāng)時(shí)的技術(shù)帶來了挑戰(zhàn),隨著GPU的算力提升,越來越多的人涌入到CV領(lǐng)域,成就了現(xiàn)在深度學(xué)習(xí)+計(jì)算機(jī)視覺的蓬勃發(fā)展。”

現(xiàn)在決策智能領(lǐng)域的大多數(shù)工作者,很難接觸到像星際、DOTA2這樣的資源,在相對(duì)較理想的小數(shù)據(jù)集和仿真環(huán)境中做實(shí)驗(yàn)、發(fā)論文,是學(xué)術(shù)研究的常態(tài)。

“而決策智能將走向何方,其實(shí)就是從訓(xùn)練平臺(tái)和仿真環(huán)境兩個(gè)方向發(fā)力。我們希望在保持現(xiàn)有資源能夠接觸的情況下,能讓決策智能更接近真實(shí)場(chǎng)景,并逐漸推動(dòng)行業(yè)中更多的平臺(tái)開源?!眲⒂钫f到。

決策智能的研究剛剛上路,首先是數(shù)據(jù)的問題,其次是標(biāo)準(zhǔn)化的問題。

目前,決策智能的標(biāo)準(zhǔn)化難題是三塊:

  • 一個(gè)是環(huán)境觀測(cè)的標(biāo)準(zhǔn)化

  • 二個(gè)是動(dòng)作空間的標(biāo)準(zhǔn)化

  • 三個(gè)是算法工作流的標(biāo)準(zhǔn)化

“CV標(biāo)準(zhǔn)化做得好,因?yàn)檫@里面所有的數(shù)據(jù)都可以用非常規(guī)整的tensor來表示,像PyTorch、 TensorFlow?!?/p>

但在決策智能領(lǐng)域,會(huì)涉及到多模態(tài)的輸入,比如空間信息(Spatial info)、實(shí)體信息(Entity info)、Scalar info(標(biāo)量信息)?!?strong>難點(diǎn)是將所有模態(tài)都統(tǒng)一到一個(gè)數(shù)據(jù)格式下。”劉宇說到,“目前一些做法是將各種模態(tài)的數(shù)據(jù)統(tǒng)一到一個(gè)encoder,讓它們映射到同一個(gè)observation space(觀測(cè)空間)?!?/p>

有了狀態(tài)空間后,就需要決策做什么動(dòng)作。

比如,強(qiáng)化學(xué)習(xí)領(lǐng)域很多算法很難同時(shí)支持離散和連續(xù)兩種動(dòng)作空間。而真實(shí)場(chǎng)景里還有更復(fù)雜的動(dòng)作空間,比如前后依賴的動(dòng)作空間、序列的動(dòng)作空間,跟馬爾可夫鏈性質(zhì)不太相關(guān)的或者違背的動(dòng)作空間?!?strong>這些動(dòng)作空間如何大一統(tǒng)到一個(gè)訓(xùn)練的平臺(tái)和一個(gè)訓(xùn)練流里,也是非常難的問題。”

“我們希望通過算法設(shè)計(jì)出新的head(決策智能訓(xùn)練網(wǎng)絡(luò)的頭),后期只需要做一些plug in(插件)的工作,幾乎能夠適配所有的算法?!?/p>

第三塊是算法的標(biāo)準(zhǔn)化。各種算法之間的差異性非常大且難以抽象,如果強(qiáng)行把所有算法兼容到一套框架內(nèi),代碼會(huì)非常冗余。“我們現(xiàn)在想要從計(jì)算流的角度思考強(qiáng)化學(xué)習(xí)的優(yōu)化過程,把強(qiáng)化學(xué)習(xí)里所有原子模塊拆分,類似PyTorch里operator,那么以后只需要拼算法積木,或者研發(fā)一個(gè)新的強(qiáng)化學(xué)習(xí)算法?!?/p>

這件事本身是很長期主義的一件事,Go-Bigger只是一個(gè)開始。

劉宇說,“我們希望用5年時(shí)間,從工具和學(xué)術(shù)問題定義兩個(gè)方面推動(dòng)決策智能落地,能夠讓平臺(tái)、算法集、生產(chǎn)的工具鏈適配到幾乎所有決策智能行業(yè)應(yīng)用上,將行業(yè)和學(xué)術(shù)的各自為陣,變成欣欣向榮?!?/p>

比賽持續(xù)到明年4月,那時(shí),“我們期待所有選手百家爭(zhēng)鳴,能夠定義出新的問題,也會(huì)設(shè)計(jì)出更多樣性的算法,既有純強(qiáng)化學(xué)習(xí)的,也有結(jié)合硬編碼和強(qiáng)化學(xué)習(xí)的。當(dāng)然,我們希望訓(xùn)練出的AI不僅能處理好輸贏,還能兼顧到游戲的擬人性?!?/p>

如今,全球首屆“ AI《球球大作戰(zhàn)》:Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競(jìng)賽活動(dòng),本次比賽旨在推動(dòng)決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng),打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。協(xié)作、博弈、對(duì)抗,精彩紛呈,歡迎前來挑戰(zhàn)!

比賽詳情請(qǐng)見:https://mp.weixin.qq.com/s/1hVFFWBVSUx-BT6Fnn_sMA

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

對(duì)戰(zhàn)6億用戶競(jìng)技手游:聚焦復(fù)雜游戲中的多智能體博弈

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說