丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給任平
發(fā)送

0

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

本文作者: 任平 2021-12-08 12:52
導(dǎo)語:可能是史上最強的多智能體決策智能挑戰(zhàn)賽,來了!

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

2021年11月,全球首屆“ AI《球球大作戰(zhàn)》:Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競賽活動,本次比賽旨在推動決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng),打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。


在比賽之際,雷鋒網(wǎng)&AI科技評論對話了本次競賽的核心設(shè)計團隊成員劉宇和周航,他們二人,一個為商湯科技研究總監(jiān),也是OpenDILab項目負責(zé)人;一個為前星際職業(yè)選手iA,目前任商湯決策智能游戲AI組高級研究員;殊途而同歸,他們?nèi)绾瓮ㄟ^ 「游戲 × 決策」方式走到一起,他們會更看中什么樣的“策略高手”?

在現(xiàn)實之外,還有另一個世界,游戲世界。它將人情世故、弱肉強食、情義背叛、謀略運籌挪于方寸之間,功成名就,皆在俯仰間。以游戲世界之有涯,演繹人際種種浮沉。古人制蠱王,今人造腦王,科技的進步,將對抗的秘密搬上臺面。

而今這場競技,被命名為Go-Bigger多智能體決策智能挑戰(zhàn)賽。比賽由OpenDILab主辦,上海人工智能實驗室作為學(xué)術(shù)指導(dǎo),商湯決策智能團隊和巨人網(wǎng)絡(luò)等多元化組織聯(lián)合打造 。靈感來自于巨人網(wǎng)絡(luò)自主研發(fā)的一款超火爆休閑競技手游《球球大作戰(zhàn)》,多方共同開啟全球首屆AI版《球球大作戰(zhàn)》。

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境:https://github.com/opendilab/GoBigger

AI球球大作戰(zhàn)采用了類似《球球大作戰(zhàn)》的物理引擎設(shè)計,具有相對較大的地圖,球球具有分裂、吐孢子、中吐等高階動作空間,但是提供了適合強化學(xué)習(xí)或行為樹AI編寫的抽象接口。

劉宇說到,“Go-Bigger并不像星際爭霸或Dota2這種重型游戲環(huán)境,我們對它的定位是人人可以參加的中型游戲AI競技環(huán)境,推動學(xué)術(shù)界關(guān)注更大一些的決策問題。相比學(xué)術(shù)界用的最多的Atari、Mojoco、SMAC要大不少,但又可以在小型的實驗室中完成——一臺機器、一塊GPU就能訓(xùn)練起來。它面向大眾、學(xué)生、研究員,更適合用 「學(xué)術(shù)比賽」來描述它。”

從參與籌辦比賽的各方來看,學(xué)術(shù)價值,在Go-Bigger身上非常明顯。它由上海人工智能實驗室作為學(xué)術(shù)指導(dǎo),商湯科技、巨人網(wǎng)絡(luò)、上汽集團人工智能實驗室聯(lián)合主辦,全球高校人工智能學(xué)術(shù)聯(lián)盟、浙江大學(xué)上海高等研究院、上海交通大學(xué)清源研究院聯(lián)合協(xié)辦,OSCHINA、深度強化學(xué)習(xí)實驗室作為支持。

從產(chǎn)業(yè)出發(fā),關(guān)注底層技術(shù),并進一步攏合各大高校和實驗室,其實就是商湯的原創(chuàng)基因。 


一、Go-Bigger比拼決策戰(zhàn)術(shù)

周航和劉宇都說到,“球球大作戰(zhàn)的門檻很低,但是上限很高?!?/p>

與風(fēng)靡全球的agar.io、《球球大作戰(zhàn)》等游戲類似,在Go-Bigger中,每局比賽十分鐘,大球吃掉小球而獲得更大重量和體積,但同時要避免被更大的球吃掉。當(dāng)球達到足夠大時,玩家(AI)可使其分裂或融合,和同伴完美配合來輸出博弈策略。每個隊伍都需和其他隊伍對抗,總重量更大的團隊獲勝。

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

Go-Bigger游戲環(huán)境演示圖

游戲中有四類小球,分別為分身球、孢子球、食物球、荊棘球,挑戰(zhàn)不同決策路徑。 

  • 分身球是玩家在游戲中控制移動或者技能釋放的球,可以通過覆蓋其他球的中心點來吃掉比自己小的球。

  • 孢子球由玩家的分身球發(fā)射產(chǎn)生,會留在地圖上且可被其他玩家吃掉。

  • 食物球是游戲中的中立資源,其數(shù)量會保持動態(tài)平衡。如玩家的分身球吃了一個食物球,食物球的重量將被傳遞到分身球。

  • 荊棘球也是游戲中的中立資源,其尺寸更大、數(shù)量更少。如玩家的分身球吃了一個荊棘球,荊棘球的大小將被傳遞到分身球,同時分身球會爆炸并分裂成多個(10個)分身。此外,荊棘球可通過吃掉孢子球而被玩家移動。

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

分身球

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

孢子球,食物球 
對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

荊棘球

此外,Go-Bigger還包含一系列與《球球大作戰(zhàn)》類似的游戲規(guī)則:

  • 球重量越小,移動速度越快;

  • 分身更多可以快速發(fā)育,但自身重量被分散,面臨被吃的風(fēng)險。

  • 每個玩家的總重量會隨著時間緩慢衰減,體重越大,衰減速度越大在戰(zhàn)斗階段,分裂后的玩家需要盡快合球,因此,同一隊伍中不同球球的配合尤為關(guān)鍵。

  • 同隊伍玩家之間不會完全吞噬(會保留最后一個球)。

由于這種規(guī)則設(shè)置,球球在不同發(fā)展階段,策略各不相同。

在球球發(fā)育前期,重量太小無法分裂,一邊吃食物完成原始積累,一邊防御被吃,就催化了團隊合作--多球行動。

比如,當(dāng)自己進食足夠多,并達到分身程度時,將小分身喂給隊友,只留一個,同伴和自己都會完成第一次原始積累,并增加團隊整體重量。

隨著大家爭相完成原始積累,比賽進入中期。防御轉(zhuǎn)為攻擊,暗爭轉(zhuǎn)為明爭。而此時,持久戰(zhàn)還是速度戰(zhàn)、先滅大還是先滅小、霸屏攻擊還是輕騎后抄,不同策略組合將游戲推向高潮。

距離,方向,速度以及分身后的密度成為影響獲勝關(guān)鍵。

其中一種攻擊策略為先滅小而后搏大,大球率先攻擊發(fā)育不良的球,合成大球,隨后尋找實力略弱的大球,判斷距離、分身快速逼近、近身后合球鯨吞。幾輪下來,大球進入排行榜頭列,為后續(xù)決戰(zhàn)做好準(zhǔn)備。

隨著游戲進入后期,戰(zhàn)場上的玩家也所剩無幾,實力相當(dāng)?shù)拇笄驔Q戰(zhàn),成為賽點關(guān)鍵!

首先,大球的移動速度非常慢,選擇時機分身移動,快速移動并合成干掉對方,成為大球玩家心中既心照不宣,又秘而不發(fā)的護身之法。你死我亡,弱肉強食,生命法則向是如此。

但與此同時,作戰(zhàn)的另一機制——自我衰亡被觸發(fā)。

大球的體重并不是一成不變的,而是以一個相當(dāng)快的速度流失體重,體重衰減率是每秒鐘千分之二。因此,游戲進入下一階段——霸屏團隊的優(yōu)勢維持、其它團隊的反擊。

由于霸屏團隊體重流失速度相當(dāng)快,如果只是用常規(guī)的攻擊手段,增加的體重往往不能和流失的體重相抵。而同時,大球的移動速度十分緩慢,攻擊效率十分低下,多數(shù)大球團隊會采用多分身模式攻擊。

因為已經(jīng)是優(yōu)勢團隊,即便多分身,其它團隊也往往不能對多分身造成威脅,因此大球往往以相對高的速度地毯式掃蕩。

縱觀決戰(zhàn)之勢,無論是大球燃燒心火,擊潰其身;還是分身求勝,蠶食殆盡,往往并不隨心所欲。在對抗同時,作戰(zhàn)時間所剩無幾。

此外,還有多少小球蟄伏暗處,醞釀反擊,在最后階段逆轉(zhuǎn)局勢,并非新事。

在萌萌的小球之內(nèi),涌動著規(guī)則和博弈的暗流。周航回應(yīng)道,這就是Go-Bigger門檻很低,但是上限很高的原因。

“游戲環(huán)境非常簡單直觀,因為大家都玩過類似的游戲,像大魚吃小魚、剪刀石頭布、圍棋。它們都有很直觀的名字,都用簡單的環(huán)境系統(tǒng)構(gòu)建出博弈場景。但不同的是,Go-Bigger涉及到多智能體的配合和對抗,會有更高的決策復(fù)雜度。” 


二、游戲環(huán)境如何設(shè)計

人工智能現(xiàn)在已經(jīng)廣泛應(yīng)用在感知優(yōu)化場景,但是想讓模型具有真正的智能,則需要將其落實到一些需要進行決策的場景。

游戲,則是決策智能(DI)天然的訓(xùn)練場。

如果將一個游戲環(huán)境比作一個小社會,那么不同的游戲角色則是生活其中的人類。只有人類數(shù)量足夠多,才足以反映其中的群體關(guān)系,并進一步模擬人類社會的生活圖景。因此,在復(fù)雜游戲中的多智能體博弈,成為推動決策智能發(fā)展的關(guān)鍵。

Go-Bigger涉及多智能體博弈,不可避免要權(quán)衡同一團隊中的個體行動與合作行動、不同團隊間的合作與競爭、表征和交換與其它智能體的環(huán)境信息。但要從零開始實現(xiàn)上述算法和訓(xùn)練流程非常復(fù)雜,決策智能框架DI-engine大大簡化了設(shè)計過程。

其內(nèi)部已經(jīng)集成了支持多智能體的DQN算法實現(xiàn)和一系列相關(guān)訣竅,以及玩家自我對戰(zhàn)和對抗機器人的訓(xùn)練組件,只需實現(xiàn)相應(yīng)的環(huán)境封裝,神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練主函數(shù)即可。

此外,Go-Bigger支持RL環(huán)境,提供了三種交互模式。

為幫助用戶在強化學(xué)習(xí)領(lǐng)域的多智能體策略學(xué)習(xí),Go-Bigger提供了符合gym.Env標(biāo)準(zhǔn)的接口供其使用。在一局游戲中,Go-Bigger默認(rèn)設(shè)置含有20個狀態(tài)幀和5個動作幀。每個狀態(tài)幀都會對當(dāng)前地圖內(nèi)所有單位進行仿真和狀態(tài)處理,而動作幀會在此基礎(chǔ)上,附加對單位的動作控制,即改變單位的速度、方向等屬性,或使單位啟用分裂、發(fā)射或停止等技能。

為了更方便地對環(huán)境進行探索,Go-Bigger還提供了必要的可視化工具。在與環(huán)境進行交互的時候,可以直接保存本局包含全局視角及各個玩家視角的錄像。此外,Go-Bigger提供了單人全局視野、雙人全局視野、單人局部視野三種人機交互模式,使得用戶可以快速了解環(huán)境規(guī)則。

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

單人全局視野、雙人全局視野、單人局部視野 

可視化除了方便用戶設(shè)計智能體的決策路徑,還將智能體的決策進化提供一個參考。

目前基于強化學(xué)習(xí)等方法的決策智能,主要還是在學(xué)習(xí)「狀態(tài)」到「動作」的映射,離可解釋的、因果關(guān)系的、可互動的決策還有很遠距離。但游戲本身的可視化形式,會直接展示智能體的策略。

整個游戲環(huán)境的搭建,不僅涉及到大的封裝模塊,還有小的動作設(shè)計。劉宇說到,我們在設(shè)計這個引擎的時候,不僅要兼顧它是否有趣(可視化、難度低),還要考慮它對研究者來說是否有用(動作歧義、公平)。

在復(fù)雜的游戲環(huán)境中,如何做到公平性,保證所有智能體從同一起點進化,并演化出最多的決策路徑,除了球球背后的參賽選手出奇斗勇,還要有公平的評測系統(tǒng)--天梯系統(tǒng)。參賽選手只需基于大賽提供的接口,給出智能體在每一幀的動作,最后將代碼以及相關(guān)模型或文件提交即可加入測試天梯。OpenDILab團隊將使用選手提供的環(huán)境及代碼進行指定競賽的模型測試工作,決出最后的贏家!

三、決策智能研究剛剛上路

在Go-Bigger游戲中,設(shè)計了球球?qū)箷r間、成長加速度、分裂、消失、衰亡等約束條件,它們其實廣泛存在于現(xiàn)實世界,比如人的生命周期,微觀生物學(xué)中細胞免疫等。

天然擁有很高的社會擬合度,是用游戲做決策智能研究的優(yōu)勢。

劉宇說,Go-Bigger項目只想做好一件事,就是想通過打造一款類似于球球大作戰(zhàn)和AGAR這樣家喻戶曉的游戲,讓大家先把游戲AI和決策智能聯(lián)系起來,且人人可上手。

“現(xiàn)在Go-Bigger希望做的,其實非常像CV領(lǐng)域的ImageNet。”

十年來,計算機視覺一直是最火爆的領(lǐng)域。但是CV是如何發(fā)展起來的,“其實就是開源了更大的數(shù)據(jù)集?!?/p>

劉宇說到,“在ImageNet比賽之前,數(shù)據(jù)集都非常小,研究員很難定義產(chǎn)業(yè)界真正需要的算法問題。但ImageNet的推出,為當(dāng)時的技術(shù)帶來了挑戰(zhàn),隨著GPU的算力提升,越來越多的人涌入到CV領(lǐng)域,成就了現(xiàn)在深度學(xué)習(xí)+計算機視覺的蓬勃發(fā)展?!?/p>

現(xiàn)在決策智能領(lǐng)域的大多數(shù)工作者,很難接觸到像星際、DOTA2這樣的資源,在相對較理想的小數(shù)據(jù)集和仿真環(huán)境中做實驗、發(fā)論文,是學(xué)術(shù)研究的常態(tài)。

“而決策智能將走向何方,其實就是從訓(xùn)練平臺和仿真環(huán)境兩個方向發(fā)力。我們希望在保持現(xiàn)有資源能夠接觸的情況下,能讓決策智能更接近真實場景,并逐漸推動行業(yè)中更多的平臺開源。”劉宇說到。

決策智能的研究剛剛上路,首先是數(shù)據(jù)的問題,其次是標(biāo)準(zhǔn)化的問題。

目前,決策智能的標(biāo)準(zhǔn)化難題是三塊:

  • 一個是環(huán)境觀測的標(biāo)準(zhǔn)化

  • 二個是動作空間的標(biāo)準(zhǔn)化

  • 三個是算法工作流的標(biāo)準(zhǔn)化

“CV標(biāo)準(zhǔn)化做得好,因為這里面所有的數(shù)據(jù)都可以用非常規(guī)整的tensor來表示,像PyTorch、 TensorFlow?!?/p>

但在決策智能領(lǐng)域,會涉及到多模態(tài)的輸入,比如空間信息(Spatial info)、實體信息(Entity info)、Scalar info(標(biāo)量信息)?!?strong>難點是將所有模態(tài)都統(tǒng)一到一個數(shù)據(jù)格式下。”劉宇說到,“目前一些做法是將各種模態(tài)的數(shù)據(jù)統(tǒng)一到一個encoder,讓它們映射到同一個observation space(觀測空間)。”

有了狀態(tài)空間后,就需要決策做什么動作。

比如,強化學(xué)習(xí)領(lǐng)域很多算法很難同時支持離散和連續(xù)兩種動作空間。而真實場景里還有更復(fù)雜的動作空間,比如前后依賴的動作空間、序列的動作空間,跟馬爾可夫鏈性質(zhì)不太相關(guān)的或者違背的動作空間。“這些動作空間如何大一統(tǒng)到一個訓(xùn)練的平臺和一個訓(xùn)練流里,也是非常難的問題。

“我們希望通過算法設(shè)計出新的head(決策智能訓(xùn)練網(wǎng)絡(luò)的頭),后期只需要做一些plug in(插件)的工作,幾乎能夠適配所有的算法。”

第三塊是算法的標(biāo)準(zhǔn)化。各種算法之間的差異性非常大且難以抽象,如果強行把所有算法兼容到一套框架內(nèi),代碼會非常冗余?!拔覀儸F(xiàn)在想要從計算流的角度思考強化學(xué)習(xí)的優(yōu)化過程,把強化學(xué)習(xí)里所有原子模塊拆分,類似PyTorch里operator,那么以后只需要拼算法積木,或者研發(fā)一個新的強化學(xué)習(xí)算法。”

這件事本身是很長期主義的一件事,Go-Bigger只是一個開始。

劉宇說,“我們希望用5年時間,從工具和學(xué)術(shù)問題定義兩個方面推動決策智能落地,能夠讓平臺、算法集、生產(chǎn)的工具鏈適配到幾乎所有決策智能行業(yè)應(yīng)用上,將行業(yè)和學(xué)術(shù)的各自為陣,變成欣欣向榮。”

比賽持續(xù)到明年4月,那時,“我們期待所有選手百家爭鳴,能夠定義出新的問題,也會設(shè)計出更多樣性的算法,既有純強化學(xué)習(xí)的,也有結(jié)合硬編碼和強化學(xué)習(xí)的。當(dāng)然,我們希望訓(xùn)練出的AI不僅能處理好輸贏,還能兼顧到游戲的擬人性?!?/p>

如今,全球首屆“ AI《球球大作戰(zhàn)》:Go-Bigger多智能體決策智能挑戰(zhàn)賽”已正式開賽。作為面向全球技術(shù)開發(fā)者和在校學(xué)生的科技類競賽活動,本次比賽旨在推動決策智能相關(guān)領(lǐng)域的技術(shù)人才培養(yǎng),打造全球領(lǐng)先、原創(chuàng)、開放的決策AI開源技術(shù)生態(tài)。協(xié)作、博弈、對抗,精彩紛呈,歡迎前來挑戰(zhàn)!

比賽詳情請見:https://mp.weixin.qq.com/s/1hVFFWBVSUx-BT6Fnn_sMA

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

對戰(zhàn)6億用戶競技手游:聚焦復(fù)雜游戲中的多智能體博弈

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說