0
雷鋒網(wǎng) AI 科技評論按:OpenAI 于今日發(fā)布了 Neural MMO,它是一個為強化學(xué)習(xí)智能體創(chuàng)建的大型多智能體游戲環(huán)境。該平臺支持在一個持久、開放的任務(wù)中使用大規(guī)模且數(shù)量可變的智能體。將更多的智能體和物種囊括到環(huán)境中可以更好地執(zhí)行探索任務(wù),促進多種生態(tài)位的形成,從而增強系統(tǒng)整體的能力。
近年來,多智能體環(huán)境已經(jīng)成為深度強化學(xué)習(xí)的一個有效的研究平臺。雖然該領(lǐng)域目前已經(jīng)取得了一定的研究進展,但是多智能體強化學(xué)習(xí)仍存在兩大主要挑戰(zhàn):當前的強化學(xué)習(xí)環(huán)境要么足夠復(fù)雜但是限制條件太多,普適性不強;要么限制條件很少但是過于簡單。因而我們需要創(chuàng)建具有高復(fù)雜度上限的開放式任務(wù),其中,持久性和大的種群規(guī)模等屬性是需要討論的關(guān)鍵因素。但同時,我們還需要更多的基準測試環(huán)境,來量化對于持久性和大的種群規(guī)模這些屬性的學(xué)習(xí)進展。大型多人在線游戲(MMO)類型的游戲模擬了一個規(guī)模龐大的生態(tài)系統(tǒng),其中數(shù)量不斷變化的玩家在持久、廣闊的環(huán)境下對戰(zhàn)。
為了應(yīng)對這些挑戰(zhàn),OpenAI 開發(fā)了 Neural MMO,它滿足以下的標準:
(1)持久性:在不對環(huán)境進行重置的情況下,智能體可以在其它智能體也正在學(xué)習(xí)的情況下同時進行學(xué)習(xí)。策略必須考慮到長遠的規(guī)劃,并適應(yīng)其他智能體可能發(fā)生快速變化的行為。
(2)規(guī)模:該環(huán)境支持大規(guī)模且數(shù)量可變的實體。本實驗考慮了在 100 個并發(fā)服務(wù)器中,每個服務(wù)器中的 128 個并發(fā)的智能體長達 100M 的生命周期。
(3)效率:計算的準入門檻很低。我們可以在一塊桌面級 CPU 上訓(xùn)練有效的策略。
(4)擴展性:與現(xiàn)有的大型多人在線游戲類似,我們設(shè)計的 Neural MMO 旨在更新新的內(nèi)容。它目前的核心功能包括程序化的基于拼接地塊的地形生成,尋找食物和水資源的系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。在未來,該系統(tǒng)有機會進行開源驅(qū)動的擴展。
玩家(智能體)可以加入到任何可用的服務(wù)器(環(huán)境)中,每個服務(wù)器都會包含一個可配置大小的自動生成的基于地塊的游戲地圖。一些諸如上面放有食物的森林地塊和草地地塊是可以穿越的;其他的諸如水、實心巖石的地塊則無法穿越。
智能體在沿著環(huán)境邊緣隨機分布的位置誕生。為了維持生存的狀態(tài),他們需要獲取食物和水,同時還要避免與其他智能體進行戰(zhàn)斗受到的傷害。通過踩在森林地塊上或站在水地塊的旁邊,智能體可以分別給自己補充一部分食物和水供應(yīng)。然而,森林地塊中的食物供應(yīng)有限,食物會隨著時間的推移緩慢地再生。這意味著智能體必須為爭奪食品塊而戰(zhàn),并同時定期從無限的水形地塊中補充水源。玩家可以使用三種戰(zhàn)斗風(fēng)格進行戰(zhàn)斗,分別為近戰(zhàn)、遠程攻擊及法術(shù)攻擊。
輸入:智能體觀察以其當前位置為中心的方形農(nóng)作物地塊。輸入包括地塊的地形類型和當前智能體選中的屬性(生命值、食物、水和位置)。
輸出:智能體為下一個游戲時鐘刻度(時間步)輸出動作選項。該動作由一次移動和一次攻擊組成。
該平臺提供了一個程序化的環(huán)境生成器以及「值函數(shù)、地圖地塊的訪問分布、在學(xué)習(xí)到的策略中智能體與智能體之間的依賴關(guān)系」的可視化工具。用以對比的基線模型是在 100 個世界中訓(xùn)練出來的策略梯度方法。
OpenAI 研究人員使用 vanilla 策略梯度算法、僅對價值函數(shù)基線和獎勵折扣進行了強化,訓(xùn)練了一個小型的、全連接的架構(gòu)作為一個簡單的基線。智能體實現(xiàn)最優(yōu)化以獲得獎勵僅僅是為了維持自身的生命周期(軌跡長度),而不是為了實現(xiàn)特定的目標:他們得每獲得 1 個獎勵,生命周期就會延長一個時鐘刻度。同時,他們通過計算出所有玩家獲得獎勵的最大值,將長度可變的觀測結(jié)果(例如周圍玩家的列表)轉(zhuǎn)換為一個定長的向量(OpenAI Five 也采用了這個技巧)。本項目發(fā)布的源代碼包含了基于 PyTorch 和 Ray 的完整的分布式訓(xùn)練實現(xiàn)。
訓(xùn)練時的最大種群規(guī)模在(16,32,64,128)的范圍內(nèi)變化。為了提高效率,每組中的 16 個智能體會共享策略。在測試時,我們會合并在成對的實驗中學(xué)到的種群,并評估固定規(guī)模的種群的生命周期。由于戰(zhàn)斗策略更加難于直接對比,我們僅僅評估覓食行為。在大規(guī)模種群上訓(xùn)練出來的智能體往往表現(xiàn)得更好。
OpenAI 研究人員從大量種群中均勻采樣得到智能體的策略,發(fā)現(xiàn)不同種群中的智能體會共享網(wǎng)絡(luò)架構(gòu),但只有同一種群中的智能體才會共享權(quán)重。初步的實驗結(jié)果表明,隨著多智能體交互的增多,智能體的能力也會攀升。提高共存玩家數(shù)量的上限可以擴大探索范圍,而增加種群的數(shù)量則會擴大生態(tài)位的形成結(jié)構(gòu)——也就是說,擴大了種群在地圖上的不同區(qū)域擴散和覓食的趨勢。
對于大型多智能體在線游戲來說,并沒有跨服務(wù)器評估玩家相對戰(zhàn)斗力的標準方法。然而,大型多智能體在線游戲的服務(wù)器有時會出現(xiàn)合并的情況,此時多個服務(wù)器上的玩家數(shù)據(jù)會被放入同一個服務(wù)器。通過合并在不同服務(wù)器中訓(xùn)練的玩家數(shù)據(jù),OpenAI 研究人員實現(xiàn)了「錦標賽」式的模型評估,這讓他們能夠直接比較智能體在不同實驗環(huán)境下學(xué)習(xí)到的策略。另外,通過改變測試時的環(huán)境規(guī)模,他們發(fā)現(xiàn)在較大的環(huán)境中訓(xùn)練的智能體一致地比在較小的環(huán)境中訓(xùn)練的智能體表現(xiàn)更好。
種群數(shù)量的增加擴大了搜索范圍:智能體分散開來從而避免對戰(zhàn)。最后幾幀顯示的是學(xué)習(xí)到的價值函數(shù)的重疊情況。要想查看更多的圖標信息,請參閱:「Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents」(https://arxiv.org/pdf/1903.00784.pdf)。
在自然界中,動物之間的競爭可以激勵它們分散開來以避免沖突。研究人員觀察到,智能體在地圖上的覆蓋率隨共存智能體數(shù)量的增加而增加。智能體之所以會學(xué)著去探索,只是因為其他智能體的存在為它們提供了這樣做的自然動機。
物種數(shù)量(種群數(shù)量)的增加擴大了生態(tài)位(種群在自然生態(tài)系統(tǒng)中,在時間、空間上所占據(jù)的位置及其與相關(guān)種群之間的功能關(guān)系和作用)的形成??梢暬牡貓D漸漸覆蓋了游戲的地圖,不同的顏色對應(yīng)不同的物種。對單個種群的訓(xùn)練往往會促使系統(tǒng)產(chǎn)生一個深入的探索路徑。而訓(xùn)練八個種群則會導(dǎo)致產(chǎn)生很多較淺的探索路徑:種群會分散以避免物種之間的競爭。
給定一個足夠大的資源豐富的環(huán)境,他們發(fā)現(xiàn)當智能體的種群數(shù)量增加時,不同種群會分散地遍布在地圖上以避免與其他種群的競爭。由于實體無法在競爭中勝過同一個種群中的其它智能體(即與之共享權(quán)重的智能體),它們傾向于尋找地圖上包含足夠多用于維持種群規(guī)模的資源的區(qū)域。DeepMind 在共生多智能體研究中也獨立觀察到了類似的效果(https://arxiv.org/abs/1812.07019)。
每個方形地圖顯示了位于方塊中心的智能體對其周圍智能體的響應(yīng)。我們展示出了初始化階段和訓(xùn)練早期的覓食地圖,以及額外的對應(yīng)于不同的覓食和戰(zhàn)斗形式的依賴關(guān)系圖。
OpenAI 研究人員通過將智能體固定在假設(shè)的地圖地塊的中心,來可視化智能體與智能體之間的依賴關(guān)系。針對對該智能體可見的每個位置,我們的實驗顯示了,假如在該位置有第二個智能體,價值函數(shù)將會變成什么。同時,他們發(fā)現(xiàn),在覓食和戰(zhàn)斗環(huán)境中,智能體學(xué)習(xí)的策略會依賴于其他智能體的策略。經(jīng)過了僅僅幾分鐘的訓(xùn)練后,智能體就能學(xué)會「正中靶心」的正確回避路線,從而開始更有效地覓食。當智能體學(xué)習(xí)環(huán)境中的戰(zhàn)斗機制時,它們會開始適當?shù)卦u估有效的接近范圍和角度。
OpenAI 的 Neural MMO 解決了之前基于游戲的環(huán)境的兩個主要局限性,但仍有許多問題尚未解決。Neural MMO 在環(huán)境復(fù)雜性和種群規(guī)模之間找到了一個中間地帶。同時,他們在設(shè)計這個環(huán)境時還考慮到了開源擴展,并計劃將其作為創(chuàng)建研究社區(qū)的基礎(chǔ)。
強化學(xué)習(xí)是一種試錯學(xué)習(xí)方式:最開始的時候不清楚環(huán)境的工作方式,不清楚執(zhí)行什么樣的動作是對的,什么樣的動作是錯的。因而智能體需要從不斷嘗試的經(jīng)驗中發(fā)現(xiàn)一個好的決策,從而在這個過程中獲取更多的獎勵。
因此,對于強化學(xué)習(xí)研究來說,需要在探索(未知領(lǐng)域)和利用(現(xiàn)有知識)之間找到平衡。實際上,探索和利用是一對相對來說較為矛盾的概念,利用是做出當前信息下的最佳決策,探索則是嘗試不同的行為繼而收集更多的信息、期望得到更好的決策。最好的長期戰(zhàn)略通常包含一些犧牲短期利益舉措。通過搜集更多或者說足夠多的信息使得個體能夠達到宏觀上的最佳策略。
實際上,OpenAI 擴大種群規(guī)模和種群數(shù)量,使智能體趨向于分散,也正是希望能夠擴大探索的范圍,找到能夠使智能體能力更強、種群更穩(wěn)定的決策方式。從單個服務(wù)器上看,這種做法背后隱藏著最大熵的思想;而從整體來看,他們依托于 OpenAI 強大的計算資源,將探索任務(wù)用分而治之的方式分配到各個服務(wù)器上分別進行決策,最后再進行合并。
via https://blog.openai.com/neural-mmo/ 雷鋒網(wǎng) AI 科技評論編譯 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。