0
雷鋒網(wǎng)AI科技評論按:在多智能體環(huán)境(Multiagent environments)中,智能體之間對資源的惡性競爭現(xiàn)象無疑是通往通用人工智能(Artificial general intelligence, AGI)路上的一塊絆腳石。多智能體環(huán)境具有兩大實用的特性:首先,它提供了一個原生的課程(Natural curriculum)——這里環(huán)境的困難程度取決于競爭對手的能力(而如果你是與自身的克隆進行競爭,則該環(huán)境與你的能力等級是相當匹配的);其次,多智能體環(huán)境不具有穩(wěn)定的平衡:因為無論智能體多么聰明,總是存在著更大壓力使得它更加聰明。這些環(huán)境與傳統(tǒng)環(huán)境有著非常大的不同,因此還有更多的研究有待進行。
據(jù)雷鋒網(wǎng)了解,來自OpenAI的研究員發(fā)明了一種新算法——MADDPG。該算法適用于多智能體環(huán)境下的集中式學習(Centralized learning)和分散式執(zhí)行(Decentralized execution),并且允許智能體之間學會協(xié)作與競爭。
四個紅色智能體通過MADDPG算法進行訓練,它們的目標任務是追逐圖中的兩個綠色智能體。其中四個紅色智能體為了獲得更高的回報,學會了互相配合,共同去追捕其中一個綠色智能體。而與此同時,兩個綠色智能體也學會了分開行動,其中一個智能體負責將四個紅色智能體吸引開,然后另一個綠色智能體則乘機去接近水源(由藍色圓圈表示)。
事實上,MADDPG算法并非完全原創(chuàng),它擴展自一個被稱為DDPG的增強學習(Reinforcement learning)算法,靈感則來源于基于Actor-Critic的增強學習技術。另外據(jù)雷鋒網(wǎng)了解,還有許多其它團隊也正在探索這些算法的變種以及并行化實現(xiàn)。
該算法將模擬中的每個智能體視為一個“Actor”,并且每個Actor將從“Critic”那兒獲得建議,這些建議可以幫助Actor在訓練過程中決定哪些行為是需要加強的。通常而言,Critic試圖預測在某一特定狀態(tài)下的行動所帶來的價值(比如,我們期望能夠獲得的獎勵),而這一價值將被智能體(Actor)用于更新它的行動策略。這么做比起直接使用獎勵來的更加穩(wěn)定,因為直接使用獎勵可能出現(xiàn)較大的差異變動。另外,為了使訓練按全局協(xié)調(diào)方式行動的多個智能體(Multiple agents that can act in a globally-coordinated way)變得可行,OpenAI的研究員還增強了Critic的級別,以便于它們可以獲取所有智能體的行為和觀察,如下圖所示。
據(jù)悉,MADDPG中的智能體在測試期間不需要訪問中央的Critic,智能體們將根據(jù)自己的觀察和對其它代理行為的預測而行動。由于每個智能體都有各自獨立的集中式Critic,該方法能被用于模擬智能體之間任意的獎勵結構,包括獎勵沖突的對抗性案例。
OpenAI的研究員已經(jīng)在多項任務中測試了該方法,并且實驗結果表明,MADDPG在所有任務中的表現(xiàn)均優(yōu)于DDPG。上邊的動圖自左向右依次展示了:兩個AI智能體(藍色圈)嘗試前往指定地點,并且它們學會分開行動,以便于向反對智能體(紅色圈)隱藏自己的目標地點;其中一個智能體將地標傳達給另一個智能體;最后是三個智能體通過協(xié)調(diào)共同到達各自的地標,并且途中沒有發(fā)生碰撞。
上圖展示了,通過MADDPG訓練的紅色智能體比起通過DDPG訓練的紅色智能體表現(xiàn)出了更加復雜的行為。在上圖的動畫中,通過MADDPG(左圖)和DDPG(右圖)訓練的紅色智能體試圖追逐綠色智能體,這期間它們可能需要通過綠色的森林或者躲避黑色的障礙物。
傳統(tǒng)的分散式增強學習(Descentralized reinforcement learning)方法,比如DDPG,actor-critic learning,deep Q-learning等等,在多智能體環(huán)境下的學習總是顯得很掙扎,這是因為在每個步驟中,每個智能體都將嘗試學習預測其它智能體的行動,并且同時還要采取自己的行動,這在競爭的情況下尤為如此。MADDPG啟用了一個集中式Critic來向智能體提供同類代理的觀察和潛在行為的信息,從而將一個不可預測的環(huán)境轉(zhuǎn)換成可以預測的環(huán)境。
當前,梯度策略方法(Policy gradient methods)面臨著更多的挑戰(zhàn)。因為當獎勵不一致的時候,這些方法很難得到正確的策略,并且表現(xiàn)出了高度的差異。另外研究員還發(fā)現(xiàn),加入了Critic之后雖然提高了穩(wěn)定性,但是依然無法解決多個環(huán)境之間諸如交流合作的問題。并且對于學習合作策略問題,在訓練過程中綜合考慮其它智能體的行為似乎是非常重要的。
據(jù)雷鋒網(wǎng)了解,在開發(fā)MADDPG之前,OpenAI研究員采用分散技術(Decentralized techniques)的時候,他們注意到,如果 Speaker發(fā)送不一致的消息,Listener通常會忽略掉發(fā)言智能體。然后,后者會將所有與Speaker的消息有關的權重設置為0,從而高效地忽略掉這些信息。
然而,一旦出現(xiàn)了這種情況,訓練過程將難以恢復,因為缺乏了有效的反饋,Speaker永遠也無法知道自己是否正確。為了解決這個問題,研究員發(fā)現(xiàn)了一個最近提出的分層強化學習(Hierarchical Reinforcement Learning)技術,該技術強制Listener將Speaker的消息納入其決策過程。但是這個方案沒有起到作用,因為盡管它強制Listener獲取Speaker的消息,但這并不能幫助后者弄清哪些是相關的。最終,OpenAI提出的集中式Critic方法幫助解決了這些挑戰(zhàn),它幫助 Speaker了解哪些信息可能與其它智能體的行為是有關的。如果想獲取更多的結果,可以觀看原文鏈接里的視頻。
智能體建模在人工智能研究中具有豐富的歷史,并且其中許多的場景已經(jīng)被廣泛研究過了。以前的許多研究只在擁有很短的時長和很少的狀態(tài)空間的游戲中進行。但是深度學習使得研究員們可以處理復雜的視覺輸入,另外增強學習為學習長時間行為提供了工具?,F(xiàn)在,研究員可以使用這些功能來一次性訓練多個智能體,而不需要了解環(huán)境的動態(tài)變化(環(huán)境在每個時間步驟中是如何變化的),并且可以在學習來自環(huán)境的高維度信息的同時,解決涉及溝通和語言的更廣泛的問題。
最后是OpenAI的一則小廣告,如果你對探索不同的方法來推進AI智能體的發(fā)展感興趣的話,不妨考慮加入OpenAI吧!
Via Learning to Cooperate, Compete, and Communicate
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。