丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給隔壁王大喵
發(fā)送

0

OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

本文作者: 隔壁王大喵 編輯:郭奕欣 2017-06-10 11:33
導(dǎo)語(yǔ):在多智能體環(huán)境中,智能體之間對(duì)資源的惡性競(jìng)爭(zhēng)現(xiàn)象無疑是通往通用人工智能路上的一塊絆腳石。想知道OpenAI又做出了怎樣的貢獻(xiàn)嗎?快來看看吧

雷鋒網(wǎng)AI科技評(píng)論按:在多智能體環(huán)境(Multiagent environments)中,智能體之間對(duì)資源的惡性競(jìng)爭(zhēng)現(xiàn)象無疑是通往通用人工智能(Artificial general intelligence, AGI)路上的一塊絆腳石。多智能體環(huán)境具有兩大實(shí)用的特性:首先,它提供了一個(gè)原生的課程(Natural curriculum)——這里環(huán)境的困難程度取決于競(jìng)爭(zhēng)對(duì)手的能力(而如果你是與自身的克隆進(jìn)行競(jìng)爭(zhēng),則該環(huán)境與你的能力等級(jí)是相當(dāng)匹配的);其次,多智能體環(huán)境不具有穩(wěn)定的平衡:因?yàn)闊o論智能體多么聰明,總是存在著更大壓力使得它更加聰明。這些環(huán)境與傳統(tǒng)環(huán)境有著非常大的不同,因此還有更多的研究有待進(jìn)行。

據(jù)雷鋒網(wǎng)了解,來自O(shè)penAI的研究員發(fā)明了一種新算法——MADDPG。該算法適用于多智能體環(huán)境下的集中式學(xué)習(xí)(Centralized learning)和分散式執(zhí)行(Decentralized execution),并且允許智能體之間學(xué)會(huì)協(xié)作與競(jìng)爭(zhēng)。


OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

四個(gè)紅色智能體通過MADDPG算法進(jìn)行訓(xùn)練,它們的目標(biāo)任務(wù)是追逐圖中的兩個(gè)綠色智能體。其中四個(gè)紅色智能體為了獲得更高的回報(bào),學(xué)會(huì)了互相配合,共同去追捕其中一個(gè)綠色智能體。而與此同時(shí),兩個(gè)綠色智能體也學(xué)會(huì)了分開行動(dòng),其中一個(gè)智能體負(fù)責(zé)將四個(gè)紅色智能體吸引開,然后另一個(gè)綠色智能體則乘機(jī)去接近水源(由藍(lán)色圓圈表示)。

事實(shí)上,MADDPG算法并非完全原創(chuàng),它擴(kuò)展自一個(gè)被稱為DDPG的增強(qiáng)學(xué)習(xí)(Reinforcement learning)算法,靈感則來源于基于Actor-Critic的增強(qiáng)學(xué)習(xí)技術(shù)。另外據(jù)雷鋒網(wǎng)了解,還有許多其它團(tuán)隊(duì)也正在探索這些算法的變種以及并行化實(shí)現(xiàn)。

該算法將模擬中的每個(gè)智能體視為一個(gè)“Actor”,并且每個(gè)Actor將從“Critic”那兒獲得建議,這些建議可以幫助Actor在訓(xùn)練過程中決定哪些行為是需要加強(qiáng)的。通常而言,Critic試圖預(yù)測(cè)在某一特定狀態(tài)下的行動(dòng)所帶來的價(jià)值(比如,我們期望能夠獲得的獎(jiǎng)勵(lì)),而這一價(jià)值將被智能體(Actor)用于更新它的行動(dòng)策略。這么做比起直接使用獎(jiǎng)勵(lì)來的更加穩(wěn)定,因?yàn)橹苯邮褂锚?jiǎng)勵(lì)可能出現(xiàn)較大的差異變動(dòng)。另外,為了使訓(xùn)練按全局協(xié)調(diào)方式行動(dòng)的多個(gè)智能體(Multiple agents that can act in a globally-coordinated way)變得可行,OpenAI的研究員還增強(qiáng)了Critic的級(jí)別,以便于它們可以獲取所有智能體的行為和觀察,如下圖所示。

OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

據(jù)悉,MADDPG中的智能體在測(cè)試期間不需要訪問中央的Critic,智能體們將根據(jù)自己的觀察和對(duì)其它代理行為的預(yù)測(cè)而行動(dòng)。由于每個(gè)智能體都有各自獨(dú)立的集中式Critic,該方法能被用于模擬智能體之間任意的獎(jiǎng)勵(lì)結(jié)構(gòu),包括獎(jiǎng)勵(lì)沖突的對(duì)抗性案例。

OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

OpenAI的研究員已經(jīng)在多項(xiàng)任務(wù)中測(cè)試了該方法,并且實(shí)驗(yàn)結(jié)果表明,MADDPG在所有任務(wù)中的表現(xiàn)均優(yōu)于DDPG。上邊的動(dòng)圖自左向右依次展示了:兩個(gè)AI智能體(藍(lán)色圈)嘗試前往指定地點(diǎn),并且它們學(xué)會(huì)分開行動(dòng),以便于向反對(duì)智能體(紅色圈)隱藏自己的目標(biāo)地點(diǎn);其中一個(gè)智能體將地標(biāo)傳達(dá)給另一個(gè)智能體;最后是三個(gè)智能體通過協(xié)調(diào)共同到達(dá)各自的地標(biāo),并且途中沒有發(fā)生碰撞。

OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

上圖展示了,通過MADDPG訓(xùn)練的紅色智能體比起通過DDPG訓(xùn)練的紅色智能體表現(xiàn)出了更加復(fù)雜的行為。在上圖的動(dòng)畫中,通過MADDPG(左圖)和DDPG(右圖)訓(xùn)練的紅色智能體試圖追逐綠色智能體,這期間它們可能需要通過綠色的森林或者躲避黑色的障礙物。

傳統(tǒng)增強(qiáng)學(xué)習(xí)

傳統(tǒng)的分散式增強(qiáng)學(xué)習(xí)(Descentralized reinforcement learning)方法,比如DDPG,actor-critic learning,deep Q-learning等等,在多智能體環(huán)境下的學(xué)習(xí)總是顯得很掙扎,這是因?yàn)樵诿總€(gè)步驟中,每個(gè)智能體都將嘗試學(xué)習(xí)預(yù)測(cè)其它智能體的行動(dòng),并且同時(shí)還要采取自己的行動(dòng),這在競(jìng)爭(zhēng)的情況下尤為如此。MADDPG啟用了一個(gè)集中式Critic來向智能體提供同類代理的觀察和潛在行為的信息,從而將一個(gè)不可預(yù)測(cè)的環(huán)境轉(zhuǎn)換成可以預(yù)測(cè)的環(huán)境。

當(dāng)前,梯度策略方法(Policy gradient methods)面臨著更多的挑戰(zhàn)。因?yàn)楫?dāng)獎(jiǎng)勵(lì)不一致的時(shí)候,這些方法很難得到正確的策略,并且表現(xiàn)出了高度的差異。另外研究員還發(fā)現(xiàn),加入了Critic之后雖然提高了穩(wěn)定性,但是依然無法解決多個(gè)環(huán)境之間諸如交流合作的問題。并且對(duì)于學(xué)習(xí)合作策略問題,在訓(xùn)練過程中綜合考慮其它智能體的行為似乎是非常重要的。

初步研究

據(jù)雷鋒網(wǎng)了解,在開發(fā)MADDPG之前,OpenAI研究員采用分散技術(shù)(Decentralized techniques)的時(shí)候,他們注意到,如果 Speaker發(fā)送不一致的消息,Listener通常會(huì)忽略掉發(fā)言智能體。然后,后者會(huì)將所有與Speaker的消息有關(guān)的權(quán)重設(shè)置為0,從而高效地忽略掉這些信息。

然而,一旦出現(xiàn)了這種情況,訓(xùn)練過程將難以恢復(fù),因?yàn)槿狈α擞行У姆答?,Speaker永遠(yuǎn)也無法知道自己是否正確。為了解決這個(gè)問題,研究員發(fā)現(xiàn)了一個(gè)最近提出的分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning)技術(shù),該技術(shù)強(qiáng)制Listener將Speaker的消息納入其決策過程。但是這個(gè)方案沒有起到作用,因?yàn)楸M管它強(qiáng)制Listener獲取Speaker的消息,但這并不能幫助后者弄清哪些是相關(guān)的。最終,OpenAI提出的集中式Critic方法幫助解決了這些挑戰(zhàn),它幫助 Speaker了解哪些信息可能與其它智能體的行為是有關(guān)的。如果想獲取更多的結(jié)果,可以觀看原文鏈接里的視頻。

下一步

智能體建模在人工智能研究中具有豐富的歷史,并且其中許多的場(chǎng)景已經(jīng)被廣泛研究過了。以前的許多研究只在擁有很短的時(shí)長(zhǎng)和很少的狀態(tài)空間的游戲中進(jìn)行。但是深度學(xué)習(xí)使得研究員們可以處理復(fù)雜的視覺輸入,另外增強(qiáng)學(xué)習(xí)為學(xué)習(xí)長(zhǎng)時(shí)間行為提供了工具?,F(xiàn)在,研究員可以使用這些功能來一次性訓(xùn)練多個(gè)智能體,而不需要了解環(huán)境的動(dòng)態(tài)變化(環(huán)境在每個(gè)時(shí)間步驟中是如何變化的),并且可以在學(xué)習(xí)來自環(huán)境的高維度信息的同時(shí),解決涉及溝通和語(yǔ)言的更廣泛的問題。

最后是OpenAI的一則小廣告,如果你對(duì)探索不同的方法來推進(jìn)AI智能體的發(fā)展感興趣的話,不妨考慮加入OpenAI吧!

Via Learning to Cooperate, Compete, and Communicate

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

OpenAI新研究成果:如何讓AI智能體學(xué)會(huì)合作、競(jìng)爭(zhēng)與交流?

分享:
相關(guān)文章

知情人士

我也是個(gè)旅途的浪人
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說