丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

本文作者: AI研習(xí)社-譯站 2019-03-22 10:34
導(dǎo)語(yǔ):探索-利用困境是規(guī)范強(qiáng)化學(xué)習(xí)算法的動(dòng)力之一。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

What’s New in Deep Learning Research: How Google Builds Curiosity Into Reinforcement Learning Agents

作者 | Jesus Rodriguez

翻譯 | 醬番梨、卜嘉田、will_L_Q、Disillusion、J. X.L. Chan         

校對(duì) | Pita        審核 | 約翰遜·李加薪       整理 | 立魚王

原文鏈接:

https://towardsdatascience.com/whats-new-in-deep-learning-research-how-google-builds-curiosity-into-reinforcement-learning-32d77af719e8


深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

探索-利用困境是規(guī)范強(qiáng)化學(xué)習(xí)算法的動(dòng)力之一。如何平衡智能體應(yīng)該探索環(huán)境的程度與如何執(zhí)行特定操作和評(píng)估獎(jiǎng)勵(lì)?在強(qiáng)化學(xué)習(xí)的背景下,探索和開(kāi)發(fā)被視為獎(jiǎng)勵(lì)模型中抑制好奇心的相反力量。然而,就像人類的認(rèn)知一樣,強(qiáng)化學(xué)習(xí)智能體的好奇心產(chǎn)生于正確的知識(shí),那么我們?nèi)绾卧诓粦土P智能體的情況下激發(fā)好奇心呢?這是Google Research最近發(fā)表的一篇研究論文的主題,論文介紹了一種在強(qiáng)化學(xué)習(xí)智能體中激發(fā)好奇心的方法。  

大多數(shù)強(qiáng)化學(xué)習(xí)算法都基于結(jié)構(gòu)化獎(jiǎng)勵(lì)模型,該模型假設(shè)有一組密集的獎(jiǎng)勵(lì)可以與代理的行為相關(guān)聯(lián)。 然而,現(xiàn)實(shí)世界中的許多環(huán)境都基于稀疏的獎(jiǎng)勵(lì)機(jī)制,這些獎(jiǎng)勵(lì)不易適應(yīng)強(qiáng)化學(xué)習(xí)機(jī)制。 考慮到強(qiáng)化學(xué)習(xí)智能體需要在庫(kù)環(huán)境中查找特定書籍的場(chǎng)景。  智能體可以不斷地搜索,但書籍無(wú)處可尋,并且對(duì)特定行為沒(méi)有明確的獎(jiǎng)勵(lì)。 稀疏獎(jiǎng)勵(lì)環(huán)境對(duì)于強(qiáng)化學(xué)習(xí)智能體來(lái)說(shuō)是非常具有挑戰(zhàn)性的,因?yàn)樗麄儾坏貌辉跊](méi)有明確獎(jiǎng)勵(lì)的情況下不斷探索環(huán)境。 在那些環(huán)境中,強(qiáng)化學(xué)習(xí)智能體的“好奇心”對(duì)獲得適當(dāng)?shù)莫?jiǎng)勵(lì)功能至關(guān)重要。 換句話說(shuō),強(qiáng)化學(xué)習(xí)環(huán)境中的獎(jiǎng)勵(lì)稀疏性與好奇心之間存在直接關(guān)系。


   好奇心對(duì)決拖延 

好奇心一直是強(qiáng)化學(xué)習(xí)中的一個(gè)活躍研究領(lǐng)域。大多數(shù)強(qiáng)化學(xué)習(xí)中好奇心公式旨在最大限度地增加“驚奇”或者無(wú)法預(yù)測(cè)未來(lái)。這種方法從神經(jīng)科學(xué)的好奇心理論中得到啟發(fā),但已被證明在強(qiáng)化學(xué)習(xí)模型中相對(duì)低效。效率低下的核心原因是,最大化與目標(biāo)任務(wù)無(wú)關(guān)的好奇心沒(méi)有直接關(guān)系,因此會(huì)導(dǎo)致拖延。下面讓我來(lái)解釋這惱人的事實(shí)?  

讓我們以一個(gè)環(huán)境為例,在這個(gè)環(huán)境中,強(qiáng)化學(xué)習(xí)智能體被放入一個(gè)三維迷宮中。迷宮中有一個(gè)珍貴的目標(biāo),它會(huì)給予很大的獎(jiǎng)勵(lì)?,F(xiàn)在,智能體被給予了電視遙控器,并可以切換頻道。每個(gè)頻道顯示一個(gè)隨機(jī)圖像(從一組固定的圖像中選取)。優(yōu)化驚喜的好奇心公式會(huì)很高興,因?yàn)轭l道切換的結(jié)果是不可預(yù)測(cè)的。智能體將永遠(yuǎn)停留在電視機(jī)前,而不會(huì)試圖解決目標(biāo)任務(wù)。

這種困境很明顯:強(qiáng)化學(xué)習(xí)模型只應(yīng)在有利于最終目標(biāo)的情況下才能最大限度地激發(fā)好奇心。然而,我們?nèi)绾沃滥男┨剿餍圆襟E與目標(biāo)任務(wù)相關(guān)而哪些又不相關(guān)。谷歌通過(guò)提出一種稱為Episodic Curiosity的方法來(lái)應(yīng)對(duì)這一挑戰(zhàn)。


   情境好奇

谷歌在強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)新之處在于,通過(guò)引入努力的概念解決好奇心-拖延之間的摩擦。從本質(zhì)上來(lái)講,情境記憶方法是一種僅對(duì)需要一定努力而獲取的觀察數(shù)據(jù)給與獎(jiǎng)勵(lì)的方法,它建議去避免“自我沉溺的行為”。根據(jù)我們電視迷宮(maze-tv)例子,在轉(zhuǎn)換頻道之后,所有的節(jié)目將最終在內(nèi)存中結(jié)束。因此,電視節(jié)目將不會(huì)具有任何吸引力,因?yàn)槌霈F(xiàn)在屏幕上的節(jié)目順序是隨機(jī)的和不可預(yù)知的,所有這些節(jié)目都已經(jīng)在存儲(chǔ)中了!一個(gè)情境存儲(chǔ)智能體將檢查過(guò)去, 以確定它是否看到了與當(dāng)前類似的觀察結(jié)果,在這種情況下, 它不會(huì)得到任何獎(jiǎng)勵(lì)。在電視上反復(fù)播放幾次之后,情景存儲(chǔ)代理就不會(huì)被即時(shí)滿足所吸引,而必須去探索電視之外的世界以獲得額外的獎(jiǎng)勵(lì)。聽(tīng)起來(lái)是不是聰明?。?/p>

情景記憶方法把好奇心和圖的可達(dá)性聯(lián)系起來(lái)。智能體在劇集開(kāi)始時(shí)以一個(gè)空的存儲(chǔ)開(kāi)始,每一步都將當(dāng)前的觀察結(jié)果與存儲(chǔ)中的觀察結(jié)果進(jìn)行比較,以確定它的新穎性。如果當(dāng)前的觀察確實(shí)是新穎的 - 那么從記憶中的觀察中采取的步驟比閾值更多 - 那么智能體就會(huì)獎(jiǎng)勵(lì)自己,并將當(dāng)前的觀察添加到情景存儲(chǔ)中。這個(gè)過(guò)程一直持續(xù)到劇集結(jié)束, 此時(shí)存儲(chǔ)將會(huì)被抹去。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體


   一個(gè)情景好奇心的神經(jīng)網(wǎng)絡(luò)架構(gòu)

為了在強(qiáng)化學(xué)習(xí)代理中實(shí)現(xiàn)情景記憶功能,谷歌依賴于一種架構(gòu),該架構(gòu)將兩個(gè)神經(jīng)網(wǎng)絡(luò)與情景記憶緩沖器和獎(jiǎng)賞估計(jì)模塊相結(jié)合,如下圖所示: 

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

讓我們來(lái)看看情景記憶架構(gòu)的各個(gè)組成部分:

  • 嵌入和比較器網(wǎng)絡(luò):這兩個(gè)網(wǎng)絡(luò)的目的是在給定另一個(gè)輸入觀察的情況下預(yù)測(cè)特定觀察的可達(dá)性。具體而言,兩個(gè)網(wǎng)絡(luò)是基于一個(gè)稱為R-Network的架構(gòu),這是一個(gè)由邏輯回歸的損失訓(xùn)練的分類器:如果在k步內(nèi)兩個(gè)觀測(cè)從一個(gè)到另外一個(gè)的可達(dá)的概率比較低,那么它的預(yù)測(cè)值接近于0,反之,當(dāng)概率是很高時(shí),其值接近于1。

  • 情景記憶緩沖器:情景記憶緩沖器存儲(chǔ)當(dāng)前情景中過(guò)去的觀察結(jié)果的嵌入,以便根據(jù)特定的觀察結(jié)果進(jìn)行評(píng)估。

  • 獎(jiǎng)勵(lì)估計(jì)模塊:該模塊的目的是檢查內(nèi)存中是否有可達(dá)到的觀察結(jié)果,如果沒(méi)有,則進(jìn)行檢查。從本質(zhì)上說(shuō),通過(guò)從當(dāng)前狀態(tài)只采取一些行動(dòng),這個(gè)模塊的檢查確保在內(nèi)存中沒(méi)有觀察可以達(dá)到,因此鼓勵(lì)好奇心。


   在行動(dòng)中的情景記憶

Google在一系列視覺(jué)環(huán)境(如ViZDoom和DMLab)中測(cè)試了情景記憶強(qiáng)化學(xué)習(xí)模型,結(jié)果非常出色。 在這些環(huán)境中,智能體的任務(wù)是處理各種問(wèn)題,例如在迷宮中搜索目標(biāo)或收集好的內(nèi)容以及避免壞對(duì)象。 DMLab環(huán)境碰巧為智能體提供了類似激光科幻小說(shuō)中物件。 之前關(guān)于DMLab的工作中的標(biāo)準(zhǔn)設(shè)置是為智能體配備所有任務(wù)的小工具,如果智能體不需要特定任務(wù)的小工具,則可以免費(fèi)使用它。 獎(jiǎng)勵(lì)的稀疏性使得這些環(huán)境對(duì)于大多數(shù)傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法而言非常具有挑戰(zhàn)性。 當(dāng)負(fù)責(zé)在迷宮中搜索高回報(bào)的項(xiàng)目時(shí),它更喜歡花時(shí)間標(biāo)記墻壁,因?yàn)檫@會(huì)產(chǎn)生很多“驚喜”獎(jiǎng)勵(lì)。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

在相同的環(huán)境中,情景記憶智能體能夠通過(guò)有效地在迷宮中導(dǎo)航,它所使用的方式是——努力通過(guò)獎(jiǎng)勵(lì)來(lái)最大化好奇心。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

 以下動(dòng)畫顯示了情節(jié)記憶代理如何鼓勵(lì)積極獎(jiǎng)勵(lì)(綠色)而不是獎(jiǎng)勵(lì)(紅色),同時(shí)保持內(nèi)存中探索位置的緩沖區(qū)(藍(lán)色)。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

情節(jié)記憶方法是我看到的最有創(chuàng)意的方法之一,可以鼓勵(lì)強(qiáng)化學(xué)習(xí)智能體的好奇心。 隨著強(qiáng)化學(xué)習(xí)在AI系統(tǒng)中變得越來(lái)越普遍,諸如情景記憶的方法應(yīng)該成為這些體系結(jié)構(gòu)的重要組成部分。

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

點(diǎn)擊【深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體】或長(zhǎng)按下方地址:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

https://ai.yanxishe.com/page/TextTranslation/1231

機(jī)器學(xué)習(xí)大禮包

限時(shí)免費(fèi)\18本經(jīng)典書籍\Stanford經(jīng)典教材+論文

點(diǎn)擊鏈接即可獲?。?/span>

https://ai.yanxishe.com/page/resourceDetail/574


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

深度強(qiáng)化學(xué)習(xí)新趨勢(shì):谷歌如何把好奇心引入強(qiáng)化學(xué)習(xí)智能體

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)