丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給雪莉?休斯敦
發(fā)送

0

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

本文作者: 雪莉?休斯敦 編輯:楊曉凡 2018-07-23 09:41
導(dǎo)語(yǔ):除了來(lái)自環(huán)境的獎(jiǎng)勵(lì),智能體還可以有自己給自己的獎(jiǎng)勵(lì)

雷鋒網(wǎng) AI 科技評(píng)論按:近期,Unity 發(fā)布了版本 0.4 的機(jī)器學(xué)習(xí)智能體工具包(ML-Agent toolkit v0.4),其中最為突出的新功能是通過(guò)額外的基于好奇心的內(nèi)在激勵(lì)進(jìn)行智能體的訓(xùn)練。由于這個(gè)新功能在解釋時(shí)有很多方面需要解開(kāi),作者 Arthur Juliani 獨(dú)立編寫(xiě)了一篇文章進(jìn)行描述。雷鋒網(wǎng) AI 科技評(píng)論把這篇文章編譯如下。

在原理上,如果獎(jiǎng)勵(lì)出現(xiàn)的幾率不高或稀疏的分布情況下,現(xiàn)在是有更有效的方式讓智能體進(jìn)行環(huán)境感知的。這些智能體可以通過(guò)使用一種基于對(duì)結(jié)果好奇的程度進(jìn)行獎(jiǎng)勵(lì)的方式對(duì)這樣的環(huán)境進(jìn)行探索。在這篇文章中,作者講述了這種方式的工作原理并且展現(xiàn)了如何通過(guò)使用這種方式解決一個(gè)實(shí)際的任務(wù),同時(shí)與原始版本的強(qiáng)化學(xué)習(xí)方法進(jìn)行對(duì)比,表現(xiàn)出了這種新方法的優(yōu)越性。

好奇心驅(qū)動(dòng)的探索

當(dāng)涉及強(qiáng)化學(xué)習(xí)時(shí),主要的學(xué)習(xí)信息以獎(jiǎng)勵(lì)的形式出現(xiàn):即每次決定做出時(shí),向智能體提供一個(gè)標(biāo)量值。這種獎(jiǎng)勵(lì)通常是由環(huán)境自身產(chǎn)生的,并且由環(huán)境的創(chuàng)造者進(jìn)行指定。獎(jiǎng)勵(lì)的范圍為(-1.0,+1.0),+1.0的含義為接近目標(biāo),而 -1.0 的含義為智能體的這條命死掉了??梢哉J(rèn)為這種獎(jiǎng)勵(lì)是外部的,因其從智能體外產(chǎn)生。如果有外部獎(jiǎng)勵(lì)的話,那么一定有內(nèi)部獎(jiǎng)勵(lì)。與外部獎(jiǎng)勵(lì)不同的是,內(nèi)部獎(jiǎng)勵(lì)不是由環(huán)境提供,而是智能體自己基于一些標(biāo)準(zhǔn)產(chǎn)生的。當(dāng)然了,不是所有的內(nèi)部激勵(lì)都是這樣的。內(nèi)部獎(jiǎng)勵(lì)最終還是希望可以服務(wù)于一些目標(biāo)的,比如改變智能體的行為,并在將來(lái)獲取更好的外部激勵(lì),或者智能體可以接觸更多的外部環(huán)境。在人類和其他哺乳動(dòng)物中,追求這些內(nèi)在獎(jiǎng)勵(lì)常常被稱為內(nèi)在動(dòng)機(jī),并與我們的情感緊密聯(lián)系在一起。

強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者們已經(jīng)投入了大量的精力來(lái)開(kāi)發(fā)良好的系統(tǒng)來(lái)為智能體提供內(nèi)在的獎(jiǎng)勵(lì),這給他們提供了與我們?cè)谧匀恢悄荏w中找到的動(dòng)機(jī)相似的動(dòng)機(jī)。一種流行的方法是賦予智能體一種好奇心,并根據(jù)它周圍的世界感到驚訝來(lái)獎(jiǎng)勵(lì)它。如果你想一個(gè)小嬰兒是如何了解這個(gè)世界的,它不是在追求任何特定的目標(biāo),而是在為新的體驗(yàn)而玩耍和探索 —— 這樣你就可以說(shuō)孩子是有好奇心的。好奇驅(qū)動(dòng)的探索背后的想法是把這種動(dòng)機(jī)灌輸給我們的智能體。如果智能體得到獎(jiǎng)勵(lì),達(dá)到令它自己驚喜的狀態(tài),那么它將學(xué)習(xí)到新的探索環(huán)境的策略,以找到越來(lái)越多的令自己驚喜的狀態(tài)。通過(guò)這種方式,智能體也希望能發(fā)現(xiàn)外在的獎(jiǎng)勵(lì),比如在迷宮中遙遠(yuǎn)的目標(biāo)位置,或者稀疏的資源。

作者選擇了去年 Deepak Pathak 和他的同事們發(fā)布的一份最新論文中的一個(gè)具體的方法。它被稱為好奇驅(qū)動(dòng)探索自我監(jiān)督預(yù)測(cè),如果你對(duì)全部細(xì)節(jié)的感興趣話,你可以打開(kāi)原文鏈接。在文中,作者公式化了好奇的想法,以一種聰明和可歸納的方式。這種方式建議訓(xùn)練兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):正向模型和反向模型。反向模型被訓(xùn)練來(lái)接受由智能體接收的當(dāng)前和下一次觀測(cè)信息,使用單個(gè)編碼器對(duì)它們進(jìn)行編碼,并使用該結(jié)果來(lái)預(yù)測(cè)在兩次觀測(cè)的發(fā)生之間采取的行動(dòng)。然后對(duì)正向模型進(jìn)行訓(xùn)練,以獲得編碼的當(dāng)前的觀測(cè)結(jié)果和行為,并預(yù)測(cè)編碼的下一觀察值。預(yù)測(cè)和實(shí)際編碼之間的差異然后被用作內(nèi)在獎(jiǎng)勵(lì),并饋送給智能體。較大的差異意味著更大的驚喜,而這又意味著更大的內(nèi)在回報(bào)。

通過(guò)同時(shí)使用這兩個(gè)模型,智能體獲得的獎(jiǎng)勵(lì)不僅捕獲了令智能體覺(jué)得驚喜的東西,而且具體地捕獲了智能體通過(guò)自己的動(dòng)作而獲得了控制的東西。在超級(jí)瑪麗的游戲中,他們的方法可以使一個(gè)沒(méi)有任何外在獎(jiǎng)勵(lì)的智能體取得進(jìn)步。下面是他們方法設(shè)計(jì)的示意圖。

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

本征好奇心模型的示意圖。白色方框表示輸入;藍(lán)色方框表示神經(jīng)網(wǎng)絡(luò)中的層和輸出;實(shí)心藍(lán)色線條表示網(wǎng)絡(luò)中的激活方向;綠色虛線表示用于計(jì)算損失的對(duì)比項(xiàng)目;綠色方框表示本征反饋的計(jì)算。

金字塔環(huán)境

為了檢驗(yàn)好奇心,目前沒(méi)有一個(gè)普通的環(huán)境能做到。通過(guò)版本 0.3 的機(jī)器學(xué)習(xí)智能體工具包發(fā)布的大多數(shù)示例環(huán)境包含相對(duì)密集的獎(jiǎng)勵(lì),并且不會(huì)從好奇或其他探索增強(qiáng)方法中獲益。為了把新發(fā)現(xiàn)的好奇心放在測(cè)試中,作者創(chuàng)造了一個(gè)新的稀有獎(jiǎng)勵(lì)環(huán)境,叫做金字塔環(huán)境。在它里面,只有一個(gè)獎(jiǎng)勵(lì),隨機(jī)探索很少會(huì)讓智能體遇到它。在這種環(huán)境中,智能體采用類似于以前的一些環(huán)境中熟悉的藍(lán)色立方體的形式。代理可以向前或向后移動(dòng),然后向左或向右移動(dòng),并且可以通過(guò)立方體前面的一系列光線投射來(lái)訪問(wèn)周圍世界的視圖。

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

智能體通過(guò)一組射線來(lái)觀察自己周圍的環(huán)境

智能體被放入一個(gè)包含九個(gè)房間的封閉空間中。一個(gè)房間包含一個(gè)隨機(jī)放置的開(kāi)關(guān),其他房間中包含隨機(jī)放置的不可移動(dòng)的石頭金字塔。當(dāng)智能體與開(kāi)關(guān)相互作用時(shí),開(kāi)關(guān)從紅色變成綠色。隨著這種顏色的變化,環(huán)境會(huì)在某一個(gè)房間中的隨機(jī)位置生成一個(gè)新的磚塊可以移動(dòng)的金字塔。在金字塔的頂端有一塊金色的磚。當(dāng)智能體接觸到這磚塊的時(shí)候,它就會(huì)收到 +2 外部獎(jiǎng)勵(lì)。這里的有難度的地方是走到新的房間、翻轉(zhuǎn)開(kāi)關(guān)、把塔撞倒的過(guò)程里都是沒(méi)有中間獎(jiǎng)勵(lì)的。智能體必須學(xué)會(huì)在沒(méi)有中間幫助的情況下執(zhí)行這個(gè)序列。

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

用 PPO+ 訓(xùn)練的智能體在碰過(guò)按鈕之后向金字塔走去


當(dāng)智能體使用原始版本的近端策略優(yōu)化(Proximal Policy Optimization, PPO, Unity 環(huán)境中默認(rèn)的強(qiáng)化學(xué)習(xí)算法)進(jìn)行訓(xùn)練時(shí),其表現(xiàn)很差,即便在進(jìn)行 200,000 個(gè)步驟的運(yùn)動(dòng)之后,結(jié)果通常甚至沒(méi)有比隨機(jī)產(chǎn)生的結(jié)果(平均獎(jiǎng)勵(lì)為-1)更好。(下圖)

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

相反的,通過(guò) PPO 和好奇心驅(qū)動(dòng)的內(nèi)部獎(jiǎng)勵(lì)共同進(jìn)行訓(xùn)練的智能體,在多次實(shí)驗(yàn)中都可以在 200,000 步內(nèi)甚至一半時(shí)間內(nèi)解決問(wèn)題。(下圖)

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)


作者還研究了僅用內(nèi)在獎(jiǎng)勵(lì)信號(hào)訓(xùn)練的智能體,盡管他們不學(xué)習(xí)解決任務(wù),他們學(xué)習(xí)了一種更為有趣的定性策略,使他們能夠在多個(gè)房間之間移動(dòng);相比之下,在外在獎(jiǎng)勵(lì)作為唯一策略的情況下,智能體僅能在一個(gè)房間里轉(zhuǎn)小圈。(下圖)

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

近端策略優(yōu)化與好奇心策略

如果要使用好奇心策略來(lái)幫助在環(huán)境中訓(xùn)練智能體的話,使能訓(xùn)練是很簡(jiǎn)單的。首先,獲得最新的機(jī)器學(xué)習(xí)工具包,然后將下面的代碼加入到超參數(shù)文檔中: use_curiosity: true。然后,向之前一樣的進(jìn)行訓(xùn)練。如果使用了 TensorBoard,結(jié)果中可以看到許多新的度量被跟蹤了。這個(gè)過(guò)程包含了前向和反向模型損失,以及每個(gè)步驟累積的內(nèi)在獎(jiǎng)勵(lì)。

給予智能體好奇心并不是在所有場(chǎng)景下都適用。特別是如果環(huán)境已經(jīng)包含了一個(gè)密集的獎(jiǎng)勵(lì)函數(shù),例如爬蟲(chóng)(Crawler)和沃克(Walker)環(huán)境,在大多數(shù)動(dòng)作之后接收到一個(gè)非零的獎(jiǎng)勵(lì),由此可能看不到太多的改進(jìn)。如果環(huán)境只包含稀疏獎(jiǎng)勵(lì),那么添加內(nèi)在獎(jiǎng)勵(lì)有可能將這些任務(wù)從使用強(qiáng)化學(xué)習(xí)的不可解改善到容易解決。這尤其適用于當(dāng)它對(duì)簡(jiǎn)單的獎(jiǎng)勵(lì)(如贏/輸或完成/失?。┑热蝿?wù)時(shí)。

如果你使用好奇心功能,Unity 團(tuán)隊(duì)也希望可以聽(tīng)到你的使用反饋。直接發(fā)郵件至 ml-agents@unity3d.com或通過(guò)Github的問(wèn)題專欄進(jìn)行留言~祝訓(xùn)練順利!

via blogs.unity3d.com,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

利用好奇心做稀疏反饋任務(wù)的學(xué)習(xí)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)