丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給哈帝?白求恩
發(fā)送

0

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

本文作者: 哈帝?白求恩 編輯:郭奕欣 2017-04-20 14:13 專題:ICLR 2017
導語:通過使用這種共同學習的代表,基礎智能體學習更快地優(yōu)化外在回報,多數(shù)情況下,在培訓結(jié)束時將會實現(xiàn)更好的策略。

雷鋒網(wǎng)AI科技評論按:ICLR 2017 將于4月24-26日在法國土倫舉行,屆時雷鋒網(wǎng)AI科技評論的編輯們也將前往法國帶來一線報道。在這個深度學習會議舉辦之前,雷鋒網(wǎng)也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。

深層強化學習通過直接最大化累積回報獲得最先進的成果。 然而,環(huán)境中還包含著很多種類的潛在訓練信號。 而在今年的 ICLR 2017,來自牛津大學的Max Jaderberg等研究者在 oral paper 論文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介紹了一個智能體,它既可以通過強化學習,學習單獨的策略,同時也可以最大限度地發(fā)揮許多其他的偽回報功能。 所有這些任務都有一個共同的代表,就像無監(jiān)督學習一樣,在沒有外在回報的情況下繼續(xù)發(fā)展。 研究者還介紹了一種將這種表征重點放在外在回報上的新機制,使學習能夠快速適應與實際任務最相關的方面。 該智能體具有顯著優(yōu)于在Atari上的目前最先進的技術,平均有880%的專業(yè)人員表現(xiàn),以及在具有挑戰(zhàn)性的第一人稱三維迷宮任務中,平均學習加速10×,平均達到87% 迷宮專家的人類表現(xiàn)。

 以下為AI科技評論據(jù)論文內(nèi)容進行的部分編譯。

不論是自然界還是人工創(chuàng)造,智能體都生活在感覺運動數(shù)據(jù)流中。 在每個時間步驟t,智能體接收觀察的信息ot并執(zhí)行動作at。 這些行為將影響感覺運動流的未來過程。 研究人員開發(fā)了通過解決大量強化學習問題來學習預測和控制感覺運動流的智能體,每個智能體都集中在學習感覺運動流的特征上。因此未來將可以靈活控制智能體實現(xiàn)任何目標,包括最大化回報。經(jīng)典的強化學習方法主要集中在最大化回報上。然而并不是所有應用都存在回報。即使回報很常見,感覺運動流仍然包含很多值得學習的目標。傳統(tǒng)意義上來講,非監(jiān)督強化學習嘗試重建這些目標,例如位于這一幀和下一幀的像素。該團隊的目標則是預測和控制感覺運動流的特征,并把它們作為強化學習的回報。

該團隊的架構使用強化學習來近似許多不同的偽回報的最優(yōu)策略和最優(yōu)值函數(shù)。 它還使其他輔助預測用于將智能體的重點放在任務的重要方面,包括輔助控制任務,即智能體與交互的環(huán)境中的附加偽回報函數(shù)。圖1(b)展示出了隨著一組輔助像素控制任務而增加的A3C實體架構。 在這種情況下,基本策略π共享卷積視覺流和LSTM與輔助策略。 輔助網(wǎng)絡端的輸出是Nact × n × n張量Qaux,其中Qaux(a, I, j)表示網(wǎng)絡對于采取行動a 后的輸入單元(I, j)中的最佳折扣預期變化的當前估計值 。 通過利用輔助任務的空間特性,使用解卷積神經(jīng)網(wǎng)絡來產(chǎn)生輔助值Qaux。以及回報預測的輔助任務 – 即在某些歷史背景下預測即時回報的發(fā)生。這個任務包括處理連續(xù)觀察信息,并要求智能體預測在隨后看不到的幀中拾取的回報。輔助回報預測可能會對智能體的主要策略使用不同的架構。 

與其簡單地將“輔助”預測“掛上”LSTM不如在被智能體的CNN編碼后,使用簡單的前饋網(wǎng)絡來連接一些狀態(tài)S,參見圖1(c)。 這個想法是為了簡化未來方向和過去方向的預測任務的時間,以這種方式發(fā)現(xiàn)的特征與初級LSTM共享(通過卷積編碼器中的共享權重),以便更有效地學習策略。為了更有效地學習,該智能體使用經(jīng)驗回放機制來為評判者提供額外更新。 其主要思想是在回放緩沖區(qū)中存儲轉(zhuǎn)換,然后將學習更新應用于從該緩沖區(qū)的采樣轉(zhuǎn)換。除了回報預測之外,還可以使用回放緩沖區(qū)來執(zhí)行價值函數(shù)回放(參見圖1)。

重要的是,輔助控制和輔助預測任務共享基礎智能體使用的卷積神經(jīng)網(wǎng)絡和LSTM。 通過使用這種共同學習的代表,基礎智能體學習更快地優(yōu)化外在回報,多數(shù)情況下,在培訓結(jié)束時將會實現(xiàn)更好的策略。

研究人員結(jié)合了異步評價器算法(A3C)和輔助控制任務以及輔助匯報任務。這些輔助任務除了一般的A3C智能體外不需要其他任何來自環(huán)境的額外監(jiān)督或信號。這樣就獲得了UNREAL(UNsupervised REinforcement and Auxiliary Learning)智能體。

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

圖1:UNREAL智能體整體概述。 (a)智能體是經(jīng)過培訓的有關A3C損失的CNN-LSTM實體。觀察信息,回報和行動存儲在一個小的回放緩沖區(qū)中,該緩沖區(qū)存儲了較短的智能體經(jīng)驗歷史。這種經(jīng)驗是用來輔助學習任務。 (b)像素控制 - 訓練輔助策略Qaux以達到最大化輸入的不同區(qū)域的像素強度變化。智能體CNN和LSTM與輔助反卷積網(wǎng)絡都用于此任務。該輔助控制任務要求智能體學習如何控制環(huán)境。 (c)回報預測 - 根據(jù)最近的三個幀,網(wǎng)絡必須預測在下一個不可觀測的時間步長中獲得的回報。該任務網(wǎng)絡使用智能體CNN的實例,并對回報偏向序列進行訓練,以消除回報的稀疏性。 (d)價值函數(shù)回放 - 使用智能體網(wǎng)絡進一步訓練價值函數(shù),以促進更快的價值迭代。

研究人員將UNREAL智能體應用于一個具有挑戰(zhàn)性的3D視覺領域,即迷宮(Labyrinth)圖2。UNREAL智能體僅從第一人稱視角的原始RGB像素中學習。結(jié)果是,該智能體的表現(xiàn)顯著優(yōu)于A3C CNN-LSTM智能體代表的基準線,即在無障礙重建損失的基礎上增加了學習速度,超參數(shù)的魯棒性和最終性能。結(jié)果是該智能體達到了專家人員歸一化分數(shù)的87%,而A3C則為54%,平均速度是A3C的10倍。在阿塔里(Atari)中,UNREAL智能體也擁有顯著優(yōu)于目前最先進的技術。

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

圖2:來自環(huán)境的原始RGB幀是作為智能體輸入的觀察信息,以及最后的行動和回報。 這個觀察信息顯示了迷宮中的一個迷宮樣本。 智能體必須瀏覽這個迷宮,拿起蘋果將給予+1回報,并達到+10回報的目標,然后重新啟動。 來自迷宮發(fā)生器的樣品的俯視圖顯示了程序創(chuàng)建的各種迷宮。

下面是具體的實驗結(jié)果:

圖3(左上)顯示了13個迷宮級別的人類平均歸一化分數(shù)曲線。 每一項輔助任務都添加到A3C代理中大大提高了性能。 組合不同的輔助任務促使對各個輔助任務的進一步改進。 組合所有三個輔助任務的UNREAL智能體達到了A3C最終人類平均歸一化表現(xiàn)的兩倍以上,從54%上升到87%)。玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

圖3:迷宮(上)和Atari(下)上的所有層的平均性能概述。 在消融版本中,RP是回報預測,VR是價值函數(shù)回放,PC是像素控制,UNREAL智能體是全部的組合。 左:在訓練中的每一點,前三名工作的最后100次的平均人類歸一化表現(xiàn)。 在迷宮中,平均獲得了87%的人類歸一化分數(shù),其中每個成分的智能體均提高了A3C人類歸一化分數(shù)的54%。右:超參數(shù)掃描中每個作業(yè)的最終人類歸一化分數(shù),按分數(shù)排序。在迷宮和Atari,UNREAL智能體增加了超參數(shù)的魯棒性(即學習率和熵成本)。

同時使用與迷宮實驗相同的評估協(xié)議,在每個游戲中評估50個不同的隨機超參數(shù)(學習率和熵成本)。 結(jié)果顯示在圖3的底行。左側(cè)顯示了所有三種方法的前3個實體的平均性能曲線,右半部分顯示了每個超參數(shù)設置的人類平均歸一化得分??梢钥闯?,UNREAL超越了目前最先進的智能體,即A3C和優(yōu)先級決策DQN,達到880 %的平均值和250%的中位數(shù)。 值得注意的是,對于超參數(shù)設置,UNREAL也比A3C更強大。

除了游戲的最終表現(xiàn),UNREAL在學習方面要快得多,因此數(shù)據(jù)效率更高,最終平均加速步驟數(shù)量實現(xiàn)了達到A3C最佳性能的10倍。 而且UNREAL的學習速度極快,這意味著數(shù)據(jù)效率大大提高。同時還可以通過測量所有超參數(shù)的性能(即學習率和熵成本)來測量該學習算法對超參數(shù)的魯棒性。

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

圖4:由于在迷宮中每關的輔助任務,A3C有了改進。 通過A3C值對A3C + RP + VR(回報預測和價值函數(shù)回放)和UNREAL(回報預測,價值函數(shù)回放和像素控制)的值進行歸一化。 AUC性能給出了超參數(shù)的魯棒性(魯棒性曲線下的面積圖3右)。 數(shù)據(jù)效率是前五名工作效率數(shù)據(jù)的平均學習曲線下的面積,Top5 加速是前五名工作效率的平均值達到A3C設定的最高平均得分的加速。

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

圖5:與在各種形式的隨機迷宮中自我監(jiān)督學習的導航結(jié)果比較。 將輸入重建損失添加到目標使得學習速度比A3C基線更快。預測輸入的變化比簡單的圖像重建效果更好。 學習控制變化會帶來最好的結(jié)果。

ICLR評論

ICLR委員會最終決定

評價: 審查人員一致認為本文應該被接受。 當然關于這篇文章的細節(jié)還有很多可以討論的方面。 審查人員認為本文所指出的方向?qū)υ撗芯恐械脑S多人來說是有意義的。 正如一位評論者所說,這篇文章的想法涉及利用智能體對環(huán)境的控制的“可能性”。 這是根據(jù)輔助控制和輔助預測任務制定的,它們共享基礎的CNN和LSTM表示方式。

決定:接受(Oral)

匿名評論者3的反饋:

打分:7分,不錯的文章,接受

本文提出了一種將無監(jiān)督輔助任務添加到深層RL智能體(如A3C)的方法。 作者提出了一系列輔助控制任務和輔助回報任務,并對迷宮和Atari的實體進行了評估。 本文提出的UNREAL智能體的表現(xiàn)明顯優(yōu)于A3C,并且學習速度更快。 這對會議來說絕對是一個很有益的貢獻。 然而,這還不是最令人驚訝的一個結(jié)果,因為添加與目標相關的附加輔助任務應該總是有助于更好和更快速的特征形成。 本文證明了這個想法的概念。
這篇文件寫得很好,對具有深厚RL專業(yè)知識的讀者來說很容易理解。
作者可以評論關于訓練UNREAL實體所需的計算資源嗎?

整體架構是相當復雜的。 作者是否愿意發(fā)布他們的模型的源代碼?

匿名評委4號的反饋:

打分:8分,在全部入選論文中排名Top50%,確定接受

本文旨在通過對與(域無關)輔助任務相對應的術語擴展主要策略的優(yōu)化問題,來改進深層加強學習中的特征學習。 這些任務是關于控制(學習嘗試最大程度地修改狀態(tài)空間的其他策略,即這里的像素),即時回報預測和價值函數(shù)回放。 除了后者之外,這些輔助任務僅用于幫助形成特征(通過共享CNN + LSTM特征提取網(wǎng)絡)。 實驗顯示了這種方法對Atari和迷宮問題的優(yōu)勢,特別是比A3C更好的數(shù)據(jù)效率。

匿名評委5號的反饋:

打分:8分,在全部入選論文中排名Top50%,確定接受

這篇文章提出訓練RL智能體執(zhí)行輔助任務,并認為這樣做有助于模型學習更強大的功能。 文章提出兩個偽控制任務,即控制像素強度的變化,并控制潛在特征的激活。 文章中還提出監(jiān)督回歸任務,預測一系列事件后的即時回報。 后者通過經(jīng)驗回放緩沖區(qū)的偏向采樣離線來學習,以平衡看到回報或1/2的幾率看不到回報。

這樣的智能體在離散動作連續(xù)空間RL任務中表現(xiàn)得很好,并且在10次迭代中達到基準性能。

這篇文章與傳統(tǒng)的“被動”無監(jiān)督或基于模型的學習形成對比。學習控制環(huán)境的本地和內(nèi)部功能補充,學習最佳控制策略,而不是強迫模型學習輸入的潛在無用的表示,或?qū)W習潛在不可能的(由于部分可觀察性)任務建模目標。

對我來說,這是一種新穎的方法,并且是一種非常有趣的無人監(jiān)督學習的替代方法,利用了智能體對環(huán)境的控制的“可能性”。

文章在相當高的層次上說明了提出的任務,這對于讀者的理解是很便利的,但我認為一些低級別的細節(jié)也是很有用的。例如,在附錄之前,應明確提及L_PC。除非,讀者對深度RL非常的了解。

該方法是正確合理的,一方面,最佳超參數(shù)的分布對A3C和UNREAL可能不同,但是也可以測量top-3確定,假設A3C和UNREAL的最佳超參數(shù)都在探查的間隔內(nèi), 則可以找到最佳的超參數(shù)。

我認為這篇文章的一個弱點(或者說考慮到將來適合本文章的重要工作)是,關于輔助任務對其性能(非常強大) 的實驗分析非常少。 同樣的道理,像素/特征控制似乎最具影響力,在迷宮中,A3C + PC擊敗其他任何實體(UNREAL除外),我認為這是值得探究的,無論是孤立還是深入,可以不僅僅測量在RL任務上的表現(xiàn)。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

玩轉(zhuǎn)Atari能走迷宮,牛津大學的新型強化學習方法有多牛? | ICLR 2017

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說