0
本文作者: 哈帝?白求恩 | 編輯:郭奕欣 | 2017-04-20 14:13 | 專題:ICLR 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:ICLR 2017 將于4月24-26日在法國(guó)土倫舉行,屆時(shí)雷鋒網(wǎng)AI科技評(píng)論的編輯們也將前往法國(guó)帶來一線報(bào)道。在這個(gè)深度學(xué)習(xí)會(huì)議舉辦之前,雷鋒網(wǎng)也將圍繞會(huì)議議程及論文介紹展開一系列的覆蓋和專題報(bào)道,敬請(qǐng)期待。
深層強(qiáng)化學(xué)習(xí)通過直接最大化累積回報(bào)獲得最先進(jìn)的成果。 然而,環(huán)境中還包含著很多種類的潛在訓(xùn)練信號(hào)。 而在今年的 ICLR 2017,來自牛津大學(xué)的Max Jaderberg等研究者在 oral paper 論文《Reinforcement Learning With Unsupervised Auxiliarys Tasks 》中介紹了一個(gè)智能體,它既可以通過強(qiáng)化學(xué)習(xí),學(xué)習(xí)單獨(dú)的策略,同時(shí)也可以最大限度地發(fā)揮許多其他的偽回報(bào)功能。 所有這些任務(wù)都有一個(gè)共同的代表,就像無監(jiān)督學(xué)習(xí)一樣,在沒有外在回報(bào)的情況下繼續(xù)發(fā)展。 研究者還介紹了一種將這種表征重點(diǎn)放在外在回報(bào)上的新機(jī)制,使學(xué)習(xí)能夠快速適應(yīng)與實(shí)際任務(wù)最相關(guān)的方面。 該智能體具有顯著優(yōu)于在Atari上的目前最先進(jìn)的技術(shù),平均有880%的專業(yè)人員表現(xiàn),以及在具有挑戰(zhàn)性的第一人稱三維迷宮任務(wù)中,平均學(xué)習(xí)加速10×,平均達(dá)到87% 迷宮專家的人類表現(xiàn)。
以下為AI科技評(píng)論據(jù)論文內(nèi)容進(jìn)行的部分編譯。
不論是自然界還是人工創(chuàng)造,智能體都生活在感覺運(yùn)動(dòng)數(shù)據(jù)流中。 在每個(gè)時(shí)間步驟t,智能體接收觀察的信息ot并執(zhí)行動(dòng)作at。 這些行為將影響感覺運(yùn)動(dòng)流的未來過程。 研究人員開發(fā)了通過解決大量強(qiáng)化學(xué)習(xí)問題來學(xué)習(xí)預(yù)測(cè)和控制感覺運(yùn)動(dòng)流的智能體,每個(gè)智能體都集中在學(xué)習(xí)感覺運(yùn)動(dòng)流的特征上。因此未來將可以靈活控制智能體實(shí)現(xiàn)任何目標(biāo),包括最大化回報(bào)。經(jīng)典的強(qiáng)化學(xué)習(xí)方法主要集中在最大化回報(bào)上。然而并不是所有應(yīng)用都存在回報(bào)。即使回報(bào)很常見,感覺運(yùn)動(dòng)流仍然包含很多值得學(xué)習(xí)的目標(biāo)。傳統(tǒng)意義上來講,非監(jiān)督強(qiáng)化學(xué)習(xí)嘗試重建這些目標(biāo),例如位于這一幀和下一幀的像素。該團(tuán)隊(duì)的目標(biāo)則是預(yù)測(cè)和控制感覺運(yùn)動(dòng)流的特征,并把它們作為強(qiáng)化學(xué)習(xí)的回報(bào)。
該團(tuán)隊(duì)的架構(gòu)使用強(qiáng)化學(xué)習(xí)來近似許多不同的偽回報(bào)的最優(yōu)策略和最優(yōu)值函數(shù)。 它還使其他輔助預(yù)測(cè)用于將智能體的重點(diǎn)放在任務(wù)的重要方面,包括輔助控制任務(wù),即智能體與交互的環(huán)境中的附加偽回報(bào)函數(shù)。圖1(b)展示出了隨著一組輔助像素控制任務(wù)而增加的A3C實(shí)體架構(gòu)。 在這種情況下,基本策略π共享卷積視覺流和LSTM與輔助策略。 輔助網(wǎng)絡(luò)端的輸出是Nact × n × n張量Qaux,其中Qaux(a, I, j)表示網(wǎng)絡(luò)對(duì)于采取行動(dòng)a 后的輸入單元(I, j)中的最佳折扣預(yù)期變化的當(dāng)前估計(jì)值 。 通過利用輔助任務(wù)的空間特性,使用解卷積神經(jīng)網(wǎng)絡(luò)來產(chǎn)生輔助值Qaux。以及回報(bào)預(yù)測(cè)的輔助任務(wù) – 即在某些歷史背景下預(yù)測(cè)即時(shí)回報(bào)的發(fā)生。這個(gè)任務(wù)包括處理連續(xù)觀察信息,并要求智能體預(yù)測(cè)在隨后看不到的幀中拾取的回報(bào)。輔助回報(bào)預(yù)測(cè)可能會(huì)對(duì)智能體的主要策略使用不同的架構(gòu)。
與其簡(jiǎn)單地將“輔助”預(yù)測(cè)“掛上”LSTM不如在被智能體的CNN編碼后,使用簡(jiǎn)單的前饋網(wǎng)絡(luò)來連接一些狀態(tài)S,參見圖1(c)。 這個(gè)想法是為了簡(jiǎn)化未來方向和過去方向的預(yù)測(cè)任務(wù)的時(shí)間,以這種方式發(fā)現(xiàn)的特征與初級(jí)LSTM共享(通過卷積編碼器中的共享權(quán)重),以便更有效地學(xué)習(xí)策略。為了更有效地學(xué)習(xí),該智能體使用經(jīng)驗(yàn)回放機(jī)制來為評(píng)判者提供額外更新。 其主要思想是在回放緩沖區(qū)中存儲(chǔ)轉(zhuǎn)換,然后將學(xué)習(xí)更新應(yīng)用于從該緩沖區(qū)的采樣轉(zhuǎn)換。除了回報(bào)預(yù)測(cè)之外,還可以使用回放緩沖區(qū)來執(zhí)行價(jià)值函數(shù)回放(參見圖1)。
重要的是,輔助控制和輔助預(yù)測(cè)任務(wù)共享基礎(chǔ)智能體使用的卷積神經(jīng)網(wǎng)絡(luò)和LSTM。 通過使用這種共同學(xué)習(xí)的代表,基礎(chǔ)智能體學(xué)習(xí)更快地優(yōu)化外在回報(bào),多數(shù)情況下,在培訓(xùn)結(jié)束時(shí)將會(huì)實(shí)現(xiàn)更好的策略。
研究人員結(jié)合了異步評(píng)價(jià)器算法(A3C)和輔助控制任務(wù)以及輔助匯報(bào)任務(wù)。這些輔助任務(wù)除了一般的A3C智能體外不需要其他任何來自環(huán)境的額外監(jiān)督或信號(hào)。這樣就獲得了UNREAL(UNsupervised REinforcement and Auxiliary Learning)智能體。
圖1:UNREAL智能體整體概述。 (a)智能體是經(jīng)過培訓(xùn)的有關(guān)A3C損失的CNN-LSTM實(shí)體。觀察信息,回報(bào)和行動(dòng)存儲(chǔ)在一個(gè)小的回放緩沖區(qū)中,該緩沖區(qū)存儲(chǔ)了較短的智能體經(jīng)驗(yàn)歷史。這種經(jīng)驗(yàn)是用來輔助學(xué)習(xí)任務(wù)。 (b)像素控制 - 訓(xùn)練輔助策略Qaux以達(dá)到最大化輸入的不同區(qū)域的像素強(qiáng)度變化。智能體CNN和LSTM與輔助反卷積網(wǎng)絡(luò)都用于此任務(wù)。該輔助控制任務(wù)要求智能體學(xué)習(xí)如何控制環(huán)境。 (c)回報(bào)預(yù)測(cè) - 根據(jù)最近的三個(gè)幀,網(wǎng)絡(luò)必須預(yù)測(cè)在下一個(gè)不可觀測(cè)的時(shí)間步長(zhǎng)中獲得的回報(bào)。該任務(wù)網(wǎng)絡(luò)使用智能體CNN的實(shí)例,并對(duì)回報(bào)偏向序列進(jìn)行訓(xùn)練,以消除回報(bào)的稀疏性。 (d)價(jià)值函數(shù)回放 - 使用智能體網(wǎng)絡(luò)進(jìn)一步訓(xùn)練價(jià)值函數(shù),以促進(jìn)更快的價(jià)值迭代。
研究人員將UNREAL智能體應(yīng)用于一個(gè)具有挑戰(zhàn)性的3D視覺領(lǐng)域,即迷宮(Labyrinth)圖2。UNREAL智能體僅從第一人稱視角的原始RGB像素中學(xué)習(xí)。結(jié)果是,該智能體的表現(xiàn)顯著優(yōu)于A3C CNN-LSTM智能體代表的基準(zhǔn)線,即在無障礙重建損失的基礎(chǔ)上增加了學(xué)習(xí)速度,超參數(shù)的魯棒性和最終性能。結(jié)果是該智能體達(dá)到了專家人員歸一化分?jǐn)?shù)的87%,而A3C則為54%,平均速度是A3C的10倍。在阿塔里(Atari)中,UNREAL智能體也擁有顯著優(yōu)于目前最先進(jìn)的技術(shù)。
圖2:來自環(huán)境的原始RGB幀是作為智能體輸入的觀察信息,以及最后的行動(dòng)和回報(bào)。 這個(gè)觀察信息顯示了迷宮中的一個(gè)迷宮樣本。 智能體必須瀏覽這個(gè)迷宮,拿起蘋果將給予+1回報(bào),并達(dá)到+10回報(bào)的目標(biāo),然后重新啟動(dòng)。 來自迷宮發(fā)生器的樣品的俯視圖顯示了程序創(chuàng)建的各種迷宮。
下面是具體的實(shí)驗(yàn)結(jié)果:
圖3(左上)顯示了13個(gè)迷宮級(jí)別的人類平均歸一化分?jǐn)?shù)曲線。 每一項(xiàng)輔助任務(wù)都添加到A3C代理中大大提高了性能。 組合不同的輔助任務(wù)促使對(duì)各個(gè)輔助任務(wù)的進(jìn)一步改進(jìn)。 組合所有三個(gè)輔助任務(wù)的UNREAL智能體達(dá)到了A3C最終人類平均歸一化表現(xiàn)的兩倍以上,從54%上升到87%)。
圖3:迷宮(上)和Atari(下)上的所有層的平均性能概述。 在消融版本中,RP是回報(bào)預(yù)測(cè),VR是價(jià)值函數(shù)回放,PC是像素控制,UNREAL智能體是全部的組合。 左:在訓(xùn)練中的每一點(diǎn),前三名工作的最后100次的平均人類歸一化表現(xiàn)。 在迷宮中,平均獲得了87%的人類歸一化分?jǐn)?shù),其中每個(gè)成分的智能體均提高了A3C人類歸一化分?jǐn)?shù)的54%。右:超參數(shù)掃描中每個(gè)作業(yè)的最終人類歸一化分?jǐn)?shù),按分?jǐn)?shù)排序。在迷宮和Atari,UNREAL智能體增加了超參數(shù)的魯棒性(即學(xué)習(xí)率和熵成本)。
同時(shí)使用與迷宮實(shí)驗(yàn)相同的評(píng)估協(xié)議,在每個(gè)游戲中評(píng)估50個(gè)不同的隨機(jī)超參數(shù)(學(xué)習(xí)率和熵成本)。 結(jié)果顯示在圖3的底行。左側(cè)顯示了所有三種方法的前3個(gè)實(shí)體的平均性能曲線,右半部分顯示了每個(gè)超參數(shù)設(shè)置的人類平均歸一化得分。可以看出,UNREAL超越了目前最先進(jìn)的智能體,即A3C和優(yōu)先級(jí)決策DQN,達(dá)到880 %的平均值和250%的中位數(shù)。 值得注意的是,對(duì)于超參數(shù)設(shè)置,UNREAL也比A3C更強(qiáng)大。
除了游戲的最終表現(xiàn),UNREAL在學(xué)習(xí)方面要快得多,因此數(shù)據(jù)效率更高,最終平均加速步驟數(shù)量實(shí)現(xiàn)了達(dá)到A3C最佳性能的10倍。 而且UNREAL的學(xué)習(xí)速度極快,這意味著數(shù)據(jù)效率大大提高。同時(shí)還可以通過測(cè)量所有超參數(shù)的性能(即學(xué)習(xí)率和熵成本)來測(cè)量該學(xué)習(xí)算法對(duì)超參數(shù)的魯棒性。
圖4:由于在迷宮中每關(guān)的輔助任務(wù),A3C有了改進(jìn)。 通過A3C值對(duì)A3C + RP + VR(回報(bào)預(yù)測(cè)和價(jià)值函數(shù)回放)和UNREAL(回報(bào)預(yù)測(cè),價(jià)值函數(shù)回放和像素控制)的值進(jìn)行歸一化。 AUC性能給出了超參數(shù)的魯棒性(魯棒性曲線下的面積圖3右)。 數(shù)據(jù)效率是前五名工作效率數(shù)據(jù)的平均學(xué)習(xí)曲線下的面積,Top5 加速是前五名工作效率的平均值達(dá)到A3C設(shè)定的最高平均得分的加速。
圖5:與在各種形式的隨機(jī)迷宮中自我監(jiān)督學(xué)習(xí)的導(dǎo)航結(jié)果比較。 將輸入重建損失添加到目標(biāo)使得學(xué)習(xí)速度比A3C基線更快。預(yù)測(cè)輸入的變化比簡(jiǎn)單的圖像重建效果更好。 學(xué)習(xí)控制變化會(huì)帶來最好的結(jié)果。
評(píng)價(jià): 審查人員一致認(rèn)為本文應(yīng)該被接受。 當(dāng)然關(guān)于這篇文章的細(xì)節(jié)還有很多可以討論的方面。 審查人員認(rèn)為本文所指出的方向?qū)υ撗芯恐械脑S多人來說是有意義的。 正如一位評(píng)論者所說,這篇文章的想法涉及利用智能體對(duì)環(huán)境的控制的“可能性”。 這是根據(jù)輔助控制和輔助預(yù)測(cè)任務(wù)制定的,它們共享基礎(chǔ)的CNN和LSTM表示方式。
決定:接受(Oral)
匿名評(píng)論者3的反饋:
打分:7分,不錯(cuò)的文章,接受
本文提出了一種將無監(jiān)督輔助任務(wù)添加到深層RL智能體(如A3C)的方法。 作者提出了一系列輔助控制任務(wù)和輔助回報(bào)任務(wù),并對(duì)迷宮和Atari的實(shí)體進(jìn)行了評(píng)估。 本文提出的UNREAL智能體的表現(xiàn)明顯優(yōu)于A3C,并且學(xué)習(xí)速度更快。 這對(duì)會(huì)議來說絕對(duì)是一個(gè)很有益的貢獻(xiàn)。 然而,這還不是最令人驚訝的一個(gè)結(jié)果,因?yàn)樘砑优c目標(biāo)相關(guān)的附加輔助任務(wù)應(yīng)該總是有助于更好和更快速的特征形成。 本文證明了這個(gè)想法的概念。
這篇文件寫得很好,對(duì)具有深厚RL專業(yè)知識(shí)的讀者來說很容易理解。
作者可以評(píng)論關(guān)于訓(xùn)練UNREAL實(shí)體所需的計(jì)算資源嗎?
整體架構(gòu)是相當(dāng)復(fù)雜的。 作者是否愿意發(fā)布他們的模型的源代碼?
匿名評(píng)委4號(hào)的反饋:
打分:8分,在全部入選論文中排名Top50%,確定接受
本文旨在通過對(duì)與(域無關(guān))輔助任務(wù)相對(duì)應(yīng)的術(shù)語擴(kuò)展主要策略的優(yōu)化問題,來改進(jìn)深層加強(qiáng)學(xué)習(xí)中的特征學(xué)習(xí)。 這些任務(wù)是關(guān)于控制(學(xué)習(xí)嘗試最大程度地修改狀態(tài)空間的其他策略,即這里的像素),即時(shí)回報(bào)預(yù)測(cè)和價(jià)值函數(shù)回放。 除了后者之外,這些輔助任務(wù)僅用于幫助形成特征(通過共享CNN + LSTM特征提取網(wǎng)絡(luò))。 實(shí)驗(yàn)顯示了這種方法對(duì)Atari和迷宮問題的優(yōu)勢(shì),特別是比A3C更好的數(shù)據(jù)效率。
匿名評(píng)委5號(hào)的反饋:
打分:8分,在全部入選論文中排名Top50%,確定接受
這篇文章提出訓(xùn)練RL智能體執(zhí)行輔助任務(wù),并認(rèn)為這樣做有助于模型學(xué)習(xí)更強(qiáng)大的功能。 文章提出兩個(gè)偽控制任務(wù),即控制像素強(qiáng)度的變化,并控制潛在特征的激活。 文章中還提出監(jiān)督回歸任務(wù),預(yù)測(cè)一系列事件后的即時(shí)回報(bào)。 后者通過經(jīng)驗(yàn)回放緩沖區(qū)的偏向采樣離線來學(xué)習(xí),以平衡看到回報(bào)或1/2的幾率看不到回報(bào)。
這樣的智能體在離散動(dòng)作連續(xù)空間RL任務(wù)中表現(xiàn)得很好,并且在10次迭代中達(dá)到基準(zhǔn)性能。
這篇文章與傳統(tǒng)的“被動(dòng)”無監(jiān)督或基于模型的學(xué)習(xí)形成對(duì)比。學(xué)習(xí)控制環(huán)境的本地和內(nèi)部功能補(bǔ)充,學(xué)習(xí)最佳控制策略,而不是強(qiáng)迫模型學(xué)習(xí)輸入的潛在無用的表示,或?qū)W習(xí)潛在不可能的(由于部分可觀察性)任務(wù)建模目標(biāo)。
對(duì)我來說,這是一種新穎的方法,并且是一種非常有趣的無人監(jiān)督學(xué)習(xí)的替代方法,利用了智能體對(duì)環(huán)境的控制的“可能性”。
文章在相當(dāng)高的層次上說明了提出的任務(wù),這對(duì)于讀者的理解是很便利的,但我認(rèn)為一些低級(jí)別的細(xì)節(jié)也是很有用的。例如,在附錄之前,應(yīng)明確提及L_PC。除非,讀者對(duì)深度RL非常的了解。
該方法是正確合理的,一方面,最佳超參數(shù)的分布對(duì)A3C和UNREAL可能不同,但是也可以測(cè)量top-3確定,假設(shè)A3C和UNREAL的最佳超參數(shù)都在探查的間隔內(nèi), 則可以找到最佳的超參數(shù)。
我認(rèn)為這篇文章的一個(gè)弱點(diǎn)(或者說考慮到將來適合本文章的重要工作)是,關(guān)于輔助任務(wù)對(duì)其性能(非常強(qiáng)大) 的實(shí)驗(yàn)分析非常少。 同樣的道理,像素/特征控制似乎最具影響力,在迷宮中,A3C + PC擊敗其他任何實(shí)體(UNREAL除外),我認(rèn)為這是值得探究的,無論是孤立還是深入,可以不僅僅測(cè)量在RL任務(wù)上的表現(xiàn)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章