0
本文作者: AI研習(xí)社-譯站 | 2019-05-13 11:42 |
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Everything you need to know about Google’s new PlaNet reinforcement learning network
作者 | Cecelia Shao
翻譯 | 蘿卜菜在種樹(shù)
編輯 | 醬番梨、Pita
原文鏈接:
https://towardsdatascience.com/everything-you-need-to-know-about-googles-new-planet-reinforcement-learning-network-144c2ca3f284
跑步之前先學(xué)會(huì)走路。
現(xiàn)如今,遷移學(xué)習(xí)在機(jī)器學(xué)習(xí)社區(qū)中風(fēng)靡一時(shí)。
遷移學(xué)習(xí)是Google、Salesforce、IBM和Azure云服務(wù)商提供的托管AutoML服務(wù)的基礎(chǔ)。它現(xiàn)在在最新的NLP研究中占據(jù)突出的地位——包括谷歌的BERT以及ULMFIT中有重要的作用。
正如Sebastian在他的博文(NLP’s ImageNet moment has arrived)中寫(xiě)道:
這些成為舉世聞名的工作是通過(guò)展示預(yù)訓(xùn)練語(yǔ)言模型在各種NLP任務(wù)上實(shí)現(xiàn)良好的性能。這些方法標(biāo)志著一個(gè)分水嶺:它們可能會(huì)像預(yù)訓(xùn)練的ImageNet模型對(duì)計(jì)算機(jī)視覺(jué)的影響一樣對(duì)NLP產(chǎn)生廣泛的影響。
我們也開(kāi)始看到可以使用跨領(lǐng)域遷移學(xué)習(xí)處理多個(gè)任務(wù)的神經(jīng)網(wǎng)絡(luò)的例子。 Paras Chopra 是一個(gè)基于PyTorch的很好的教程,可以根據(jù)文本描述進(jìn)行圖像搜索,搜索相似的圖像和文字,并在圖像下面寫(xiě)上題注。
與其他機(jī)器學(xué)習(xí)方法相比,深度強(qiáng)化學(xué)習(xí)因其數(shù)據(jù)量小而聞名,其學(xué)習(xí)過(guò)程中存在不穩(wěn)定性(參照 Deepmind關(guān)于RL與神經(jīng)網(wǎng)絡(luò)的論文),以及性能方面的落后。我們已經(jīng)看到強(qiáng)化學(xué)習(xí)的應(yīng)用主要是游戲或機(jī)器人,這些場(chǎng)景可以產(chǎn)生大量模擬數(shù)據(jù)。
與此同時(shí),許多人認(rèn)為強(qiáng)化學(xué)習(xí)仍然是實(shí)現(xiàn)人工智能最可行的方法。然而,強(qiáng)化學(xué)習(xí)不斷遇到在不同環(huán)境中推廣到許多任務(wù)能力的阻力——這是智能的關(guān)鍵屬性。
畢竟,學(xué)習(xí)并不是一件容易的事情。當(dāng)這些環(huán)境既具有高維感知輸入有不具有進(jìn)展、獎(jiǎng)勵(lì)或者成功的概念,抑或是極度延遲的概念時(shí),這些強(qiáng)化學(xué)習(xí)的媒介必須處理并得出其環(huán)境的有效表示。最重要的是,它們必須使用這些信息將過(guò)去的經(jīng)驗(yàn)概括為新的情況。
到目前為止,強(qiáng)化學(xué)習(xí)技術(shù)的研究主要聚焦在掌握個(gè)人任務(wù)上。對(duì)于遷移學(xué)習(xí)是否有助于強(qiáng)化學(xué)習(xí)達(dá)到普適性這一問(wèn)題,我十分感興趣。因此,當(dāng)谷歌AI團(tuán)隊(duì)在今年早些時(shí)候發(fā)布深度規(guī)劃網(wǎng)絡(luò)(PlaNet)時(shí),我非常激動(dòng)。
在這個(gè)項(xiàng)目中,PlaNet代理的任務(wù)是規(guī)劃一系列動(dòng)作,以實(shí)現(xiàn)像桿平衡這一的目標(biāo),教虛擬實(shí)體(人或獵豹)走路,或通過(guò)在特定位置擊打它來(lái)保持盒子旋轉(zhuǎn)。
深度規(guī)劃網(wǎng)絡(luò)(PlaNet)代理必須執(zhí)行的六個(gè)任務(wù)的概述。 點(diǎn)擊原文查看詳細(xì)視頻
在谷歌AI博客文章中介紹的PlaNet,這里有六個(gè)任務(wù)(加上與該任務(wù)相關(guān)的挑戰(zhàn)):
Cartpole Balance:從桿平衡開(kāi)始,代理必須快速識(shí)別以保持桿一直直立。
Cartpole Swingup:在一個(gè)固定的攝像頭情況下,推車(chē)可以移出到攝像頭范圍外。因此,代理必須得到并且記住多個(gè)幀的信息。
Finger Spin:預(yù)測(cè)兩個(gè)獨(dú)立的對(duì)象,以及它們之間的交互。
Cheetah Run:包含難以準(zhǔn)確預(yù)測(cè)的地形,需要一個(gè)能夠預(yù)測(cè)多種情況的模型。
Cup Catch: 只在球被抓住時(shí)才會(huì)提供稀疏的獎(jiǎng)勵(lì)信號(hào)。這需要很準(zhǔn)確的預(yù)測(cè),以規(guī)劃精確的行動(dòng)序列。
Walker Walk:模擬機(jī)器人躺在地上,然后學(xué)會(huì)站起來(lái)并且走路。
PlaNet需要實(shí)現(xiàn)這些任務(wù)之間的一些共同目標(biāo):
代理需要預(yù)測(cè)各種可能的未來(lái)
代理需要根據(jù)最近操作的結(jié)果/獎(jiǎng)勵(lì)更新計(jì)劃
代理需要在很多時(shí)間步驟中保留信息
那么谷歌AI團(tuán)隊(duì)是如何實(shí)現(xiàn)這些目標(biāo)的呢?
PlaNet AI以三種不同的方式區(qū)別于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法:
使用潛在動(dòng)力學(xué)模型學(xué)習(xí)——PlaNet從一系列隱藏或潛在狀態(tài)而不是圖像中學(xué)習(xí),以預(yù)測(cè)潛在狀態(tài)的未來(lái)發(fā)展。
基于模型的計(jì)劃——PlaNet在沒(méi)有策略網(wǎng)絡(luò)情況下工作,并且基于持續(xù)的計(jì)劃做出決策。
遷移學(xué)習(xí)——谷歌AI團(tuán)隊(duì)訓(xùn)練了一個(gè)PlaNet代理,以解決六種不同的任務(wù)。
讓我們深入研究這其中的每一個(gè)差異,看看它們?nèi)绾斡绊懩P托阅堋?/p>
#1潛在動(dòng)力學(xué)模型
作者在這里的主要選擇是使用緊湊的潛在狀態(tài)還是來(lái)自環(huán)境的原始感官輸入。
使用緊湊的潛在狀態(tài)空間意味著難度提升,因?yàn)榇聿粌H必須學(xué)會(huì)打敗游戲,還必須建立對(duì)游戲視覺(jué)概念的理解——這使得圖像的編碼和解碼需要大量計(jì)算。
使用緊湊潛狀態(tài)空間的關(guān)鍵好處是它允許代理學(xué)習(xí)更多的抽象表示,如對(duì)象的位置和速度,同時(shí)無(wú)需生成圖像。 這意味著實(shí)際規(guī)劃要快得多,因?yàn)榇碇恍枰A(yù)測(cè)未來(lái)的獎(jiǎng)勵(lì)而不是圖像或場(chǎng)景。
潛在動(dòng)力學(xué)模型現(xiàn)在普遍使用,因?yàn)檠芯咳藛T認(rèn)為“同時(shí)訓(xùn)練潛在動(dòng)力學(xué)模型并結(jié)合提供的獎(jiǎng)勵(lì)將產(chǎn)生對(duì)與獎(jiǎng)勵(lì)信號(hào)相關(guān)的變異因素敏感的潛在嵌入,并且在訓(xùn)練期間對(duì)模擬的外來(lái)因素不敏感?!?/p>
學(xué)習(xí)潛在動(dòng)力學(xué)模型——編碼器網(wǎng)絡(luò)(灰色梯形)不是直接使用輸入圖像,而是將圖像信息壓縮成隱藏狀態(tài)(綠色圓圈)。然后使用這些隱藏狀態(tài)來(lái)預(yù)測(cè)未來(lái)圖像(藍(lán)色梯形)和獎(jiǎng)勵(lì)(藍(lán)色矩形)。
可以通過(guò)原文查看《關(guān)于使用深度自動(dòng)編碼器進(jìn)行高效嵌入式強(qiáng)化學(xué)習(xí)》這篇論文
在自主嵌入式系統(tǒng)中,減少現(xiàn)實(shí)世界中采取的行動(dòng)和學(xué)習(xí)政策所需的能量通常至關(guān)重要。從高維圖像表示中訓(xùn)練強(qiáng)化學(xué)習(xí)代理可能非常耗時(shí)且開(kāi)銷(xiāo)大。自動(dòng)編碼器是一種深度神經(jīng)網(wǎng)絡(luò),它用于將像素化圖像等高維數(shù)據(jù)壓縮成小的潛在表示。
#2 model-based的計(jì)劃與model-free
來(lái)自Jonathan Hui的圖表顯示了強(qiáng)化學(xué)習(xí)方法的前景
model-based的強(qiáng)化學(xué)習(xí)試圖讓代理了解世界的一般行為。這不是通過(guò)直接觀察映射到行動(dòng),而是允許代理提前規(guī)劃,通過(guò)“想象”他們的長(zhǎng)期結(jié)果來(lái)更謹(jǐn)慎地選擇行動(dòng)。采用model-based的方法的好處在于它的樣本效率更高 - 這意味著它不會(huì)從頭開(kāi)始學(xué)習(xí)每個(gè)新任務(wù)。
查看model-free模型和model-based的強(qiáng)化學(xué)習(xí)之間差異的一種方法是查看我們是否針對(duì)最大獎(jiǎng)勵(lì)或最低成本進(jìn)行優(yōu)化(model-free=最大獎(jiǎng)勵(lì),而 model-based=最低成本)。
像使用Policy Gradients這樣的model-free強(qiáng)化學(xué)習(xí)技術(shù)可以是暴力解決方案,最終發(fā)現(xiàn)正確行為并將其滲透到策略中。Policy Gradients實(shí)際上必須接受積極的反饋,并經(jīng)常接受它,以便最終將Policy Gradients參數(shù)給予高回報(bào)的動(dòng)作。
一個(gè)有趣的注意事項(xiàng)是任務(wù)類(lèi)型如何影響您可能選擇使用的方法。在Andrej Kaparthy的帖子“Deep Reinforcement Learning:Pong from Pixels”中,他描述了Policy Gradients可以擊敗人類(lèi)的游戲/任務(wù):
“有很多游戲Policy Gradients很容易打敗人類(lèi)。特別是任何需要精確操作、快速反應(yīng)和不需要長(zhǎng)期規(guī)劃的頻繁獎(jiǎng)勵(lì)信號(hào)都是理想的,因?yàn)楠?jiǎng)勵(lì)和行動(dòng)之間的這些短期相關(guān)性可以通過(guò)該方法輕松“注意到”,并且能夠非常好地執(zhí)行得到政策。你可以在我們的Pong代理中看到已經(jīng)發(fā)生過(guò)這種情況的提示:它開(kāi)發(fā)了一種策略,它等待球,然后迅速反彈,以便在邊緣捕獲它。這個(gè)球能夠快速啟動(dòng)并且移動(dòng)速度快。代理連續(xù)幾次重復(fù)此策略。有許多ATARI游戲,其中Deep Q Learning以這種方式破壞人類(lèi)的基準(zhǔn)表現(xiàn)——例如Pinball, Breakout等“
#3 遷移學(xué)習(xí)
在第一次訓(xùn)練之后,PlaNet代理已經(jīng)對(duì)重力和動(dòng)力學(xué)有了基本的了解,并且能夠在下一次訓(xùn)練的時(shí)候使用此次知識(shí)。因此,PlaNet的效率通常比從頭開(kāi)始學(xué)習(xí)的方法高50倍。這意味著代理只需要查看動(dòng)畫(huà)的五個(gè)幀(實(shí)際上是1/5秒的鏡頭)就能夠以非常高的精度預(yù)測(cè)序列的進(jìn)行在。在應(yīng)用方面,這意味著團(tuán)隊(duì)無(wú)需培訓(xùn)六個(gè)單獨(dú)的模型來(lái)實(shí)現(xiàn)任務(wù)的可靠性。
來(lái)自論文:“PlaNet解決了各種基于圖像的控制任務(wù),在性能方面與先進(jìn)的無(wú)代理模型比較,平均效率提高了5000%······這些學(xué)習(xí)動(dòng)態(tài)可以獨(dú)立于任何特定任務(wù),因此有可能很好地遷移到環(huán)境中的其他任務(wù)?!?/p>
查看PlaNet對(duì)D4PG的驚人數(shù)據(jù)效率,僅有2,000代:
從論文中可以看出:PlaNet在所有任務(wù)上明顯優(yōu)于A3C,并且達(dá)到接近D4PG的最終性能,同時(shí)與環(huán)境的交互平均減少5000%。
這些測(cè)試的表現(xiàn)與收集的數(shù)據(jù)之間的圖表(PlaNet是藍(lán)色):雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
圖4來(lái)自PlaNet論文,將PlaNet與其他模型算法進(jìn)行比較。
這些令人難以置信以及令人興奮的結(jié)果意味著數(shù)據(jù)效率提高和強(qiáng)化學(xué)習(xí)普適性的新時(shí)代。 密切關(guān)注這個(gè)領(lǐng)域!
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?
點(diǎn)擊【谷歌的 PlaNet 強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)】即可訪問(wèn):
https://ai.yanxishe.com/page/TextTranslation/1670
【譯者招募】CMU CS 11-747 2019年春季 NLP
很高興,我們又獲得了卡耐基梅隆大學(xué)另外一門(mén)課程的的官方授權(quán),并且成功組織志愿者對(duì)該課程進(jìn)行了翻譯,這門(mén)課程就是:CMU CS 11-747神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理課程(2019春季),也就是現(xiàn)在開(kāi)源的最新版本。
中英雙語(yǔ)版字幕已于三月初正式上線,目前更新到第六講!
如果你對(duì)此感興趣的話,可以點(diǎn)擊鏈接查看課程小組:
https://ai.yanxishe.com/page/groupDetail/33
同時(shí)你想報(bào)名參與課程翻譯的話,請(qǐng)?zhí)砑幼帜痪⑿牛簂eiphonefansub,字幕君會(huì)將你拉入譯者群,準(zhǔn)備開(kāi)始翻譯噢!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。