丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給AI研習社-譯站
發(fā)送

0

谷歌的 PlaNet 強化學習網(wǎng)絡

本文作者: AI研習社-譯站 2019-05-13 11:42
導語:現(xiàn)如今,遷移學習在機器學習社區(qū)中風靡一時。

谷歌的 PlaNet 強化學習網(wǎng)絡

本文為 AI 研習社編譯的技術(shù)博客,原標題 :

Everything you need to know about Google’s new PlaNet reinforcement learning network

作者 | Cecelia Shao

翻譯 | 蘿卜菜在種樹

編輯 | 醬番梨、Pita

原文鏈接:

https://towardsdatascience.com/everything-you-need-to-know-about-googles-new-planet-reinforcement-learning-network-144c2ca3f284

谷歌的 PlaNet 強化學習網(wǎng)絡

跑步之前先學會走路。

現(xiàn)如今,遷移學習在機器學習社區(qū)中風靡一時。

遷移學習是Google、Salesforce、IBM和Azure云服務商提供的托管AutoML服務的基礎(chǔ)。它現(xiàn)在在最新的NLP研究中占據(jù)突出的地位——包括谷歌的BERT以及ULMFIT中有重要的作用。

正如Sebastian在他的博文(NLP’s ImageNet moment has arrived)中寫道:

這些成為舉世聞名的工作是通過展示預訓練語言模型在各種NLP任務上實現(xiàn)良好的性能。這些方法標志著一個分水嶺:它們可能會像預訓練的ImageNet模型對計算機視覺的影響一樣對NLP產(chǎn)生廣泛的影響。

我們也開始看到可以使用跨領(lǐng)域遷移學習處理多個任務的神經(jīng)網(wǎng)絡的例子。 Paras Chopra 是一個基于PyTorch的很好的教程,可以根據(jù)文本描述進行圖像搜索,搜索相似的圖像和文字,并在圖像下面寫上題注。

與其他機器學習方法相比,深度強化學習因其數(shù)據(jù)量小而聞名,其學習過程中存在不穩(wěn)定性(參照 Deepmind關(guān)于RL與神經(jīng)網(wǎng)絡的論文),以及性能方面的落后。我們已經(jīng)看到強化學習的應用主要是游戲或機器人,這些場景可以產(chǎn)生大量模擬數(shù)據(jù)。

與此同時,許多人認為強化學習仍然是實現(xiàn)人工智能最可行的方法。然而,強化學習不斷遇到在不同環(huán)境中推廣到許多任務能力的阻力——這是智能的關(guān)鍵屬性。

畢竟,學習并不是一件容易的事情。當這些環(huán)境既具有高維感知輸入有不具有進展、獎勵或者成功的概念,抑或是極度延遲的概念時,這些強化學習的媒介必須處理并得出其環(huán)境的有效表示。最重要的是,它們必須使用這些信息將過去的經(jīng)驗概括為新的情況。

到目前為止,強化學習技術(shù)的研究主要聚焦在掌握個人任務上。對于遷移學習是否有助于強化學習達到普適性這一問題,我十分感興趣。因此,當谷歌AI團隊在今年早些時候發(fā)布深度規(guī)劃網(wǎng)絡(PlaNet)時,我非常激動。

  PlaNet的背后

在這個項目中,PlaNet代理的任務是規(guī)劃一系列動作,以實現(xiàn)像桿平衡這一的目標,教虛擬實體(人或獵豹)走路,或通過在特定位置擊打它來保持盒子旋轉(zhuǎn)。

谷歌的 PlaNet 強化學習網(wǎng)絡

深度規(guī)劃網(wǎng)絡(PlaNet)代理必須執(zhí)行的六個任務的概述。 點擊原文查看詳細視頻

在谷歌AI博客文章中介紹的PlaNet,這里有六個任務(加上與該任務相關(guān)的挑戰(zhàn)):

  • Cartpole Balance:從桿平衡開始,代理必須快速識別以保持桿一直直立。

  • Cartpole Swingup:在一個固定的攝像頭情況下,推車可以移出到攝像頭范圍外。因此,代理必須得到并且記住多個幀的信息。

  • Finger Spin:預測兩個獨立的對象,以及它們之間的交互。

  • Cheetah Run:包含難以準確預測的地形,需要一個能夠預測多種情況的模型。

  • Cup Catch: 只在球被抓住時才會提供稀疏的獎勵信號。這需要很準確的預測,以規(guī)劃精確的行動序列。

  • Walker Walk:模擬機器人躺在地上,然后學會站起來并且走路。

PlaNet需要實現(xiàn)這些任務之間的一些共同目標:

  • 代理需要預測各種可能的未來

  • 代理需要根據(jù)最近操作的結(jié)果/獎勵更新計劃

  • 代理需要在很多時間步驟中保留信息

那么谷歌AI團隊是如何實現(xiàn)這些目標的呢?

  PlaNet AI…and the rest?

PlaNet AI以三種不同的方式區(qū)別于傳統(tǒng)強化學習方法:

  • 使用潛在動力學模型學習——PlaNet從一系列隱藏或潛在狀態(tài)而不是圖像中學習,以預測潛在狀態(tài)的未來發(fā)展。

  • 基于模型的計劃——PlaNet在沒有策略網(wǎng)絡情況下工作,并且基于持續(xù)的計劃做出決策。

  • 遷移學習——谷歌AI團隊訓練了一個PlaNet代理,以解決六種不同的任務。

讓我們深入研究這其中的每一個差異,看看它們?nèi)绾斡绊懩P托阅堋?/p>

#1潛在動力學模型

作者在這里的主要選擇是使用緊湊的潛在狀態(tài)還是來自環(huán)境的原始感官輸入。

使用緊湊的潛在狀態(tài)空間意味著難度提升,因為代理不僅必須學會打敗游戲,還必須建立對游戲視覺概念的理解——這使得圖像的編碼和解碼需要大量計算。

使用緊湊潛狀態(tài)空間的關(guān)鍵好處是它允許代理學習更多的抽象表示,如對象的位置和速度,同時無需生成圖像。 這意味著實際規(guī)劃要快得多,因為代理只需要預測未來的獎勵而不是圖像或場景。

潛在動力學模型現(xiàn)在普遍使用,因為研究人員認為“同時訓練潛在動力學模型并結(jié)合提供的獎勵將產(chǎn)生對與獎勵信號相關(guān)的變異因素敏感的潛在嵌入,并且在訓練期間對模擬的外來因素不敏感?!?/p>

谷歌的 PlaNet 強化學習網(wǎng)絡

學習潛在動力學模型——編碼器網(wǎng)絡(灰色梯形)不是直接使用輸入圖像,而是將圖像信息壓縮成隱藏狀態(tài)(綠色圓圈)。然后使用這些隱藏狀態(tài)來預測未來圖像(藍色梯形)和獎勵(藍色矩形)。

可以通過原文查看《關(guān)于使用深度自動編碼器進行高效嵌入式強化學習》這篇論文

在自主嵌入式系統(tǒng)中,減少現(xiàn)實世界中采取的行動和學習政策所需的能量通常至關(guān)重要。從高維圖像表示中訓練強化學習代理可能非常耗時且開銷大。自動編碼器是一種深度神經(jīng)網(wǎng)絡,它用于將像素化圖像等高維數(shù)據(jù)壓縮成小的潛在表示。

#2 model-based的計劃與model-free

谷歌的 PlaNet 強化學習網(wǎng)絡

來自Jonathan Hui的圖表顯示了強化學習方法的前景

model-based的強化學習試圖讓代理了解世界的一般行為。這不是通過直接觀察映射到行動,而是允許代理提前規(guī)劃,通過“想象”他們的長期結(jié)果來更謹慎地選擇行動。采用model-based的方法的好處在于它的樣本效率更高 - 這意味著它不會從頭開始學習每個新任務。

查看model-free模型和model-based的強化學習之間差異的一種方法是查看我們是否針對最大獎勵或最低成本進行優(yōu)化(model-free=最大獎勵,而 model-based=最低成本)。

像使用Policy Gradients這樣的model-free強化學習技術(shù)可以是暴力解決方案,最終發(fā)現(xiàn)正確行為并將其滲透到策略中。Policy Gradients實際上必須接受積極的反饋,并經(jīng)常接受它,以便最終將Policy Gradients參數(shù)給予高回報的動作。

一個有趣的注意事項是任務類型如何影響您可能選擇使用的方法。在Andrej Kaparthy的帖子“Deep Reinforcement Learning:Pong from Pixels”中,他描述了Policy Gradients可以擊敗人類的游戲/任務:

“有很多游戲Policy Gradients很容易打敗人類。特別是任何需要精確操作、快速反應和不需要長期規(guī)劃的頻繁獎勵信號都是理想的,因為獎勵和行動之間的這些短期相關(guān)性可以通過該方法輕松“注意到”,并且能夠非常好地執(zhí)行得到政策。你可以在我們的Pong代理中看到已經(jīng)發(fā)生過這種情況的提示:它開發(fā)了一種策略,它等待球,然后迅速反彈,以便在邊緣捕獲它。這個球能夠快速啟動并且移動速度快。代理連續(xù)幾次重復此策略。有許多ATARI游戲,其中Deep Q Learning以這種方式破壞人類的基準表現(xiàn)——例如Pinball, Breakout等“

#3 遷移學習

在第一次訓練之后,PlaNet代理已經(jīng)對重力和動力學有了基本的了解,并且能夠在下一次訓練的時候使用此次知識。因此,PlaNet的效率通常比從頭開始學習的方法高50倍。這意味著代理只需要查看動畫的五個幀(實際上是1/5秒的鏡頭)就能夠以非常高的精度預測序列的進行在。在應用方面,這意味著團隊無需培訓六個單獨的模型來實現(xiàn)任務的可靠性。

來自論文:“PlaNet解決了各種基于圖像的控制任務,在性能方面與先進的無代理模型比較,平均效率提高了5000%······這些學習動態(tài)可以獨立于任何特定任務,因此有可能很好地遷移到環(huán)境中的其他任務?!?/p>

查看PlaNet對D4PG的驚人數(shù)據(jù)效率,僅有2,000代:

谷歌的 PlaNet 強化學習網(wǎng)絡

論文中可以看出:PlaNet在所有任務上明顯優(yōu)于A3C,并且達到接近D4PG的最終性能,同時與環(huán)境的交互平均減少5000%。

這些測試的表現(xiàn)與收集的數(shù)據(jù)之間的圖表(PlaNet是藍色):雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

谷歌的 PlaNet 強化學習網(wǎng)絡

圖4來自PlaNet論文,將PlaNet與其他模型算法進行比較。

這些令人難以置信以及令人興奮的結(jié)果意味著數(shù)據(jù)效率提高和強化學習普適性的新時代。 密切關(guān)注這個領(lǐng)域!

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?

點擊谷歌的 PlaNet 強化學習網(wǎng)絡即可訪問:

https://ai.yanxishe.com/page/TextTranslation/1670

【譯者招募】CMU CS 11-747 2019年春季 NLP 

很高興,我們又獲得了卡耐基梅隆大學另外一門課程的的官方授權(quán),并且成功組織志愿者對該課程進行了翻譯,這門課程就是:CMU CS 11-747神經(jīng)網(wǎng)絡自然語言處理課程(2019春季),也就是現(xiàn)在開源的最新版本。

中英雙語版字幕已于三月初正式上線,目前更新到第六講!

如果你對此感興趣的話,可以點擊鏈接查看課程小組:

https://ai.yanxishe.com/page/groupDetail/33

同時你想報名參與課程翻譯的話,請?zhí)砑幼帜痪⑿牛簂eiphonefansub,字幕君會將你拉入譯者群,準備開始翻譯噢!


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌的 PlaNet 強化學習網(wǎng)絡

分享:
相關(guān)文章

知情人士

AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說