丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給李雨晨
發(fā)送

0

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

本文作者: 李雨晨 2019-12-11 08:59 專題:NeurIPS 2019
導語:增強型學習智能體Dreamer12月5日消息,來自谷歌大腦,DeepMind以及多倫多大學的研究人員們近日發(fā)表了一篇名為《夢想控制:通過潛意識的學習行為》的新研

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

在具有挑戰(zhàn)性的環(huán)境中,一些人工智能系統(tǒng)通過利用過去經(jīng)驗所提供的世界表象來實現(xiàn)目標。研究人員將這些應用推廣到新的情況,使它們能夠在以前從未遇到過的環(huán)境中完成任務。

事實證明,強化學習——一種使用獎勵來推動軟件策略朝著目標前進的訓練技術——特別適合學習一個總結(jié)agent經(jīng)驗的世界模型,并通過擴展來促進新行為的學習。

雷鋒網(wǎng)消息,近日,來自Google、Alphabet子公司DeepMind和多倫多大學的研究人員發(fā)表了一篇名為《夢想控制:通過潛意識的學習行為》的新研究,他們開發(fā)了一個增強型學習智能體Dreamer,通過內(nèi)化一個世界模型,并通過通過潛在的“想象力”來提前計劃選擇行動。

他們說,Dreamer不僅適用于任何學習目標,而且在數(shù)據(jù)效率、計算時間以及最終性能方面都超過了現(xiàn)有的方法。

在它的整個生命周期中,無論是交錯還是并行,Dreamer都會學習一個latent dynamics model(潛在動力學模型),以預測動作和觀察結(jié)果的回報。在這種情況下,“l(fā)atent dynamics model”是指從圖像輸入中學習并執(zhí)行計劃以收集新經(jīng)驗的模型。

“潛在”表示它依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列,這使它能夠?qū)W習更多抽象的表示形式,例如對象的位置和速度。使用編碼器組件,有效地將來自輸入圖像的信息集成到隱藏狀態(tài)中,然后及時地將隱藏狀態(tài)向前投影以預測圖像和獎勵。

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

上圖:Dreamer完成一個擺動鐘擺的任務。中間顯示45步預測

Dreamer使用了一個多部分的latent dynamics model,這個模型的結(jié)構(gòu)有些復雜。“表示”位對觀察和動作進行編碼,而“過渡”位則在沒有看到會引起觀察的情況下預見狀態(tài)。第三個組件(獎勵組件)根據(jù)給定的模型狀態(tài)來投影獎勵,而行為模型將實施學習的策略并旨在預測可解決想象的環(huán)境的行為。最終,價值模型評估行動模型實現(xiàn)的預期想象獎勵,而觀察模型提供反饋信號。

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

上圖:夢想家在迷宮中導航。中間顯示45步預測。

雷鋒網(wǎng)了解到,在一系列實驗中,研究人員測試了Dreamer在DeepMind Control Suite中的20個視覺控制任務上的效果,DeepMind Control Suite是一種用于評估機器學習驅(qū)動的代理的仿真軟件。

他們首先使用Nvidia V100圖形芯片和10個處理器內(nèi)核來訓練它,每次培訓運行一次。他們說,控制套件上每106個環(huán)境步驟花費了9個小時。(相比之下,Google的Dreamer前身PlaNet花了17個小時才達到了類似的性能。)

谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

上圖:夢想家在玩Atari游戲(拳擊)。中間顯示45步預測。

研究人員報告說,Dreamer有效地利用了學習的世界模型來從少量經(jīng)驗中進行概括,并且它的成功證明了,通過潛在的想象力進行的學習行為可以勝過頂級方法。他們還說,Dreamer的價值模型即使在短期計劃中也表現(xiàn)良好,在20個任務中的16個(有4個打成平手)上表現(xiàn)優(yōu)于其他模型。

研究人員寫道:“未來,關于表征學習的研究可能會將潛在的想象力擴展到視覺復雜性更高的環(huán)境中,”研究人員計劃在本周溫哥華的NeurIPS 2019上展示他們的工作。Dreamer項目的代碼可在GitHub上公開獲得。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說