0
本文作者: 李雨晨 | 2019-12-11 08:59 | 專題:NeurIPS 2019 |
在具有挑戰(zhàn)性的環(huán)境中,一些人工智能系統(tǒng)通過利用過去經(jīng)驗所提供的世界表象來實現(xiàn)目標(biāo)。研究人員將這些應(yīng)用推廣到新的情況,使它們能夠在以前從未遇到過的環(huán)境中完成任務(wù)。
事實證明,強化學(xué)習(xí)——一種使用獎勵來推動軟件策略朝著目標(biāo)前進(jìn)的訓(xùn)練技術(shù)——特別適合學(xué)習(xí)一個總結(jié)agent經(jīng)驗的世界模型,并通過擴(kuò)展來促進(jìn)新行為的學(xué)習(xí)。
雷鋒網(wǎng)消息,近日,來自Google、Alphabet子公司DeepMind和多倫多大學(xué)的研究人員發(fā)表了一篇名為《夢想控制:通過潛意識的學(xué)習(xí)行為》的新研究,他們開發(fā)了一個增強型學(xué)習(xí)智能體Dreamer,通過內(nèi)化一個世界模型,并通過通過潛在的“想象力”來提前計劃選擇行動。
他們說,Dreamer不僅適用于任何學(xué)習(xí)目標(biāo),而且在數(shù)據(jù)效率、計算時間以及最終性能方面都超過了現(xiàn)有的方法。
在它的整個生命周期中,無論是交錯還是并行,Dreamer都會學(xué)習(xí)一個latent dynamics model(潛在動力學(xué)模型),以預(yù)測動作和觀察結(jié)果的回報。在這種情況下,“l(fā)atent dynamics model”是指從圖像輸入中學(xué)習(xí)并執(zhí)行計劃以收集新經(jīng)驗的模型。
“潛在”表示它依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列,這使它能夠?qū)W習(xí)更多抽象的表示形式,例如對象的位置和速度。使用編碼器組件,有效地將來自輸入圖像的信息集成到隱藏狀態(tài)中,然后及時地將隱藏狀態(tài)向前投影以預(yù)測圖像和獎勵。
上圖:Dreamer完成一個擺動鐘擺的任務(wù)。中間顯示45步預(yù)測
Dreamer使用了一個多部分的latent dynamics model,這個模型的結(jié)構(gòu)有些復(fù)雜。“表示”位對觀察和動作進(jìn)行編碼,而“過渡”位則在沒有看到會引起觀察的情況下預(yù)見狀態(tài)。第三個組件(獎勵組件)根據(jù)給定的模型狀態(tài)來投影獎勵,而行為模型將實施學(xué)習(xí)的策略并旨在預(yù)測可解決想象的環(huán)境的行為。最終,價值模型評估行動模型實現(xiàn)的預(yù)期想象獎勵,而觀察模型提供反饋信號。
上圖:夢想家在迷宮中導(dǎo)航。中間顯示45步預(yù)測。
雷鋒網(wǎng)了解到,在一系列實驗中,研究人員測試了Dreamer在DeepMind Control Suite中的20個視覺控制任務(wù)上的效果,DeepMind Control Suite是一種用于評估機(jī)器學(xué)習(xí)驅(qū)動的代理的仿真軟件。
他們首先使用Nvidia V100圖形芯片和10個處理器內(nèi)核來訓(xùn)練它,每次培訓(xùn)運行一次。他們說,控制套件上每106個環(huán)境步驟花費了9個小時。(相比之下,Google的Dreamer前身PlaNet花了17個小時才達(dá)到了類似的性能。)
上圖:夢想家在玩Atari游戲(拳擊)。中間顯示45步預(yù)測。
研究人員報告說,Dreamer有效地利用了學(xué)習(xí)的世界模型來從少量經(jīng)驗中進(jìn)行概括,并且它的成功證明了,通過潛在的想象力進(jìn)行的學(xué)習(xí)行為可以勝過頂級方法。他們還說,Dreamer的價值模型即使在短期計劃中也表現(xiàn)良好,在20個任務(wù)中的16個(有4個打成平手)上表現(xiàn)優(yōu)于其他模型。
研究人員寫道:“未來,關(guān)于表征學(xué)習(xí)的研究可能會將潛在的想象力擴(kuò)展到視覺復(fù)雜性更高的環(huán)境中,”研究人員計劃在本周溫哥華的NeurIPS 2019上展示他們的工作。Dreamer項目的代碼可在GitHub上公開獲得。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章