0
本文作者: AI研習社-譯站 | 2017-09-27 16:59 |
雷鋒網AI研習社【本期論文】
"Imagination-Augmented Agents for Deep Reinforcement Learning"
用于深度強化學習的增強想象智能體
DeepMind發(fā)布的最新論文中提出了,用于深度強化學習的增強想象智能體(Imagination-Augmented Agents)。這個智能體的有趣之處在于,它用到了想象力。不僅能夠獲取當前信息、想象行動結果,還能制定計劃,選擇一種可以夠達到最大預期值的方法。
研究發(fā)現,在軟件中植入想象智能體,就能讓它們更快地學習,論文描述了通過想象計劃(imaginative planning)提高深度強化學習的新方法。
學會想象的智能體在玩 Sokoban(推箱子)游戲時,解決了 85% 的問題,而基準智能體完成了 65%。增強想象智能體的完成率也超過了沒有使用想象計劃的標準智能體的增強版本。
當然,這個通用算法,可以用在很多不同的問題上。推箱子這種小游戲只是展示這個新技術優(yōu)異性能的一種方式。
?觀看論文解讀大概需要 3 分鐘
其實在兩年前,DeepMind團隊就推出了一種算法,能夠通過觀看視頻,就把Atari Breakout(打磚塊)玩得很溜。這個算法推出的時候可以說是轟動一時,短短兩年,那篇論文已經被一千多篇研究論文引用。
這個算法的原理和動物學習新事物的方法類似。它會觀察環(huán)境,嘗試不同的行動然后看它是否奏效。如果奏效,它就會繼續(xù)下去;如果不行,它就會去嘗試其他的東西。
算法背后是基于神經網絡和強化學習的結合。神經網絡系統(tǒng)用來理解視頻,而強化學習則會實施一系列高效的動作,也就是玩游戲的那部分。強化學習非常適合那些處于復雜多變的環(huán)境中的任務。我們需要根據周圍的環(huán)境選擇合適的動作,以便盡可能的多得分。
但是,就早期的算法而言,只要玩游戲的時間一長,它的表現就會變差。(比如,你家小汪在第一次吃到狗糧時開心得抓狂,但是越到后面刺激越弱,它也就不會為狗糧激動了。)
其中有兩個重要的原因,一個是因為這個游戲需要長遠考慮,這對強化學習算法是一個很棘手的問題。第二個原因是,玩家會犯一些難以挽回的錯誤。比如,把箱子推到一個了死角,那他就過不了這一關了,除非我們有一個算法,它能試很多次然后看箱子是不是固定不動。(唔,要實現還是非常有難度的)
根據本期論文顯示,DeepMind增強想象智能體能夠有效解決以上問題。
想知道它具體怎么操作?學霸們還請自行閱讀論文以獲得更多細節(jié)。
論文原址:https://arxiv.org/abs/1707.06203
雷鋒網AI研習社出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時間閱覽前沿技術,了解 AI 領域的最新研究成果。歡迎關注雷鋒網雷鋒字幕組專欄,獲得更多AI知識~感謝志愿者對本期內容作出貢獻。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。