0
雷鋒網(wǎng) AI科技評論按:不同于AlphaGo所處的“完美環(huán)境”,在復雜和不完美的環(huán)境中,智能體能高效地思考,對未來的結果進行想象嗎?DeepMind推出新論文,描述了一類基于想象來進行計劃的新方法,在不完美的環(huán)境中也同樣具有高效性。
雷鋒網(wǎng) AI科技評論將其編譯如下:
在行動之前想象可能出現(xiàn)的結果是人類認知中的一個有力工具。例如,當在桌子邊緣放一個玻璃杯,我們會停下來想一想:這樣穩(wěn)固嗎,杯子會不會掉下來。根據(jù)想象的結果,我們會把杯子的位置調(diào)一下,防止它掉下來摔碎。這種慎重的推理過程實際上就是想象,它是人類一種獨特的能力,在日常生活中至關重要。
如果想讓算法也能執(zhí)行同樣復雜的行為,那么這種算法也必須和人一樣,對未來具有想象和推理能力。除此之外,他們還必須會利用這種能力來制定計劃。已經(jīng)有算法能做出許多引人矚目的事情——特別是像AlphaGo這樣的程序,它使用內(nèi)部模型來分析行為是如何產(chǎn)生結果的,以便進行推理和計劃。這些內(nèi)部模型運行得很好,因為像圍棋這樣的環(huán)境是“完美的”——這些算法有明確定義的規(guī)則,在幾乎所有情況下都能準確地預測出結果。但現(xiàn)實世界是復雜的,規(guī)則并不會定義得那么清楚,經(jīng)常會有未知的情況出現(xiàn)。即使是最聰明的智能體,在這樣的復雜環(huán)境中進行想象也是一個漫長、耗費巨大的過程。
能夠應付不完美的環(huán)境,學會使規(guī)劃策略適應當前的情況,這些都是重要的研究課題。
在論文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning中,DeepMind描述了一類基于想象來進行計劃的新方法。同時也介紹了一些架構,這種架構能為智能體提供學習和制定計劃的新方法,使任務的效率最大化。這些架構很高效,在復雜和不完美的環(huán)境中具有魯棒性,能夠通過想象采取靈活的策略。
增強想象智能體
這類智能體得益于一個“想象力編碼器”——能為智能體的未來決策提取一切有用信息,忽視無關信息的神經(jīng)網(wǎng)絡。這些智能體的明顯特征如下:
能夠?qū)W會說明智能體的內(nèi)部模擬過程。這使得他們能夠使用模型,粗略地捕捉環(huán)境的動態(tài),即使有時候那些動態(tài)并不完美。
有效的運用想象力。通過改變想象的軌跡的數(shù)量,來適應問題。編碼器也提高了效率,它能通過想象提取獎勵之外的信息,這些想象的軌跡可能包含有用的線索,即使他們并不一定導致較高的獎勵。
能學習不同的策略來制定計劃。可以選擇繼續(xù)當前想象的軌跡或者從頭開始?;蛘?,他們可以利用不同的想象模型,這些模型具有不同的精度和計算成本。這為他們提供了大量高效的規(guī)劃策略,而不是局限于一成不變的、在不完美環(huán)境中會限制系統(tǒng)適應性的方法。
測試架構
DeepMind在不同的游戲上測試了這個架構,包括益智游戲推箱子和宇宙飛船航行游戲。這兩款游戲都需要提前計劃和推理,這使得它們成為測試智能體能力的絕佳環(huán)境。
在推箱子中,智能體必須把箱子推到目標上。因為箱子只能被推,許多移動都是不可逆的(例如,推到角落里的盒子不能被拉出來)。
在宇宙飛船游戲中,智能體必須通過固定的次數(shù)激活推進器,進而穩(wěn)定飛船。在游戲中必須與幾個星球的引力相抗衡,這是一個很復雜的非線性連續(xù)調(diào)節(jié)任務。
為了限制這兩個游戲的試錯行為,每一關都是程序生成的,失敗之后不能再重玩。這鼓勵智能體在實際環(huán)境中行動之前,先想象執(zhí)行不同的策略帶來的結果。
在上圖中,游戲中的元素是以像素形式呈現(xiàn)給智能體的,它并不知道游戲的規(guī)則。在特定的時間點上,DeepMind將智能體對接下來5種可能的想象進行了可視化。根據(jù)這些信息,智能體決定采取什么行動。相應的軌跡在圖中已經(jīng)標明。
圖示為玩飛船游戲的智能體。紅線表示在游戲中執(zhí)行的軌跡操作,藍線和綠線描述了想象的軌跡。
對于這兩種任務,增強想象的智能體都優(yōu)于作為基準的無想象智能體:他們可以通過更少的經(jīng)驗來學習,并且能夠處理對環(huán)境建模時的缺陷。智能體能夠從內(nèi)部模擬中提取更多的知識,因此他們可以用更少的想象步驟解決更多的任務,優(yōu)于傳統(tǒng)的搜索方法,比如蒙特卡羅樹搜索。
當增加一個有助于制定計劃的管理組件時,智能體就會學著用更少的步驟更高效地解決問題。在宇宙飛船任務中,它可以分辨環(huán)境中的引力是強還是弱,這意味著需要不同數(shù)量的想象步驟。當為智能體提供環(huán)境中的多個模型時,每個模型在質(zhì)量和成本上都有所不同,它學會了做出有意義的權衡。最后,如果每執(zhí)行一步,想象的計算成本增加,那么智能體就會在早期想象多個步驟的結果,并且在之后依靠這種想象的結果,而不需要再次進行想象。
能夠應付不完美的環(huán)境,并學會使規(guī)劃策略適應當前的情況是重要的研究課題。DeepMind的兩篇新論文Learning model-based planning from scratch、Imagination-Augmented Agents for Deep Reinforcement Learning,以及Hamrick等人之前的研究,考慮到了這些問題?;谀P偷膹娀瘜W習和計劃是研究的熱點,為了提供可擴展的方法來豐富基于模型的、能運用想象力對未來進行計劃和推理的智能體,需要進一步分析和思考。
via:DeepMind Blog
雷鋒網(wǎng) AI科技評論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。