0
雷鋒網(wǎng)消息,近期,CMU發(fā)布了一篇新的論文,由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam,Rob Fergus提出了一種新的學(xué)習(xí)方法,內(nèi)在驅(qū)動學(xué)習(xí),或稱異步自我學(xué)習(xí)。論文介紹了該學(xué)習(xí)方式的優(yōu)越性,并與RL方法做了比較,顯示出了在復(fù)雜計算下內(nèi)在驅(qū)動學(xué)習(xí)的效率類似于或更高于RL方法。本文簡要介紹了這種創(chuàng)新方法的原理。
內(nèi)在驅(qū)動學(xué)習(xí)的原理非常簡單好理解,如下圖:
論文中使用同一個代理的兩個不同版本,并用Alice和Bob形象的對其進行命名。通過Alice和Bob的對抗學(xué)習(xí),來實現(xiàn)代理對環(huán)境認知的無監(jiān)督學(xué)習(xí)。
這種學(xué)習(xí)方式的實現(xiàn)簡單概括為,Alice提出需要Bob實現(xiàn)的任務(wù);并讓Bob去實現(xiàn)任務(wù)。特別提出的是,這種機制著眼于可回退(或近似可回退)的環(huán)境,意味著環(huán)境狀態(tài)允許重置,Alice將會“提出”任務(wù),任務(wù)由幾個步驟完成。
然后,Bob將會進行部分步驟回退,或某種意義上的對Alice已經(jīng)完成的部分進行重復(fù)。
雷鋒網(wǎng)了解到,通過適當?shù)莫剟顧C制,Alice和Bob將會自動的生成一個環(huán)境探索課程,從而實現(xiàn)代理的無監(jiān)督學(xué)習(xí)。
比如圖片中的例子就介紹了在Mazebase任務(wù)中實現(xiàn)的自我學(xué)習(xí)。由Alice提出Bob必須完成的任務(wù)。
在這幅圖片中,Alice首先撿起了鑰匙,開了門后,經(jīng)過大門,然后關(guān)了燈,于是進入到STOP狀態(tài)。
這時,智能體由Bob管控。Bob需要將環(huán)境恢復(fù)到初始狀態(tài),以獲取內(nèi)部獎勵。于是,Bob必須先把燈打開,走過大門,放下鑰匙,才能回到Alice的START狀態(tài)。
這個過程需要Bob去學(xué)習(xí)環(huán)境中所有變量的作用。并且,例子中的鑰匙、門、燈和其順序都只是Alice可設(shè)計的諸多任務(wù)中的一種,
在內(nèi)在驅(qū)動學(xué)習(xí)的原理中,Alice可自動產(chǎn)生很多的并且難度逐漸提高的任務(wù)。通過這些任務(wù)的訓(xùn)練,Bob可以逐漸的并且快速完成學(xué)習(xí)。當Bob收到一個新的任務(wù)的時候,比如走向途中的旗子,由于Bob已經(jīng)充分認識了環(huán)境的情況,他可以很快完成任務(wù)并拿到外部獎勵。
當使用RL任務(wù)來實驗這種新的方法時,論文介紹道,內(nèi)在驅(qū)動學(xué)習(xí)可以大大減少需要學(xué)習(xí)的內(nèi)容。
原文鏈接:https://arxiv.org/pdf/1703.05407.pdf,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。