0
雷鋒網(wǎng)消息,近期,CMU發(fā)布了一篇新的論文,由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam,Rob Fergus提出了一種新的學(xué)習(xí)方法,內(nèi)在驅(qū)動(dòng)學(xué)習(xí),或稱異步自我學(xué)習(xí)。論文介紹了該學(xué)習(xí)方式的優(yōu)越性,并與RL方法做了比較,顯示出了在復(fù)雜計(jì)算下內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的效率類似于或更高于RL方法。本文簡(jiǎn)要介紹了這種創(chuàng)新方法的原理。
內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的原理非常簡(jiǎn)單好理解,如下圖:
論文中使用同一個(gè)代理的兩個(gè)不同版本,并用Alice和Bob形象的對(duì)其進(jìn)行命名。通過(guò)Alice和Bob的對(duì)抗學(xué)習(xí),來(lái)實(shí)現(xiàn)代理對(duì)環(huán)境認(rèn)知的無(wú)監(jiān)督學(xué)習(xí)。
這種學(xué)習(xí)方式的實(shí)現(xiàn)簡(jiǎn)單概括為,Alice提出需要Bob實(shí)現(xiàn)的任務(wù);并讓Bob去實(shí)現(xiàn)任務(wù)。特別提出的是,這種機(jī)制著眼于可回退(或近似可回退)的環(huán)境,意味著環(huán)境狀態(tài)允許重置,Alice將會(huì)“提出”任務(wù),任務(wù)由幾個(gè)步驟完成。
然后,Bob將會(huì)進(jìn)行部分步驟回退,或某種意義上的對(duì)Alice已經(jīng)完成的部分進(jìn)行重復(fù)。
雷鋒網(wǎng)了解到,通過(guò)適當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制,Alice和Bob將會(huì)自動(dòng)的生成一個(gè)環(huán)境探索課程,從而實(shí)現(xiàn)代理的無(wú)監(jiān)督學(xué)習(xí)。
比如圖片中的例子就介紹了在Mazebase任務(wù)中實(shí)現(xiàn)的自我學(xué)習(xí)。由Alice提出Bob必須完成的任務(wù)。
在這幅圖片中,Alice首先撿起了鑰匙,開了門后,經(jīng)過(guò)大門,然后關(guān)了燈,于是進(jìn)入到STOP狀態(tài)。
這時(shí),智能體由Bob管控。Bob需要將環(huán)境恢復(fù)到初始狀態(tài),以獲取內(nèi)部獎(jiǎng)勵(lì)。于是,Bob必須先把燈打開,走過(guò)大門,放下鑰匙,才能回到Alice的START狀態(tài)。
這個(gè)過(guò)程需要Bob去學(xué)習(xí)環(huán)境中所有變量的作用。并且,例子中的鑰匙、門、燈和其順序都只是Alice可設(shè)計(jì)的諸多任務(wù)中的一種,
在內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的原理中,Alice可自動(dòng)產(chǎn)生很多的并且難度逐漸提高的任務(wù)。通過(guò)這些任務(wù)的訓(xùn)練,Bob可以逐漸的并且快速完成學(xué)習(xí)。當(dāng)Bob收到一個(gè)新的任務(wù)的時(shí)候,比如走向途中的旗子,由于Bob已經(jīng)充分認(rèn)識(shí)了環(huán)境的情況,他可以很快完成任務(wù)并拿到外部獎(jiǎng)勵(lì)。
當(dāng)使用RL任務(wù)來(lái)實(shí)驗(yàn)這種新的方法時(shí),論文介紹道,內(nèi)在驅(qū)動(dòng)學(xué)習(xí)可以大大減少需要學(xué)習(xí)的內(nèi)容。
原文鏈接:https://arxiv.org/pdf/1703.05407.pdf,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。