CMU提出新型內(nèi)在驅(qū)動(dòng)學(xué)習(xí)方法，在復(fù)雜計(jì)算下效率優(yōu)于強(qiáng)化學(xué)習(xí)

本文作者：雪莉?休斯敦

編輯：郭奕欣

2017-04-29 08:40

導(dǎo)語(yǔ)：CMU近期提出的內(nèi)在自我驅(qū)動(dòng)學(xué)習(xí)方法顯示出了在復(fù)雜計(jì)算下內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的效率類似于或更高于RL方法。

雷鋒網(wǎng)消息，近期，CMU發(fā)布了一篇新的論文，由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam，Rob Fergus提出了一種新的學(xué)習(xí)方法，內(nèi)在驅(qū)動(dòng)學(xué)習(xí)，或稱異步自我學(xué)習(xí)。論文介紹了該學(xué)習(xí)方式的優(yōu)越性，并與RL方法做了比較，顯示出了在復(fù)雜計(jì)算下內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的效率類似于或更高于RL方法。本文簡(jiǎn)要介紹了這種創(chuàng)新方法的原理。

內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的原理非常簡(jiǎn)單好理解，如下圖：

CMU提出新型內(nèi)在驅(qū)動(dòng)學(xué)習(xí)方法，在復(fù)雜計(jì)算下效率優(yōu)于強(qiáng)化學(xué)習(xí)

論文中使用同一個(gè)代理的兩個(gè)不同版本，并用Alice和Bob形象的對(duì)其進(jìn)行命名。通過Alice和Bob的對(duì)抗學(xué)習(xí)，來實(shí)現(xiàn)代理對(duì)環(huán)境認(rèn)知的無(wú)監(jiān)督學(xué)習(xí)。

這種學(xué)習(xí)方式的實(shí)現(xiàn)簡(jiǎn)單概括為，Alice提出需要Bob實(shí)現(xiàn)的任務(wù)；并讓Bob去實(shí)現(xiàn)任務(wù)。特別提出的是，這種機(jī)制著眼于可回退（或近似可回退）的環(huán)境，意味著環(huán)境狀態(tài)允許重置，Alice將會(huì)“提出”任務(wù)，任務(wù)由幾個(gè)步驟完成。

然后，Bob將會(huì)進(jìn)行部分步驟回退，或某種意義上的對(duì)Alice已經(jīng)完成的部分進(jìn)行重復(fù)。

雷鋒網(wǎng)了解到，通過適當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制，Alice和Bob將會(huì)自動(dòng)的生成一個(gè)環(huán)境探索課程，從而實(shí)現(xiàn)代理的無(wú)監(jiān)督學(xué)習(xí)。

比如圖片中的例子就介紹了在Mazebase任務(wù)中實(shí)現(xiàn)的自我學(xué)習(xí)。由Alice提出Bob必須完成的任務(wù)。

在這幅圖片中，Alice首先撿起了鑰匙，開了門后，經(jīng)過大門，然后關(guān)了燈，于是進(jìn)入到STOP狀態(tài)。
這時(shí)，智能體由Bob管控。Bob需要將環(huán)境恢復(fù)到初始狀態(tài)，以獲取內(nèi)部獎(jiǎng)勵(lì)。于是，Bob必須先把燈打開，走過大門，放下鑰匙，才能回到Alice的START狀態(tài)。

這個(gè)過程需要Bob去學(xué)習(xí)環(huán)境中所有變量的作用。并且，例子中的鑰匙、門、燈和其順序都只是Alice可設(shè)計(jì)的諸多任務(wù)中的一種，

在內(nèi)在驅(qū)動(dòng)學(xué)習(xí)的原理中，Alice可自動(dòng)產(chǎn)生很多的并且難度逐漸提高的任務(wù)。通過這些任務(wù)的訓(xùn)練，Bob可以逐漸的并且快速完成學(xué)習(xí)。當(dāng)Bob收到一個(gè)新的任務(wù)的時(shí)候，比如走向途中的旗子，由于Bob已經(jīng)充分認(rèn)識(shí)了環(huán)境的情況，他可以很快完成任務(wù)并拿到外部獎(jiǎng)勵(lì)。

當(dāng)使用RL任務(wù)來實(shí)驗(yàn)這種新的方法時(shí)，論文介紹道，內(nèi)在驅(qū)動(dòng)學(xué)習(xí)可以大大減少需要學(xué)習(xí)的內(nèi)容。

原文鏈接：https://arxiv.org/pdf/1703.05407.pdf，雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

雪莉?休斯敦

知情人士

發(fā)私信

當(dāng)月熱門文章

CMU提出新型內(nèi)在驅(qū)動(dòng)學(xué)習(xí)方法，在復(fù)雜計(jì)算下效率優(yōu)于強(qiáng)化學(xué)習(xí)

CMU提出新型內(nèi)在驅(qū)動(dòng)學(xué)習(xí)方法，在復(fù)雜計(jì)算下效率優(yōu)于強(qiáng)化學(xué)習(xí)