0
本文作者: AI研習(xí)社-譯站 | 2020-09-16 15:51 |
字幕組雙語(yǔ)原文:探索與執(zhí)行:通過(guò)元強(qiáng)化學(xué)習(xí)分解實(shí)現(xiàn)無(wú)獎(jiǎng)勵(lì)自適應(yīng)
英語(yǔ)原文:Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning
翻譯:雷鋒字幕組(小哲)
比家務(wù)活更有成就感的活動(dòng)。
沒有人喜歡家務(wù) 一 我們可以制造機(jī)器人來(lái)幫我們做這些家務(wù)嗎?例如做飯。 訓(xùn)練執(zhí)行各種任務(wù)的智能體的一個(gè)通常范式就是針對(duì)每個(gè)特定的任務(wù)利用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練一個(gè)單獨(dú)的智能體,可是在人們的家中利用強(qiáng)化學(xué)習(xí)的方式從頭開始訓(xùn)練一個(gè)智能體將會(huì)完全失敗,因?yàn)檫@(訓(xùn)練過(guò)程)將會(huì)導(dǎo)致許多的災(zāi)難(例如廚房火災(zāi)),而且采用強(qiáng)化學(xué)習(xí)的方式從頭開始訓(xùn)練一個(gè)智能體需要來(lái)自每個(gè)人大量的監(jiān)督,從而對(duì)機(jī)器人成功做出一頓飯給出獎(jiǎng)勵(lì),并且這也會(huì)花費(fèi)大量的時(shí)間(從頭學(xué)習(xí)每一個(gè)簡(jiǎn)單的任務(wù)都需要強(qiáng)化學(xué)習(xí)智能體數(shù)百萬(wàn)次嘗試)。
相反, 理想的做法是,如果一個(gè)機(jī)器人首先在機(jī)器人廚師工廠中首次訓(xùn)練完成之后,我們就可以訓(xùn)練它使其能夠快速適應(yīng)各種各樣的家庭廚房。直觀地說(shuō), 這應(yīng)該是可能的, 因?yàn)椴煌娜蝿?wù)和環(huán)境都擁有大量相似結(jié)構(gòu)(例如, 在一個(gè)廚房里做比薩餅類似于在另一個(gè)廚房里做漢堡包), 這可以使學(xué)習(xí)每一項(xiàng)任務(wù)變得更容易和更有效率。
幸運(yùn)的是,在對(duì)許多相似的任務(wù)進(jìn)行了第一次訓(xùn)練之后,元強(qiáng)化學(xué)習(xí)尋找的確切目標(biāo)是通過(guò)對(duì)新任務(wù)很少的交互來(lái)訓(xùn)練智能體使其適應(yīng)新任務(wù),那么, 為什么今天沒有機(jī)器人在我們的廚房做飯呢? 為了回答這個(gè)問(wèn)題, 我們將把注意力轉(zhuǎn)向元探索的問(wèn)題: 如何最好的利用這些很少的交互來(lái)探索新的任務(wù). 例如, 為了適應(yīng)一個(gè)新的廚房, 一個(gè)機(jī)器人廚師理想的情況下應(yīng)該花很少的互動(dòng)來(lái)探索新廚房來(lái)尋找配料(烹飪?cè)?, 這允許它能夠作出一頓飯(解決這個(gè)任務(wù)). 在這篇博文中, 我們將討論并解決關(guān)于的元探索的兩個(gè)關(guān)鍵挑戰(zhàn), 這兩個(gè)挑戰(zhàn)讓人類留在廚房(意思就是機(jī)器人不能正常工作)。
第一, 我們將展示現(xiàn)有的元強(qiáng)化學(xué)習(xí)方法存在雞和蛋耦合的難題: 如果機(jī)器人已經(jīng)知道如何做飯的話, 那么學(xué)習(xí)探索發(fā)現(xiàn)烹飪?cè)现荒軒椭鷻C(jī)器人準(zhǔn)備這頓飯, 但是機(jī)器人只有知道了原料在哪里,它才能學(xué)會(huì)做飯.為了避免學(xué)習(xí)探索與學(xué)習(xí)執(zhí)行(解決任務(wù))的循環(huán)依賴問(wèn)題, 我們提出一個(gè)目標(biāo)來(lái)讓智能體獨(dú)立的學(xué)習(xí)這兩個(gè)過(guò)程。
第二, 我們也會(huì)發(fā)現(xiàn), 標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)的問(wèn)題設(shè)置希望機(jī)器人能夠通過(guò)試錯(cuò)作出正確的飯菜,甚至沒有告訴機(jī)器人做什么飯, 這不必要的使元探索的問(wèn)題變復(fù)雜,為了避免這個(gè)問(wèn)題, 我們提出一個(gè)基于指令的元強(qiáng)化學(xué)習(xí)方法, 在這種方法中,機(jī)器人將會(huì)收到特定做什么飯的指令。
標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)設(shè)置
在開始之前, 我們回顧一下標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)的問(wèn)題討論, 在元強(qiáng)化學(xué)習(xí)中,一個(gè)智能體(例如一個(gè)機(jī)器人廚師)需要在不同的環(huán)境(不同的廚房)和不同的任務(wù)(不同的飯菜)中進(jìn)行訓(xùn)練, 然后需要在新的環(huán)境和新的任務(wù)中進(jìn)行元測(cè)試, 在面對(duì)一個(gè)新環(huán)境和一個(gè)新任務(wù)時(shí),在真正開始執(zhí)行任務(wù)之前, 智能體需要花費(fèi)一段時(shí)間探索,來(lái)收集必要的信息(例如, 定位配料的位置),, 然后在執(zhí)行任務(wù)的過(guò)程中,智能體需要完成這個(gè)任務(wù)(例如作出一頓飯)。
在更正式的語(yǔ)言中,標(biāo)準(zhǔn)meta-RL考慮了一系列問(wèn)題,其中每個(gè)問(wèn)題確定了一個(gè)獎(jiǎng)勵(lì)函數(shù)\mathcal{R}\muRμ(例如,烹調(diào)一個(gè)比薩餅)和轉(zhuǎn)換交互的場(chǎng)景(例如,廚房), 使用Duan等人2016年的術(shù)語(yǔ),我們將一個(gè)試驗(yàn)定義為同一問(wèn)題中的幾個(gè)片段, 第一個(gè)階段是探索片段, 在這個(gè)片段中智能體收集信息并且不需要獲得最大回報(bào). 所有接下來(lái)的片段時(shí)執(zhí)行階段, 在這個(gè)階段中,智能體需要完成這個(gè)任務(wù),其目標(biāo)是在元測(cè)試試驗(yàn)的執(zhí)行階段,即在元訓(xùn)練期間的許多試驗(yàn)中進(jìn)行第一次訓(xùn)練之后,最大限度地獲得回報(bào)。
雞和蛋的耦合問(wèn)題。元探索問(wèn)題的通常的方案(Wang et al., 2016, Duan et al., 2016)就是優(yōu)化一個(gè)循環(huán)的策略, 這個(gè)策略基于執(zhí)行事件的獎(jiǎng)勵(lì)進(jìn)行端到端的探索與訓(xùn)練. 我們希望能在重復(fù)策略的隱藏狀態(tài)下,捕捉到探索事件中所學(xué)的信息,然后這些信息將對(duì)執(zhí)行事件有用. 可是這會(huì)導(dǎo)致一個(gè)雞和蛋的耦合問(wèn)題,這就是學(xué)習(xí)很好的探索行為需要已經(jīng)學(xué)到很好的執(zhí)行行為,反之也是這樣這就阻礙了這種方法的學(xué)習(xí)。
例如, 如果一個(gè)機(jī)器人廚師不能發(fā)現(xiàn)廚房中配料的位置(糟糕的探索), 然后它可能就不能學(xué)習(xí)如何做飯(糟糕的執(zhí)行). 另一方面, 如果一個(gè)機(jī)器人不知道如何做的飯(糟糕的執(zhí)行), 那么無(wú)論探索過(guò)程如何做,都不能夠成功的做出一頓飯.這就使得探索過(guò)程充滿了挑戰(zhàn). 由于機(jī)器人剛開始訓(xùn)練時(shí)既不能探索也不能做飯, 將會(huì)陷入一個(gè)局部極小值,并且很難學(xué)習(xí)。
耦合難題。 哪一個(gè)先開始:雞(好的探索)還是蛋(好的執(zhí)行)
利用DREAM避免這個(gè)耦合難題. 為了放置雞和蛋耦合的難題, 我們提出了一個(gè)方法打破在學(xué)習(xí)探索與學(xué)習(xí)執(zhí)行行為二者的這種循環(huán)依賴, 這種方法稱為DREAM。直覺上,通過(guò)嘗試恢復(fù)執(zhí)行指令所需的信息,可以學(xué)習(xí)到良好的探索。因此,從高層次上講,DREAM包括兩個(gè)主要步驟:1)同時(shí)學(xué)習(xí)獨(dú)立于探索的執(zhí)行策略,并了解執(zhí)行所需的信息;2)學(xué)習(xí)一個(gè)探索策略來(lái)恢復(fù)該信息。
為了回答雞和蛋的問(wèn)題, DREAM制作了它自己的蛋并且然后雞出來(lái)了
具體來(lái)說(shuō), 第一步, 我們基于問(wèn)題標(biāo)識(shí)符\mu,訓(xùn)練一個(gè)執(zhí)行策略 \pi^\text{exec}πexec, 在做飯的例子中, 可能要么直接確定廚房的屬性(例如墻的顏色或者配料的位置),要么直接給廚房提供唯一的獨(dú)特的標(biāo)識(shí)符(例如one-hot編碼) 。 這種問(wèn)題標(biāo)識(shí)符(直接或者不直接 ) 編碼了所有必要的信息去解決廚房中的這種問(wèn)題, 允許執(zhí)行策略獨(dú)立于探索過(guò)程進(jìn)行學(xué)習(xí),這種方法避免了耦合問(wèn)題。 同時(shí),我們?cè)诘谝徊街械哪繕?biāo)是只識(shí)別執(zhí)行指令所需的信息,而問(wèn)題標(biāo)識(shí)符也可能編碼無(wú)關(guān)的信息,例如墻顏色。為了移除這些冗余的信息,我們應(yīng)用一個(gè)信息瓶頸的策略來(lái)獲得瓶頸操作后的表示ZZ,我們使用zz來(lái)訓(xùn)練一個(gè)探索的策略\pi^\text{exp}πexp。
在第二步中,一旦我們獲得了一個(gè)瓶頸表示zz(理想情況下只包含執(zhí)行指令所需的信息),我們就可以訓(xùn)練一個(gè)探索策略\pi^\text{exp}πexp來(lái)恢復(fù)探索事件中的信息。為此,我們推出探索策略以獲得一個(gè)片段\tauτ,然后根據(jù)該片段對(duì)zz中包含的信息進(jìn)行編碼的程度來(lái)獎(jiǎng)勵(lì)該策略。粗略地說(shuō),這個(gè)獎(jiǎng)勵(lì)是瓶頸表征zz和片段\tauτ之間的相互信息I(z;\tau)I(z;τ)。
DREAM元測(cè)試
在元訓(xùn)練期間,通過(guò)簡(jiǎn)單地為每個(gè)問(wèn)題分配一個(gè)唯一的one-hot編碼,問(wèn)題標(biāo)識(shí)符\muμ很容易提供,但在元測(cè)試期間通常不可用或沒有幫助(例如,如果\muμ是一個(gè)全新的one-hot編碼)。這似乎很令人擔(dān)憂,因?yàn)樵谠?xùn)練期間,zz上的執(zhí)行策略條件需要知道\muμ。但是,由于探索策略經(jīng)過(guò)訓(xùn)練,可以生成包含與zz相同信息的探索軌跡\tauτ,因此我們可以在元測(cè)試時(shí)通過(guò)推出探索策略直接將\tauτ替換為zz。詳情請(qǐng)看我們的論文!
改進(jìn)標(biāo)準(zhǔn)meta-RL設(shè)置。第二個(gè)元探索挑戰(zhàn)涉及元強(qiáng)化學(xué)習(xí)設(shè)置本身。雖然以上標(biāo)準(zhǔn)的meta-RL設(shè)置是一個(gè)有用的公式,但我們觀察到兩個(gè)方面可以使得元強(qiáng)化學(xué)習(xí)變得更加有現(xiàn)實(shí)意義。首先,標(biāo)準(zhǔn)的設(shè)置需要智能體依據(jù)獲得的獎(jiǎng)勵(lì)自己推斷任務(wù)(例如,做什么飯),這是沒有必要并且非常不高效的. 相反, 在現(xiàn)實(shí)情況下,使用者將會(huì)告訴之恩功能題他們需要什么。
開放和誠(chéng)實(shí)的溝通對(duì)你的機(jī)器人也很重要。
雖然標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)的設(shè)置利用了不同問(wèn)題(環(huán)境和任務(wù)對(duì))之間的共享結(jié)構(gòu),但它不能捕獲同一環(huán)境中不同任務(wù)之間的共享結(jié)構(gòu)。確切的來(lái)說(shuō), 在一次實(shí)驗(yàn)中的所有片段都是固定的,為了執(zhí)行一個(gè)新任務(wù)(例如,做一頓新飯),智能體需要另一個(gè)探索片段,即使底層環(huán)境(如廚房)保持不變。取而代之的是,一個(gè)智能體在一個(gè)探索片段之后,能夠執(zhí)行許多任務(wù)。例如,在探索廚房找到任何配料后,一個(gè)理想的機(jī)器人廚師將能夠烹調(diào)任何涉及這些配料的飯菜,而在標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)環(huán)境中訓(xùn)練的智能體只能做一頓飯。
按照標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)設(shè)置訓(xùn)練的機(jī)器人廚師晚餐安排
這兩個(gè)方面可以掩蓋元探索問(wèn)題,即如何最佳地使用探索片段,因?yàn)榍罢咝枰槐匾奶剿鱽?lái)推斷任務(wù),而后者只需要智能體探索來(lái)發(fā)現(xiàn)與單個(gè)任務(wù)相關(guān)的信息。 雖然直覺上,智能體應(yīng)該花費(fèi)探索片段來(lái)收集有用的信息,以供以后的執(zhí)行事件使用,但在許多情況下,當(dāng)處理簡(jiǎn)單的任務(wù)時(shí)最優(yōu)探索會(huì)崩潰。例如,智能體只能發(fā)現(xiàn)任務(wù)是通過(guò)成功地烹調(diào)比薩餅并獲得積極的獎(jiǎng)勵(lì)來(lái)烹調(diào)比薩餅,但在未來(lái)的執(zhí)行片段中卻一次又一次地做同樣的事情。這會(huì)讓探索情節(jié)幾乎毫無(wú)用處。
基于指令的元強(qiáng)化學(xué)習(xí)。 為了使元強(qiáng)化學(xué)習(xí)具有更好的現(xiàn)實(shí)意義, 我們提出一種新的稱為基于指令的元強(qiáng)化學(xué)習(xí), 這種方法將解決了上邊的兩個(gè)方面的問(wèn)題, (i)給智能體提供一個(gè)指令(例如, 制作比薩或者one-hot編碼),這個(gè)指令在執(zhí)行階段指定了特定的任務(wù)。(ii)在執(zhí)行階段通過(guò)提供不同的指令更換任務(wù)。 例如,在工廠的不同廚房進(jìn)行元訓(xùn)練后,機(jī)器人廚師可以在一個(gè)單獨(dú)的安裝階段(探索片段)后,在新的家庭廚房中烹飪?nèi)祟愔付ǖ脑S多不同的飯菜。
基于指令的meta-RL:改變每一個(gè)執(zhí)行事件的任務(wù)通過(guò)指令傳遞給智能體。在試驗(yàn)中,環(huán)境仍然保持不變。
無(wú)獎(jiǎng)勵(lì)自適應(yīng)。在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置中,為了推斷任務(wù)智能體需要在探索期間進(jìn)行獎(jiǎng)勵(lì)觀察。然而,通過(guò)接收在IMRL中指定任務(wù)的指令,個(gè)好處是代理不再需要觀察獎(jiǎng)勵(lì)來(lái)適應(yīng)新的任務(wù)和環(huán)境。具體地說(shuō),IMRL支持無(wú)獎(jiǎng)勵(lì)適應(yīng),在元訓(xùn)練期間,智能體在執(zhí)行階段使用獎(jiǎng)勵(lì)觀察來(lái)學(xué)習(xí)解決任務(wù),但在探索階段不觀察獎(jiǎng)勵(lì)。在元測(cè)試期間,代理從不觀察任何獎(jiǎng)勵(lì)。這使我們能夠?qū)φ鎸?shí)世界的部署情況進(jìn)行建模,由于在這種真實(shí)世界情況下,收集獎(jiǎng)勵(lì)監(jiān)督非常昂貴。例如,機(jī)器人廚師最好能夠適應(yīng)家庭廚房,而不需要任何人的監(jiān)督。
IMRL通用嗎?重要的是, 把指定設(shè)置為空就退化為標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置. IMRL通用嗎?重要的是, 把指定設(shè)置為空就退化為標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置。 換句話說(shuō), 標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)就是IMRL的一種特殊情況, 在這種情況下,使用者的希望是固定的,并且使用者不給出任何指令。 因此IMRL的算法也可以直接應(yīng)用到標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)中, 反之亦然。
稀疏獎(jiǎng)勵(lì)三維視覺導(dǎo)航。在我們論文中的一個(gè)實(shí)驗(yàn)中,我們?cè)谝粋€(gè)是稀疏獎(jiǎng)勵(lì)三維視覺導(dǎo)航問(wèn)題組中評(píng)估DREAM,這個(gè)問(wèn)題在2020年由Kamienny等人提出,我們?cè)谶@個(gè)問(wèn)題中引入視覺信號(hào)和更多的物體來(lái)世的這個(gè)問(wèn)題變得更難。我們使用IMRL無(wú)獎(jiǎng)勵(lì)適應(yīng)的設(shè)置。在執(zhí)行片段中,智能體收到一個(gè)指向目標(biāo)的指令,一個(gè)球,一個(gè)塊障礙塊者一個(gè)鑰匙,智能體從障礙的另一側(cè)開始執(zhí)行過(guò)程,并且必須繞著障礙物走一圈,閱讀標(biāo)志(用黃色突出顯示),在問(wèn)題的兩個(gè)版本中,標(biāo)識(shí)要么指定到對(duì)象的藍(lán)色或紅色版本。智能體接收80x60 RGB圖像作為觀察,可以向左或向右或向前移動(dòng)。執(zhí)行正確的對(duì)象會(huì)得到+1的獎(jiǎng)勵(lì),而去錯(cuò)誤的對(duì)象會(huì)得到-1的獎(jiǎng)勵(lì)。
如下圖所示, DREAM在這項(xiàng)任務(wù)中學(xué)會(huì)了近乎最佳的探索和執(zhí)行行為。在左邊,DREAM在探索的一段時(shí)間里繞著障礙物走著,看上面寫著藍(lán)色的標(biāo)牌。在右邊,在一個(gè)執(zhí)行片段中,DREAM收到了一個(gè)走到鑰匙的指令。因?yàn)樵谔剿鞯碾A段 DREAM已經(jīng)讀到寫著藍(lán)色的標(biāo)志,所以它走向藍(lán)色鍵。
探索
執(zhí)行(走到鑰匙)
對(duì)比。廣義上來(lái)說(shuō), 以前的元增強(qiáng)學(xué)習(xí)方法分為兩個(gè)組:(i)端到端的方法, 這種方法基于執(zhí)行階段的獎(jiǎng)勵(lì)優(yōu)化探索與執(zhí)行過(guò)程。 (ii)解耦的犯法,這種方法利用單獨(dú)的目標(biāo)單獨(dú)優(yōu)化探索與執(zhí)行過(guò)程,我們對(duì)比DREAM方法和這兩類中目前最優(yōu)的方法, 在端到端訓(xùn)練的類別中,我們對(duì)比
RL^2212, 經(jīng)典的端到端方法,它根據(jù)過(guò)去的狀態(tài)和獎(jiǎng)勵(lì)觀察的整個(gè)序列來(lái)學(xué)習(xí)一個(gè)周期性的策略。
VariBAD3, 該方法在遞歸策略的隱狀態(tài)中增加了輔助損失函數(shù),以預(yù)測(cè)當(dāng)前問(wèn)題的收益和動(dòng)態(tài)。這可以看作是學(xué)習(xí)信念狀態(tài)4,它是對(duì)過(guò)去所有觀察的充分總結(jié)。
IMPORT5,這種方法額外的利用問(wèn)題的屬性來(lái)幫助學(xué)習(xí)執(zhí)行行為。
除此之外, 在解耦類別中,我們對(duì)比:
PEARL-UB,這是PEARL6的上界. 我們利用問(wèn)題的真實(shí)后驗(yàn)分布,分析性地計(jì)算出由特定于問(wèn)題的最優(yōu)策略所獲得的預(yù)期回報(bào)。
定量結(jié)果。 下邊我們打印出所有方法的收益。 對(duì)比實(shí)現(xiàn)了幾乎最優(yōu)結(jié)果的DREAM, 我們發(fā)現(xiàn)端到端訓(xùn)練的方法從來(lái)沒有讀取到標(biāo)志, 并且為了防止收到負(fù)的獎(jiǎng)勵(lì), 結(jié)果就是錯(cuò)過(guò)了所有的物體。 即使他們被允許在探索情節(jié)中觀察獎(jiǎng)勵(lì)(虛線),這種情況也會(huì)發(fā)生。因此,它們沒有得到回報(bào),這表明了耦合問(wèn)題。
另一方面, 盡管解耦類別的方法避免了耦合問(wèn)題, 單是有互目標(biāo)沒有得到最優(yōu)的探索策略。 例如盡管可以獲得特定問(wèn)題的真實(shí)后驗(yàn)概率分布, 湯普森采樣方法(PEARLUB)沒有實(shí)現(xiàn)最優(yōu)的獎(jiǎng)勵(lì),要了解這一點(diǎn),回想一下Thompson抽樣是通過(guò)從后驗(yàn)分布中抽樣一個(gè)問(wèn)題并遵循該問(wèn)題的執(zhí)行策略來(lái)探索的。由于最優(yōu)執(zhí)行策略直接指向正確的對(duì)象,并且從不讀取符號(hào),因此Thompson抽樣在探索過(guò)程中從不讀取符號(hào)。 相比之下,DREAM的一個(gè)很好的特性是,只要有足夠的數(shù)據(jù)和足夠的策略類,它就可以從理論上學(xué)習(xí)最優(yōu)的探索和執(zhí)行。
在探索過(guò)程中有(虛線)和沒有(實(shí)線)獎(jiǎng)勵(lì)的訓(xùn)練曲線。只有夢(mèng)才能讀懂標(biāo)志,解決任務(wù)。而且它在探索過(guò)程中不需要獎(jiǎng)勵(lì)就可以做到!
額外的結(jié)果,在我們的論文中,我們也在額外的簡(jiǎn)愛哦學(xué)問(wèn)題中評(píng)估了DREAM,設(shè)計(jì)這些問(wèn)題來(lái)回答下列問(wèn)題:
DREAM可以高效的探索發(fā)現(xiàn)這些僅僅在執(zhí)行過(guò)程中需要的信息嗎?
DREAM對(duì)于新的指令與環(huán)境能夠很好的泛化嗎?
除了基于指令的元強(qiáng)化學(xué)習(xí)之外,DREAM也可以在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)中獲得提升的結(jié)果嗎?
大體上來(lái)說(shuō),對(duì)于以上問(wèn)題,答案是肯定的,你可以從我們的論文中獲得更加細(xì)節(jié)性的結(jié)果。
總結(jié),在這篇博文中, 我們解決了元探索的難題:在一個(gè)新環(huán)境中為了執(zhí)行一個(gè)任務(wù)如何更好的收集信息。 為了做這個(gè)工作, 我們測(cè)試并且解決兩個(gè)主要的關(guān)鍵挑戰(zhàn)。
首先, 我們看到了現(xiàn)有的元強(qiáng)化學(xué)習(xí)方法如何通過(guò)端到端優(yōu)化探索和執(zhí)行來(lái)最大限度地獲得回報(bào),但卻成為了雞和蛋問(wèn)題的犧牲品。如果智能體還沒有學(xué)會(huì)探索,那么它就無(wú)法收集學(xué)習(xí)解決任務(wù)(例如做飯)所需的關(guān)鍵信息(例如,配料的位置)。另一方面,如果智能體還沒有學(xué)會(huì)解決任務(wù),那么就沒有學(xué)習(xí)探索的信號(hào),因?yàn)闊o(wú)論如何,它都無(wú)法解決任務(wù)。我們通過(guò)提出一個(gè)解耦的目標(biāo)(DREAM)來(lái)避免這個(gè)問(wèn)題循環(huán),即學(xué)習(xí)獨(dú)立地探索和學(xué)習(xí)解決任務(wù)。
第二,我們看到了標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置如何捕捉適應(yīng)新環(huán)境和新任務(wù)的概念,但要求智能體不必要地去探索來(lái)推斷任務(wù)(例如,做什么飯),并且不利用相同環(huán)境中不同任務(wù)之間的共享結(jié)構(gòu)(例如,在同一個(gè)廚房烹飪不同的飯菜)。我們通過(guò)提出基于指令的meta-RL(IMRL)來(lái)解決這個(gè)問(wèn)題,IMRL為智能體提供了一條指定任務(wù)的指令,并要求智能體探索和收集對(duì)許多任務(wù)有用的信息。
DREAM 和 IMRL 很好地結(jié)合在一起: IMRL 原則上實(shí)現(xiàn)了無(wú)獎(jiǎng)勵(lì)的適應(yīng),而 DREAM 在實(shí)踐中實(shí)現(xiàn)了這一點(diǎn)。由于 雞蛋相生 耦合問(wèn)題,我們測(cè)試的其他最先進(jìn)的方法無(wú)法實(shí)現(xiàn)無(wú)獎(jiǎng)勵(lì)的適應(yīng)。
接下來(lái)是什么? 未來(lái)還有很多工作要做 一 下面是一些研究探索的方向:
更復(fù)雜的指令與問(wèn)題ID表述. 這項(xiàng)工作檢查了一個(gè)情況,在這種情況下,指令與問(wèn)題ID都被表達(dá)為唯一的one-hot編碼,作為概念證明。當(dāng)然,在現(xiàn)實(shí)世界中,指令和問(wèn)題ID可能更好地用自然語(yǔ)言或圖像(例如,要烹飪的飯菜的圖片)來(lái)表示。
把DREAM應(yīng)用到元強(qiáng)化學(xué)習(xí)的設(shè)置中, DREAM通常適用于任何元強(qiáng)化學(xué)習(xí)設(shè)置,其中一些信息被傳遞給智能體,其余的信息必須通過(guò)探索來(lái)發(fā)現(xiàn)。在這項(xiàng)工作中,我們研究了兩個(gè)這樣的例子:在IMRL中,指令傳達(dá)任務(wù);在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置中,一切都必須通過(guò)探索來(lái)發(fā)現(xiàn),但是還有其他設(shè)置也值得研究。例如,我們可能希望向智能體傳遞有關(guān)環(huán)境的信息,例如某些配料的位置,或者左邊的煤氣頭壞了,所以機(jī)器人廚師應(yīng)該使用右邊的。
無(wú)縫集成探索和執(zhí)行。在最常見的meta-RL設(shè)置中,允許智能體首先通過(guò)探索(探索階段)收集信息,然后再解決任務(wù)(執(zhí)行階段)。這也是我們研究的環(huán)境,它可以是相當(dāng)現(xiàn)實(shí)的。例如,一個(gè)機(jī)器人廚師可能需要一個(gè)安裝階段,在開始做飯之前,它首先探索家庭廚房。另一方面,一些作品,如Zintgraf et al.,2019,要求智能體從一開始就開始解決任務(wù):沒有探索情節(jié),所有情節(jié)都是執(zhí)行情節(jié)。夢(mèng)在這種情況下已經(jīng)可以運(yùn)作了,只需在第一個(gè)執(zhí)行情節(jié)中忽略獎(jiǎng)勵(lì)和探索,并在隨后的執(zhí)行情節(jié)中用更好的表現(xiàn)來(lái)彌補(bǔ)第一個(gè)執(zhí)行情節(jié)。這項(xiàng)工作令人驚訝地好,但最好能更優(yōu)雅地將探索和執(zhí)行結(jié)合起來(lái)。
雷鋒字幕組是一個(gè)由AI愛好者組成的翻譯團(tuán)隊(duì),匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。
團(tuán)隊(duì)成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運(yùn)營(yíng),IT咨詢?nèi)?,在校師生;志愿者們?lái)自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長(zhǎng)。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。