0
雷鋒網(wǎng) AI 科技評(píng)論按:近期,Uber AI 研究院提出了一種新的強(qiáng)化學(xué)習(xí)算法 Go-Explore ,它的目標(biāo)是克服當(dāng)前熱門的好奇心(內(nèi)在獎(jiǎng)勵(lì))大類方法尚未克服的遺忘和重復(fù)探索問題。他們也在極具挑戰(zhàn)的 Atari 游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」中實(shí)驗(yàn)了算法,取得了好幾個(gè)數(shù)量級(jí)的表現(xiàn)提升。雷鋒網(wǎng) AI 科技評(píng)論介紹如下。
在強(qiáng)化學(xué)習(xí)(RL)中,解決 Atari 經(jīng)典游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」是一項(xiàng)巨大的挑戰(zhàn)。這些游戲代表了一類具有普遍挑戰(zhàn)性的現(xiàn)實(shí)問題——「硬探索問題」,即智能體必須通過非常稀疏或有欺騙性的反饋來學(xué)習(xí)復(fù)雜任務(wù)。
之前最先進(jìn)的算法玩蒙特祖瑪?shù)钠骄譃?11,347,最高分為 17,500,并且在十次闖關(guān)后通過了第一關(guān)。令人驚訝的是,盡管進(jìn)行了大量的研究工作,但到目前為止對(duì)于 Pitfall,還沒有算法能獲得大于 0 的分?jǐn)?shù)。
今天介紹的 Go-Explore,是一個(gè)新的算法類型,它能夠在蒙特祖瑪上得分超過 2 百萬分,平均得分超過 400萬分!Go-Explore 可以很穩(wěn)定的通關(guān)整個(gè)游戲,其實(shí)這個(gè)游戲只有前三關(guān)不一樣,后續(xù)關(guān)卡都是前三關(guān)的衍生(每個(gè)關(guān)卡僅在時(shí)間的長(zhǎng)短和屏幕顯示的分?jǐn)?shù)上有所不同而已)。Go-Explore 甚至可以達(dá)到159級(jí)!
在 Pitfall 中,Go-Explore的平均得分超過 21,000,遠(yuǎn)超人類的平均表現(xiàn),并且首次在已有算法上實(shí)現(xiàn)零得分的突破。為此,它要穿過 40 個(gè)房間,完成水上繩索跳躍、跳過鱷魚、陷阱門、移動(dòng)桶、爬梯子和躲避其他危險(xiǎn)物。
總而言之,Go-Explore 算法分別將蒙特祖瑪?shù)膹?fù)仇和 Pitfall 的得分現(xiàn)狀提升了兩個(gè)數(shù)量級(jí)和 21,000 分。再者它無需「人工演示」,并且在性能上完勝目前所有涉及「人工演示」的最先進(jìn)的算法。
Go-Explore 可以從人工領(lǐng)域知識(shí)中受益,無需人工通關(guān)游戲作為演示。領(lǐng)域知識(shí)很小,很容易從像素中獲得,這突出了 Go-Explore 利用最小先驗(yàn)知識(shí)的深刻能力。然而,即使沒有任何領(lǐng)域知識(shí),Go-Explore 在蒙特祖瑪中的得分也超過了 3.5 萬分,遠(yuǎn)超現(xiàn)有技術(shù)三倍之多。
Go-Explore 與其他深度強(qiáng)化學(xué)習(xí)算法完全不同。Uber 研究院認(rèn)為它可以在各種重要的,具有挑戰(zhàn)性的問題中取得快速進(jìn)展,特別是機(jī)器人技術(shù)方面。因此他們也希望它能夠幫助 Uber 和其他團(tuán)隊(duì)更多地利用人工智能的優(yōu)勢(shì)。
獎(jiǎng)勵(lì)稀疏的問題很難解決,因?yàn)殡S機(jī)行為無法產(chǎn)生獎(jiǎng)勵(lì),因此無法學(xué)習(xí)。蒙特祖瑪就是這樣一個(gè)獎(jiǎng)勵(lì)稀疏的問題。獎(jiǎng)勵(lì)具有欺騙性時(shí)就更棘手,這意味著在短期內(nèi)最大化獎(jiǎng)勵(lì)可能會(huì)使智能體在總分上表現(xiàn)不佳。Pitfall 中的獎(jiǎng)勵(lì)則具有欺騙性,許多行為會(huì)導(dǎo)致小的負(fù)面獎(jiǎng)勵(lì)(比如擊中敵人),因此大多數(shù)算法都選擇智能體不移動(dòng),因此永遠(yuǎn)無法收集到其他獎(jiǎng)勵(lì)。許多具有挑戰(zhàn)性的現(xiàn)實(shí)問題的獎(jiǎng)勵(lì)都是稀疏和有欺騙性的。
普通的 RL 算法通常無法離開蒙特祖瑪?shù)牡谝粋€(gè)房間(得分為400或更低)并且在 Pitfall 上得分為 0 或更低。為了嘗試解決這些挑戰(zhàn),研究人員為智能體增加了探索獎(jiǎng)勵(lì),通常稱為內(nèi)在動(dòng)機(jī)(intrinsic motivation,IM),鼓勵(lì)他們到達(dá)新狀態(tài)(情境或地點(diǎn))。盡管 IM 算法專門用于解決稀疏獎(jiǎng)勵(lì)問題,但他們?cè)诿商刈娆敽蚉itfall的任務(wù)中仍表現(xiàn)不佳,在蒙特祖瑪中表現(xiàn)最好的也鮮有能過第一關(guān)的,在Pitfall中更是以0分完敗。
Uber AI 的研究人員們猜測(cè)當(dāng)前 IM 算法的一個(gè)主要弱點(diǎn)是分離,即算法忘記了他們?cè)L問過的「有獎(jiǎng)勵(lì)」的區(qū)域,這意味著他們返回這些區(qū)域的時(shí)候不會(huì)再有新的獎(jiǎng)勵(lì)。舉個(gè)例子,想象智能體處在兩個(gè)迷宮入口之間。它先從左邊的迷宮開始隨機(jī)搜索,由于 IM 算法有要求智能體隨機(jī)的嘗試新行為以找到更多的內(nèi)在獎(jiǎng)勵(lì)的機(jī)制,在搜索完左邊迷宮的 50 %時(shí),智能體會(huì)在任意時(shí)刻開始對(duì)右邊迷宮的搜索,但由于深度學(xué)習(xí)自身的災(zāi)難性遺忘問題,在完成右邊的搜索后智能體并不記得在左邊迷宮中探索的事情;更糟糕的是,左邊迷宮的一部分已經(jīng)被探索過,所以幾乎沒有可獲得的內(nèi)在獎(jiǎng)勵(lì),這就嚴(yán)重影響了智能體的學(xué)習(xí)過程。Uber AI 的研究人員們將這種狀況稱為:算法從提供內(nèi)在動(dòng)機(jī)的狀態(tài)范圍分離開了。因此,當(dāng)已經(jīng)探索了當(dāng)前智能體訪問過的區(qū)域時(shí),探索可能會(huì)停滯。如果智能體能夠返回到先前發(fā)現(xiàn)的有獎(jiǎng)勵(lì)的探索區(qū)域,就可以解決這個(gè)探索停滯問題。
內(nèi)在動(dòng)機(jī)(IM)算法中的分離示例。 綠色區(qū)域表示內(nèi)在獎(jiǎng)勵(lì),白色表示沒有內(nèi)在獎(jiǎng)勵(lì)的區(qū)域,紫色區(qū)域表示算法當(dāng)前正在探索的位置。
Go-Explore算法的高度概括
而 Uber AI 提出的新算法 Go-Explore 將學(xué)習(xí)分為兩個(gè)步驟:探索和強(qiáng)化。
階段1:探索到解決為止。 Go-Explore 構(gòu)建了一個(gè)有趣的不同游戲狀態(tài)(稱之為「單元格」)和導(dǎo)致狀態(tài)軌跡的存檔,如下所示:
重復(fù)到解決為止:
根據(jù)概率選擇存檔中的單元格(可選擇有可能有獎(jiǎng)勵(lì)的單元格,例如更新的單元格)
回到那個(gè)單元格
從該單元格開始探索(例如,隨機(jī)進(jìn)行 n 個(gè)步驟)
對(duì)于所有訪問的單元格(包括新單元格),如果新的軌跡更好(例如更高的分?jǐn)?shù)),則更新單元格軌跡。
通過在存檔中明確記錄狀態(tài)的軌跡,Go-Explore 能夠記住并返回到「有獎(jiǎng)勵(lì)」的區(qū)域進(jìn)行探索(這不同于內(nèi)在動(dòng)機(jī)的訓(xùn)練策略)。此外,通過探索單元格前先返回單元格的操作,特別是對(duì)于那些距離遠(yuǎn)的、難以到達(dá)的單元格,Go-Explore 避免過度探索容易達(dá)到的狀態(tài)(例如在起點(diǎn)附近),而是專注于擴(kuò)展其知識(shí)領(lǐng)域。最后,因?yàn)?Go-Explore 嘗試訪問所有可達(dá)狀態(tài),所以它不太容易受到欺騙性獎(jiǎng)勵(lì)的影響。熟悉質(zhì)量多樣性算法的人可以理解這些想法。下文將繼續(xù)討論 Go-Explore 如何表示一種新型的質(zhì)量多樣性算法。
階段2:強(qiáng)化(如有必要)。如果找到的解決方案對(duì)噪聲的魯棒性較差,可以使用模擬學(xué)習(xí)算法將它們置于深度神經(jīng)網(wǎng)絡(luò)中。
為了能夠駕馭 Atari 游戲這樣的高維狀態(tài)空間,Go-Explore 需要一個(gè)較低維度的單元格表示來進(jìn)行存檔。因此,單元格表示應(yīng)該將十分相似且無需單獨(dú)探索的狀態(tài)進(jìn)行合并(但不混合意義上有差別的狀態(tài))。重要的是,創(chuàng)建這樣的表示不需要游戲特定的領(lǐng)域知識(shí)。經(jīng)研究發(fā)現(xiàn),最樸素的單元格表示可能非常有效:只需對(duì)當(dāng)前游戲框架進(jìn)行下采樣。
根據(jù)環(huán)境的限制,可以通過以下三種方式實(shí)現(xiàn)探索之前先返回單元格的操作。為了提高效率:
可重置環(huán)境中,可以簡(jiǎn)單地將環(huán)境狀態(tài)重置為單元格的狀態(tài)
在確定性環(huán)境中,可以重現(xiàn)到細(xì)胞的軌跡
在隨機(jī)環(huán)境中,人們可以訓(xùn)練一個(gè)學(xué)習(xí)可靠返回到單元格的目標(biāo)條件策略
雖然大多數(shù)有趣的問題都是隨機(jī)的,但 Go-Explore 背后的一個(gè)核心思想是我們可以先解決問題,之后再想辦法使解決方案更加具有魯棒性(如有必要)。特別是,我們通常認(rèn)為確定性會(huì)阻礙產(chǎn)生更具魯棒性、更高性能的智能體,但 Go-Explore 觀點(diǎn)與之相反,當(dāng)我們了解到模擬器是確定的和可重置的(通過保存和還原模擬器狀態(tài))事實(shí)后,確定性可能還有助于產(chǎn)生更高性能的智能體,然后可以隨機(jī)創(chuàng)建一個(gè)更強(qiáng)大的策略(包括添加領(lǐng)域隨機(jī)化)。此觀察結(jié)果與機(jī)器人任務(wù)尤為相關(guān),在策略遷移到實(shí)際任務(wù)之前,需要在模擬器中完成相關(guān)訓(xùn)練。
Atari 游戲是可重置的,因此出于效率原因,Uber AI 的研究人員們通過加載游戲狀態(tài)返回到先前訪問過的單元格。在蒙特祖瑪?shù)膹?fù)仇中,這種優(yōu)化使他們能夠比「回顧軌跡方法」快 45 倍地通關(guān)第一級(jí)。然而,Go-Explore 不需要訪問模擬器,訪問模擬器只是為了讓它變得更快。
在這項(xiàng)工作中,當(dāng)智能體返回一個(gè)經(jīng)隨機(jī)行為探索的單元格后(很可能重復(fù)以前的行為)。盡管在強(qiáng)化中常常會(huì)用到神經(jīng)網(wǎng)絡(luò),但這種探索不需要神經(jīng)網(wǎng)絡(luò)或其他控制器,并且后續(xù)實(shí)驗(yàn)中所有的探索都不使用。完全隨機(jī)的探索工作非常好的突出了僅返回目標(biāo)單元格的驚人能力。
通過下采樣圖像單元格表示,在蒙特祖瑪游戲中, Go-Explore 僅用了先前技術(shù)的 65% 的時(shí)間就通關(guān)了第一關(guān)(其中包含24個(gè)不必要探索的房間),平均到達(dá)房間 37 個(gè),而先前的技術(shù)水平平均只探索了22個(gè)房間。
Go-Explore在沒有領(lǐng)域知識(shí)(通過縮小像素表示)的探索階段發(fā)現(xiàn)的房間數(shù)量
Uber AI 當(dāng)前版本的 Go-Explore 利用確定性來更快地找到解決方案(高性能軌跡)。這樣的軌跡是脆弱的:不能泛化到其他差異場(chǎng)景中,包括那些通過使 Atari 游戲有點(diǎn)隨機(jī)的經(jīng)典方式所創(chuàng)造的狀態(tài),即迫使智能體在開始游戲之前隨機(jī) 30 多次什么都不做。
Go-Explore 通過模仿學(xué)習(xí)解決了這個(gè)脆弱性問題,模仿學(xué)習(xí)是一種可以從演示中學(xué)習(xí)魯棒無模型策略的算法。通常這樣的算法需要人工演示,但是 Go-Explore 的第1階段可以自動(dòng)生成這樣的演示(其中一部分比人工演示效果更好)。
任何可靠的模仿學(xué)習(xí)算法都可行。起初 Uber AI 的研究人員們選擇了 Salimans 和 Chen 的「后向算法」,因?yàn)樗情_源的,并且在提供人工演示時(shí)可以解決蒙特祖瑪?shù)膯栴}。
他們還發(fā)現(xiàn)從單一演示中學(xué)習(xí)有點(diǎn)不可靠。然而,因?yàn)?Go-Explore 可以產(chǎn)生大量的演示,他們?yōu)榱送瑫r(shí)學(xué)習(xí)多個(gè)演示而改進(jìn)了后向算法(在這種情況下學(xué)習(xí) 4 個(gè)演示,以及后面的領(lǐng)域知識(shí)實(shí)驗(yàn)中 10 個(gè))。他們還在初始條件中添加了一個(gè)隨機(jī)數(shù)的無操作(不執(zhí)行任何命令),以使策略對(duì)此類隨機(jī)性具有魯棒性。
所有試圖從蒙特祖瑪?shù)谝魂P(guān)通關(guān)軌跡中學(xué)習(xí)的魯棒策略都有效。平均得分為 35,410 分,是之前技術(shù)水平均分 11,347 分的 3 倍以上,并略高于人類專家的均分 34,900 分!
無領(lǐng)域知識(shí)的Go-Explore與其他RL算法在Montezuma復(fù)仇中的比較。情節(jié)中的每一點(diǎn)都代表了一個(gè)不同的算法,測(cè)試蒙特祖瑪?shù)膹?fù)仇。
算法能將易得的領(lǐng)域知識(shí)集成的能力是很重要的。Go-Explore 支持利用單元格表示中的領(lǐng)域知識(shí)。Uber AI 的研究人員們?cè)诿商刈娆斏蠝y(cè)試了具有領(lǐng)域知識(shí)的 Go-Explore 版本,其中單元格被定義為智能體的 x-y 位置、當(dāng)前房間、當(dāng)前關(guān)卡和當(dāng)前持有的密鑰數(shù)量的唯一組合。他們編寫了簡(jiǎn)單的代碼來直接從像素中提取這些信息。
通過這種改進(jìn)的狀態(tài)表示,在 Go-Explore 的第 1 階段,智能體就驚人地發(fā)現(xiàn)了 238 個(gè)房間,平均通過 9 個(gè)關(guān)卡,并且在模擬器中,相比與縮略圖的單元格表示,Go-Explore 智能體僅用了一半步驟就完成了該任務(wù)。
僅使用由像素導(dǎo)出的領(lǐng)域知識(shí)的單元格表示,Go-Explore第1階段發(fā)現(xiàn)的房間數(shù)量,
利用有領(lǐng)域知識(shí)的 Go-Explore 版本找到的軌跡的而產(chǎn)生的深度神經(jīng)網(wǎng)絡(luò)策略,可以穩(wěn)定的通過蒙特祖瑪?shù)那叭齻€(gè)關(guān)卡(并且對(duì)隨機(jī)數(shù)量的初始無操作具有魯棒性)。因?yàn)樵谶@個(gè)游戲中,3 級(jí)以上的所有關(guān)卡幾乎相同(如上所述),Go-Explore 已經(jīng)通關(guān)了整個(gè)游戲!
事實(shí)上,Uber AI 的智能體大致已經(jīng)超過了他們的初始軌跡,平均通過 19 關(guān)并獲得了 469,209 的分?jǐn)?shù)!這就已經(jīng)突破了蒙特祖瑪?shù)淖詈贸煽?jī),無論是相對(duì)于傳統(tǒng)的 RL 算法還是以人工演示形式提供解決方案的模仿學(xué)習(xí)算法。令人難以置信的是,一些 Go-Explore 的神經(jīng)網(wǎng)絡(luò)得到了 200 多萬分、159級(jí)!為了充分了解這些智能體可以做到什么程度,Uber AI 增加了 OpenAI 的 Gym 允許智能體玩游戲的時(shí)間。 Go-Explore 的最高分?jǐn)?shù)遠(yuǎn)高于人類世界紀(jì)錄 1,219,200,可以說達(dá)到了嚴(yán)格意義上的「超越人類表現(xiàn)」。
結(jié)合領(lǐng)域知識(shí)的GO-EXPLORE與其他RL算法的比較。紅點(diǎn)表示以人工演示的形式給出的解決方案的算法
這個(gè)破紀(jì)錄的完整視頻在加速 4 倍后仍然有 53 分鐘長(zhǎng)。智能體不會(huì)死亡,只是達(dá)到了最大時(shí)間限制(盡管時(shí)間已經(jīng)大大增加)。
Pitfall 也需要大量的探索,并且比蒙特祖瑪更難,因?yàn)樗莫?jiǎng)勵(lì)更稀疏(只有 32 個(gè)積極獎(jiǎng)勵(lì)分散在 255 個(gè)房間中),許多行動(dòng)產(chǎn)生小的負(fù)面獎(jiǎng)勵(lì),阻止 RL 算法探索環(huán)境。目前為止,所有已知的 RL 算法在這個(gè)游戲中甚至沒有收到任何一個(gè)積極獎(jiǎng)勵(lì)(沒有給人工演示的情況下)。
相比之下,Go-Explore 在具有最小領(lǐng)域知識(shí)的情況下,即我們從像素中獲得的屏幕上的位置和房間號(hào),其能夠訪問所有 255 個(gè)房間并在算法的探索階段收集超過 60,000 個(gè)點(diǎn)。沒有領(lǐng)域知識(shí)(即在縮小的像素表示)的情況下,Go-Explore 找到了 22 個(gè)房間,但沒有找到任何獎(jiǎng)勵(lì)。Uber AI 的研究人員們認(rèn)為縮小的像素表示在Pitfall上的表現(xiàn)不佳,因?yàn)橛螒虬S多具有相同像素表示的不同狀態(tài)(即游戲中位置不同但外觀相同的房間)。在沒有領(lǐng)域知識(shí)的情況下區(qū)分這些狀態(tài)可能需要考慮先前狀態(tài)的狀態(tài)表示,或者開發(fā)其他技術(shù)。
在Go-Explore 在Pitfall游戲中探索階段發(fā)現(xiàn)的房間(左)和獲得的獎(jiǎng)勵(lì)(右)。
從探索階段收集的軌跡中,Uber AI 能夠可靠地收集超過 21,000 點(diǎn)的軌跡進(jìn)行強(qiáng)化,這大大超過現(xiàn)有技術(shù)水平和人類平均表現(xiàn)。 更長(zhǎng)、更高得分的軌跡強(qiáng)化起來很困難,可能是因?yàn)橐曈X上無法區(qū)分的狀態(tài)可能需要采取不同的行為。 他們相信可以通過進(jìn)一步研究智能體消除狀態(tài)歧義的技術(shù)來解決這個(gè)問題。
Uber AI 認(rèn)為 Go-Explore 之所以在「硬探索問題」上表現(xiàn)非常出色是源于三個(gè)關(guān)鍵原則:
記住探索過程中好的「基礎(chǔ)步驟」(目前為止訪問到的不同的有趣場(chǎng)景)
先返回到一個(gè)場(chǎng)景,然后再探索
先解決問題,然后進(jìn)行魯棒化(如有必要)
大多數(shù) RL 算法中都沒有應(yīng)用這些思想,但如果把這些思想嵌入到以往 RL 算法中,那將會(huì)是一件有意思的事情。如上所述,目前的 RL 算法不會(huì)考慮第一點(diǎn)。第二點(diǎn)很重要,因?yàn)楫?dāng)前的 RL 算法采用隨機(jī)擾動(dòng)參數(shù)或隨機(jī)動(dòng)作的探索策略是希望能夠探索到環(huán)境內(nèi)的新區(qū)域,這些區(qū)域可能會(huì)因?yàn)橐恍┎呗陨系母淖兌沟弥悄荏w表現(xiàn)的非常差,如在進(jìn)行進(jìn)一步區(qū)域探索之前不能先返回到難以到達(dá)的場(chǎng)景中。這個(gè)問題會(huì)隨著到達(dá)狀態(tài)的必要?jiǎng)幼餍蛄懈L(zhǎng)、更復(fù)雜、要求更為精確變得越來越嚴(yán)重。Go-Explore 通過首先返回狀態(tài)然后從那里開始探索來解決這個(gè)問題。這樣做可以保證找到問題解決方案后的深入探索,然后在此基礎(chǔ)上魯棒化以產(chǎn)生更可靠的策略(原則3)。
從存檔的軌跡中保存和探索的想法來自質(zhì)量多樣性(QD)算法類型(如 MAP-elites 和本地比賽的新穎搜索),Go-Explore 是基于 MAP-Elites 的增強(qiáng) QD 算法。然而,之前的 QD 算法側(cè)重于通過隨機(jī)擾當(dāng)前存檔策略來探索行為空間,而不是通過重新探索來明確探索狀態(tài)空間。從狀態(tài)空間的確切位置開始,之前的探索就停止了。實(shí)際上,Go-Explore 提供了比其他 QD 方法更有控制的狀態(tài)空間探索,確保探測(cè)范圍通過狀態(tài)空間累積,因?yàn)槊總€(gè)新的探索軌跡都離開了前一個(gè)探測(cè)軌跡的終點(diǎn)。
值得注意的是,當(dāng)前版本的 Go-Explore 通過在探索時(shí)采取完全隨機(jī)的行為(沒有任何神經(jīng)網(wǎng)絡(luò)?。﹣砉ぷ鳎⑶壹词箲?yīng)用在狀態(tài)空間的簡(jiǎn)單離散化上也很有效。盡管搜索如此簡(jiǎn)單,但它的成功有力地表明了記住和探索良好的軌跡是有效探索的關(guān)鍵,并且進(jìn)行簡(jiǎn)單探索比深層RL方法更有助于尋找新狀態(tài)并完成狀態(tài)表示。如果將其與有效的,經(jīng)過學(xué)習(xí)的表示相結(jié)合,并用更智能的探索策略取代當(dāng)前的隨機(jī)探索,Go-Explore 可以更加強(qiáng)大。這也是我們正在追求的兩種途徑。
Go-Explore 還演示了解決探索和處理環(huán)境隨機(jī)性的問題是可以通過以下兩個(gè)階段分別完成的,即先在確定性環(huán)境中進(jìn)行探索然后強(qiáng)化相關(guān)解決方案。依賴于訪問確定性環(huán)境最初可能看起來像是 Go-Explore 的缺點(diǎn)。但是,Uber AI 認(rèn)為確定性環(huán)境可用于許多流行的 RL 領(lǐng)域,包括計(jì)算機(jī)游戲,機(jī)器人模擬器,甚至學(xué)術(shù)世界模型。一旦找到一種或多種魯棒性較弱的解決方案后,就可以在模擬中生成穩(wěn)健的解決方案。如果最終目標(biāo)是應(yīng)用于現(xiàn)實(shí)中的策略(例如,機(jī)器人技術(shù)),則可以使用許多可用技術(shù)中的任何一種將強(qiáng)健策略從模擬器中轉(zhuǎn)移到現(xiàn)實(shí)世界。此外,Uber AI 計(jì)劃證明用目標(biāo)條件策略替代加載確定性狀態(tài)的可能性,該策略從一開始就學(xué)習(xí)處理隨機(jī)環(huán)境。這樣的算法仍然可以從 Go-Explore 的三個(gè)關(guān)鍵原則中受益。
有些人可能持反對(duì)意見,雖然這種方法已經(jīng)在采集原始像素進(jìn)行 Atari 的高維域中證明有效,但它無法擴(kuò)展到真實(shí)的高維域,如現(xiàn)實(shí)世界的模擬器中。Uber AI 則相信這種方法在真實(shí)高維域也可以工作,但它必須將不同的有趣狀態(tài)(例如,世界的學(xué)習(xí),壓縮表示)的更智能的單元格表示與智能探索策略(不是隨機(jī)策略)相結(jié)合。有趣的是,狀態(tài)合并的越多(將更多的狀態(tài)映射到同一個(gè)單元格表示),就越需要進(jìn)行智能探索以到達(dá)這些本質(zhì)上不同的單元格。另外,從任意給定單元格中學(xué)習(xí)智能探索需要有效地重用探索必備技能(如游走)。
Go-Explore 讓人想起早期分離探索和開發(fā)的工作。然而,Go-Explore 進(jìn)一步分解了探索的三個(gè)要素:積累基礎(chǔ)步驟、返回有獎(jiǎng)勵(lì)的基礎(chǔ)步驟,并從中尋找額外的基礎(chǔ)步驟(即上面的原理#1和#2)。通過為每個(gè)元素插入非常簡(jiǎn)單的算法,Go-Explore 實(shí)現(xiàn)了令人印象深刻的結(jié)果,這顯示了分解的價(jià)值。如上所述,與 QD 算法相比,所有當(dāng)前 RL 算法的另一個(gè)不同之處在于 Go-Explore 不會(huì)通過擾亂新狀態(tài)的策略來嘗試探索新的高性能的狀態(tài),而是首先返回到一個(gè)確定的狀態(tài),然后從中探索。
Go-Explore 首先找到一個(gè)解決方案然后圍繞它進(jìn)行優(yōu)化的思路在「引導(dǎo)策略搜索」(https://arxiv.org/pdf/1504.00702.pdf)中已有先例。然而,這種方法需要一種無欺騙性、非稀疏、可微分的損失函數(shù)來尋找解決方案,這意味著它不能直接應(yīng)用于如 某些 Atari 游戲許多現(xiàn)實(shí)世界的問題一樣,獎(jiǎng)勵(lì)是離散的、稀疏的、具有欺騙性的問題。此外,引導(dǎo)式策略搜索需要有可微分的全局模型或?qū)W習(xí)一組局部模型,這些局部模型易于處理,需要在訓(xùn)練期間觀察系統(tǒng)的完整狀態(tài)。
總體而言,Go-Explore 是一個(gè)用于解決硬探索的強(qiáng)化學(xué)習(xí)問題(即具有稀疏和/或欺騙性獎(jiǎng)勵(lì)的問題)的令人興奮的新算法類型。 它開辟了大量新的研究方向,包括測(cè)試不同的存檔,選擇返回單元格的不同方法,不同的單元格表示,不同的探索方法,以及不同的模擬方法,如不同的模仿學(xué)習(xí)算法。 Uber AI 也很高興看到 Go-Explore 的優(yōu)勢(shì)與不足, 這像是一個(gè)探索可能性的新樂園,也希望更多研究人員能和他們一起進(jìn)行該領(lǐng)域的研究。
Uber AI 正在撰寫這篇論文,預(yù)計(jì)很快就會(huì)正式發(fā)表。介紹博客原地址為 https://eng.uber.com/go-explore/,文末也對(duì)博客發(fā)布后來自其它研究人員們的疑問給出了回應(yīng)。感興趣的讀者可以繼續(xù)關(guān)注。
雷鋒網(wǎng) AI 科技評(píng)論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。