Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

本文作者： WBLUE

編輯：楊曉凡

2018-12-17 23:30

導(dǎo)語(yǔ)：論如何改善好奇心類方法的問(wèn)題

雷鋒網(wǎng) AI 科技評(píng)論按：近期，Uber AI 研究院提出了一種新的強(qiáng)化學(xué)習(xí)算法 Go-Explore ，它的目標(biāo)是克服當(dāng)前熱門的好奇心（內(nèi)在獎(jiǎng)勵(lì)）大類方法尚未克服的遺忘和重復(fù)探索問(wèn)題。他們也在極具挑戰(zhàn)的 Atari 游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」中實(shí)驗(yàn)了算法，取得了好幾個(gè)數(shù)量級(jí)的表現(xiàn)提升。雷鋒網(wǎng) AI 科技評(píng)論介紹如下。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

在強(qiáng)化學(xué)習(xí)（RL）中，解決 Atari 經(jīng)典游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」是一項(xiàng)巨大的挑戰(zhàn)。這些游戲代表了一類具有普遍挑戰(zhàn)性的現(xiàn)實(shí)問(wèn)題——「硬探索問(wèn)題」，即智能體必須通過(guò)非常稀疏或有欺騙性的反饋來(lái)學(xué)習(xí)復(fù)雜任務(wù)。

之前最先進(jìn)的算法玩蒙特祖瑪?shù)钠骄譃?11,347，最高分為 17,500，并且在十次闖關(guān)后通過(guò)了第一關(guān)。令人驚訝的是，盡管進(jìn)行了大量的研究工作，但到目前為止對(duì)于 Pitfall，還沒(méi)有算法能獲得大于 0 的分?jǐn)?shù)。

Atari 游戲得分的新突破

今天介紹的 Go-Explore，是一個(gè)新的算法類型，它能夠在蒙特祖瑪上得分超過(guò) 2 百萬(wàn)分，平均得分超過(guò) 400萬(wàn)分！Go-Explore 可以很穩(wěn)定的通關(guān)整個(gè)游戲，其實(shí)這個(gè)游戲只有前三關(guān)不一樣，后續(xù)關(guān)卡都是前三關(guān)的衍生（每個(gè)關(guān)卡僅在時(shí)間的長(zhǎng)短和屏幕顯示的分?jǐn)?shù)上有所不同而已）。Go-Explore 甚至可以達(dá)到159級(jí)！

在 Pitfall 中，Go-Explore的平均得分超過(guò) 21,000，遠(yuǎn)超人類的平均表現(xiàn)，并且首次在已有算法上實(shí)現(xiàn)零得分的突破。為此，它要穿過(guò) 40 個(gè)房間，完成水上繩索跳躍、跳過(guò)鱷魚、陷阱門、移動(dòng)桶、爬梯子和躲避其他危險(xiǎn)物。

總而言之，Go-Explore 算法分別將蒙特祖瑪?shù)膹?fù)仇和 Pitfall 的得分現(xiàn)狀提升了兩個(gè)數(shù)量級(jí)和 21,000 分。再者它無(wú)需「人工演示」，并且在性能上完勝目前所有涉及「人工演示」的最先進(jìn)的算法。

Go-Explore 可以從人工領(lǐng)域知識(shí)中受益，無(wú)需人工通關(guān)游戲作為演示。領(lǐng)域知識(shí)很小，很容易從像素中獲得，這突出了 Go-Explore 利用最小先驗(yàn)知識(shí)的深刻能力。然而，即使沒(méi)有任何領(lǐng)域知識(shí)，Go-Explore 在蒙特祖瑪中的得分也超過(guò)了 3.5 萬(wàn)分，遠(yuǎn)超現(xiàn)有技術(shù)三倍之多。

Go-Explore 與其他深度強(qiáng)化學(xué)習(xí)算法完全不同。Uber 研究院認(rèn)為它可以在各種重要的，具有挑戰(zhàn)性的問(wèn)題中取得快速進(jìn)展，特別是機(jī)器人技術(shù)方面。因此他們也希望它能夠幫助 Uber 和其他團(tuán)隊(duì)更多地利用人工智能的優(yōu)勢(shì)。

探索的挑戰(zhàn)

獎(jiǎng)勵(lì)稀疏的問(wèn)題很難解決，因?yàn)殡S機(jī)行為無(wú)法產(chǎn)生獎(jiǎng)勵(lì)，因此無(wú)法學(xué)習(xí)。蒙特祖瑪就是這樣一個(gè)獎(jiǎng)勵(lì)稀疏的問(wèn)題。獎(jiǎng)勵(lì)具有欺騙性時(shí)就更棘手，這意味著在短期內(nèi)最大化獎(jiǎng)勵(lì)可能會(huì)使智能體在總分上表現(xiàn)不佳。Pitfall 中的獎(jiǎng)勵(lì)則具有欺騙性，許多行為會(huì)導(dǎo)致小的負(fù)面獎(jiǎng)勵(lì)（比如擊中敵人），因此大多數(shù)算法都選擇智能體不移動(dòng)，因此永遠(yuǎn)無(wú)法收集到其他獎(jiǎng)勵(lì)。許多具有挑戰(zhàn)性的現(xiàn)實(shí)問(wèn)題的獎(jiǎng)勵(lì)都是稀疏和有欺騙性的。

普通的 RL 算法通常無(wú)法離開(kāi)蒙特祖瑪?shù)牡谝粋€(gè)房間（得分為400或更低）并且在 Pitfall 上得分為 0 或更低。為了嘗試解決這些挑戰(zhàn)，研究人員為智能體增加了探索獎(jiǎng)勵(lì)，通常稱為內(nèi)在動(dòng)機(jī)（intrinsic motivation，IM），鼓勵(lì)他們到達(dá)新?tīng)顟B(tài)（情境或地點(diǎn)）。盡管 IM 算法專門用于解決稀疏獎(jiǎng)勵(lì)問(wèn)題，但他們?cè)诿商刈娆敽蚉itfall的任務(wù)中仍表現(xiàn)不佳，在蒙特祖瑪中表現(xiàn)最好的也鮮有能過(guò)第一關(guān)的，在Pitfall中更是以0分完敗。

Uber AI 的研究人員們猜測(cè)當(dāng)前 IM 算法的一個(gè)主要弱點(diǎn)是分離，即算法忘記了他們?cè)L問(wèn)過(guò)的「有獎(jiǎng)勵(lì)」的區(qū)域，這意味著他們返回這些區(qū)域的時(shí)候不會(huì)再有新的獎(jiǎng)勵(lì)。舉個(gè)例子，想象智能體處在兩個(gè)迷宮入口之間。它先從左邊的迷宮開(kāi)始隨機(jī)搜索，由于 IM 算法有要求智能體隨機(jī)的嘗試新行為以找到更多的內(nèi)在獎(jiǎng)勵(lì)的機(jī)制，在搜索完左邊迷宮的 50 %時(shí)，智能體會(huì)在任意時(shí)刻開(kāi)始對(duì)右邊迷宮的搜索，但由于深度學(xué)習(xí)自身的災(zāi)難性遺忘問(wèn)題，在完成右邊的搜索后智能體并不記得在左邊迷宮中探索的事情；更糟糕的是，左邊迷宮的一部分已經(jīng)被探索過(guò)，所以幾乎沒(méi)有可獲得的內(nèi)在獎(jiǎng)勵(lì)，這就嚴(yán)重影響了智能體的學(xué)習(xí)過(guò)程。Uber AI 的研究人員們將這種狀況稱為：算法從提供內(nèi)在動(dòng)機(jī)的狀態(tài)范圍分離開(kāi)了。因此，當(dāng)已經(jīng)探索了當(dāng)前智能體訪問(wèn)過(guò)的區(qū)域時(shí)，探索可能會(huì)停滯。如果智能體能夠返回到先前發(fā)現(xiàn)的有獎(jiǎng)勵(lì)的探索區(qū)域，就可以解決這個(gè)探索停滯問(wèn)題。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

內(nèi)在動(dòng)機(jī)（IM）算法中的分離示例。綠色區(qū)域表示內(nèi)在獎(jiǎng)勵(lì)，白色表示沒(méi)有內(nèi)在獎(jiǎng)勵(lì)的區(qū)域，紫色區(qū)域表示算法當(dāng)前正在探索的位置。

GO-explore

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

Go-Explore算法的高度概括

而 Uber AI 提出的新算法 Go-Explore 將學(xué)習(xí)分為兩個(gè)步驟：探索和強(qiáng)化。

階段1：探索到解決為止。 Go-Explore 構(gòu)建了一個(gè)有趣的不同游戲狀態(tài)（稱之為「單元格」）和導(dǎo)致?tīng)顟B(tài)軌跡的存檔，如下所示：

重復(fù)到解決為止：

根據(jù)概率選擇存檔中的單元格（可選擇有可能有獎(jiǎng)勵(lì)的單元格，例如更新的單元格）
回到那個(gè)單元格
從該單元格開(kāi)始探索（例如，隨機(jī)進(jìn)行 n 個(gè)步驟）
對(duì)于所有訪問(wèn)的單元格（包括新單元格），如果新的軌跡更好（例如更高的分?jǐn)?shù)），則更新單元格軌跡。

通過(guò)在存檔中明確記錄狀態(tài)的軌跡，Go-Explore 能夠記住并返回到「有獎(jiǎng)勵(lì)」的區(qū)域進(jìn)行探索（這不同于內(nèi)在動(dòng)機(jī)的訓(xùn)練策略）。此外，通過(guò)探索單元格前先返回單元格的操作，特別是對(duì)于那些距離遠(yuǎn)的、難以到達(dá)的單元格，Go-Explore 避免過(guò)度探索容易達(dá)到的狀態(tài)（例如在起點(diǎn)附近），而是專注于擴(kuò)展其知識(shí)領(lǐng)域。最后，因?yàn)?Go-Explore 嘗試訪問(wèn)所有可達(dá)狀態(tài)，所以它不太容易受到欺騙性獎(jiǎng)勵(lì)的影響。熟悉質(zhì)量多樣性算法的人可以理解這些想法。下文將繼續(xù)討論 Go-Explore 如何表示一種新型的質(zhì)量多樣性算法。

階段2：強(qiáng)化（如有必要）。如果找到的解決方案對(duì)噪聲的魯棒性較差，可以使用模擬學(xué)習(xí)算法將它們置于深度神經(jīng)網(wǎng)絡(luò)中。

單元格表示

為了能夠駕馭 Atari 游戲這樣的高維狀態(tài)空間，Go-Explore 需要一個(gè)較低維度的單元格表示來(lái)進(jìn)行存檔。因此，單元格表示應(yīng)該將十分相似且無(wú)需單獨(dú)探索的狀態(tài)進(jìn)行合并（但不混合意義上有差別的狀態(tài)）。重要的是，創(chuàng)建這樣的表示不需要游戲特定的領(lǐng)域知識(shí)。經(jīng)研究發(fā)現(xiàn)，最樸素的單元格表示可能非常有效：只需對(duì)當(dāng)前游戲框架進(jìn)行下采樣。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

返回單元格

根據(jù)環(huán)境的限制，可以通過(guò)以下三種方式實(shí)現(xiàn)探索之前先返回單元格的操作。為了提高效率：

可重置環(huán)境中，可以簡(jiǎn)單地將環(huán)境狀態(tài)重置為單元格的狀態(tài)
在確定性環(huán)境中，可以重現(xiàn)到細(xì)胞的軌跡
在隨機(jī)環(huán)境中，人們可以訓(xùn)練一個(gè)學(xué)習(xí)可靠返回到單元格的目標(biāo)條件策略

雖然大多數(shù)有趣的問(wèn)題都是隨機(jī)的，但 Go-Explore 背后的一個(gè)核心思想是我們可以先解決問(wèn)題，之后再想辦法使解決方案更加具有魯棒性（如有必要）。特別是，我們通常認(rèn)為確定性會(huì)阻礙產(chǎn)生更具魯棒性、更高性能的智能體，但 Go-Explore 觀點(diǎn)與之相反，當(dāng)我們了解到模擬器是確定的和可重置的（通過(guò)保存和還原模擬器狀態(tài)）事實(shí)后，確定性可能還有助于產(chǎn)生更高性能的智能體，然后可以隨機(jī)創(chuàng)建一個(gè)更強(qiáng)大的策略（包括添加領(lǐng)域隨機(jī)化）。此觀察結(jié)果與機(jī)器人任務(wù)尤為相關(guān)，在策略遷移到實(shí)際任務(wù)之前，需要在模擬器中完成相關(guān)訓(xùn)練。

Atari 游戲是可重置的，因此出于效率原因，Uber AI 的研究人員們通過(guò)加載游戲狀態(tài)返回到先前訪問(wèn)過(guò)的單元格。在蒙特祖瑪?shù)膹?fù)仇中，這種優(yōu)化使他們能夠比「回顧軌跡方法」快 45 倍地通關(guān)第一級(jí)。然而，Go-Explore 不需要訪問(wèn)模擬器，訪問(wèn)模擬器只是為了讓它變得更快。

在這項(xiàng)工作中，當(dāng)智能體返回一個(gè)經(jīng)隨機(jī)行為探索的單元格后（很可能重復(fù)以前的行為）。盡管在強(qiáng)化中常常會(huì)用到神經(jīng)網(wǎng)絡(luò)，但這種探索不需要神經(jīng)網(wǎng)絡(luò)或其他控制器，并且后續(xù)實(shí)驗(yàn)中所有的探索都不使用。完全隨機(jī)的探索工作非常好的突出了僅返回目標(biāo)單元格的驚人能力。

探索階段的結(jié)果

通過(guò)下采樣圖像單元格表示，在蒙特祖瑪游戲中， Go-Explore 僅用了先前技術(shù)的 65% 的時(shí)間就通關(guān)了第一關(guān)（其中包含24個(gè)不必要探索的房間），平均到達(dá)房間 37 個(gè)，而先前的技術(shù)水平平均只探索了22個(gè)房間。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

Go-Explore在沒(méi)有領(lǐng)域知識(shí)(通過(guò)縮小像素表示)的探索階段發(fā)現(xiàn)的房間數(shù)量

魯棒化

Uber AI 當(dāng)前版本的 Go-Explore 利用確定性來(lái)更快地找到解決方案（高性能軌跡）。這樣的軌跡是脆弱的：不能泛化到其他差異場(chǎng)景中，包括那些通過(guò)使 Atari 游戲有點(diǎn)隨機(jī)的經(jīng)典方式所創(chuàng)造的狀態(tài)，即迫使智能體在開(kāi)始游戲之前隨機(jī) 30 多次什么都不做。

Go-Explore 通過(guò)模仿學(xué)習(xí)解決了這個(gè)脆弱性問(wèn)題，模仿學(xué)習(xí)是一種可以從演示中學(xué)習(xí)魯棒無(wú)模型策略的算法。通常這樣的算法需要人工演示，但是 Go-Explore 的第1階段可以自動(dòng)生成這樣的演示（其中一部分比人工演示效果更好）。

任何可靠的模仿學(xué)習(xí)算法都可行。起初 Uber AI 的研究人員們選擇了 Salimans 和 Chen 的「后向算法」，因?yàn)樗情_(kāi)源的，并且在提供人工演示時(shí)可以解決蒙特祖瑪?shù)膯?wèn)題。

他們還發(fā)現(xiàn)從單一演示中學(xué)習(xí)有點(diǎn)不可靠。然而，因?yàn)?Go-Explore 可以產(chǎn)生大量的演示，他們?yōu)榱送瑫r(shí)學(xué)習(xí)多個(gè)演示而改進(jìn)了后向算法（在這種情況下學(xué)習(xí) 4 個(gè)演示，以及后面的領(lǐng)域知識(shí)實(shí)驗(yàn)中 10 個(gè)）。他們還在初始條件中添加了一個(gè)隨機(jī)數(shù)的無(wú)操作（不執(zhí)行任何命令），以使策略對(duì)此類隨機(jī)性具有魯棒性。

結(jié)果具有強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)策略

所有試圖從蒙特祖瑪?shù)谝魂P(guān)通關(guān)軌跡中學(xué)習(xí)的魯棒策略都有效。平均得分為 35,410 分，是之前技術(shù)水平均分 11,347 分的 3 倍以上，并略高于人類專家的均分 34,900 分！

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

無(wú)領(lǐng)域知識(shí)的Go-Explore與其他RL算法在Montezuma復(fù)仇中的比較。情節(jié)中的每一點(diǎn)都代表了一個(gè)不同的算法，測(cè)試蒙特祖瑪?shù)膹?fù)仇。

添加領(lǐng)域知識(shí)

算法能將易得的領(lǐng)域知識(shí)集成的能力是很重要的。Go-Explore 支持利用單元格表示中的領(lǐng)域知識(shí)。Uber AI 的研究人員們?cè)诿商刈娆斏蠝y(cè)試了具有領(lǐng)域知識(shí)的 Go-Explore 版本，其中單元格被定義為智能體的 x-y 位置、當(dāng)前房間、當(dāng)前關(guān)卡和當(dāng)前持有的密鑰數(shù)量的唯一組合。他們編寫了簡(jiǎn)單的代碼來(lái)直接從像素中提取這些信息。

通過(guò)這種改進(jìn)的狀態(tài)表示，在 Go-Explore 的第 1 階段，智能體就驚人地發(fā)現(xiàn)了 238 個(gè)房間，平均通過(guò) 9 個(gè)關(guān)卡，并且在模擬器中，相比與縮略圖的單元格表示，Go-Explore 智能體僅用了一半步驟就完成了該任務(wù)。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

僅使用由像素導(dǎo)出的領(lǐng)域知識(shí)的單元格表示，Go-Explore第1階段發(fā)現(xiàn)的房間數(shù)量，

強(qiáng)化的結(jié)果

利用有領(lǐng)域知識(shí)的 Go-Explore 版本找到的軌跡的而產(chǎn)生的深度神經(jīng)網(wǎng)絡(luò)策略，可以穩(wěn)定的通過(guò)蒙特祖瑪?shù)那叭齻€(gè)關(guān)卡（并且對(duì)隨機(jī)數(shù)量的初始無(wú)操作具有魯棒性）。因?yàn)樵谶@個(gè)游戲中，3 級(jí)以上的所有關(guān)卡幾乎相同（如上所述），Go-Explore 已經(jīng)通關(guān)了整個(gè)游戲！

事實(shí)上，Uber AI 的智能體大致已經(jīng)超過(guò)了他們的初始軌跡，平均通過(guò) 19 關(guān)并獲得了 469,209 的分?jǐn)?shù)！這就已經(jīng)突破了蒙特祖瑪?shù)淖詈贸煽?jī)，無(wú)論是相對(duì)于傳統(tǒng)的 RL 算法還是以人工演示形式提供解決方案的模仿學(xué)習(xí)算法。令人難以置信的是，一些 Go-Explore 的神經(jīng)網(wǎng)絡(luò)得到了 200 多萬(wàn)分、159級(jí)！為了充分了解這些智能體可以做到什么程度，Uber AI 增加了 OpenAI 的 Gym 允許智能體玩游戲的時(shí)間。 Go-Explore 的最高分?jǐn)?shù)遠(yuǎn)高于人類世界紀(jì)錄 1,219,200，可以說(shuō)達(dá)到了嚴(yán)格意義上的「超越人類表現(xiàn)」。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

結(jié)合領(lǐng)域知識(shí)的GO-EXPLORE與其他RL算法的比較。紅點(diǎn)表示以人工演示的形式給出的解決方案的算法

這個(gè)破紀(jì)錄的完整視頻在加速 4 倍后仍然有 53 分鐘長(zhǎng)。智能體不會(huì)死亡，只是達(dá)到了最大時(shí)間限制（盡管時(shí)間已經(jīng)大大增加）。

Pitfall 游戲

Pitfall 也需要大量的探索，并且比蒙特祖瑪更難，因?yàn)樗莫?jiǎng)勵(lì)更稀疏（只有 32 個(gè)積極獎(jiǎng)勵(lì)分散在 255 個(gè)房間中），許多行動(dòng)產(chǎn)生小的負(fù)面獎(jiǎng)勵(lì)，阻止 RL 算法探索環(huán)境。目前為止，所有已知的 RL 算法在這個(gè)游戲中甚至沒(méi)有收到任何一個(gè)積極獎(jiǎng)勵(lì)（沒(méi)有給人工演示的情況下）。

相比之下，Go-Explore 在具有最小領(lǐng)域知識(shí)的情況下，即我們從像素中獲得的屏幕上的位置和房間號(hào)，其能夠訪問(wèn)所有 255 個(gè)房間并在算法的探索階段收集超過(guò) 60,000 個(gè)點(diǎn)。沒(méi)有領(lǐng)域知識(shí)（即在縮小的像素表示）的情況下，Go-Explore 找到了 22 個(gè)房間，但沒(méi)有找到任何獎(jiǎng)勵(lì)。Uber AI 的研究人員們認(rèn)為縮小的像素表示在Pitfall上的表現(xiàn)不佳，因?yàn)橛螒虬S多具有相同像素表示的不同狀態(tài)（即游戲中位置不同但外觀相同的房間）。在沒(méi)有領(lǐng)域知識(shí)的情況下區(qū)分這些狀態(tài)可能需要考慮先前狀態(tài)的狀態(tài)表示，或者開(kāi)發(fā)其他技術(shù)。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

在Go-Explore 在Pitfall游戲中探索階段發(fā)現(xiàn)的房間(左)和獲得的獎(jiǎng)勵(lì)(右)。

從探索階段收集的軌跡中，Uber AI 能夠可靠地收集超過(guò) 21,000 點(diǎn)的軌跡進(jìn)行強(qiáng)化，這大大超過(guò)現(xiàn)有技術(shù)水平和人類平均表現(xiàn)。更長(zhǎng)、更高得分的軌跡強(qiáng)化起來(lái)很困難，可能是因?yàn)橐曈X(jué)上無(wú)法區(qū)分的狀態(tài)可能需要采取不同的行為。他們相信可以通過(guò)進(jìn)一步研究智能體消除狀態(tài)歧義的技術(shù)來(lái)解決這個(gè)問(wèn)題。

Atari 游戲得分提升兩個(gè)數(shù)量級(jí)：Uber AI 的新強(qiáng)化學(xué)習(xí)算法 Go-Explore

三大關(guān)鍵原則

Uber AI 認(rèn)為 Go-Explore 之所以在「硬探索問(wèn)題」上表現(xiàn)非常出色是源于三個(gè)關(guān)鍵原則：

記住探索過(guò)程中好的「基礎(chǔ)步驟」（目前為止訪問(wèn)到的不同的有趣場(chǎng)景）
先返回到一個(gè)場(chǎng)景，然后再探索
先解決問(wèn)題，然后進(jìn)行魯棒化（如有必要）

大多數(shù) RL 算法中都沒(méi)有應(yīng)用這些思想，但如果把這些思想嵌入到以往 RL 算法中，那將會(huì)是一件有意思的事情。如上所述，目前的 RL 算法不會(huì)考慮第一點(diǎn)。第二點(diǎn)很重要，因?yàn)楫?dāng)前的 RL 算法采用隨機(jī)擾動(dòng)參數(shù)或隨機(jī)動(dòng)作的探索策略是希望能夠探索到環(huán)境內(nèi)的新區(qū)域，這些區(qū)域可能會(huì)因?yàn)橐恍┎呗陨系母淖兌沟弥悄荏w表現(xiàn)的非常差，如在進(jìn)行進(jìn)一步區(qū)域探索之前不能先返回到難以到達(dá)的場(chǎng)景中。這個(gè)問(wèn)題會(huì)隨著到達(dá)狀態(tài)的必要?jiǎng)幼餍蛄懈L(zhǎng)、更復(fù)雜、要求更為精確變得越來(lái)越嚴(yán)重。Go-Explore 通過(guò)首先返回狀態(tài)然后從那里開(kāi)始探索來(lái)解決這個(gè)問(wèn)題。這樣做可以保證找到問(wèn)題解決方案后的深入探索，然后在此基礎(chǔ)上魯棒化以產(chǎn)生更可靠的策略（原則3）。

從存檔的軌跡中保存和探索的想法來(lái)自質(zhì)量多樣性（QD）算法類型（如 MAP-elites 和本地比賽的新穎搜索），Go-Explore 是基于 MAP-Elites 的增強(qiáng) QD 算法。然而，之前的 QD 算法側(cè)重于通過(guò)隨機(jī)擾當(dāng)前存檔策略來(lái)探索行為空間，而不是通過(guò)重新探索來(lái)明確探索狀態(tài)空間。從狀態(tài)空間的確切位置開(kāi)始，之前的探索就停止了。實(shí)際上，Go-Explore 提供了比其他 QD 方法更有控制的狀態(tài)空間探索，確保探測(cè)范圍通過(guò)狀態(tài)空間累積，因?yàn)槊總€(gè)新的探索軌跡都離開(kāi)了前一個(gè)探測(cè)軌跡的終點(diǎn)。

值得注意的是，當(dāng)前版本的 Go-Explore 通過(guò)在探索時(shí)采取完全隨機(jī)的行為（沒(méi)有任何神經(jīng)網(wǎng)絡(luò)?。﹣?lái)工作，并且即使應(yīng)用在狀態(tài)空間的簡(jiǎn)單離散化上也很有效。盡管搜索如此簡(jiǎn)單，但它的成功有力地表明了記住和探索良好的軌跡是有效探索的關(guān)鍵，并且進(jìn)行簡(jiǎn)單探索比深層RL方法更有助于尋找新?tīng)顟B(tài)并完成狀態(tài)表示。如果將其與有效的，經(jīng)過(guò)學(xué)習(xí)的表示相結(jié)合，并用更智能的探索策略取代當(dāng)前的隨機(jī)探索，Go-Explore 可以更加強(qiáng)大。這也是我們正在追求的兩種途徑。

Go-Explore 還演示了解決探索和處理環(huán)境隨機(jī)性的問(wèn)題是可以通過(guò)以下兩個(gè)階段分別完成的，即先在確定性環(huán)境中進(jìn)行探索然后強(qiáng)化相關(guān)解決方案。依賴于訪問(wèn)確定性環(huán)境最初可能看起來(lái)像是 Go-Explore 的缺點(diǎn)。但是，Uber AI 認(rèn)為確定性環(huán)境可用于許多流行的 RL 領(lǐng)域，包括計(jì)算機(jī)游戲，機(jī)器人模擬器，甚至學(xué)術(shù)世界模型。一旦找到一種或多種魯棒性較弱的解決方案后，就可以在模擬中生成穩(wěn)健的解決方案。如果最終目標(biāo)是應(yīng)用于現(xiàn)實(shí)中的策略（例如，機(jī)器人技術(shù)），則可以使用許多可用技術(shù)中的任何一種將強(qiáng)健策略從模擬器中轉(zhuǎn)移到現(xiàn)實(shí)世界。此外，Uber AI 計(jì)劃證明用目標(biāo)條件策略替代加載確定性狀態(tài)的可能性，該策略從一開(kāi)始就學(xué)習(xí)處理隨機(jī)環(huán)境。這樣的算法仍然可以從 Go-Explore 的三個(gè)關(guān)鍵原則中受益。

有些人可能持反對(duì)意見(jiàn)，雖然這種方法已經(jīng)在采集原始像素進(jìn)行 Atari 的高維域中證明有效，但它無(wú)法擴(kuò)展到真實(shí)的高維域，如現(xiàn)實(shí)世界的模擬器中。Uber AI 則相信這種方法在真實(shí)高維域也可以工作，但它必須將不同的有趣狀態(tài)（例如，世界的學(xué)習(xí)，壓縮表示）的更智能的單元格表示與智能探索策略（不是隨機(jī)策略）相結(jié)合。有趣的是，狀態(tài)合并的越多（將更多的狀態(tài)映射到同一個(gè)單元格表示），就越需要進(jìn)行智能探索以到達(dá)這些本質(zhì)上不同的單元格。另外，從任意給定單元格中學(xué)習(xí)智能探索需要有效地重用探索必備技能（如游走）。

結(jié)論

總體而言，Go-Explore 是一個(gè)用于解決硬探索的強(qiáng)化學(xué)習(xí)問(wèn)題（即具有稀疏和/或欺騙性獎(jiǎng)勵(lì)的問(wèn)題）的令人興奮的新算法類型。它開(kāi)辟了大量新的研究方向，包括測(cè)試不同的存檔，選擇返回單元格的不同方法，不同的單元格表示，不同的探索方法，以及不同的模擬方法，如不同的模仿學(xué)習(xí)算法。 Uber AI 也很高興看到 Go-Explore 的優(yōu)勢(shì)與不足，這像是一個(gè)探索可能性的新樂(lè)園，也希望更多研究人員能和他們一起進(jìn)行該領(lǐng)域的研究。

Uber AI 正在撰寫這篇論文，預(yù)計(jì)很快就會(huì)正式發(fā)表。介紹博客原地址為 https://eng.uber.com/go-explore/，文末也對(duì)博客發(fā)布后來(lái)自其它研究人員們的疑問(wèn)給出了回應(yīng)。感興趣的讀者可以繼續(xù)關(guān)注。

雷鋒網(wǎng) AI 科技評(píng)論編譯。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。