丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給WBLUE
發(fā)送

0

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

本文作者: WBLUE 編輯:楊曉凡 2018-12-17 23:30
導(dǎo)語:論如何改善好奇心類方法的問題

雷鋒網(wǎng) AI 科技評論按:近期,Uber AI 研究院提出了一種新的強化學(xué)習(xí)算法 Go-Explore ,它的目標(biāo)是克服當(dāng)前熱門的好奇心(內(nèi)在獎勵)大類方法尚未克服的遺忘和重復(fù)探索問題。他們也在極具挑戰(zhàn)的 Atari 游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」中實驗了算法,取得了好幾個數(shù)量級的表現(xiàn)提升。雷鋒網(wǎng) AI 科技評論介紹如下。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

在強化學(xué)習(xí)(RL)中,解決 Atari 經(jīng)典游戲「蒙特祖瑪?shù)膹?fù)仇」和「Pitfall」是一項巨大的挑戰(zhàn)。這些游戲代表了一類具有普遍挑戰(zhàn)性的現(xiàn)實問題——「硬探索問題」,即智能體必須通過非常稀疏或有欺騙性的反饋來學(xué)習(xí)復(fù)雜任務(wù)。

之前最先進的算法玩蒙特祖瑪?shù)钠骄譃?11,347,最高分為 17,500,并且在十次闖關(guān)后通過了第一關(guān)。令人驚訝的是,盡管進行了大量的研究工作,但到目前為止對于 Pitfall,還沒有算法能獲得大于 0 的分?jǐn)?shù)。

Atari 游戲得分的新突破

今天介紹的 Go-Explore,是一個新的算法類型,它能夠在蒙特祖瑪上得分超過 2 百萬分,平均得分超過 400萬分!Go-Explore 可以很穩(wěn)定的通關(guān)整個游戲,其實這個游戲只有前三關(guān)不一樣,后續(xù)關(guān)卡都是前三關(guān)的衍生(每個關(guān)卡僅在時間的長短和屏幕顯示的分?jǐn)?shù)上有所不同而已)。Go-Explore 甚至可以達到159級!

在 Pitfall 中,Go-Explore的平均得分超過 21,000,遠超人類的平均表現(xiàn),并且首次在已有算法上實現(xiàn)零得分的突破。為此,它要穿過 40 個房間,完成水上繩索跳躍、跳過鱷魚、陷阱門、移動桶、爬梯子和躲避其他危險物。 

總而言之,Go-Explore 算法分別將蒙特祖瑪?shù)膹?fù)仇和 Pitfall 的得分現(xiàn)狀提升了兩個數(shù)量級和 21,000 分。再者它無需「人工演示」,并且在性能上完勝目前所有涉及「人工演示」的最先進的算法。 

Go-Explore 可以從人工領(lǐng)域知識中受益,無需人工通關(guān)游戲作為演示。領(lǐng)域知識很小,很容易從像素中獲得,這突出了 Go-Explore 利用最小先驗知識的深刻能力。然而,即使沒有任何領(lǐng)域知識,Go-Explore 在蒙特祖瑪中的得分也超過了 3.5 萬分,遠超現(xiàn)有技術(shù)三倍之多。 

Go-Explore 與其他深度強化學(xué)習(xí)算法完全不同。Uber 研究院認為它可以在各種重要的,具有挑戰(zhàn)性的問題中取得快速進展,特別是機器人技術(shù)方面。因此他們也希望它能夠幫助 Uber 和其他團隊更多地利用人工智能的優(yōu)勢。 

探索的挑戰(zhàn)

獎勵稀疏的問題很難解決,因為隨機行為無法產(chǎn)生獎勵,因此無法學(xué)習(xí)。蒙特祖瑪就是這樣一個獎勵稀疏的問題。獎勵具有欺騙性時就更棘手,這意味著在短期內(nèi)最大化獎勵可能會使智能體在總分上表現(xiàn)不佳。Pitfall 中的獎勵則具有欺騙性,許多行為會導(dǎo)致小的負面獎勵(比如擊中敵人),因此大多數(shù)算法都選擇智能體不移動,因此永遠無法收集到其他獎勵。許多具有挑戰(zhàn)性的現(xiàn)實問題的獎勵都是稀疏和有欺騙性的。 

普通的 RL 算法通常無法離開蒙特祖瑪?shù)牡谝粋€房間(得分為400或更低)并且在 Pitfall 上得分為 0 或更低。為了嘗試解決這些挑戰(zhàn),研究人員為智能體增加了探索獎勵,通常稱為內(nèi)在動機(intrinsic motivation,IM),鼓勵他們到達新狀態(tài)(情境或地點)。盡管 IM 算法專門用于解決稀疏獎勵問題,但他們在蒙特祖瑪和Pitfall的任務(wù)中仍表現(xiàn)不佳,在蒙特祖瑪中表現(xiàn)最好的也鮮有能過第一關(guān)的,在Pitfall中更是以0分完敗。

Uber AI 的研究人員們猜測當(dāng)前 IM 算法的一個主要弱點是分離,即算法忘記了他們訪問過的「有獎勵」的區(qū)域,這意味著他們返回這些區(qū)域的時候不會再有新的獎勵。舉個例子,想象智能體處在兩個迷宮入口之間。它先從左邊的迷宮開始隨機搜索,由于 IM 算法有要求智能體隨機的嘗試新行為以找到更多的內(nèi)在獎勵的機制,在搜索完左邊迷宮的 50 %時,智能體會在任意時刻開始對右邊迷宮的搜索,但由于深度學(xué)習(xí)自身的災(zāi)難性遺忘問題,在完成右邊的搜索后智能體并不記得在左邊迷宮中探索的事情;更糟糕的是,左邊迷宮的一部分已經(jīng)被探索過,所以幾乎沒有可獲得的內(nèi)在獎勵,這就嚴(yán)重影響了智能體的學(xué)習(xí)過程。Uber AI 的研究人員們將這種狀況稱為:算法從提供內(nèi)在動機的狀態(tài)范圍分離開了。因此,當(dāng)已經(jīng)探索了當(dāng)前智能體訪問過的區(qū)域時,探索可能會停滯。如果智能體能夠返回到先前發(fā)現(xiàn)的有獎勵的探索區(qū)域,就可以解決這個探索停滯問題。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

內(nèi)在動機(IM)算法中的分離示例。 綠色區(qū)域表示內(nèi)在獎勵,白色表示沒有內(nèi)在獎勵的區(qū)域,紫色區(qū)域表示算法當(dāng)前正在探索的位置。

GO-explore

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

Go-Explore算法的高度概括

而 Uber AI 提出的新算法 Go-Explore 將學(xué)習(xí)分為兩個步驟:探索和強化。

階段1:探索到解決為止。 Go-Explore 構(gòu)建了一個有趣的不同游戲狀態(tài)(稱之為「單元格」)和導(dǎo)致狀態(tài)軌跡的存檔,如下所示:

重復(fù)到解決為止:

  • 根據(jù)概率選擇存檔中的單元格(可選擇有可能有獎勵的單元格,例如更新的單元格)

  • 回到那個單元格

  • 從該單元格開始探索(例如,隨機進行 n 個步驟)

  • 對于所有訪問的單元格(包括新單元格),如果新的軌跡更好(例如更高的分?jǐn)?shù)),則更新單元格軌跡。

通過在存檔中明確記錄狀態(tài)的軌跡,Go-Explore 能夠記住并返回到「有獎勵」的區(qū)域進行探索(這不同于內(nèi)在動機的訓(xùn)練策略)。此外,通過探索單元格前先返回單元格的操作,特別是對于那些距離遠的、難以到達的單元格,Go-Explore 避免過度探索容易達到的狀態(tài)(例如在起點附近),而是專注于擴展其知識領(lǐng)域。最后,因為 Go-Explore 嘗試訪問所有可達狀態(tài),所以它不太容易受到欺騙性獎勵的影響。熟悉質(zhì)量多樣性算法的人可以理解這些想法。下文將繼續(xù)討論 Go-Explore 如何表示一種新型的質(zhì)量多樣性算法。

階段2:強化(如有必要)。如果找到的解決方案對噪聲的魯棒性較差,可以使用模擬學(xué)習(xí)算法將它們置于深度神經(jīng)網(wǎng)絡(luò)中。

單元格表示

為了能夠駕馭 Atari 游戲這樣的高維狀態(tài)空間,Go-Explore 需要一個較低維度的單元格表示來進行存檔。因此,單元格表示應(yīng)該將十分相似且無需單獨探索的狀態(tài)進行合并(但不混合意義上有差別的狀態(tài))。重要的是,創(chuàng)建這樣的表示不需要游戲特定的領(lǐng)域知識。經(jīng)研究發(fā)現(xiàn),最樸素的單元格表示可能非常有效:只需對當(dāng)前游戲框架進行下采樣。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

返回單元格

根據(jù)環(huán)境的限制,可以通過以下三種方式實現(xiàn)探索之前先返回單元格的操作。為了提高效率:

  • 可重置環(huán)境中,可以簡單地將環(huán)境狀態(tài)重置為單元格的狀態(tài)

  • 在確定性環(huán)境中,可以重現(xiàn)到細胞的軌跡

  • 在隨機環(huán)境中,人們可以訓(xùn)練一個學(xué)習(xí)可靠返回到單元格的目標(biāo)條件策略

雖然大多數(shù)有趣的問題都是隨機的,但 Go-Explore 背后的一個核心思想是我們可以先解決問題,之后再想辦法使解決方案更加具有魯棒性(如有必要)。特別是,我們通常認為確定性會阻礙產(chǎn)生更具魯棒性、更高性能的智能體,但 Go-Explore 觀點與之相反,當(dāng)我們了解到模擬器是確定的和可重置的(通過保存和還原模擬器狀態(tài))事實后,確定性可能還有助于產(chǎn)生更高性能的智能體,然后可以隨機創(chuàng)建一個更強大的策略(包括添加領(lǐng)域隨機化)。此觀察結(jié)果與機器人任務(wù)尤為相關(guān),在策略遷移到實際任務(wù)之前,需要在模擬器中完成相關(guān)訓(xùn)練。

Atari 游戲是可重置的,因此出于效率原因,Uber AI 的研究人員們通過加載游戲狀態(tài)返回到先前訪問過的單元格。在蒙特祖瑪?shù)膹?fù)仇中,這種優(yōu)化使他們能夠比「回顧軌跡方法」快 45 倍地通關(guān)第一級。然而,Go-Explore 不需要訪問模擬器,訪問模擬器只是為了讓它變得更快。

在這項工作中,當(dāng)智能體返回一個經(jīng)隨機行為探索的單元格后(很可能重復(fù)以前的行為)。盡管在強化中常常會用到神經(jīng)網(wǎng)絡(luò),但這種探索不需要神經(jīng)網(wǎng)絡(luò)或其他控制器,并且后續(xù)實驗中所有的探索都不使用。完全隨機的探索工作非常好的突出了僅返回目標(biāo)單元格的驚人能力。

探索階段的結(jié)果

通過下采樣圖像單元格表示,在蒙特祖瑪游戲中, Go-Explore 僅用了先前技術(shù)的 65% 的時間就通關(guān)了第一關(guān)(其中包含24個不必要探索的房間),平均到達房間 37 個,而先前的技術(shù)水平平均只探索了22個房間。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

Go-Explore在沒有領(lǐng)域知識(通過縮小像素表示)的探索階段發(fā)現(xiàn)的房間數(shù)量

魯棒化

Uber AI 當(dāng)前版本的 Go-Explore 利用確定性來更快地找到解決方案(高性能軌跡)。這樣的軌跡是脆弱的:不能泛化到其他差異場景中,包括那些通過使 Atari 游戲有點隨機的經(jīng)典方式所創(chuàng)造的狀態(tài),即迫使智能體在開始游戲之前隨機 30 多次什么都不做。

Go-Explore 通過模仿學(xué)習(xí)解決了這個脆弱性問題,模仿學(xué)習(xí)是一種可以從演示中學(xué)習(xí)魯棒無模型策略的算法。通常這樣的算法需要人工演示,但是 Go-Explore 的第1階段可以自動生成這樣的演示(其中一部分比人工演示效果更好)。

任何可靠的模仿學(xué)習(xí)算法都可行。起初 Uber AI 的研究人員們選擇了 Salimans 和 Chen 的「后向算法」,因為它是開源的,并且在提供人工演示時可以解決蒙特祖瑪?shù)膯栴}。

他們還發(fā)現(xiàn)從單一演示中學(xué)習(xí)有點不可靠。然而,因為 Go-Explore 可以產(chǎn)生大量的演示,他們?yōu)榱送瑫r學(xué)習(xí)多個演示而改進了后向算法(在這種情況下學(xué)習(xí) 4 個演示,以及后面的領(lǐng)域知識實驗中 10 個)。他們還在初始條件中添加了一個隨機數(shù)的無操作(不執(zhí)行任何命令),以使策略對此類隨機性具有魯棒性。

結(jié)果具有強大的深度神經(jīng)網(wǎng)絡(luò)策略

所有試圖從蒙特祖瑪?shù)谝魂P(guān)通關(guān)軌跡中學(xué)習(xí)的魯棒策略都有效。平均得分為 35,410 分,是之前技術(shù)水平均分 11,347 分的 3 倍以上,并略高于人類專家的均分 34,900 分!

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

無領(lǐng)域知識的Go-Explore與其他RL算法在Montezuma復(fù)仇中的比較。情節(jié)中的每一點都代表了一個不同的算法,測試蒙特祖瑪?shù)膹?fù)仇。

添加領(lǐng)域知識

算法能將易得的領(lǐng)域知識集成的能力是很重要的。Go-Explore 支持利用單元格表示中的領(lǐng)域知識。Uber AI 的研究人員們在蒙特祖瑪上測試了具有領(lǐng)域知識的 Go-Explore 版本,其中單元格被定義為智能體的 x-y 位置、當(dāng)前房間、當(dāng)前關(guān)卡和當(dāng)前持有的密鑰數(shù)量的唯一組合。他們編寫了簡單的代碼來直接從像素中提取這些信息。

通過這種改進的狀態(tài)表示,在 Go-Explore 的第 1 階段,智能體就驚人地發(fā)現(xiàn)了 238 個房間,平均通過 9 個關(guān)卡,并且在模擬器中,相比與縮略圖的單元格表示,Go-Explore 智能體僅用了一半步驟就完成了該任務(wù)。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

僅使用由像素導(dǎo)出的領(lǐng)域知識的單元格表示,Go-Explore第1階段發(fā)現(xiàn)的房間數(shù)量,

強化的結(jié)果

利用有領(lǐng)域知識的 Go-Explore 版本找到的軌跡的而產(chǎn)生的深度神經(jīng)網(wǎng)絡(luò)策略,可以穩(wěn)定的通過蒙特祖瑪?shù)那叭齻€關(guān)卡(并且對隨機數(shù)量的初始無操作具有魯棒性)。因為在這個游戲中,3 級以上的所有關(guān)卡幾乎相同(如上所述),Go-Explore 已經(jīng)通關(guān)了整個游戲!

事實上,Uber AI 的智能體大致已經(jīng)超過了他們的初始軌跡,平均通過 19 關(guān)并獲得了 469,209 的分?jǐn)?shù)!這就已經(jīng)突破了蒙特祖瑪?shù)淖詈贸煽?,無論是相對于傳統(tǒng)的 RL 算法還是以人工演示形式提供解決方案的模仿學(xué)習(xí)算法。令人難以置信的是,一些 Go-Explore 的神經(jīng)網(wǎng)絡(luò)得到了 200 多萬分、159級!為了充分了解這些智能體可以做到什么程度,Uber AI 增加了 OpenAI 的 Gym 允許智能體玩游戲的時間。 Go-Explore 的最高分?jǐn)?shù)遠高于人類世界紀(jì)錄 1,219,200,可以說達到了嚴(yán)格意義上的「超越人類表現(xiàn)」。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

結(jié)合領(lǐng)域知識的GO-EXPLORE與其他RL算法的比較。紅點表示以人工演示的形式給出的解決方案的算法

這個破紀(jì)錄的完整視頻在加速 4 倍后仍然有 53 分鐘長。智能體不會死亡,只是達到了最大時間限制(盡管時間已經(jīng)大大增加)。

Pitfall 游戲

Pitfall 也需要大量的探索,并且比蒙特祖瑪更難,因為它的獎勵更稀疏(只有 32 個積極獎勵分散在 255 個房間中),許多行動產(chǎn)生小的負面獎勵,阻止 RL 算法探索環(huán)境。目前為止,所有已知的 RL 算法在這個游戲中甚至沒有收到任何一個積極獎勵(沒有給人工演示的情況下)。

相比之下,Go-Explore 在具有最小領(lǐng)域知識的情況下,即我們從像素中獲得的屏幕上的位置和房間號,其能夠訪問所有 255 個房間并在算法的探索階段收集超過 60,000 個點。沒有領(lǐng)域知識(即在縮小的像素表示)的情況下,Go-Explore 找到了 22 個房間,但沒有找到任何獎勵。Uber AI 的研究人員們認為縮小的像素表示在Pitfall上的表現(xiàn)不佳,因為游戲包含許多具有相同像素表示的不同狀態(tài)(即游戲中位置不同但外觀相同的房間)。在沒有領(lǐng)域知識的情況下區(qū)分這些狀態(tài)可能需要考慮先前狀態(tài)的狀態(tài)表示,或者開發(fā)其他技術(shù)。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

在Go-Explore 在Pitfall游戲中探索階段發(fā)現(xiàn)的房間(左)和獲得的獎勵(右)。

從探索階段收集的軌跡中,Uber AI 能夠可靠地收集超過 21,000 點的軌跡進行強化,這大大超過現(xiàn)有技術(shù)水平和人類平均表現(xiàn)。 更長、更高得分的軌跡強化起來很困難,可能是因為視覺上無法區(qū)分的狀態(tài)可能需要采取不同的行為。 他們相信可以通過進一步研究智能體消除狀態(tài)歧義的技術(shù)來解決這個問題。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

三大關(guān)鍵原則

Uber AI 認為 Go-Explore 之所以在「硬探索問題」上表現(xiàn)非常出色是源于三個關(guān)鍵原則:

  • 記住探索過程中好的「基礎(chǔ)步驟」(目前為止訪問到的不同的有趣場景)

  • 先返回到一個場景,然后再探索

  • 先解決問題,然后進行魯棒化(如有必要)

大多數(shù) RL 算法中都沒有應(yīng)用這些思想,但如果把這些思想嵌入到以往 RL 算法中,那將會是一件有意思的事情。如上所述,目前的 RL 算法不會考慮第一點。第二點很重要,因為當(dāng)前的 RL 算法采用隨機擾動參數(shù)或隨機動作的探索策略是希望能夠探索到環(huán)境內(nèi)的新區(qū)域,這些區(qū)域可能會因為一些策略上的改變而使得智能體表現(xiàn)的非常差,如在進行進一步區(qū)域探索之前不能先返回到難以到達的場景中。這個問題會隨著到達狀態(tài)的必要動作序列更長、更復(fù)雜、要求更為精確變得越來越嚴(yán)重。Go-Explore 通過首先返回狀態(tài)然后從那里開始探索來解決這個問題。這樣做可以保證找到問題解決方案后的深入探索,然后在此基礎(chǔ)上魯棒化以產(chǎn)生更可靠的策略(原則3)。

從存檔的軌跡中保存和探索的想法來自質(zhì)量多樣性(QD)算法類型(如 MAP-elites 和本地比賽的新穎搜索),Go-Explore 是基于 MAP-Elites 的增強 QD 算法。然而,之前的 QD 算法側(cè)重于通過隨機擾當(dāng)前存檔策略來探索行為空間,而不是通過重新探索來明確探索狀態(tài)空間。從狀態(tài)空間的確切位置開始,之前的探索就停止了。實際上,Go-Explore 提供了比其他 QD 方法更有控制的狀態(tài)空間探索,確保探測范圍通過狀態(tài)空間累積,因為每個新的探索軌跡都離開了前一個探測軌跡的終點。

值得注意的是,當(dāng)前版本的 Go-Explore 通過在探索時采取完全隨機的行為(沒有任何神經(jīng)網(wǎng)絡(luò)?。﹣砉ぷ?,并且即使應(yīng)用在狀態(tài)空間的簡單離散化上也很有效。盡管搜索如此簡單,但它的成功有力地表明了記住和探索良好的軌跡是有效探索的關(guān)鍵,并且進行簡單探索比深層RL方法更有助于尋找新狀態(tài)并完成狀態(tài)表示。如果將其與有效的,經(jīng)過學(xué)習(xí)的表示相結(jié)合,并用更智能的探索策略取代當(dāng)前的隨機探索,Go-Explore 可以更加強大。這也是我們正在追求的兩種途徑。

Go-Explore 還演示了解決探索和處理環(huán)境隨機性的問題是可以通過以下兩個階段分別完成的,即先在確定性環(huán)境中進行探索然后強化相關(guān)解決方案。依賴于訪問確定性環(huán)境最初可能看起來像是 Go-Explore 的缺點。但是,Uber AI 認為確定性環(huán)境可用于許多流行的 RL 領(lǐng)域,包括計算機游戲,機器人模擬器,甚至學(xué)術(shù)世界模型。一旦找到一種或多種魯棒性較弱的解決方案后,就可以在模擬中生成穩(wěn)健的解決方案。如果最終目標(biāo)是應(yīng)用于現(xiàn)實中的策略(例如,機器人技術(shù)),則可以使用許多可用技術(shù)中的任何一種將強健策略從模擬器中轉(zhuǎn)移到現(xiàn)實世界。此外,Uber AI 計劃證明用目標(biāo)條件策略替代加載確定性狀態(tài)的可能性,該策略從一開始就學(xué)習(xí)處理隨機環(huán)境。這樣的算法仍然可以從 Go-Explore 的三個關(guān)鍵原則中受益。

有些人可能持反對意見,雖然這種方法已經(jīng)在采集原始像素進行 Atari 的高維域中證明有效,但它無法擴展到真實的高維域,如現(xiàn)實世界的模擬器中。Uber AI 則相信這種方法在真實高維域也可以工作,但它必須將不同的有趣狀態(tài)(例如,世界的學(xué)習(xí),壓縮表示)的更智能的單元格表示與智能探索策略(不是隨機策略)相結(jié)合。有趣的是,狀態(tài)合并的越多(將更多的狀態(tài)映射到同一個單元格表示),就越需要進行智能探索以到達這些本質(zhì)上不同的單元格。另外,從任意給定單元格中學(xué)習(xí)智能探索需要有效地重用探索必備技能(如游走)。

相關(guān)工作

Go-Explore 讓人想起早期分離探索和開發(fā)的工作。然而,Go-Explore 進一步分解了探索的三個要素:積累基礎(chǔ)步驟、返回有獎勵的基礎(chǔ)步驟,并從中尋找額外的基礎(chǔ)步驟(即上面的原理#1和#2)。通過為每個元素插入非常簡單的算法,Go-Explore 實現(xiàn)了令人印象深刻的結(jié)果,這顯示了分解的價值。如上所述,與 QD 算法相比,所有當(dāng)前 RL 算法的另一個不同之處在于 Go-Explore 不會通過擾亂新狀態(tài)的策略來嘗試探索新的高性能的狀態(tài),而是首先返回到一個確定的狀態(tài),然后從中探索。

Go-Explore 首先找到一個解決方案然后圍繞它進行優(yōu)化的思路在「引導(dǎo)策略搜索」(https://arxiv.org/pdf/1504.00702.pdf)中已有先例。然而,這種方法需要一種無欺騙性、非稀疏、可微分的損失函數(shù)來尋找解決方案,這意味著它不能直接應(yīng)用于如 某些 Atari 游戲許多現(xiàn)實世界的問題一樣,獎勵是離散的、稀疏的、具有欺騙性的問題。此外,引導(dǎo)式策略搜索需要有可微分的全局模型或?qū)W習(xí)一組局部模型,這些局部模型易于處理,需要在訓(xùn)練期間觀察系統(tǒng)的完整狀態(tài)。

結(jié)論

總體而言,Go-Explore 是一個用于解決硬探索的強化學(xué)習(xí)問題(即具有稀疏和/或欺騙性獎勵的問題)的令人興奮的新算法類型。 它開辟了大量新的研究方向,包括測試不同的存檔,選擇返回單元格的不同方法,不同的單元格表示,不同的探索方法,以及不同的模擬方法,如不同的模仿學(xué)習(xí)算法。 Uber AI 也很高興看到 Go-Explore 的優(yōu)勢與不足, 這像是一個探索可能性的新樂園,也希望更多研究人員能和他們一起進行該領(lǐng)域的研究。

Uber AI 正在撰寫這篇論文,預(yù)計很快就會正式發(fā)表。介紹博客原地址為 https://eng.uber.com/go-explore/,文末也對博客發(fā)布后來自其它研究人員們的疑問給出了回應(yīng)。感興趣的讀者可以繼續(xù)關(guān)注。

雷鋒網(wǎng) AI 科技評論編譯。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Atari 游戲得分提升兩個數(shù)量級:Uber AI 的新強化學(xué)習(xí)算法 Go-Explore

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說