強(qiáng)化學(xué)習(xí)如何真正實(shí)現(xiàn)任務(wù)自動(dòng)化？不妨試試「兩步走」策略！

本文作者： MrBear

編輯：幸麗娟

2019-10-07 20:12

導(dǎo)語(yǔ)：強(qiáng)化學(xué)習(xí)會(huì)是我們開(kāi)啟自動(dòng)化之門(mén)的金鑰匙嗎？

雷鋒網(wǎng) AI 科技評(píng)論按：作為行為主義學(xué)派的重要技術(shù)，近年來(lái)，強(qiáng)化學(xué)習(xí)在 Atari 游戲領(lǐng)域大放異彩。然而，人們要想將強(qiáng)化學(xué)習(xí)技術(shù)真正應(yīng)用于現(xiàn)實(shí)世界任務(wù)，還有很長(zhǎng)的一段路要走。本文將真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)抽象為「簡(jiǎn)化」和「求解」的兩個(gè)步驟，從馬爾科夫決策過(guò)程的角度，討論了普適性的基于強(qiáng)化學(xué)習(xí)的自動(dòng)化技術(shù)。

對(duì)于廣大研究者來(lái)說(shuō)，有朝一日能夠在使用很少的人力的情況下，通過(guò)強(qiáng)化學(xué)習(xí)為現(xiàn)實(shí)世界中的任務(wù)生成自動(dòng)化的解決方案是夢(mèng)寐以求的事情¹。不幸的是，現(xiàn)在看來(lái)，強(qiáng)化學(xué)習(xí)還很難實(shí)現(xiàn)這一目標(biāo)。到目前為止，深度強(qiáng)化學(xué)習(xí)基本上還沒(méi)有解決任何現(xiàn)實(shí)世界中的問(wèn)題；即使是在非常理想的簡(jiǎn)單情況下，強(qiáng)化學(xué)習(xí)找到的解決方案往往也是十分脆弱的，無(wú)法泛化到新的環(huán)境中去。這意味著在每個(gè)任務(wù)中，涉及的人工工作（即針對(duì)特定任務(wù)的工程工作和超參數(shù)調(diào)優(yōu)）是相當(dāng)多的。

與此同時(shí)，當(dāng)前的強(qiáng)化學(xué)習(xí)算法的樣本效率往往很低，這也使得數(shù)據(jù)收集和計(jì)算的開(kāi)銷(xiāo)非常巨大。目前，基于強(qiáng)化學(xué)習(xí)的自動(dòng)化解決方案與其它的替代方案（例如，使用一組機(jī)器人來(lái)設(shè)計(jì)一個(gè)解決方案，或者根本不使用自動(dòng)化技術(shù)）相比，還是很弱。

盡管如此，強(qiáng)化學(xué)習(xí)（尤其是深度強(qiáng)化學(xué)習(xí)）技術(shù)，仍然因其巨大的潛力成為令人興奮的研究領(lǐng)域。人們?cè)趶?qiáng)化學(xué)習(xí)領(lǐng)域取得的研究進(jìn)展，能夠直接轉(zhuǎn)化為使復(fù)雜的、具有很高認(rèn)知要求的任務(wù)更好地實(shí)現(xiàn)自動(dòng)化的能力，這是人們目前集中精力重點(diǎn)攻關(guān)的研究方向。如果我們能夠真正將強(qiáng)化學(xué)習(xí)發(fā)揚(yáng)光大，我們就可以在不使用人力的情況下，完成目前需要大量人力參與的任務(wù)：只需要通過(guò)利用少量的數(shù)據(jù)進(jìn)行大量的計(jì)算。

出于這種考慮，讓我們進(jìn)一步思考：通過(guò)強(qiáng)化學(xué)習(xí)將任務(wù)自動(dòng)化究竟意味著什么？基本的解決過(guò)程可以被拆解為兩個(gè)步驟：首先，通過(guò)將問(wèn)題改寫(xiě)為一個(gè)馬爾科夫決策過(guò)程（MDP）或者部分可觀察馬爾科夫決策過(guò)程（POMDP），從而將該問(wèn)題簡(jiǎn)化為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題，然后對(duì)這個(gè) MDP 或者 POMDP²問(wèn)題的最優(yōu)策略進(jìn)行求解。接著，這個(gè)最優(yōu)策略讓我們能夠完全地將該任務(wù)自動(dòng)化，無(wú)需其它的人工工作就可以任意次地完成該任務(wù)。

盡管這個(gè)「兩步走」的策略十分直接，但在我的印象中，并沒(méi)有太多的強(qiáng)化學(xué)習(xí)研究人員從自動(dòng)化的角度來(lái)思考他們的工作。而在我看來(lái)，自動(dòng)化是思考強(qiáng)化學(xué)習(xí)的一個(gè)非常有用的視角，它確實(shí)影響了我對(duì)強(qiáng)化學(xué)習(xí)研究的思考方法。在本文中，我將首先更詳細(xì)的介紹上面提到的「兩步走」策略。

將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題

當(dāng)我們嘗試通過(guò)強(qiáng)化學(xué)習(xí)對(duì)某個(gè)現(xiàn)實(shí)世界中的問(wèn)題進(jìn)行自動(dòng)化時(shí)，首先要做的就是將該問(wèn)題重構(gòu)為一個(gè)馬爾科夫決策過(guò)程。由于馬爾科夫決策過(guò)程的框架十分通用，因此對(duì)于大多數(shù)問(wèn)題來(lái)說(shuō)，這一點(diǎn)是很容易做到的。這也正是強(qiáng)化學(xué)習(xí)可以節(jié)省大量人力的原因所在。除了找到解決方案，人們要做的唯一的任務(wù)就是以略有不同的形式將問(wèn)題改寫(xiě)為馬爾科夫決策過(guò)程（或部分可觀察馬爾科夫決策過(guò)程）。

不幸的是，并非所有的馬爾科夫決策過(guò)程都同樣容易解決。在大多數(shù)情況下，直接將問(wèn)題簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題將會(huì)產(chǎn)生某些十分難以解決的問(wèn)題。例如，如果某項(xiàng)任務(wù)的獎(jiǎng)勵(lì)非常稀疏，只有在任務(wù)中發(fā)生的情景結(jié)束時(shí)才能夠獲得獎(jiǎng)勵(lì)，那么我們很難計(jì)算出所有的獎(jiǎng)勵(lì)，更不用說(shuō)解決任務(wù)了。但是，通過(guò)合理設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)（reward shaping）——加入將策略引導(dǎo)到真正的最優(yōu)點(diǎn)的中間獎(jiǎng)勵(lì)，我們可以在很大程度上使強(qiáng)化學(xué)習(xí)算法面對(duì)的任務(wù)更加簡(jiǎn)單。

「sim2real」是另一種使我們更容易將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題的技術(shù)，我們首先要手動(dòng)設(shè)計(jì)一個(gè)模擬器（是一種能夠?qū)φ鎸?shí)環(huán)境下的 MDP 進(jìn)行近似的 MDP），然后在我們的模擬器上找到最優(yōu)策略，最終將這個(gè)最優(yōu)策略遷移到真實(shí)環(huán)境中。從一個(gè)模擬器中收集數(shù)據(jù)需要進(jìn)行計(jì)算，但并不需要與現(xiàn)實(shí)世界進(jìn)行交互，這種與現(xiàn)實(shí)世界的交互要比從模擬器中收集數(shù)據(jù)慢得多。因此，在需要收集大量數(shù)據(jù)的問(wèn)題上，這是一種非常經(jīng)濟(jì)的方法³。

然而，這種技術(shù)也有很大的缺點(diǎn)：在改變 MDP 時(shí)，MDP 的最優(yōu)策略也隨之發(fā)生了變化。這意味著，即使我們的 MDP 求解器為我們提供了完美的解決方案（給出了確切的 MDP 最優(yōu)策略），這種解決方案也可能在真實(shí)任務(wù)上表現(xiàn)得很糟糕！

對(duì)于「將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)」的研究，是由以下問(wèn)題驅(qū)動(dòng)的：「我們?nèi)绾尾拍軐⒄鎸?shí)世界中的問(wèn)題表示為 MDP，以致于當(dāng)我們使用我們的 MDP 求解器時(shí)，最終得到的策略可以在真實(shí)任務(wù)上表現(xiàn)良好」？在該框架下，強(qiáng)化學(xué)習(xí)研究的子領(lǐng)域包括遷移學(xué)習(xí)、無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)、sim2real、獎(jiǎng)勵(lì)工程、人工智能安全等等。

求解 MDP

強(qiáng)化學(xué)習(xí)的核心是一個(gè)基本的問(wèn)題：找到 MDP 的最優(yōu)策略。MDP 是一種優(yōu)美、簡(jiǎn)練的數(shù)學(xué)抽象，并不涉及現(xiàn)實(shí)世界中那些混亂的情況。在 MDP 的情況下，我們不必像在「將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題」時(shí)那樣，思考「這是正確的獎(jiǎng)勵(lì)函數(shù)嗎？」或者「這樣的解決方案能夠遷移到其它任務(wù)上嗎？」

真正完美的 MDP 只有一個(gè)，我們要做的就是找到具有最高期望受益的策略。

由于 MDP 框架具有很強(qiáng)的通用性，在我們發(fā)現(xiàn)一種能夠?yàn)槿我?MDP 找到最優(yōu)策略的算法⁴之前，我們需要研究很多困難的問(wèn)題。為了能夠進(jìn)一步進(jìn)行研究，我們往往為給定的 MDP 做出一些假設(shè)。例如，我們可以假設(shè)狀態(tài)空間是「表格式」的（離散的），或者是連續(xù)的（但是狀態(tài)轉(zhuǎn)移函數(shù)是符合利普希茨連續(xù)條件的），或者獎(jiǎng)勵(lì)函數(shù)的范圍介于 [-1，1] 之間。這種簡(jiǎn)化過(guò)程使我們更容易對(duì) MDP 進(jìn)行推理，并且更容易從經(jīng)驗(yàn)上說(shuō)明我們提出的解決方案的有效性。

對(duì)二者的選擇如何影響后續(xù)研究？

大多數(shù)強(qiáng)化學(xué)習(xí)領(lǐng)域的研究都關(guān)注于改進(jìn)或理解上述兩個(gè)方面中的某一個(gè)方面。從研究動(dòng)機(jī)到評(píng)估策略，再到對(duì)結(jié)果的解釋?zhuān)瑢?duì)這二者的選擇對(duì)一切后續(xù)的研究過(guò)程都會(huì)產(chǎn)生很大的影響。然而，研究社區(qū)目前無(wú)法很好地將二者進(jìn)行區(qū)分。許多論文似乎同時(shí)涉及這兩個(gè)層面，使得論文缺乏嚴(yán)謹(jǐn)性，研究人員各執(zhí)一詞，并且容易對(duì)結(jié)果產(chǎn)生誤解。

具體而言，我們可以從這篇論文出發(fā)來(lái)窺探這個(gè)問(wèn)題：Mnih 等人曾于 2015 年發(fā)表過(guò)一篇經(jīng)典的深度強(qiáng)化學(xué)習(xí)論文「Human-level control through deep reinforcement learning」。這是第一篇明確說(shuō)明深度強(qiáng)化學(xué)習(xí)算法可以利用高位像素輸入進(jìn)行學(xué)習(xí)，學(xué)會(huì)在玩游戲的過(guò)程中達(dá)到人類(lèi)水平的文章，人們普遍認(rèn)為這篇論文揭開(kāi)了整個(gè)深度強(qiáng)化學(xué)習(xí)領(lǐng)域研究的序幕。首先，我想重點(diǎn)關(guān)注 Mnih 等人做出的一個(gè)選擇：將所有的獎(jiǎng)勵(lì)裁剪到 [-1，1] 的區(qū)間中。

如果我們將這種對(duì)獎(jiǎng)勵(lì)的裁剪操作解釋為對(duì)他們的 MDP 求解算法在算法層面上的選擇，這顯然是不合適的?！笇ⅹ?jiǎng)勵(lì)裁剪到 [-1，1] 之間并進(jìn)行 Q-學(xué)習(xí)」顯然是一種糟糕的算法。在求解算法找到的策略與最佳策略相差甚遠(yuǎn)的情況下隨便提出一個(gè) MDP 是十分容易的。但是，如果從另一個(gè)層面上看，我們將這種獎(jiǎng)勵(lì)裁剪操作看做一種強(qiáng)化學(xué)習(xí)簡(jiǎn)化技術(shù)，那么這種做法就顯得十分明智了。

當(dāng)我們使用一個(gè)深度神經(jīng)網(wǎng)絡(luò)函數(shù)近似器時(shí)，求解一個(gè)帶有無(wú)界獎(jiǎng)勵(lì)的 MDP 問(wèn)題是十分困難的，而求解帶有有界獎(jiǎng)勵(lì)的 MDP 問(wèn)題要容易得多。事實(shí)證明，對(duì)于大多數(shù) Atari 游戲而言，帶有 L1 有界獎(jiǎng)勵(lì)的最優(yōu)策略與原始游戲的最佳策略非常相似。因此，對(duì)于這個(gè)問(wèn)題，這是一種十分有用的簡(jiǎn)化技術(shù)，Mnih 等人也成功地應(yīng)用過(guò)這項(xiàng)技術(shù)。

我們還可以找到一些其它強(qiáng)化學(xué)習(xí)的簡(jiǎn)化例子。首先，在折扣因子 γ= 0.99 時(shí)。由于 Atari游戲有一段一段的劇情（即每一段劇情最終都會(huì)結(jié)束），無(wú)論是否存在折扣因子，Q-學(xué)習(xí)都應(yīng)該收斂。然而，由于深度強(qiáng)化學(xué)習(xí)是相當(dāng)不穩(wěn)定的，求解一個(gè)收斂較慢的 MDP 比求解一個(gè)收斂較快的 MDP 要困難一些，因此加入折扣因子是有幫助的。當(dāng)然，將折扣因子從1更改為 0.99 會(huì)改變最優(yōu)策略，但在本例中，這似乎無(wú)關(guān)緊要。我們最后針對(duì)于特定的 Atari 游戲的使用的簡(jiǎn)化啟發(fā)式方法⁵是「根據(jù)生命損失決定 MDP 的終止」。當(dāng)一個(gè)生命損失掉時(shí)就終止的 MDP 具有更短的情節(jié)，這使得信用分配更容易，也更容易求解；同樣的，從經(jīng)驗(yàn)上看，過(guò)早終止這些游戲似乎不會(huì)對(duì)最優(yōu)策略產(chǎn)生太大影響。

那么，為什么我認(rèn)為應(yīng)該將這些算法決策視為面向強(qiáng)化學(xué)習(xí)簡(jiǎn)化的，而不是面向馬爾科夫過(guò)程求解的呢？其中一個(gè)主要的原因就是：對(duì)算法的評(píng)估。

Mnih 等人以及此后的每一篇 Atari 深度強(qiáng)化學(xué)習(xí)論文，都將他們所有的游戲與原始的標(biāo)準(zhǔn) Atari 環(huán)境進(jìn)行了對(duì)比。這意味著，論文中提出的任何改進(jìn)都將根據(jù)其對(duì)強(qiáng)化學(xué)習(xí)簡(jiǎn)化和 MDP 求解的影響自動(dòng)進(jìn)行評(píng)估。然而，將這兩個(gè)因素交織在一起考慮是有問(wèn)題的，可能會(huì)得出一些不合理的結(jié)論。

我們不妨考慮下面假設(shè)（但看起來(lái)合理）的情況。假如我們有一些用于「PONG」游戲的MDP。我們還有一種經(jīng)過(guò)了各種簡(jiǎn)化處理（例如獎(jiǎng)勵(lì)裁剪以及折扣因子）的「PONG」游戲的 MDP（不妨稱(chēng)其為 GNOP）。令「PONG」的最優(yōu)策略為 π*_PONG，它能在游戲中得到 20 分的期望回報(bào)：V_PONG（π^*_PONG）=20。類(lèi)似地，GNOP 的最優(yōu)策略 π^*_GNOP 在 GNOP 中得到了 15 分：V_GNOP（π^*_GNOP）=15。當(dāng)然，由于獎(jiǎng)勵(lì)裁剪和折扣因子，GNOP 得到的期望回報(bào)要稍稍低一些。

實(shí)驗(yàn)結(jié)果表明，當(dāng)我們?cè)?PONG 游戲中運(yùn)行策略 π^*_GNOP 時(shí)，我們得到的回報(bào)為 18 分：V_PONG（π^*_GNOP）=18。這說(shuō)明，我們可以對(duì)較為簡(jiǎn)單的 MDP（即 GNOP）進(jìn)行求解，然后仍然在我們真正關(guān)注的PONG 游戲的 MDP 上得到 90% 最優(yōu)解，這種歸約的效果還不錯(cuò)！但現(xiàn)在，不妨假設(shè)還存在另外一種策略 π^meh，使得 V_GNOP（π^meh）=14，但 V_PONG（π^meh）=19⁶。

假如我是一個(gè)強(qiáng)化學(xué)習(xí)研究者，我想到了某種求解 MDP 的算法「novel()」，并設(shè)置了一個(gè)對(duì)比基線(xiàn)「baseline()」。我聲稱(chēng)「novel()」能夠比「baseline()」更好地找到最優(yōu)策略。因此，我在標(biāo)準(zhǔn)的 Atari 環(huán)境下評(píng)估該算法，該評(píng)估過(guò)程在簡(jiǎn)化版的環(huán)境中進(jìn)行訓(xùn)練但是在真實(shí)環(huán)境下進(jìn)行評(píng)估。結(jié)果表明，baseline（GNOP）=π^meh，而 novel（GNOP）=π^*_GNOP。這真是太神奇了！

我的新算法比對(duì)比基線(xiàn)能夠更好地找到 MDP 真正的最優(yōu)策略。但是，當(dāng)我在真實(shí)環(huán)境下進(jìn)行評(píng)估時(shí)，我發(fā)現(xiàn)：V_PONG（baseline（GNOP））=19，而 V_PONG（novel（GNOP））=18。這時(shí)，相較于對(duì)比基線(xiàn)確實(shí)有所提升這一算法（確實(shí)相較于對(duì)比基線(xiàn)有所提升）看起來(lái)卻不那么好了。如果我們只報(bào)告了在 PONG 上的評(píng)估結(jié)果，而不報(bào)告在 GNOP 上的評(píng)估結(jié)果，沒(méi)有人會(huì)知道。

我認(rèn)為，在當(dāng)前的深度強(qiáng)化學(xué)習(xí)研究社區(qū)中，這樣的評(píng)估標(biāo)準(zhǔn)是一個(gè)很大的問(wèn)題。我懷疑，將「把任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)」和「求解 MDP」這兩個(gè)問(wèn)題交織在一起考慮，阻礙了我們對(duì)這兩方面進(jìn)展的認(rèn)識(shí)。這個(gè)問(wèn)題在 Atari 游戲中是最明顯的，但在其它領(lǐng)域也是如此；例如，一些 MuJoCo 控制任務(wù)是具有情節(jié)的，但我們?nèi)匀皇褂谜劭垡蜃舆M(jìn)行訓(xùn)練，并在沒(méi)有折扣因子的情況下進(jìn)行評(píng)估。

顯然，解決這個(gè)問(wèn)題的方法也是報(bào)告在 GNOP 上的評(píng)估結(jié)果。這很容易做到，我們只需要確定算法的哪些方面是面向強(qiáng)化學(xué)習(xí)簡(jiǎn)化的，哪些是面向 MDP 求解的，創(chuàng)建一個(gè)執(zhí)行了所有簡(jiǎn)化操作的版本的環(huán)境，然后在這個(gè)新的 MDP 上評(píng)估算法和基線(xiàn)。在論文中明確指出每種簡(jiǎn)化操作的相關(guān)假設(shè)，可以更清楚地描述每種方法的局限性。

當(dāng)我們研究 MDP 求解問(wèn)題時(shí)，對(duì) Atari 的簡(jiǎn)化結(jié)果是無(wú)關(guān)緊要的

現(xiàn)在，我想進(jìn)一步討論一些可能引起爭(zhēng)議的問(wèn)題：我認(rèn)為，在 GNOP 上進(jìn)行的評(píng)估實(shí)際上遠(yuǎn)比在 PONG 上進(jìn)行的評(píng)估更加重要。這是為什么呢？

從大的方面來(lái)看，沒(méi)有人真正關(guān)心我們能否學(xué)會(huì)玩 Atari 游戲。這是一個(gè)很棒的對(duì)比基準(zhǔn)，因?yàn)樗鼜?fù)雜、多樣，有便于比較的人類(lèi)基線(xiàn)，而且可以以較小的開(kāi)銷(xiāo)、快速地進(jìn)行仿真。但說(shuō)到底，我們直接研究 MDP 的集合才是最有用的，這一過(guò)程可以用來(lái)推動(dòng)算法的進(jìn)步，以解決復(fù)雜的 MDP。目前，這些 MDP 太復(fù)雜了，我們無(wú)法解決。不過(guò)這也沒(méi)關(guān)系，我們可以對(duì)這些 MDP 進(jìn)行簡(jiǎn)化，直到它們被解決為止，然后研究那些更受限制的領(lǐng)域的算法。策略是否能很好地遷移到其它的（原始的）MDP 集合或多或少與這個(gè)研究過(guò)程不相關(guān)。

此外，隨著時(shí)間的推移，研究者們將通過(guò)消除對(duì)他們研究的 MDP 的簡(jiǎn)化操作來(lái)推進(jìn)研究工作，越來(lái)越接近求解真實(shí)的、原始的 Atari。

例如，Hessel 等人于 2018 年提出「POPART」方法消除了獎(jiǎng)勵(lì)裁剪操作的要求。這是一項(xiàng)十分明智的技術(shù)，也是朝著真實(shí)的 Atari 環(huán)境下的策略學(xué)習(xí)前進(jìn)的一大步（因?yàn)闇p少了一項(xiàng)簡(jiǎn)化操作）。然而，它也會(huì)使得求解 MDP 變得更加困難，這意味著我們可能無(wú)法立刻看到性能的提升。為了給出公平的評(píng)估結(jié)果，POPART 應(yīng)該在帶有未裁剪獎(jiǎng)勵(lì)的 Atari 環(huán)境下與基線(xiàn)方法進(jìn)行對(duì)比，而此時(shí) POPART 方法的優(yōu)勢(shì)更大（詳見(jiàn)論文中的圖 2）。它學(xué)到的策略會(huì)更好地遷移到原始的環(huán)境中（因?yàn)榇藭r(shí)的最優(yōu)策略更加接近真實(shí)環(huán)境下的最優(yōu)策略），還是更差呢（由于難以?xún)?yōu)化）？這并不是我們所關(guān)注的！重要的是，在這個(gè)問(wèn)題的范圍內(nèi)，POPART 的性能優(yōu)于其它方案。

當(dāng)然，同時(shí)進(jìn)行對(duì)強(qiáng)化學(xué)習(xí)簡(jiǎn)化技術(shù)的研究也是十分重要的。對(duì)于這個(gè)問(wèn)題，有許多有趣的研究途徑，比如哪些簡(jiǎn)化操作是有效的，對(duì)哪些類(lèi)型的任務(wù)的研究可以代替對(duì)其它類(lèi)型的任務(wù)的研究，等等。對(duì)于這些類(lèi)型的研究，Atari 可能仍然是一個(gè)很好的對(duì)比基準(zhǔn)，并且在原始環(huán)境下的性能問(wèn)題再次成為最重要的需要回答的問(wèn)題。我只是想建議盡可能地將兩者分開(kāi)，并強(qiáng)調(diào)這些區(qū)別。

腳注

1. 自動(dòng)化的目標(biāo)是節(jié)省要付出的「工作」（effort）。粗略地說(shuō)，「工作」指的是：「解決一項(xiàng)任務(wù)所需要的一切」。我們可以考慮許多任務(wù)中的需要付出的「工作」。在此，我想重點(diǎn)強(qiáng)調(diào)幾類(lèi)「工作」：人工工作、數(shù)據(jù)收集工作和計(jì)算工作。（顯然還有其它類(lèi)別的工作，但這里提到的是與強(qiáng)化學(xué)習(xí)最相關(guān)的）。這些類(lèi)型的工作形成了各種層次結(jié)構(gòu)。

人工工作是最昂貴的，因?yàn)樗枰馁M(fèi)一個(gè)人的時(shí)間和精力，人們可以利用這些時(shí)間和精力做別的事情；數(shù)據(jù)收集是第二昂貴的，因?yàn)樗枰⒒A(chǔ)設(shè)置來(lái)與混亂的現(xiàn)實(shí)世界進(jìn)行交互；計(jì)算是最廉價(jià)的，因?yàn)橘?gòu)買(mǎi) CPU / GPU 的付出是相對(duì)較小的，而且算法常?？梢圆⑿谢Ｎ覀儙缀蹩偸菢?lè)于將「工作」從一個(gè)更高的層次轉(zhuǎn)化為一個(gè)更低的層次。例如，人人都愛(ài)計(jì)算器，它可以將兩個(gè)數(shù)字相乘所需的工作從人工工作轉(zhuǎn)化為計(jì)算工作。

2. 本文是從 MDP 的角度撰寫(xiě)的，但我所說(shuō)的一切同時(shí)適用于 MDP 和 POMDP 問(wèn)題。

3. 不可否認(rèn)，構(gòu)建模擬器也是需要耗費(fèi)人力的。

4. 盡管我們并不一定需要找到所有 MDP 的最優(yōu)策略，但是能夠解決與我們關(guān)心的問(wèn)題相關(guān)的所有 MDP 就足夠了。考慮到我們所生活的世界的規(guī)律性，幾乎可以肯定，這一集合要小得多。

5. 這些都是我注意到的，但如果你還發(fā)現(xiàn)了其它的方法，可以與大家分享！

6. 當(dāng)然，實(shí)際上，對(duì)于這個(gè)特定的問(wèn)題（PONG游戲，以及使用了獎(jiǎng)勵(lì)裁剪和折扣因子操作的簡(jiǎn)化環(huán)境），πmeh可能真實(shí)存在也可能不存在。但是請(qǐng)?jiān)试S我在此給出這個(gè)例子！通常來(lái)說(shuō)，這種情況沒(méi)有理由不發(fā)生。

Via https://jacobbuckman.com/2019-09-23-automation-via-reinforcement-learning/ 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。