0
雷鋒網(wǎng) AI 科技評(píng)論按:作為行為主義學(xué)派的重要技術(shù),近年來(lái),強(qiáng)化學(xué)習(xí)在 Atari 游戲領(lǐng)域大放異彩。然而,人們要想將強(qiáng)化學(xué)習(xí)技術(shù)真正應(yīng)用于現(xiàn)實(shí)世界任務(wù),還有很長(zhǎng)的一段路要走。本文將真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)抽象為「簡(jiǎn)化」和「求解」的兩個(gè)步驟,從馬爾科夫決策過(guò)程的角度,討論了普適性的基于強(qiáng)化學(xué)習(xí)的自動(dòng)化技術(shù)。
對(duì)于廣大研究者來(lái)說(shuō),有朝一日能夠在使用很少的人力的情況下,通過(guò)強(qiáng)化學(xué)習(xí)為現(xiàn)實(shí)世界中的任務(wù)生成自動(dòng)化的解決方案是夢(mèng)寐以求的事情1。不幸的是,現(xiàn)在看來(lái),強(qiáng)化學(xué)習(xí)還很難實(shí)現(xiàn)這一目標(biāo)。到目前為止,深度強(qiáng)化學(xué)習(xí)基本上還沒(méi)有解決任何現(xiàn)實(shí)世界中的問(wèn)題;即使是在非常理想的簡(jiǎn)單情況下,強(qiáng)化學(xué)習(xí)找到的解決方案往往也是十分脆弱的,無(wú)法泛化到新的環(huán)境中去。這意味著在每個(gè)任務(wù)中,涉及的人工工作(即針對(duì)特定任務(wù)的工程工作和超參數(shù)調(diào)優(yōu))是相當(dāng)多的。
與此同時(shí),當(dāng)前的強(qiáng)化學(xué)習(xí)算法的樣本效率往往很低,這也使得數(shù)據(jù)收集和計(jì)算的開(kāi)銷(xiāo)非常巨大。目前,基于強(qiáng)化學(xué)習(xí)的自動(dòng)化解決方案與其它的替代方案(例如,使用一組機(jī)器人來(lái)設(shè)計(jì)一個(gè)解決方案,或者根本不使用自動(dòng)化技術(shù))相比,還是很弱。
盡管如此,強(qiáng)化學(xué)習(xí)(尤其是深度強(qiáng)化學(xué)習(xí))技術(shù),仍然因其巨大的潛力成為令人興奮的研究領(lǐng)域。人們?cè)趶?qiáng)化學(xué)習(xí)領(lǐng)域取得的研究進(jìn)展,能夠直接轉(zhuǎn)化為使復(fù)雜的、具有很高認(rèn)知要求的任務(wù)更好地實(shí)現(xiàn)自動(dòng)化的能力,這是人們目前集中精力重點(diǎn)攻關(guān)的研究方向。如果我們能夠真正將強(qiáng)化學(xué)習(xí)發(fā)揚(yáng)光大,我們就可以在不使用人力的情況下,完成目前需要大量人力參與的任務(wù):只需要通過(guò)利用少量的數(shù)據(jù)進(jìn)行大量的計(jì)算。
出于這種考慮,讓我們進(jìn)一步思考:通過(guò)強(qiáng)化學(xué)習(xí)將任務(wù)自動(dòng)化究竟意味著什么?基本的解決過(guò)程可以被拆解為兩個(gè)步驟:首先,通過(guò)將問(wèn)題改寫(xiě)為一個(gè)馬爾科夫決策過(guò)程(MDP)或者部分可觀察馬爾科夫決策過(guò)程(POMDP),從而將該問(wèn)題簡(jiǎn)化為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,然后對(duì)這個(gè) MDP 或者 POMDP2 問(wèn)題的最優(yōu)策略進(jìn)行求解。接著,這個(gè)最優(yōu)策略讓我們能夠完全地將該任務(wù)自動(dòng)化,無(wú)需其它的人工工作就可以任意次地完成該任務(wù)。
盡管這個(gè)「兩步走」的策略十分直接,但在我的印象中,并沒(méi)有太多的強(qiáng)化學(xué)習(xí)研究人員從自動(dòng)化的角度來(lái)思考他們的工作。而在我看來(lái),自動(dòng)化是思考強(qiáng)化學(xué)習(xí)的一個(gè)非常有用的視角,它確實(shí)影響了我對(duì)強(qiáng)化學(xué)習(xí)研究的思考方法。在本文中,我將首先更詳細(xì)的介紹上面提到的「兩步走」策略。
當(dāng)我們嘗試通過(guò)強(qiáng)化學(xué)習(xí)對(duì)某個(gè)現(xiàn)實(shí)世界中的問(wèn)題進(jìn)行自動(dòng)化時(shí),首先要做的就是將該問(wèn)題重構(gòu)為一個(gè)馬爾科夫決策過(guò)程。由于馬爾科夫決策過(guò)程的框架十分通用,因此對(duì)于大多數(shù)問(wèn)題來(lái)說(shuō),這一點(diǎn)是很容易做到的。這也正是強(qiáng)化學(xué)習(xí)可以節(jié)省大量人力的原因所在。除了找到解決方案,人們要做的唯一的任務(wù)就是以略有不同的形式將問(wèn)題改寫(xiě)為馬爾科夫決策過(guò)程(或部分可觀察馬爾科夫決策過(guò)程)。
不幸的是,并非所有的馬爾科夫決策過(guò)程都同樣容易解決。在大多數(shù)情況下,直接將問(wèn)題簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題將會(huì)產(chǎn)生某些十分難以解決的問(wèn)題。例如,如果某項(xiàng)任務(wù)的獎(jiǎng)勵(lì)非常稀疏,只有在任務(wù)中發(fā)生的情景結(jié)束時(shí)才能夠獲得獎(jiǎng)勵(lì),那么我們很難計(jì)算出所有的獎(jiǎng)勵(lì),更不用說(shuō)解決任務(wù)了。但是,通過(guò)合理設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)(reward shaping)——加入將策略引導(dǎo)到真正的最優(yōu)點(diǎn)的中間獎(jiǎng)勵(lì),我們可以在很大程度上使強(qiáng)化學(xué)習(xí)算法面對(duì)的任務(wù)更加簡(jiǎn)單。
「sim2real」是另一種使我們更容易將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題的技術(shù),我們首先要手動(dòng)設(shè)計(jì)一個(gè)模擬器(是一種能夠?qū)φ鎸?shí)環(huán)境下的 MDP 進(jìn)行近似的 MDP),然后在我們的模擬器上找到最優(yōu)策略,最終將這個(gè)最優(yōu)策略遷移到真實(shí)環(huán)境中。從一個(gè)模擬器中收集數(shù)據(jù)需要進(jìn)行計(jì)算,但并不需要與現(xiàn)實(shí)世界進(jìn)行交互,這種與現(xiàn)實(shí)世界的交互要比從模擬器中收集數(shù)據(jù)慢得多。因此,在需要收集大量數(shù)據(jù)的問(wèn)題上,這是一種非常經(jīng)濟(jì)的方法3。
然而,這種技術(shù)也有很大的缺點(diǎn):在改變 MDP 時(shí),MDP 的最優(yōu)策略也隨之發(fā)生了變化。這意味著,即使我們的 MDP 求解器為我們提供了完美的解決方案(給出了確切的 MDP 最優(yōu)策略),這種解決方案也可能在真實(shí)任務(wù)上表現(xiàn)得很糟糕!
對(duì)于「將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)」的研究,是由以下問(wèn)題驅(qū)動(dòng)的:「我們?nèi)绾尾拍軐⒄鎸?shí)世界中的問(wèn)題表示為 MDP,以致于當(dāng)我們使用我們的 MDP 求解器時(shí),最終得到的策略可以在真實(shí)任務(wù)上表現(xiàn)良好」?在該框架下,強(qiáng)化學(xué)習(xí)研究的子領(lǐng)域包括遷移學(xué)習(xí)、無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)、sim2real、獎(jiǎng)勵(lì)工程、人工智能安全等等。
強(qiáng)化學(xué)習(xí)的核心是一個(gè)基本的問(wèn)題:找到 MDP 的最優(yōu)策略。MDP 是一種優(yōu)美、簡(jiǎn)練的數(shù)學(xué)抽象,并不涉及現(xiàn)實(shí)世界中那些混亂的情況。在 MDP 的情況下,我們不必像在「將任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)問(wèn)題」時(shí)那樣,思考「這是正確的獎(jiǎng)勵(lì)函數(shù)嗎?」或者「這樣的解決方案能夠遷移到其它任務(wù)上嗎?」
真正完美的 MDP 只有一個(gè),我們要做的就是找到具有最高期望受益的策略。
由于 MDP 框架具有很強(qiáng)的通用性,在我們發(fā)現(xiàn)一種能夠?yàn)槿我?MDP 找到最優(yōu)策略的算法4之前,我們需要研究很多困難的問(wèn)題。為了能夠進(jìn)一步進(jìn)行研究,我們往往為給定的 MDP 做出一些假設(shè)。例如,我們可以假設(shè)狀態(tài)空間是「表格式」的(離散的),或者是連續(xù)的(但是狀態(tài)轉(zhuǎn)移函數(shù)是符合利普希茨連續(xù)條件的),或者獎(jiǎng)勵(lì)函數(shù)的范圍介于 [-1,1] 之間。這種簡(jiǎn)化過(guò)程使我們更容易對(duì) MDP 進(jìn)行推理,并且更容易從經(jīng)驗(yàn)上說(shuō)明我們提出的解決方案的有效性。
大多數(shù)強(qiáng)化學(xué)習(xí)領(lǐng)域的研究都關(guān)注于改進(jìn)或理解上述兩個(gè)方面中的某一個(gè)方面。從研究動(dòng)機(jī)到評(píng)估策略,再到對(duì)結(jié)果的解釋?zhuān)瑢?duì)這二者的選擇對(duì)一切后續(xù)的研究過(guò)程都會(huì)產(chǎn)生很大的影響。然而,研究社區(qū)目前無(wú)法很好地將二者進(jìn)行區(qū)分。許多論文似乎同時(shí)涉及這兩個(gè)層面,使得論文缺乏嚴(yán)謹(jǐn)性,研究人員各執(zhí)一詞,并且容易對(duì)結(jié)果產(chǎn)生誤解。
具體而言,我們可以從這篇論文出發(fā)來(lái)窺探這個(gè)問(wèn)題:Mnih 等人曾于 2015 年發(fā)表過(guò)一篇經(jīng)典的深度強(qiáng)化學(xué)習(xí)論文「Human-level control through deep reinforcement learning」。這是第一篇明確說(shuō)明深度強(qiáng)化學(xué)習(xí)算法可以利用高位像素輸入進(jìn)行學(xué)習(xí),學(xué)會(huì)在玩游戲的過(guò)程中達(dá)到人類(lèi)水平的文章,人們普遍認(rèn)為這篇論文揭開(kāi)了整個(gè)深度強(qiáng)化學(xué)習(xí)領(lǐng)域研究的序幕。首先,我想重點(diǎn)關(guān)注 Mnih 等人做出的一個(gè)選擇:將所有的獎(jiǎng)勵(lì)裁剪到 [-1,1] 的區(qū)間中。
如果我們將這種對(duì)獎(jiǎng)勵(lì)的裁剪操作解釋為對(duì)他們的 MDP 求解算法在算法層面上的選擇,這顯然是不合適的?!笇ⅹ?jiǎng)勵(lì)裁剪到 [-1,1] 之間并進(jìn)行 Q-學(xué)習(xí)」顯然是一種糟糕的算法。在求解算法找到的策略與最佳策略相差甚遠(yuǎn)的情況下隨便提出一個(gè) MDP 是十分容易的。但是,如果從另一個(gè)層面上看,我們將這種獎(jiǎng)勵(lì)裁剪操作看做一種強(qiáng)化學(xué)習(xí)簡(jiǎn)化技術(shù),那么這種做法就顯得十分明智了。
當(dāng)我們使用一個(gè)深度神經(jīng)網(wǎng)絡(luò)函數(shù)近似器時(shí),求解一個(gè)帶有無(wú)界獎(jiǎng)勵(lì)的 MDP 問(wèn)題是十分困難的,而求解帶有有界獎(jiǎng)勵(lì)的 MDP 問(wèn)題要容易得多。事實(shí)證明,對(duì)于大多數(shù) Atari 游戲而言,帶有 L1 有界獎(jiǎng)勵(lì)的最優(yōu)策略與原始游戲的最佳策略非常相似。因此,對(duì)于這個(gè)問(wèn)題,這是一種十分有用的簡(jiǎn)化技術(shù),Mnih 等人也成功地應(yīng)用過(guò)這項(xiàng)技術(shù)。
我們還可以找到一些其它強(qiáng)化學(xué)習(xí)的簡(jiǎn)化例子。首先,在折扣因子 γ= 0.99 時(shí)。由于 Atari游戲有一段一段的劇情(即每一段劇情最終都會(huì)結(jié)束),無(wú)論是否存在折扣因子,Q-學(xué)習(xí)都應(yīng)該收斂。然而,由于深度強(qiáng)化學(xué)習(xí)是相當(dāng)不穩(wěn)定的,求解一個(gè)收斂較慢的 MDP 比求解一個(gè)收斂較快的 MDP 要困難一些,因此加入折扣因子是有幫助的。當(dāng)然,將折扣因子從1更改為 0.99 會(huì)改變最優(yōu)策略,但在本例中,這似乎無(wú)關(guān)緊要。我們最后針對(duì)于特定的 Atari 游戲的使用的簡(jiǎn)化啟發(fā)式方法5是「根據(jù)生命損失決定 MDP 的終止」。當(dāng)一個(gè)生命損失掉時(shí)就終止的 MDP 具有更短的情節(jié),這使得信用分配更容易,也更容易求解;同樣的,從經(jīng)驗(yàn)上看,過(guò)早終止這些游戲似乎不會(huì)對(duì)最優(yōu)策略產(chǎn)生太大影響。
那么,為什么我認(rèn)為應(yīng)該將這些算法決策視為面向強(qiáng)化學(xué)習(xí)簡(jiǎn)化的,而不是面向馬爾科夫過(guò)程求解的呢?其中一個(gè)主要的原因就是:對(duì)算法的評(píng)估。
Mnih 等人以及此后的每一篇 Atari 深度強(qiáng)化學(xué)習(xí)論文,都將他們所有的游戲與原始的標(biāo)準(zhǔn) Atari 環(huán)境進(jìn)行了對(duì)比。這意味著,論文中提出的任何改進(jìn)都將根據(jù)其對(duì)強(qiáng)化學(xué)習(xí)簡(jiǎn)化和 MDP 求解的影響自動(dòng)進(jìn)行評(píng)估。然而,將這兩個(gè)因素交織在一起考慮是有問(wèn)題的,可能會(huì)得出一些不合理的結(jié)論。
我們不妨考慮下面假設(shè)(但看起來(lái)合理)的情況。假如我們有一些用于「PONG」游戲的MDP。我們還有一種經(jīng)過(guò)了各種簡(jiǎn)化處理(例如獎(jiǎng)勵(lì)裁剪以及折扣因子)的「PONG」游戲的 MDP(不妨稱(chēng)其為 GNOP)。令「PONG」的最優(yōu)策略為 π*PONG,它能在游戲中得到 20 分的期望回報(bào):VPONG(π*PONG)=20。類(lèi)似地,GNOP 的最優(yōu)策略 π*GNOP 在 GNOP 中得到了 15 分:VGNOP(π*GNOP)=15。當(dāng)然,由于獎(jiǎng)勵(lì)裁剪和折扣因子,GNOP 得到的期望回報(bào)要稍稍低一些。
實(shí)驗(yàn)結(jié)果表明,當(dāng)我們?cè)?PONG 游戲中運(yùn)行策略 π*GNOP 時(shí),我們得到的回報(bào)為 18 分:VPONG(π*GNOP)=18。這說(shuō)明,我們可以對(duì)較為簡(jiǎn)單的 MDP(即 GNOP)進(jìn)行求解,然后仍然在我們真正關(guān)注的PONG 游戲的 MDP 上得到 90% 最優(yōu)解,這種歸約的效果還不錯(cuò)!但現(xiàn)在,不妨假設(shè)還存在另外一種策略 πmeh,使得 VGNOP(πmeh)=14,但 VPONG(πmeh)=196。
假如我是一個(gè)強(qiáng)化學(xué)習(xí)研究者,我想到了某種求解 MDP 的算法「novel()」,并設(shè)置了一個(gè)對(duì)比基線(xiàn)「baseline()」。我聲稱(chēng)「novel()」能夠比「baseline()」更好地找到最優(yōu)策略。因此,我在標(biāo)準(zhǔn)的 Atari 環(huán)境下評(píng)估該算法,該評(píng)估過(guò)程在簡(jiǎn)化版的環(huán)境中進(jìn)行訓(xùn)練但是在真實(shí)環(huán)境下進(jìn)行評(píng)估。結(jié)果表明,baseline(GNOP)=πmeh,而 novel(GNOP)=π*GNOP。這真是太神奇了!
我的新算法比對(duì)比基線(xiàn)能夠更好地找到 MDP 真正的最優(yōu)策略。但是,當(dāng)我在真實(shí)環(huán)境下進(jìn)行評(píng)估時(shí),我發(fā)現(xiàn):VPONG(baseline(GNOP))=19,而 VPONG(novel(GNOP))=18。這時(shí),相較于對(duì)比基線(xiàn)確實(shí)有所提升這一算法(確實(shí)相較于對(duì)比基線(xiàn)有所提升)看起來(lái)卻不那么好了。如果我們只報(bào)告了在 PONG 上的評(píng)估結(jié)果,而不報(bào)告在 GNOP 上的評(píng)估結(jié)果,沒(méi)有人會(huì)知道。
我認(rèn)為,在當(dāng)前的深度強(qiáng)化學(xué)習(xí)研究社區(qū)中,這樣的評(píng)估標(biāo)準(zhǔn)是一個(gè)很大的問(wèn)題。我懷疑,將「把任務(wù)簡(jiǎn)化為強(qiáng)化學(xué)習(xí)」和「求解 MDP」這兩個(gè)問(wèn)題交織在一起考慮,阻礙了我們對(duì)這兩方面進(jìn)展的認(rèn)識(shí)。這個(gè)問(wèn)題在 Atari 游戲中是最明顯的,但在其它領(lǐng)域也是如此;例如,一些 MuJoCo 控制任務(wù)是具有情節(jié)的,但我們?nèi)匀皇褂谜劭垡蜃舆M(jìn)行訓(xùn)練,并在沒(méi)有折扣因子的情況下進(jìn)行評(píng)估。
顯然,解決這個(gè)問(wèn)題的方法也是報(bào)告在 GNOP 上的評(píng)估結(jié)果。這很容易做到,我們只需要確定算法的哪些方面是面向強(qiáng)化學(xué)習(xí)簡(jiǎn)化的,哪些是面向 MDP 求解的,創(chuàng)建一個(gè)執(zhí)行了所有簡(jiǎn)化操作的版本的環(huán)境,然后在這個(gè)新的 MDP 上評(píng)估算法和基線(xiàn)。在論文中明確指出每種簡(jiǎn)化操作的相關(guān)假設(shè),可以更清楚地描述每種方法的局限性。
現(xiàn)在,我想進(jìn)一步討論一些可能引起爭(zhēng)議的問(wèn)題:我認(rèn)為,在 GNOP 上進(jìn)行的評(píng)估實(shí)際上遠(yuǎn)比在 PONG 上進(jìn)行的評(píng)估更加重要。這是為什么呢?
從大的方面來(lái)看,沒(méi)有人真正關(guān)心我們能否學(xué)會(huì)玩 Atari 游戲。這是一個(gè)很棒的對(duì)比基準(zhǔn),因?yàn)樗鼜?fù)雜、多樣,有便于比較的人類(lèi)基線(xiàn),而且可以以較小的開(kāi)銷(xiāo)、快速地進(jìn)行仿真。但說(shuō)到底,我們直接研究 MDP 的集合才是最有用的,這一過(guò)程可以用來(lái)推動(dòng)算法的進(jìn)步,以解決復(fù)雜的 MDP。目前,這些 MDP 太復(fù)雜了,我們無(wú)法解決。不過(guò)這也沒(méi)關(guān)系,我們可以對(duì)這些 MDP 進(jìn)行簡(jiǎn)化,直到它們被解決為止,然后研究那些更受限制的領(lǐng)域的算法。策略是否能很好地遷移到其它的(原始的)MDP 集合或多或少與這個(gè)研究過(guò)程不相關(guān)。
此外,隨著時(shí)間的推移,研究者們將通過(guò)消除對(duì)他們研究的 MDP 的簡(jiǎn)化操作來(lái)推進(jìn)研究工作,越來(lái)越接近求解真實(shí)的、原始的 Atari。
例如,Hessel 等人于 2018 年提出「POPART」方法消除了獎(jiǎng)勵(lì)裁剪操作的要求。這是一項(xiàng)十分明智的技術(shù),也是朝著真實(shí)的 Atari 環(huán)境下的策略學(xué)習(xí)前進(jìn)的一大步(因?yàn)闇p少了一項(xiàng)簡(jiǎn)化操作)。然而,它也會(huì)使得求解 MDP 變得更加困難,這意味著我們可能無(wú)法立刻看到性能的提升。為了給出公平的評(píng)估結(jié)果,POPART 應(yīng)該在帶有未裁剪獎(jiǎng)勵(lì)的 Atari 環(huán)境下與基線(xiàn)方法進(jìn)行對(duì)比,而此時(shí) POPART 方法的優(yōu)勢(shì)更大(詳見(jiàn)論文中的圖 2)。它學(xué)到的策略會(huì)更好地遷移到原始的環(huán)境中(因?yàn)榇藭r(shí)的最優(yōu)策略更加接近真實(shí)環(huán)境下的最優(yōu)策略),還是更差呢(由于難以?xún)?yōu)化)?這并不是我們所關(guān)注的!重要的是,在這個(gè)問(wèn)題的范圍內(nèi),POPART 的性能優(yōu)于其它方案。
當(dāng)然,同時(shí)進(jìn)行對(duì)強(qiáng)化學(xué)習(xí)簡(jiǎn)化技術(shù)的研究也是十分重要的。對(duì)于這個(gè)問(wèn)題,有許多有趣的研究途徑,比如哪些簡(jiǎn)化操作是有效的,對(duì)哪些類(lèi)型的任務(wù)的研究可以代替對(duì)其它類(lèi)型的任務(wù)的研究,等等。對(duì)于這些類(lèi)型的研究,Atari 可能仍然是一個(gè)很好的對(duì)比基準(zhǔn),并且在原始環(huán)境下的性能問(wèn)題再次成為最重要的需要回答的問(wèn)題。我只是想建議盡可能地將兩者分開(kāi),并強(qiáng)調(diào)這些區(qū)別。
1. 自動(dòng)化的目標(biāo)是節(jié)省要付出的「工作」(effort)。粗略地說(shuō),「工作」指的是:「解決一項(xiàng)任務(wù)所需要的一切」。我們可以考慮許多任務(wù)中的需要付出的「工作」。在此,我想重點(diǎn)強(qiáng)調(diào)幾類(lèi)「工作」:人工工作、數(shù)據(jù)收集工作和計(jì)算工作。(顯然還有其它類(lèi)別的工作,但這里提到的是與強(qiáng)化學(xué)習(xí)最相關(guān)的)。這些類(lèi)型的工作形成了各種層次結(jié)構(gòu)。
人工工作是最昂貴的,因?yàn)樗枰馁M(fèi)一個(gè)人的時(shí)間和精力,人們可以利用這些時(shí)間和精力做別的事情;數(shù)據(jù)收集是第二昂貴的,因?yàn)樗枰⒒A(chǔ)設(shè)置來(lái)與混亂的現(xiàn)實(shí)世界進(jìn)行交互;計(jì)算是最廉價(jià)的,因?yàn)橘?gòu)買(mǎi) CPU / GPU 的付出是相對(duì)較小的,而且算法常??梢圆⑿谢N覀儙缀蹩偸菢?lè)于將「工作」從一個(gè)更高的層次轉(zhuǎn)化為一個(gè)更低的層次。例如,人人都愛(ài)計(jì)算器,它可以將兩個(gè)數(shù)字相乘所需的工作從人工工作轉(zhuǎn)化為計(jì)算工作。
2. 本文是從 MDP 的角度撰寫(xiě)的,但我所說(shuō)的一切同時(shí)適用于 MDP 和 POMDP 問(wèn)題。
3. 不可否認(rèn),構(gòu)建模擬器也是需要耗費(fèi)人力的。
4. 盡管我們并不一定需要找到所有 MDP 的最優(yōu)策略,但是能夠解決與我們關(guān)心的問(wèn)題相關(guān)的所有 MDP 就足夠了。考慮到我們所生活的世界的規(guī)律性,幾乎可以肯定,這一集合要小得多。
5. 這些都是我注意到的,但如果你還發(fā)現(xiàn)了其它的方法,可以與大家分享!
6. 當(dāng)然,實(shí)際上,對(duì)于這個(gè)特定的問(wèn)題(PONG游戲,以及使用了獎(jiǎng)勵(lì)裁剪和折扣因子操作的簡(jiǎn)化環(huán)境),πmeh可能真實(shí)存在也可能不存在。但是請(qǐng)?jiān)试S我在此給出這個(gè)例子!通常來(lái)說(shuō),這種情況沒(méi)有理由不發(fā)生。
Via https://jacobbuckman.com/2019-09-23-automation-via-reinforcement-learning/ 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。