0
雷鋒網 AI 科技評論按:作為行為主義學派的重要技術,近年來,強化學習在 Atari 游戲領域大放異彩。然而,人們要想將強化學習技術真正應用于現(xiàn)實世界任務,還有很長的一段路要走。本文將真實世界強化學習任務抽象為「簡化」和「求解」的兩個步驟,從馬爾科夫決策過程的角度,討論了普適性的基于強化學習的自動化技術。
對于廣大研究者來說,有朝一日能夠在使用很少的人力的情況下,通過強化學習為現(xiàn)實世界中的任務生成自動化的解決方案是夢寐以求的事情1。不幸的是,現(xiàn)在看來,強化學習還很難實現(xiàn)這一目標。到目前為止,深度強化學習基本上還沒有解決任何現(xiàn)實世界中的問題;即使是在非常理想的簡單情況下,強化學習找到的解決方案往往也是十分脆弱的,無法泛化到新的環(huán)境中去。這意味著在每個任務中,涉及的人工工作(即針對特定任務的工程工作和超參數調優(yōu))是相當多的。
與此同時,當前的強化學習算法的樣本效率往往很低,這也使得數據收集和計算的開銷非常巨大。目前,基于強化學習的自動化解決方案與其它的替代方案(例如,使用一組機器人來設計一個解決方案,或者根本不使用自動化技術)相比,還是很弱。
盡管如此,強化學習(尤其是深度強化學習)技術,仍然因其巨大的潛力成為令人興奮的研究領域。人們在強化學習領域取得的研究進展,能夠直接轉化為使復雜的、具有很高認知要求的任務更好地實現(xiàn)自動化的能力,這是人們目前集中精力重點攻關的研究方向。如果我們能夠真正將強化學習發(fā)揚光大,我們就可以在不使用人力的情況下,完成目前需要大量人力參與的任務:只需要通過利用少量的數據進行大量的計算。
出于這種考慮,讓我們進一步思考:通過強化學習將任務自動化究竟意味著什么?基本的解決過程可以被拆解為兩個步驟:首先,通過將問題改寫為一個馬爾科夫決策過程(MDP)或者部分可觀察馬爾科夫決策過程(POMDP),從而將該問題簡化為一個強化學習問題,然后對這個 MDP 或者 POMDP2 問題的最優(yōu)策略進行求解。接著,這個最優(yōu)策略讓我們能夠完全地將該任務自動化,無需其它的人工工作就可以任意次地完成該任務。
盡管這個「兩步走」的策略十分直接,但在我的印象中,并沒有太多的強化學習研究人員從自動化的角度來思考他們的工作。而在我看來,自動化是思考強化學習的一個非常有用的視角,它確實影響了我對強化學習研究的思考方法。在本文中,我將首先更詳細的介紹上面提到的「兩步走」策略。
當我們嘗試通過強化學習對某個現(xiàn)實世界中的問題進行自動化時,首先要做的就是將該問題重構為一個馬爾科夫決策過程。由于馬爾科夫決策過程的框架十分通用,因此對于大多數問題來說,這一點是很容易做到的。這也正是強化學習可以節(jié)省大量人力的原因所在。除了找到解決方案,人們要做的唯一的任務就是以略有不同的形式將問題改寫為馬爾科夫決策過程(或部分可觀察馬爾科夫決策過程)。
不幸的是,并非所有的馬爾科夫決策過程都同樣容易解決。在大多數情況下,直接將問題簡化為強化學習問題將會產生某些十分難以解決的問題。例如,如果某項任務的獎勵非常稀疏,只有在任務中發(fā)生的情景結束時才能夠獲得獎勵,那么我們很難計算出所有的獎勵,更不用說解決任務了。但是,通過合理設計獎勵函數(reward shaping)——加入將策略引導到真正的最優(yōu)點的中間獎勵,我們可以在很大程度上使強化學習算法面對的任務更加簡單。
「sim2real」是另一種使我們更容易將任務簡化為強化學習問題的技術,我們首先要手動設計一個模擬器(是一種能夠對真實環(huán)境下的 MDP 進行近似的 MDP),然后在我們的模擬器上找到最優(yōu)策略,最終將這個最優(yōu)策略遷移到真實環(huán)境中。從一個模擬器中收集數據需要進行計算,但并不需要與現(xiàn)實世界進行交互,這種與現(xiàn)實世界的交互要比從模擬器中收集數據慢得多。因此,在需要收集大量數據的問題上,這是一種非常經濟的方法3。
然而,這種技術也有很大的缺點:在改變 MDP 時,MDP 的最優(yōu)策略也隨之發(fā)生了變化。這意味著,即使我們的 MDP 求解器為我們提供了完美的解決方案(給出了確切的 MDP 最優(yōu)策略),這種解決方案也可能在真實任務上表現(xiàn)得很糟糕!
對于「將任務簡化為強化學習」的研究,是由以下問題驅動的:「我們如何才能將真實世界中的問題表示為 MDP,以致于當我們使用我們的 MDP 求解器時,最終得到的策略可以在真實任務上表現(xiàn)良好」?在該框架下,強化學習研究的子領域包括遷移學習、無監(jiān)督強化學習、元學習、sim2real、獎勵工程、人工智能安全等等。
強化學習的核心是一個基本的問題:找到 MDP 的最優(yōu)策略。MDP 是一種優(yōu)美、簡練的數學抽象,并不涉及現(xiàn)實世界中那些混亂的情況。在 MDP 的情況下,我們不必像在「將任務簡化為強化學習問題」時那樣,思考「這是正確的獎勵函數嗎?」或者「這樣的解決方案能夠遷移到其它任務上嗎?」
真正完美的 MDP 只有一個,我們要做的就是找到具有最高期望受益的策略。
由于 MDP 框架具有很強的通用性,在我們發(fā)現(xiàn)一種能夠為任意 MDP 找到最優(yōu)策略的算法4之前,我們需要研究很多困難的問題。為了能夠進一步進行研究,我們往往為給定的 MDP 做出一些假設。例如,我們可以假設狀態(tài)空間是「表格式」的(離散的),或者是連續(xù)的(但是狀態(tài)轉移函數是符合利普希茨連續(xù)條件的),或者獎勵函數的范圍介于 [-1,1] 之間。這種簡化過程使我們更容易對 MDP 進行推理,并且更容易從經驗上說明我們提出的解決方案的有效性。
大多數強化學習領域的研究都關注于改進或理解上述兩個方面中的某一個方面。從研究動機到評估策略,再到對結果的解釋,對這二者的選擇對一切后續(xù)的研究過程都會產生很大的影響。然而,研究社區(qū)目前無法很好地將二者進行區(qū)分。許多論文似乎同時涉及這兩個層面,使得論文缺乏嚴謹性,研究人員各執(zhí)一詞,并且容易對結果產生誤解。
具體而言,我們可以從這篇論文出發(fā)來窺探這個問題:Mnih 等人曾于 2015 年發(fā)表過一篇經典的深度強化學習論文「Human-level control through deep reinforcement learning」。這是第一篇明確說明深度強化學習算法可以利用高位像素輸入進行學習,學會在玩游戲的過程中達到人類水平的文章,人們普遍認為這篇論文揭開了整個深度強化學習領域研究的序幕。首先,我想重點關注 Mnih 等人做出的一個選擇:將所有的獎勵裁剪到 [-1,1] 的區(qū)間中。
如果我們將這種對獎勵的裁剪操作解釋為對他們的 MDP 求解算法在算法層面上的選擇,這顯然是不合適的?!笇ⅹ剟畈眉舻?[-1,1] 之間并進行 Q-學習」顯然是一種糟糕的算法。在求解算法找到的策略與最佳策略相差甚遠的情況下隨便提出一個 MDP 是十分容易的。但是,如果從另一個層面上看,我們將這種獎勵裁剪操作看做一種強化學習簡化技術,那么這種做法就顯得十分明智了。
當我們使用一個深度神經網絡函數近似器時,求解一個帶有無界獎勵的 MDP 問題是十分困難的,而求解帶有有界獎勵的 MDP 問題要容易得多。事實證明,對于大多數 Atari 游戲而言,帶有 L1 有界獎勵的最優(yōu)策略與原始游戲的最佳策略非常相似。因此,對于這個問題,這是一種十分有用的簡化技術,Mnih 等人也成功地應用過這項技術。
我們還可以找到一些其它強化學習的簡化例子。首先,在折扣因子 γ= 0.99 時。由于 Atari游戲有一段一段的劇情(即每一段劇情最終都會結束),無論是否存在折扣因子,Q-學習都應該收斂。然而,由于深度強化學習是相當不穩(wěn)定的,求解一個收斂較慢的 MDP 比求解一個收斂較快的 MDP 要困難一些,因此加入折扣因子是有幫助的。當然,將折扣因子從1更改為 0.99 會改變最優(yōu)策略,但在本例中,這似乎無關緊要。我們最后針對于特定的 Atari 游戲的使用的簡化啟發(fā)式方法5是「根據生命損失決定 MDP 的終止」。當一個生命損失掉時就終止的 MDP 具有更短的情節(jié),這使得信用分配更容易,也更容易求解;同樣的,從經驗上看,過早終止這些游戲似乎不會對最優(yōu)策略產生太大影響。
那么,為什么我認為應該將這些算法決策視為面向強化學習簡化的,而不是面向馬爾科夫過程求解的呢?其中一個主要的原因就是:對算法的評估。
Mnih 等人以及此后的每一篇 Atari 深度強化學習論文,都將他們所有的游戲與原始的標準 Atari 環(huán)境進行了對比。這意味著,論文中提出的任何改進都將根據其對強化學習簡化和 MDP 求解的影響自動進行評估。然而,將這兩個因素交織在一起考慮是有問題的,可能會得出一些不合理的結論。
我們不妨考慮下面假設(但看起來合理)的情況。假如我們有一些用于「PONG」游戲的MDP。我們還有一種經過了各種簡化處理(例如獎勵裁剪以及折扣因子)的「PONG」游戲的 MDP(不妨稱其為 GNOP)。令「PONG」的最優(yōu)策略為 π*PONG,它能在游戲中得到 20 分的期望回報:VPONG(π*PONG)=20。類似地,GNOP 的最優(yōu)策略 π*GNOP 在 GNOP 中得到了 15 分:VGNOP(π*GNOP)=15。當然,由于獎勵裁剪和折扣因子,GNOP 得到的期望回報要稍稍低一些。
實驗結果表明,當我們在 PONG 游戲中運行策略 π*GNOP 時,我們得到的回報為 18 分:VPONG(π*GNOP)=18。這說明,我們可以對較為簡單的 MDP(即 GNOP)進行求解,然后仍然在我們真正關注的PONG 游戲的 MDP 上得到 90% 最優(yōu)解,這種歸約的效果還不錯!但現(xiàn)在,不妨假設還存在另外一種策略 πmeh,使得 VGNOP(πmeh)=14,但 VPONG(πmeh)=196。
假如我是一個強化學習研究者,我想到了某種求解 MDP 的算法「novel()」,并設置了一個對比基線「baseline()」。我聲稱「novel()」能夠比「baseline()」更好地找到最優(yōu)策略。因此,我在標準的 Atari 環(huán)境下評估該算法,該評估過程在簡化版的環(huán)境中進行訓練但是在真實環(huán)境下進行評估。結果表明,baseline(GNOP)=πmeh,而 novel(GNOP)=π*GNOP。這真是太神奇了!
我的新算法比對比基線能夠更好地找到 MDP 真正的最優(yōu)策略。但是,當我在真實環(huán)境下進行評估時,我發(fā)現(xiàn):VPONG(baseline(GNOP))=19,而 VPONG(novel(GNOP))=18。這時,相較于對比基線確實有所提升這一算法(確實相較于對比基線有所提升)看起來卻不那么好了。如果我們只報告了在 PONG 上的評估結果,而不報告在 GNOP 上的評估結果,沒有人會知道。
我認為,在當前的深度強化學習研究社區(qū)中,這樣的評估標準是一個很大的問題。我懷疑,將「把任務簡化為強化學習」和「求解 MDP」這兩個問題交織在一起考慮,阻礙了我們對這兩方面進展的認識。這個問題在 Atari 游戲中是最明顯的,但在其它領域也是如此;例如,一些 MuJoCo 控制任務是具有情節(jié)的,但我們仍然使用折扣因子進行訓練,并在沒有折扣因子的情況下進行評估。
顯然,解決這個問題的方法也是報告在 GNOP 上的評估結果。這很容易做到,我們只需要確定算法的哪些方面是面向強化學習簡化的,哪些是面向 MDP 求解的,創(chuàng)建一個執(zhí)行了所有簡化操作的版本的環(huán)境,然后在這個新的 MDP 上評估算法和基線。在論文中明確指出每種簡化操作的相關假設,可以更清楚地描述每種方法的局限性。
現(xiàn)在,我想進一步討論一些可能引起爭議的問題:我認為,在 GNOP 上進行的評估實際上遠比在 PONG 上進行的評估更加重要。這是為什么呢?
從大的方面來看,沒有人真正關心我們能否學會玩 Atari 游戲。這是一個很棒的對比基準,因為它復雜、多樣,有便于比較的人類基線,而且可以以較小的開銷、快速地進行仿真。但說到底,我們直接研究 MDP 的集合才是最有用的,這一過程可以用來推動算法的進步,以解決復雜的 MDP。目前,這些 MDP 太復雜了,我們無法解決。不過這也沒關系,我們可以對這些 MDP 進行簡化,直到它們被解決為止,然后研究那些更受限制的領域的算法。策略是否能很好地遷移到其它的(原始的)MDP 集合或多或少與這個研究過程不相關。
此外,隨著時間的推移,研究者們將通過消除對他們研究的 MDP 的簡化操作來推進研究工作,越來越接近求解真實的、原始的 Atari。
例如,Hessel 等人于 2018 年提出「POPART」方法消除了獎勵裁剪操作的要求。這是一項十分明智的技術,也是朝著真實的 Atari 環(huán)境下的策略學習前進的一大步(因為減少了一項簡化操作)。然而,它也會使得求解 MDP 變得更加困難,這意味著我們可能無法立刻看到性能的提升。為了給出公平的評估結果,POPART 應該在帶有未裁剪獎勵的 Atari 環(huán)境下與基線方法進行對比,而此時 POPART 方法的優(yōu)勢更大(詳見論文中的圖 2)。它學到的策略會更好地遷移到原始的環(huán)境中(因為此時的最優(yōu)策略更加接近真實環(huán)境下的最優(yōu)策略),還是更差呢(由于難以優(yōu)化)?這并不是我們所關注的!重要的是,在這個問題的范圍內,POPART 的性能優(yōu)于其它方案。
當然,同時進行對強化學習簡化技術的研究也是十分重要的。對于這個問題,有許多有趣的研究途徑,比如哪些簡化操作是有效的,對哪些類型的任務的研究可以代替對其它類型的任務的研究,等等。對于這些類型的研究,Atari 可能仍然是一個很好的對比基準,并且在原始環(huán)境下的性能問題再次成為最重要的需要回答的問題。我只是想建議盡可能地將兩者分開,并強調這些區(qū)別。
1. 自動化的目標是節(jié)省要付出的「工作」(effort)。粗略地說,「工作」指的是:「解決一項任務所需要的一切」。我們可以考慮許多任務中的需要付出的「工作」。在此,我想重點強調幾類「工作」:人工工作、數據收集工作和計算工作。(顯然還有其它類別的工作,但這里提到的是與強化學習最相關的)。這些類型的工作形成了各種層次結構。
人工工作是最昂貴的,因為它需要耗費一個人的時間和精力,人們可以利用這些時間和精力做別的事情;數據收集是第二昂貴的,因為它需要建立基礎設置來與混亂的現(xiàn)實世界進行交互;計算是最廉價的,因為購買 CPU / GPU 的付出是相對較小的,而且算法常??梢圆⑿谢?。我們幾乎總是樂于將「工作」從一個更高的層次轉化為一個更低的層次。例如,人人都愛計算器,它可以將兩個數字相乘所需的工作從人工工作轉化為計算工作。
2. 本文是從 MDP 的角度撰寫的,但我所說的一切同時適用于 MDP 和 POMDP 問題。
3. 不可否認,構建模擬器也是需要耗費人力的。
4. 盡管我們并不一定需要找到所有 MDP 的最優(yōu)策略,但是能夠解決與我們關心的問題相關的所有 MDP 就足夠了。考慮到我們所生活的世界的規(guī)律性,幾乎可以肯定,這一集合要小得多。
5. 這些都是我注意到的,但如果你還發(fā)現(xiàn)了其它的方法,可以與大家分享!
6. 當然,實際上,對于這個特定的問題(PONG游戲,以及使用了獎勵裁剪和折扣因子操作的簡化環(huán)境),πmeh可能真實存在也可能不存在。但是請允許我在此給出這個例子!通常來說,這種情況沒有理由不發(fā)生。
Via https://jacobbuckman.com/2019-09-23-automation-via-reinforcement-learning/ 雷鋒網雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。