0
本文作者: skura | 2019-01-31 15:51 | 專題:AAAI 2019 |
雷鋒網(wǎng) AI 科技評(píng)論按,AAAI 系列會(huì)議是為了促進(jìn)人工智能的學(xué)術(shù)研究和交流舉辦的頂級(jí)學(xué)術(shù)會(huì)議。作為第三十三屆 AAAI 會(huì)議,AAAI 2019 又一次刷新了人工智能會(huì)議的記錄,投稿數(shù)量達(dá)到 7,700 篇,錄用率 16.2%。
今年,華為諾亞方舟實(shí)驗(yàn)室埃德蒙頓團(tuán)隊(duì)在 AAAI 2019 有兩篇強(qiáng)化學(xué)習(xí)文章錄用,論文的具體介紹如下:
ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search
地址:https://arxiv.org/abs/1811.02696
本篇文章研究的是機(jī)器人領(lǐng)域里常見的連續(xù)動(dòng)作控制問題。對(duì)該問題目前最好的強(qiáng)化學(xué)習(xí)算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發(fā)出來的,但是 DDPG 采用的其實(shí)是早期強(qiáng)化學(xué)習(xí)常用的 Actor-Critic 結(jié)構(gòu),整個(gè)學(xué)習(xí)系統(tǒng)由一個(gè)「老師網(wǎng)絡(luò)」(Critic) 和一個(gè)「學(xué)生網(wǎng)絡(luò)」(Actor) 組成。老師網(wǎng)絡(luò)負(fù)責(zé)對(duì)學(xué)生網(wǎng)絡(luò)的輸出進(jìn)行打分。學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)在貪婪方向選取動(dòng)作并追加隨機(jī)探索。學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)是站在老師網(wǎng)絡(luò)的肩膀上進(jìn)行梯度再上升,使用的是基于鏈?zhǔn)椒▌t的策略梯度方法 (Policy Gradient)。DDPG 實(shí)現(xiàn)的是一個(gè)優(yōu)美的設(shè)計(jì),老師網(wǎng)絡(luò)專注于對(duì)學(xué)生網(wǎng)絡(luò)的打分和考評(píng),學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)的最新考評(píng)隨時(shí)調(diào)整自己的策略并有一定的探索自由度。
Actor-Critic 的理論和算法主要是在線性價(jià)值函數(shù)下。DDPG 的主要貢獻(xiàn)是將 Actor-Critic 的架構(gòu)推廣到神經(jīng)網(wǎng)絡(luò)。但是這種推廣也帶來一個(gè)線性下不存在問題:神經(jīng)網(wǎng)絡(luò)的使用導(dǎo)致老師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)都可能無法得到全局最優(yōu)解。為了解決 DDPG 的這個(gè)問題,我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術(shù):通過多個(gè) actor 網(wǎng)絡(luò)對(duì)同一個(gè)狀態(tài)來提出多個(gè)動(dòng)作,老師網(wǎng)絡(luò)會(huì)根據(jù)他對(duì)這些學(xué)生們的打分經(jīng)驗(yàn)選擇最好的動(dòng)作。為了使得多個(gè)學(xué)生網(wǎng)絡(luò)探索策略空間的不同的區(qū)域,我們把學(xué)生們初始化成不同的權(quán)值。這樣使得老師網(wǎng)絡(luò)有對(duì)探索的全局把握,也能解決 DDPG 只使用一個(gè)學(xué)生網(wǎng)絡(luò)而帶來的只能學(xué)到局部最優(yōu)策略的問題。
因?yàn)槎鄠€(gè)學(xué)生網(wǎng)絡(luò)的存在,我們可以提這樣的問題,如果使用學(xué)生 A 的動(dòng)作接著再使用學(xué)生 B 的動(dòng)作會(huì)帶來怎樣的效果?進(jìn)而,在當(dāng)前時(shí)刻我們?nèi)绾螞Q定未來使用的學(xué)生序列?這里是一個(gè)典型的規(guī)劃 (Planning) 問題:幾個(gè)學(xué)生動(dòng)作鏈成一個(gè)時(shí)間序列,它們導(dǎo)致的效果是需要評(píng)估的。這種評(píng)估過程展開來是個(gè)樹狀結(jié)構(gòu),也是 AlphaGo 使用的搜索結(jié)構(gòu)。注意下圍棋的動(dòng)作是離散的,而在連續(xù)動(dòng)作空間里怎么做樹狀搜索?因而本文的第二個(gè)貢獻(xiàn)就是連續(xù)動(dòng)作空間下的樹狀搜索方法。為了快速進(jìn)行搜索,樹的展開不是在原始輸入圖像層面,而是在深層網(wǎng)絡(luò)已經(jīng)抽出來的低維特征空間進(jìn)行的。下圖中的 z 就是該低維特征。在當(dāng)前狀態(tài),也就是相應(yīng)的圖像輸入下,我們?nèi)绻x擇動(dòng)作 a,對(duì)應(yīng)的值函數(shù) Q(s,a) 是多少呢?該樹的分叉因子是二,代表的是采用兩個(gè) actor networks。展開一步 (向右) 代表的是個(gè)預(yù)測過程,即預(yù)測在狀態(tài) s 分別采取兩個(gè) actor networks 提出來的動(dòng)作導(dǎo)致的下一個(gè)圖像對(duì)應(yīng)的低維特征 (還有獎(jiǎng)賞的預(yù)測,圖中省略)。如此類推,在下一步的兩個(gè)低維特征間我們分別再根據(jù)兩個(gè) actor networks 進(jìn)行動(dòng)作選擇,對(duì)應(yīng)的下一步的低維特征就有四個(gè)。由于這種前向的預(yù)測展開過程是為了能找到最好的前向動(dòng)作序列,我們只需要在意最好的路徑分支。因而在做完樹的前向展開,我們就可以找出最好的路徑,沿著展開樹的相反反方向進(jìn)行價(jià)值估計(jì)的回傳(就是強(qiáng)化學(xué)習(xí)中通常所謂 backup)。圖中所示是做兩步搜索的過程。
圖片來源:華為諾亞實(shí)驗(yàn)室
在 RoboSchool(基于 Mujoco 的開源 RL 環(huán)境)上,我們的算法取得了比 DDPG 更快的學(xué)習(xí)速度和更好的學(xué)習(xí)效果。我們細(xì)致地比較了使用多個(gè)學(xué)生網(wǎng)絡(luò)和樹狀搜索對(duì)學(xué)習(xí)系統(tǒng)分別帶來的好處,發(fā)現(xiàn)如果單純使用多個(gè)學(xué)生網(wǎng)絡(luò)或者樹狀搜索算法的表現(xiàn)都遠(yuǎn)遠(yuǎn)低于兩個(gè)的結(jié)合。下面是在 Ant 和 Walker2d 的比較,藍(lán)色是我們的算法,黑色是 DDPG 的算法。ACE 的細(xì)節(jié)和它在其它 RoboSchool 任務(wù)的性能請看文章。
圖片來源:華為諾亞實(shí)驗(yàn)室
參考文獻(xiàn):
DDPG paper:Continuous control with deep reinforcement learning, DeepMind, 2015.
QUOTA: The Quantile Option Architecturefor Reinforcement Learning
地址:https://arxiv.org/abs/1811.02073
強(qiáng)化學(xué)習(xí)研究常用的 Atari games 包括了 49 個(gè)對(duì)人類玩家比較難的游戲。在這些游戲上的學(xué)習(xí)效率已經(jīng)成為算法的一個(gè)必要的評(píng)測指標(biāo)。目前在 Atari games 里排在首位的基礎(chǔ)算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當(dāng)前整體最優(yōu)的 Rainbow 則是集成了很多算法技術(shù),而原理類似 QR-DQN 的 C51 是其中核心的一個(gè)算法。) QR-DQN 是基于 Distribution 的強(qiáng)化學(xué)習(xí)。在這一波「深度強(qiáng)化學(xué)習(xí)」的革命浪潮中,Distribution 強(qiáng)化學(xué)習(xí)是少見的新理論。最早的學(xué)習(xí)價(jià)值函數(shù)的分布的想法在 2010 年左右在線性的架構(gòu)下已經(jīng)有人提出,但是 DeepMind 團(tuán)隊(duì)第一次證明了價(jià)值函數(shù)分布也可以用于強(qiáng)化學(xué)習(xí),即存在價(jià)值函數(shù)分布的 Bellman 方程。這個(gè)理論的重要性在于,在經(jīng)典強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃中只有最優(yōu)策略函數(shù)存在的理論,現(xiàn)在不僅它本身存在,它的分布函數(shù)也存在。這個(gè)結(jié)果有可能驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域向 Distribution 強(qiáng)化學(xué)習(xí)邁進(jìn)。首先,Distribution 強(qiáng)化學(xué)習(xí)能測量更多的信息。經(jīng)典強(qiáng)化學(xué)習(xí)對(duì)一個(gè)狀態(tài)或者狀態(tài)和動(dòng)作的一個(gè)組合只有對(duì)價(jià)值進(jìn)行均值的估計(jì)。Distribution 強(qiáng)化學(xué)習(xí)測量的卻不僅僅是均值,而是該狀態(tài)或者狀態(tài)加動(dòng)作的價(jià)值的整個(gè)分布。模型的表達(dá)能力無疑大大增強(qiáng)了。比如,有了分布,我們不僅可以估計(jì)均值,還可以對(duì)狀態(tài)加動(dòng)作的價(jià)值的方差進(jìn)行估計(jì)從而得到在該時(shí)刻選擇某個(gè)動(dòng)作的信心評(píng)估。
然而,目前 DeepMind 的 Distribution 強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)雖然提出了很好的理論,卻止于「強(qiáng)化學(xué)習(xí)就是均值」的傳統(tǒng)理解。為什么這么說呢?QR-DQN 雖然估計(jì)出了狀態(tài)加動(dòng)作的分布,還是只摘取了該分布的均值,然后回到了經(jīng)典強(qiáng)化學(xué)習(xí)用該均值做動(dòng)作選擇的做法。也就是說,QR-DQN 其實(shí)只是經(jīng)典強(qiáng)化學(xué)習(xí)框架下一種新的均值估計(jì)方法。為了說明單純基于均值的方法的缺陷,我們給出了一個(gè)基于均值的強(qiáng)化學(xué)習(xí)會(huì)失敗的一個(gè)反例。包括 DQN 在內(nèi)所有基于均值估計(jì)的強(qiáng)化學(xué)習(xí)方法在該例子中都無法盡快探索到有價(jià)值的動(dòng)作和狀態(tài)。而本文提出的方法能解決這種極端情況下的快速探索和學(xué)習(xí)。該反例的具體細(xì)節(jié)請看論文。
那么學(xué)了狀態(tài)加動(dòng)作的價(jià)值值函數(shù)分布有沒有實(shí)際作用呢?應(yīng)該怎么用呢?這個(gè)是本文探討的主要問題。我們第一次提出可以通過使用分布函數(shù)估計(jì)中的不同 quantile 來做動(dòng)作選擇,而不再是使用均值。超越均值的強(qiáng)化學(xué)習(xí)是本文的亮點(diǎn)。這樣做是因?yàn)椴煌?quantile 代表不同的風(fēng)險(xiǎn),在做策略選擇的過程中,不同時(shí)候的策略是需要有不同的風(fēng)險(xiǎn)的。大的風(fēng)險(xiǎn)能帶來大的收益,但是風(fēng)險(xiǎn)也高。小風(fēng)險(xiǎn)的策略相對(duì)安全,但是帶來收益也小。這種帶不同風(fēng)險(xiǎn)的決策風(fēng)格在關(guān)鍵的時(shí)候會(huì)發(fā)揮作用。
顯然不同的時(shí)刻需要不同風(fēng)險(xiǎn)的決策。為了能自適應(yīng)的選擇風(fēng)險(xiǎn)水平以取得最大的系統(tǒng)收益,我們設(shè)計(jì)了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來實(shí)現(xiàn)宏觀決策,以選擇用哪種風(fēng)險(xiǎn)的動(dòng)作選擇。下層決策使用多個(gè)動(dòng)作選擇網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)代表動(dòng)作價(jià)值函數(shù)的一個(gè) Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結(jié)果是,在大部分游戲上都優(yōu)于 QR-DQN(相同的學(xué)習(xí)時(shí)間分?jǐn)?shù)更高)。值得注意的是,我們算法取得領(lǐng)先優(yōu)勢的游戲恰恰是 Atari games 比較難的游戲 (讀者可以參看 DQN 在 Nature 雜志上的文章,對(duì)比 DQN 的基線結(jié)果。
圖片來源:華為諾亞實(shí)驗(yàn)室
我們的方法不僅適合離散動(dòng)作控制,同樣適用于連續(xù)動(dòng)作控制。我們在 DDPG 中增加了多個(gè) actor,每個(gè) actor 是根據(jù)某個(gè) quantile 的值函數(shù)進(jìn)行 (貪婪) 動(dòng)作選擇。這樣 Critic 就可以對(duì)不同的 actor 網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。在 RoboSchool 幾組仿真機(jī)器人的控制問題上,QUOTA 在大部分問題里都優(yōu)于 DDPG。詳細(xì)的結(jié)果請看論文。
圖片來源:華為諾亞實(shí)驗(yàn)室
最后,一個(gè)有意思的現(xiàn)象是實(shí)驗(yàn)結(jié)果說明了不同的時(shí)間點(diǎn)上所需要的風(fēng)險(xiǎn)策略確實(shí)是不一樣的。下圖顯示的橫軸是學(xué)習(xí)時(shí)間 (也就是已經(jīng)見過的樣本的個(gè)數(shù)),縱軸是顯示選擇每個(gè)風(fēng)險(xiǎn)策略的頻率。顏色越深表示在該時(shí)刻選擇該風(fēng)險(xiǎn)策略的頻率越高。
圖片來源:華為諾亞實(shí)驗(yàn)室
參考文獻(xiàn):
DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。