華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

本文作者： skura

2019-01-31 15:51

專題：AAAI 2019

導(dǎo)語：新鮮出爐的論文具體介紹~

雷鋒網(wǎng) AI 科技評論按，AAAI 系列會議是為了促進(jìn)人工智能的學(xué)術(shù)研究和交流舉辦的頂級學(xué)術(shù)會議。作為第三十三屆 AAAI 會議，AAAI 2019 又一次刷新了人工智能會議的記錄，投稿數(shù)量達(dá)到 7,700 篇，錄用率 16.2%。

今年，華為諾亞方舟實(shí)驗(yàn)室埃德蒙頓團(tuán)隊(duì)在 AAAI 2019 有兩篇強(qiáng)化學(xué)習(xí)文章錄用，論文的具體介紹如下：

ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search

地址：https://arxiv.org/abs/1811.02696

本篇文章研究的是機(jī)器人領(lǐng)域里常見的連續(xù)動作控制問題。對該問題目前最好的強(qiáng)化學(xué)習(xí)算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發(fā)出來的，但是 DDPG 采用的其實(shí)是早期強(qiáng)化學(xué)習(xí)常用的 Actor-Critic 結(jié)構(gòu)，整個學(xué)習(xí)系統(tǒng)由一個「老師網(wǎng)絡(luò)」(Critic) 和一個「學(xué)生網(wǎng)絡(luò)」(Actor) 組成。老師網(wǎng)絡(luò)負(fù)責(zé)對學(xué)生網(wǎng)絡(luò)的輸出進(jìn)行打分。學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)在貪婪方向選取動作并追加隨機(jī)探索。學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)是站在老師網(wǎng)絡(luò)的肩膀上進(jìn)行梯度再上升，使用的是基于鏈?zhǔn)椒▌t的策略梯度方法 (Policy Gradient)。DDPG 實(shí)現(xiàn)的是一個優(yōu)美的設(shè)計，老師網(wǎng)絡(luò)專注于對學(xué)生網(wǎng)絡(luò)的打分和考評，學(xué)生網(wǎng)絡(luò)根據(jù)老師網(wǎng)絡(luò)的最新考評隨時調(diào)整自己的策略并有一定的探索自由度。

Actor-Critic 的理論和算法主要是在線性價值函數(shù)下。DDPG 的主要貢獻(xiàn)是將 Actor-Critic 的架構(gòu)推廣到神經(jīng)網(wǎng)絡(luò)。但是這種推廣也帶來一個線性下不存在問題:神經(jīng)網(wǎng)絡(luò)的使用導(dǎo)致老師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)都可能無法得到全局最優(yōu)解。為了解決 DDPG 的這個問題，我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術(shù)：通過多個 actor 網(wǎng)絡(luò)對同一個狀態(tài)來提出多個動作，老師網(wǎng)絡(luò)會根據(jù)他對這些學(xué)生們的打分經(jīng)驗(yàn)選擇最好的動作。為了使得多個學(xué)生網(wǎng)絡(luò)探索策略空間的不同的區(qū)域，我們把學(xué)生們初始化成不同的權(quán)值。這樣使得老師網(wǎng)絡(luò)有對探索的全局把握，也能解決 DDPG 只使用一個學(xué)生網(wǎng)絡(luò)而帶來的只能學(xué)到局部最優(yōu)策略的問題。

因?yàn)槎鄠€學(xué)生網(wǎng)絡(luò)的存在，我們可以提這樣的問題，如果使用學(xué)生 A 的動作接著再使用學(xué)生 B 的動作會帶來怎樣的效果？進(jìn)而，在當(dāng)前時刻我們?nèi)绾螞Q定未來使用的學(xué)生序列？這里是一個典型的規(guī)劃 (Planning) 問題：幾個學(xué)生動作鏈成一個時間序列，它們導(dǎo)致的效果是需要評估的。這種評估過程展開來是個樹狀結(jié)構(gòu)，也是 AlphaGo 使用的搜索結(jié)構(gòu)。注意下圍棋的動作是離散的，而在連續(xù)動作空間里怎么做樹狀搜索？因而本文的第二個貢獻(xiàn)就是連續(xù)動作空間下的樹狀搜索方法。為了快速進(jìn)行搜索，樹的展開不是在原始輸入圖像層面，而是在深層網(wǎng)絡(luò)已經(jīng)抽出來的低維特征空間進(jìn)行的。下圖中的 z 就是該低維特征。在當(dāng)前狀態(tài)，也就是相應(yīng)的圖像輸入下，我們?nèi)绻x擇動作 a，對應(yīng)的值函數(shù) Q(s,a) 是多少呢？該樹的分叉因子是二，代表的是采用兩個 actor networks。展開一步 (向右) 代表的是個預(yù)測過程，即預(yù)測在狀態(tài) s 分別采取兩個 actor networks 提出來的動作導(dǎo)致的下一個圖像對應(yīng)的低維特征 (還有獎賞的預(yù)測，圖中省略)。如此類推，在下一步的兩個低維特征間我們分別再根據(jù)兩個 actor networks 進(jìn)行動作選擇，對應(yīng)的下一步的低維特征就有四個。由于這種前向的預(yù)測展開過程是為了能找到最好的前向動作序列，我們只需要在意最好的路徑分支。因而在做完樹的前向展開，我們就可以找出最好的路徑，沿著展開樹的相反反方向進(jìn)行價值估計的回傳（就是強(qiáng)化學(xué)習(xí)中通常所謂 backup）。圖中所示是做兩步搜索的過程。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來源：華為諾亞實(shí)驗(yàn)室

在 RoboSchool（基于 Mujoco 的開源 RL 環(huán)境）上，我們的算法取得了比 DDPG 更快的學(xué)習(xí)速度和更好的學(xué)習(xí)效果。我們細(xì)致地比較了使用多個學(xué)生網(wǎng)絡(luò)和樹狀搜索對學(xué)習(xí)系統(tǒng)分別帶來的好處，發(fā)現(xiàn)如果單純使用多個學(xué)生網(wǎng)絡(luò)或者樹狀搜索算法的表現(xiàn)都遠(yuǎn)遠(yuǎn)低于兩個的結(jié)合。下面是在 Ant 和 Walker2d 的比較，藍(lán)色是我們的算法，黑色是 DDPG 的算法。ACE 的細(xì)節(jié)和它在其它 RoboSchool 任務(wù)的性能請看文章。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來源：華為諾亞實(shí)驗(yàn)室

參考文獻(xiàn)：

DDPG paper：Continuous control with deep reinforcement learning, DeepMind, 2015.

QUOTA: The Quantile Option Architecturefor Reinforcement Learning

地址：https://arxiv.org/abs/1811.02073

強(qiáng)化學(xué)習(xí)研究常用的 Atari games 包括了 49 個對人類玩家比較難的游戲。在這些游戲上的學(xué)習(xí)效率已經(jīng)成為算法的一個必要的評測指標(biāo)。目前在 Atari games 里排在首位的基礎(chǔ)算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當(dāng)前整體最優(yōu)的 Rainbow 則是集成了很多算法技術(shù)，而原理類似 QR-DQN 的 C51 是其中核心的一個算法。) QR-DQN 是基于 Distribution 的強(qiáng)化學(xué)習(xí)。在這一波「深度強(qiáng)化學(xué)習(xí)」的革命浪潮中，Distribution 強(qiáng)化學(xué)習(xí)是少見的新理論。最早的學(xué)習(xí)價值函數(shù)的分布的想法在 2010 年左右在線性的架構(gòu)下已經(jīng)有人提出，但是 DeepMind 團(tuán)隊(duì)第一次證明了價值函數(shù)分布也可以用于強(qiáng)化學(xué)習(xí)，即存在價值函數(shù)分布的 Bellman 方程。這個理論的重要性在于，在經(jīng)典強(qiáng)化學(xué)習(xí)和動態(tài)規(guī)劃中只有最優(yōu)策略函數(shù)存在的理論，現(xiàn)在不僅它本身存在，它的分布函數(shù)也存在。這個結(jié)果有可能驅(qū)動強(qiáng)化學(xué)習(xí)領(lǐng)域向 Distribution 強(qiáng)化學(xué)習(xí)邁進(jìn)。首先，Distribution 強(qiáng)化學(xué)習(xí)能測量更多的信息。經(jīng)典強(qiáng)化學(xué)習(xí)對一個狀態(tài)或者狀態(tài)和動作的一個組合只有對價值進(jìn)行均值的估計。Distribution 強(qiáng)化學(xué)習(xí)測量的卻不僅僅是均值，而是該狀態(tài)或者狀態(tài)加動作的價值的整個分布。模型的表達(dá)能力無疑大大增強(qiáng)了。比如，有了分布，我們不僅可以估計均值，還可以對狀態(tài)加動作的價值的方差進(jìn)行估計從而得到在該時刻選擇某個動作的信心評估。

然而，目前 DeepMind 的 Distribution 強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)雖然提出了很好的理論，卻止于「強(qiáng)化學(xué)習(xí)就是均值」的傳統(tǒng)理解。為什么這么說呢？QR-DQN 雖然估計出了狀態(tài)加動作的分布，還是只摘取了該分布的均值，然后回到了經(jīng)典強(qiáng)化學(xué)習(xí)用該均值做動作選擇的做法。也就是說，QR-DQN 其實(shí)只是經(jīng)典強(qiáng)化學(xué)習(xí)框架下一種新的均值估計方法。為了說明單純基于均值的方法的缺陷，我們給出了一個基于均值的強(qiáng)化學(xué)習(xí)會失敗的一個反例。包括 DQN 在內(nèi)所有基于均值估計的強(qiáng)化學(xué)習(xí)方法在該例子中都無法盡快探索到有價值的動作和狀態(tài)。而本文提出的方法能解決這種極端情況下的快速探索和學(xué)習(xí)。該反例的具體細(xì)節(jié)請看論文。

那么學(xué)了狀態(tài)加動作的價值值函數(shù)分布有沒有實(shí)際作用呢？應(yīng)該怎么用呢？這個是本文探討的主要問題。我們第一次提出可以通過使用分布函數(shù)估計中的不同 quantile 來做動作選擇，而不再是使用均值。超越均值的強(qiáng)化學(xué)習(xí)是本文的亮點(diǎn)。這樣做是因?yàn)椴煌?quantile 代表不同的風(fēng)險，在做策略選擇的過程中，不同時候的策略是需要有不同的風(fēng)險的。大的風(fēng)險能帶來大的收益，但是風(fēng)險也高。小風(fēng)險的策略相對安全，但是帶來收益也小。這種帶不同風(fēng)險的決策風(fēng)格在關(guān)鍵的時候會發(fā)揮作用。

顯然不同的時刻需要不同風(fēng)險的決策。為了能自適應(yīng)的選擇風(fēng)險水平以取得最大的系統(tǒng)收益，我們設(shè)計了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來實(shí)現(xiàn)宏觀決策，以選擇用哪種風(fēng)險的動作選擇。下層決策使用多個動作選擇網(wǎng)絡(luò)，每個網(wǎng)絡(luò)代表動作價值函數(shù)的一個 Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結(jié)果是，在大部分游戲上都優(yōu)于 QR-DQN(相同的學(xué)習(xí)時間分?jǐn)?shù)更高)。值得注意的是，我們算法取得領(lǐng)先優(yōu)勢的游戲恰恰是 Atari games 比較難的游戲 (讀者可以參看 DQN 在 Nature 雜志上的文章，對比 DQN 的基線結(jié)果。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來源：華為諾亞實(shí)驗(yàn)室

我們的方法不僅適合離散動作控制，同樣適用于連續(xù)動作控制。我們在 DDPG 中增加了多個 actor，每個 actor 是根據(jù)某個 quantile 的值函數(shù)進(jìn)行 (貪婪) 動作選擇。這樣 Critic 就可以對不同的 actor 網(wǎng)絡(luò)進(jìn)行評價。在 RoboSchool 幾組仿真機(jī)器人的控制問題上，QUOTA 在大部分問題里都優(yōu)于 DDPG。詳細(xì)的結(jié)果請看論文。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來源：華為諾亞實(shí)驗(yàn)室

最后，一個有意思的現(xiàn)象是實(shí)驗(yàn)結(jié)果說明了不同的時間點(diǎn)上所需要的風(fēng)險策略確實(shí)是不一樣的。下圖顯示的橫軸是學(xué)習(xí)時間 (也就是已經(jīng)見過的樣本的個數(shù))，縱軸是顯示選擇每個風(fēng)險策略的頻率。顏色越深表示在該時刻選擇該風(fēng)險策略的頻率越高。

華為 AAAI 2019 入選論文出爐，兩篇論文都是強(qiáng)化學(xué)習(xí)相關(guān)

圖片來源：華為諾亞實(shí)驗(yàn)室

參考文獻(xiàn)：

DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.
QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。