丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

本文作者: skura 2019-01-31 15:51 專題:AAAI 2019
導語:新鮮出爐的論文具體介紹~

雷鋒網(wǎng) AI 科技評論按,AAAI 系列會議是為了促進人工智能的學術研究和交流舉辦的頂級學術會議。作為第三十三屆 AAAI 會議,AAAI 2019 又一次刷新了人工智能會議的記錄,投稿數(shù)量達到 7,700 篇,錄用率 16.2%。

今年,華為諾亞方舟實驗室埃德蒙頓團隊在 AAAI 2019 有兩篇強化學習文章錄用,論文的具體介紹如下:

  • ACE: An Actor Ensemble Algorithm for Continuous Controlwith Tree Search

地址:https://arxiv.org/abs/1811.02696

本篇文章研究的是機器人領域里常見的連續(xù)動作控制問題。對該問題目前最好的強化學習算法是 DeepMind 的 Deep Deterministic Policy Gradient(DDPG)。雖然在 DDPG 的文章中該算法是從 Deep Q networks 的靈感引發(fā)出來的,但是 DDPG 采用的其實是早期強化學習常用的 Actor-Critic 結構,整個學習系統(tǒng)由一個「老師網(wǎng)絡」(Critic) 和一個「學生網(wǎng)絡」(Actor) 組成。老師網(wǎng)絡負責對學生網(wǎng)絡的輸出進行打分。學生網(wǎng)絡根據(jù)老師網(wǎng)絡在貪婪方向選取動作并追加隨機探索。學生網(wǎng)絡的學習是站在老師網(wǎng)絡的肩膀上進行梯度再上升,使用的是基于鏈式法則的策略梯度方法 (Policy Gradient)。DDPG 實現(xiàn)的是一個優(yōu)美的設計,老師網(wǎng)絡專注于對學生網(wǎng)絡的打分和考評,學生網(wǎng)絡根據(jù)老師網(wǎng)絡的最新考評隨時調(diào)整自己的策略并有一定的探索自由度。

Actor-Critic 的理論和算法主要是在線性價值函數(shù)下。DDPG 的主要貢獻是將 Actor-Critic 的架構推廣到神經(jīng)網(wǎng)絡。但是這種推廣也帶來一個線性下不存在問題:神經(jīng)網(wǎng)絡的使用導致老師網(wǎng)絡和學生網(wǎng)絡都可能無法得到全局最優(yōu)解。為了解決 DDPG 的這個問題,我們提出的新算法 ACE 的核心思想是使用 actorensemble 的技術:通過多個 actor 網(wǎng)絡對同一個狀態(tài)來提出多個動作,老師網(wǎng)絡會根據(jù)他對這些學生們的打分經(jīng)驗選擇最好的動作。為了使得多個學生網(wǎng)絡探索策略空間的不同的區(qū)域,我們把學生們初始化成不同的權值。這樣使得老師網(wǎng)絡有對探索的全局把握,也能解決 DDPG 只使用一個學生網(wǎng)絡而帶來的只能學到局部最優(yōu)策略的問題。

因為多個學生網(wǎng)絡的存在,我們可以提這樣的問題,如果使用學生 A 的動作接著再使用學生 B 的動作會帶來怎樣的效果?進而,在當前時刻我們?nèi)绾螞Q定未來使用的學生序列?這里是一個典型的規(guī)劃 (Planning) 問題:幾個學生動作鏈成一個時間序列,它們導致的效果是需要評估的。這種評估過程展開來是個樹狀結構,也是 AlphaGo 使用的搜索結構。注意下圍棋的動作是離散的,而在連續(xù)動作空間里怎么做樹狀搜索?因而本文的第二個貢獻就是連續(xù)動作空間下的樹狀搜索方法。為了快速進行搜索,樹的展開不是在原始輸入圖像層面,而是在深層網(wǎng)絡已經(jīng)抽出來的低維特征空間進行的。下圖中的 z 就是該低維特征。在當前狀態(tài),也就是相應的圖像輸入下,我們?nèi)绻x擇動作 a,對應的值函數(shù) Q(s,a) 是多少呢?該樹的分叉因子是二,代表的是采用兩個 actor networks。展開一步 (向右) 代表的是個預測過程,即預測在狀態(tài) s 分別采取兩個 actor networks 提出來的動作導致的下一個圖像對應的低維特征 (還有獎賞的預測,圖中省略)。如此類推,在下一步的兩個低維特征間我們分別再根據(jù)兩個 actor networks 進行動作選擇,對應的下一步的低維特征就有四個。由于這種前向的預測展開過程是為了能找到最好的前向動作序列,我們只需要在意最好的路徑分支。因而在做完樹的前向展開,我們就可以找出最好的路徑,沿著展開樹的相反反方向進行價值估計的回傳(就是強化學習中通常所謂 backup)。圖中所示是做兩步搜索的過程。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

圖片來源:華為諾亞實驗室

在 RoboSchool(基于 Mujoco 的開源 RL 環(huán)境)上,我們的算法取得了比 DDPG 更快的學習速度和更好的學習效果。我們細致地比較了使用多個學生網(wǎng)絡和樹狀搜索對學習系統(tǒng)分別帶來的好處,發(fā)現(xiàn)如果單純使用多個學生網(wǎng)絡或者樹狀搜索算法的表現(xiàn)都遠遠低于兩個的結合。下面是在 Ant 和 Walker2d 的比較,藍色是我們的算法,黑色是 DDPG 的算法。ACE 的細節(jié)和它在其它 RoboSchool 任務的性能請看文章。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

圖片來源:華為諾亞實驗室

參考文獻:

DDPG paper:Continuous control with deep reinforcement learning, DeepMind, 2015.

  • QUOTA: The Quantile Option Architecturefor Reinforcement Learning

地址:https://arxiv.org/abs/1811.02073

強化學習研究常用的 Atari games 包括了 49 個對人類玩家比較難的游戲。在這些游戲上的學習效率已經(jīng)成為算法的一個必要的評測指標。目前在 Atari games 里排在首位的基礎算法是 DeepMind 的 Quantile Regression – Deep Q networks (QR-DQN)。(當前整體最優(yōu)的 Rainbow 則是集成了很多算法技術,而原理類似 QR-DQN 的 C51 是其中核心的一個算法。) QR-DQN 是基于 Distribution 的強化學習。在這一波「深度強化學習」的革命浪潮中,Distribution 強化學習是少見的新理論。最早的學習價值函數(shù)的分布的想法在 2010 年左右在線性的架構下已經(jīng)有人提出,但是 DeepMind 團隊第一次證明了價值函數(shù)分布也可以用于強化學習,即存在價值函數(shù)分布的 Bellman 方程。這個理論的重要性在于,在經(jīng)典強化學習和動態(tài)規(guī)劃中只有最優(yōu)策略函數(shù)存在的理論,現(xiàn)在不僅它本身存在,它的分布函數(shù)也存在。這個結果有可能驅(qū)動強化學習領域向 Distribution 強化學習邁進。首先,Distribution 強化學習能測量更多的信息。經(jīng)典強化學習對一個狀態(tài)或者狀態(tài)和動作的一個組合只有對價值進行均值的估計。Distribution 強化學習測量的卻不僅僅是均值,而是該狀態(tài)或者狀態(tài)加動作的價值的整個分布。模型的表達能力無疑大大增強了。比如,有了分布,我們不僅可以估計均值,還可以對狀態(tài)加動作的價值的方差進行估計從而得到在該時刻選擇某個動作的信心評估。

然而,目前 DeepMind 的 Distribution 強化學習團隊雖然提出了很好的理論,卻止于「強化學習就是均值」的傳統(tǒng)理解。為什么這么說呢?QR-DQN 雖然估計出了狀態(tài)加動作的分布,還是只摘取了該分布的均值,然后回到了經(jīng)典強化學習用該均值做動作選擇的做法。也就是說,QR-DQN 其實只是經(jīng)典強化學習框架下一種新的均值估計方法。為了說明單純基于均值的方法的缺陷,我們給出了一個基于均值的強化學習會失敗的一個反例。包括 DQN 在內(nèi)所有基于均值估計的強化學習方法在該例子中都無法盡快探索到有價值的動作和狀態(tài)。而本文提出的方法能解決這種極端情況下的快速探索和學習。該反例的具體細節(jié)請看論文。

那么學了狀態(tài)加動作的價值值函數(shù)分布有沒有實際作用呢?應該怎么用呢?這個是本文探討的主要問題。我們第一次提出可以通過使用分布函數(shù)估計中的不同 quantile 來做動作選擇,而不再是使用均值。超越均值的強化學習是本文的亮點。這樣做是因為不同的 quantile 代表不同的風險,在做策略選擇的過程中,不同時候的策略是需要有不同的風險的。大的風險能帶來大的收益,但是風險也高。小風險的策略相對安全,但是帶來收益也小。這種帶不同風險的決策風格在關鍵的時候會發(fā)揮作用。

顯然不同的時刻需要不同風險的決策。為了能自適應的選擇風險水平以取得最大的系統(tǒng)收益,我們設計了分層 (hierarchical) 的決策框架。上層的決策用 Deep Q networks(DQN) 來實現(xiàn)宏觀決策,以選擇用哪種風險的動作選擇。下層決策使用多個動作選擇網(wǎng)絡,每個網(wǎng)絡代表動作價值函數(shù)的一個 Quantile。在 Atari 上我們的算法 QUOTA 與 QR-DQN 比較的結果是,在大部分游戲上都優(yōu)于 QR-DQN(相同的學習時間分數(shù)更高)。值得注意的是,我們算法取得領先優(yōu)勢的游戲恰恰是 Atari games 比較難的游戲 (讀者可以參看 DQN 在 Nature 雜志上的文章,對比 DQN 的基線結果。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

圖片來源:華為諾亞實驗室

我們的方法不僅適合離散動作控制,同樣適用于連續(xù)動作控制。我們在 DDPG 中增加了多個 actor,每個 actor 是根據(jù)某個 quantile 的值函數(shù)進行 (貪婪) 動作選擇。這樣 Critic 就可以對不同的 actor 網(wǎng)絡進行評價。在 RoboSchool 幾組仿真機器人的控制問題上,QUOTA 在大部分問題里都優(yōu)于 DDPG。詳細的結果請看論文。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

圖片來源:華為諾亞實驗室

最后,一個有意思的現(xiàn)象是實驗結果說明了不同的時間點上所需要的風險策略確實是不一樣的。下圖顯示的橫軸是學習時間 (也就是已經(jīng)見過的樣本的個數(shù)),縱軸是顯示選擇每個風險策略的頻率。顏色越深表示在該時刻選擇該風險策略的頻率越高。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

圖片來源:華為諾亞實驗室

參考文獻:

  • DQN Nature paper: Human-levelcontrol through deep reinforcement learning, DeepMind 2015.

  • QR-DQN paper: Distributional ReinforcementLearning with Quantile Regression, DeepMind, 2017.

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

華為 AAAI 2019 入選論文出爐,兩篇論文都是強化學習相關

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說