丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給晟煒
發(fā)送

0

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

本文作者: 晟煒 編輯:幸麗娟 2019-04-08 08:41
導語:以全景視角介紹了谷歌團隊在強化學習方面的研究進展。

雷鋒網(wǎng) AI 科技評論按:在強化學習領域,谷歌大腦的研究內(nèi)容一直是業(yè)界重點關注的對象。Marc G. Bellemare 是谷歌大腦的研究員,研究方向為分布式強化學習、表征學習等。他將自己在谷歌大腦 18 個月中研究經(jīng)歷和心得寫成了文章并進行發(fā)表。雷鋒網(wǎng) AI 科技評論全文編譯如下。雷鋒網(wǎng)

時間回溯到 2017 年夏天,在歐洲一段時間的告別旅行中,我被當時在蒙特利爾新成立的谷歌大腦團隊錄用 (當時我進行遠程辦公)。我在家里的辦公室可以看到倫敦北部貝爾塞斯公園(Belsize Park)的絕美景色,而且還曾招待了谷歌蒙特利爾的整個強化學習團隊,這是真的。

從那以后,我搬到了另一個大陸,在 AI 實習生、學生研究者和全職谷歌員工三重角色中轉換。現(xiàn)在,谷歌團隊的規(guī)模有了相當大的擴展 (而且還在繼續(xù)擴展:Marlos C. Machado 也加入了我們)。事后看來,2018 年是相當多產(chǎn)的一年。這篇博客回顧了這段時間我們的科研產(chǎn)出,以一個全景視角介紹了蒙特利爾谷歌大腦團隊在強化學習方面研究進展以及我們所參與過的非常棒的合作,從而讓我們對不遠的未來有了一個認識。

分布式強化學習

「它很好。但它如何實現(xiàn)呢?」

在強化學習中,分布式的方法認為我們應該預測隨機收益的分布,而不是預測它們的期望值 (Bellemare, Dabney, Munos, ICML 2017)。然而,大多數(shù)分布式智能體仍然通過將行動值 (action value)分布提取還原為它們各自的期望值,然后選擇期望值最高的操作來運行。預測,然后提取。那么,為什么它在實踐中表現(xiàn)得如此出色呢?

為了回答這個問題,我們開發(fā)了一種正式語言來分析分布式強化學習方法,尤其是基于樣本的方法(Rowland 等,AISTATS 2018)。通過這一形式,我們發(fā)現(xiàn)原來的分布式算法(稱為 C51)隱式地最小化了概率分布之間的距離(Cramér 距離)。但是我們的一些結果表明,分布式算法應該最小化分布之間的 Wasserstein 距離,而不是 Cramér 距離。我們(我指的是 Will Dabney)用一種叫做分位數(shù)回歸(quantile regression,)的技術重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距離。由此產(chǎn)生的智能體(這個稱為 QR-DQN)在 Atari 2600 基準上表現(xiàn)出強大的性能(Dabney et al.,AAAI 2018)。另一個令人興奮的結果是, Mark Rowland 最近發(fā)現(xiàn)了分布式強化學習中統(tǒng)計量和樣本之間的一個有趣的失配,這就解釋了為什么這些算法有效,而其他算法注定會失?。?a target="_blank" rel=nofollow>Rowland et al.,2019)。

根據(jù) Mark 對 C51 的分析,我們從基本原理推導出了一個分布式算法——在本例中,使用的是更容易處理的 Cramér 距離。我們的目標是開發(fā)出一項能顯式地對分配損失執(zhí)行梯度下降(C51 和 QR-DQN 都沒有這樣做)的分配算法,而最終開發(fā)出來的是一項我們命名為 S51 的算法(Bellemare 等人,AISTATS 2019);「S」代表「有符號的」,因為算法可能會輸出有效的負概率。由于其相對簡單,我們能夠證明,當與線性函數(shù)近似(linear function approximation)結合時,S51 能夠保證收斂性。在此過程中,我們還收集了一些證據(jù),證明在一些病態(tài)的例子中,預測+提取的方法比直接預測期望值的表現(xiàn)更糟糕。這是一位評論者所提到的「更容易出現(xiàn)模型錯誤識別」所導致的自然而然的結果。

此后,我們也證明了將預測+提取的方法結合到表格表征中實際上是無效的,同時證實了如果將該方法結合到線性表示中,其性能可能比預期的強化學習更差(Lyle, Castro, Bellemare, AAAI 2019)。這使我們排除了不依賴于表征選擇的常見解釋,如「分布式強化學習減少方差」或「平均分布式預測導致更準確的值估計」。這些解釋某種程度上錯誤地引用了 Holmes 先生的話,一旦你排除了不可能,剩下的一定是真相:分布式強化學習一旦與深層網(wǎng)絡結合,似乎就會變得有用。

為了收集這方面的進一步證據(jù),我們在 Cartpole 域中訓練了智能體,要么使用固定的低維表示(一階傅里葉基),要么使用類似的深度網(wǎng)絡。結果(總結如下面的圖表所示)相當有說服力:在固定表征的情況下,分布式方法的性能比基于預期的方法差;但使用深度表征后,它們就表現(xiàn)得更好了。這篇論文還表明,基于 Cramér 的方法應該輸出累積分布函數(shù)(cumulative distribution function),而不是概率質量函數(shù)(probability mass function,PMFs)。

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

一名深度學習實踐者會很自然地得出這樣的結論:分布式強化學習是有用的,因為「它有助于更好地學習表征」。但這在形式上意味著什么呢?如何證明或反駁這種說法呢?這些問題促使我們研究了一個非常熱門的話題:將表征學習應用于強化學習。

表征學習

去年夏天,Will Dabney 和我為強化學習中的表征學習設計了一個我們稱之為「蘋果派」(apple pie)的實驗:用一個簡單的設置去研究學習好的表征意味著什么。這個實驗包括 1)一個綜合環(huán)境 (四室域);2)訓練一個非常大的深度網(wǎng)絡; 3)做出各種預測。我們將表征定義為從狀態(tài)到 d 維特征向量的映射,之后又將這些特征向量線性映射到預測。在所有的實驗中,d 都小于狀態(tài)數(shù)。這個設置允許我們回答這樣的問題:「當我們訓練網(wǎng)絡預測 X 時,得到的表征是什么?」,其中 X 可能是值函數(shù)、值分布或一些輔助任務。

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

通過對這個小問題的不斷探索,我們意識到可以為表征制定一個最優(yōu)準則。該準則指出,最優(yōu)表征應該最小化所有「可實現(xiàn)」值函數(shù)的近似誤差。這里我用「可實現(xiàn)」表示「由某些策略生成」(Bellemare et al.,2019)。事實上,我們只需要考慮此類值函數(shù)的一個非常特殊的子集,即對偶值函數(shù)(adversarial value functions,AVFs),以反映最優(yōu)性準則的極小值特征。因為這些參數(shù)基本上是幾何化的,得出的這些結果也很有趣。在整個過程中,我們發(fā)現(xiàn)值函數(shù)的空間本身是高度結構化的:雖然還存在著一些不直觀的特征,但它整體來看是一個多面體(Dadashi et al .,2019)。

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

我們使用「用于表征的 FMRI 」(見上)來可視化該方法的效果(上圖;Marlos C. Machado 提供代碼)。這里,每個單元格將特征的歸一化激活描述為輸入狀態(tài)的函數(shù)。圖中對比了網(wǎng)絡被訓練用來預測單個值函數(shù)或多個 AVFs 時的情況。在僅使用值表征的時候,得出的結果有點不令人滿意:單個特征要么在狀態(tài)之間不活躍,要么是預測值函數(shù)的副本;此外,在激活模式中還存在噪聲。相比之下,AVFs 方法產(chǎn)生的結構很漂亮。

我們可以使用相同的工具來確認分布式強化學習確實學習了更豐富的表征。下圖是使用 C51(左)或使用 QR-DQN(右)預測隨機策略值分布時學到的特性的可視化情況。分位數(shù)回歸得到的特征提供了一系列的響應,從目標附近的高度峰值(左下角第二行)到相對分散(右上角)。這兩組特性都比剛剛前面提到強化學習在學習值函數(shù)時更加結構化(前面的圖左)。

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

作為這些結果的補充,我們可視化了 Atari 2600 游戲智能體中隱藏單位的激活。這些構成了與 Pablo Samuel Castro、Felipe Such、Joel Lehman 以及其他許多人在「Atari Zoo」項目中非常出色的合作的一部分(如 et al.,Deep RL Workshop at NeurIPS, 2018)。為了強調其中一個結果,分布式算法(該算法是 Hessel 等人對 C51 的擴展,叫做 Rainbow)學習到的卷積特性通常比非分布式 DQN 學習到的卷積特性更詳細、更復雜,如下面的 Seaquest 游戲示例所示:

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

同樣重要的是,我們發(fā)現(xiàn)預測多個折扣率的值函數(shù)也是在 Atari 2600 游戲中制作輔助任務的一種簡單而有效的方法 (Fedus et al.,2019)。

毫無疑問,不同的強化學習方法會產(chǎn)生不同的表征形式,并且在深度學習和強化學習之間會發(fā)生復雜的交互作用。如果幸運的話,在接下來的一年,我們也會找出這些表征與智能體的經(jīng)驗表現(xiàn)之間的關系。

軟件

如果你曾參加我去年的一次演講,你可能會看到我的演講內(nèi)容如下:

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

根據(jù)發(fā)行日期,時間軸按時間順序對 Arcade Learning Environment 提供的 60 款游戲進行排列。每個標題標出了(主觀)估計的性能最好的學習智能體:超人的(黑色格),近似人類的(紅白格),最后也為游戲中的 AI 不為完成游戲,而純粹以得分為目的游戲打出了分值(灰色格)。時間軸顯示,前面標上「超人的」標簽的游戲,比重要高于后面的游戲。我認為,這證明了早期游戲要比后期游戲更容易,部分原因在于電子游戲體驗的轉變:從反應性游戲(Pong)轉變?yōu)檎J知性游戲(Pitfall!)

注意,時間表是從 2017 年年中開始的,現(xiàn)在有點過時了,經(jīng)過調整,我們也考慮到了其他的游戲,例如 Montezuma's Revenge 通過運用模仿學習(Hester et al.,2017Aytar et al., 2018)和非參數(shù)方案(Ecofett et al.,2019)在性能上實現(xiàn)了巨大進步,不過即使是這樣,我們或許還是遺漏了很少一部分有代表性的游戲。鑒于 ALE 在推動深度強化學習研究復興方面發(fā)揮了重要的作用,因此在強化學習領域應該積極尋找「下一個 Atari」。

但這張圖表也幫我說明了另一點:ALE 現(xiàn)在是一個成熟的基準,應該區(qū)分對待它和新出現(xiàn)的挑戰(zhàn)。用 Miles Brundage 的話來說就是:Atari 游戲,「如果你在意樣本效率,那么它可以作為強化學習基準」。深度強化學習本身也在不斷成熟:想要更好地了解當前的技術,請參閱 Vincent Fran?ois-Lavet's review (2019)。在取得令人興奮的早期成功后,深度強化學習可能準備回歸基礎。

這種成熟的結果之一是對 ALE 論文進行二次更新,這項工作由我當時的學生 Marlos C. Machado 主導,新的成果與新的代碼一同發(fā)布。該代碼的發(fā)布解鎖了額外的難度級別(flavours),這證明新成果是對遷移學習研究非常有用的(Machado et al.,2018)。在這篇論文中有太多的好東西要列出,但是首先要討論的是如何評估學習 Atari-playing 算法的重復性和公平性。在 Go-Explore 博客發(fā)布的 Twitter-eddies 中可以看到一個關于社區(qū)如何接受這一點的很好的例子:經(jīng)過討論之后,作者們重新使用我們推薦的「粘性行為」評估方案來評估他們的方法。(如果你感興趣,這是 Jeff Clune 的一條推特)。

去年 8 月,我們還發(fā)布了開源強化學習框架,Dopamine(白皮書:Castro et al.,2018)。我們想從簡單的 Dopamine 入手,堅持開發(fā)對強化學習研究有用的一小部分核心功能。因此,框架的第一個版本由大約 12 個 Python 文件組成,并為 ALE 提供了一個單 GPU、最先進的 Rainbow 智能體。Dopamine 2.0(2 月 6 日 Pablo Samuel Castro 的博客文章)擴展了第一個版本,更廣泛地支持離散操作域。我們最近幾乎所有的強化學習研究都使用 Dopamine。

最后同樣值得一提的是,我們最近還與 DeepMind 合作發(fā)布了一個基于熱門紙牌游戲 Hanabi(Bard et al.,2019)的人工智能方法新研究平臺。Hanabi 是獨一無二的,因為它結合了合作(而不是競爭?。┖筒糠挚捎^察性。代碼中包含一個基于 Dopamine 的智能體,因此你可以隨時將代碼用起來。我已經(jīng)在另一篇博文中對此進行了更多的討論,但最后我想說,這是這段時間以來我研究的最有趣的問題之一。順便說一下:分布式強化學習和非分布式強化學習之間似乎存在很大的性能差距,如下面的學習曲線所示。這是一個小小的謎團。

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

結語

這篇文章沒有討論如何探索強化學習,盡管這個話題對我來說仍然很重要。值得注意的是,通過 Adrien Ali Taiga,我們在理解偽計數(shù)如何幫助我們探索方面取得了一些進展(Ali Taiga, Courville, Bellemare, 2018)。很高興看到強化學習的越來越多的研究者們迎接挑戰(zhàn),致力于解決 Montezuma’s Revenge 等艱難的探索問題。盡管 epsilon-貪婪(epsilon-greedy)算法和熵正則化(entropy regularization)在實踐中仍然占據(jù)主導地位,但我認為我們離顯著提高算法樣本效率的集成解決方案,也不遠了。

盡管蒙特利爾市中心的風景可能與倫敦北部不盡相同,但我在谷歌大腦這段時間的研究經(jīng)歷絕對令人興奮。蒙特利爾和加拿大是多位世界上最優(yōu)秀的深度強化學習研究人員的家鄉(xiāng),能與這么多本地和谷歌大腦團隊的人才交流,我感到很不勝榮光。

via:marcgbellemare

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

我在谷歌大腦工作的 18 個月中,是怎樣研究強化學習的?

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說