深度強化學習這塊，有人說我們已經(jīng)觸頂了……

本文作者：黃善清

2019-04-29 18:22

導語：振聾發(fā)聵還是聳人聽聞？

雷鋒網(wǎng) AI 科技評論：Open AI Five 討論熱潮正在持續(xù)。近日，有人在 reddit 網(wǎng)站上指出，Open AI Five 正式對外開放后的游戲表現(xiàn)不如預期，這說明深度強化學習已經(jīng)觸頂，由此引發(fā)網(wǎng)友們的激烈討論，雷鋒網(wǎng) AI 科技評論將當中較有代表性的論點編譯如下。

原題：

這篇帖子（https://www.reddit.com/r/MachineLearning/comments/bfq8v9/d_openai_five_vs_humans_currently_at_410633_992/）與推特（https://twitter.com/sherjilozair/status/1119256767798620161）指出，Open AI Five 略等同于接受將近 45,000 年的游戲培訓，結果人類只花了不到一天的時間，便找著不斷超越它的游戲策略。

我們都知道，Open AI Five 與 AlphaStar 是現(xiàn)有規(guī)模最大、操作最復雜的深度強化學習落地實踐，但依然與人類智能存在較大差距。而且我敢打賭，如果將 AlphaStar 進行公開發(fā)布，任意人可以與之游戲，它也將迎來同樣命運。

我知道有很多研究正在進行中，試圖讓深度強化學習變得更具有數(shù)據(jù)效率性，且在分布不均與對抗性例子問題上更具有魯棒性。但目前看來，它與人類之間的差距是如此之大，以至于我懷疑，除了范式轉變外，任何事情都不能有效地彌合這種差距。

對此，你的想法是什么？這是深度強化學習所能達到的極限，還是說我們仍然有希望推動該范式的發(fā)展？

網(wǎng)友回答：

@hobbesfanclub

我覺得一切才剛剛開始。每天都有大量的研究成果被發(fā)布，我甚至都有點跟不上了。我認為最先進的那些技術，經(jīng)常過幾天便不再是了，說明該領域依然有大量的工作需要我們去做。

對于在該領域工作的人來說，這些成就如今看來仍然叫人難以置信，真正令人印象深刻的，還是這些技術在宏偉的計劃里顯得非常年輕......

@adventuringraw

這個討論本身就很搞笑...... 過去針對深度學習也有過類似探討。大概是說我們是否已經(jīng)達到神經(jīng)網(wǎng)絡的發(fā)展極限？要是沒有基本的范式轉變，是否更不可能取得突破？但是你看，后來出現(xiàn)過各種各樣基于神經(jīng)網(wǎng)絡的新方法，這些方法曾在 2012 讓人如此興奮。GAN 就不用說了，還有 VAE、神經(jīng)風格轉移，包括深度強化學習本身同樣基于神經(jīng)網(wǎng)絡理論，與其說深度學習被取代了，倒不如說它被積壓在一堆新知識下面。它是一個組件、一個問題解決策略、一種思維方式。就連 NN 自身也是建立在各種過往的進步和見解上。

這只是我個人的想法...... 這看起來似乎是無模型方法的根本問題。你需要對特征空間進行密集覆蓋，或者換句話說……你也許知道需要在一個充分探索過的區(qū)域做些什么，卻不一定能夠據(jù)此進行新的推理。那可以怎么做呢？你需要一個具備世界觀的模型來進行推理。我之前看過一篇基于谷歌大腦 SimPLe 模型的強化學習論文，嚴格來說，轉換至基于強化學習的模型并不是一個新想法... 在我們獲得能夠進行抽象推理的代理以前，尚有一些重要問題有待我們去解決。比如要怎么在空間中習得相關的獨立實體、行動等？是否能夠以無人監(jiān)督的方式完成？在給出早期證據(jù)的情況下，如何通過策劃實驗來幫助消除可能世界的差異？如何將當前對世界的理解壓縮成為低維度的表示，以便能夠完美解析出問題解決的關鍵維度？就像……它可以習得身處環(huán)境的地圖嗎？創(chuàng)建有層次的長期計劃的最佳方法是什么（先做什么，后做什么？）即便是圖像分類，我們依然在基于形狀的提取功能而非基于紋理的提取功能實現(xiàn)上面臨困難……... 總的來說，局部模式比起全局模式更容易有瑕疵，因此我并不十分驚訝，我認為是 OpenAI 5 發(fā)現(xiàn)自身所做的策略更好被利用，從而使其更容易受到具有正確洞察力的玩家擊破。

我最近一直在讀 Judea Pearl 的因果關系論……從中發(fā)現(xiàn)了一些很有意思的東西。我不認為原始的 Pearl 因果模型表明我們需要的是明確向世界學習的智能體，而是能夠適應新環(huán)境、進行宏觀規(guī)劃的智能體，這種智能體能夠進行反事實推理，對自身世界具有強而有力的理解。鑒于我們還沒完全了解即便只是創(chuàng)建一個魯棒性的圖像分類器究竟需要些什么（即使是在監(jiān)督的環(huán)境中，無人監(jiān)督模式更不用說了），我認為在深度強化學習能夠實現(xiàn)自主進化以前，我們還有部分理論需要進行補充。

最瘋狂的是...... 這些障礙似乎正在消失。這意味著什么？一個會玩 Dota2 、懂得合作、懂得推理的無人監(jiān)督系統(tǒng)...... 現(xiàn)在就開始感覺這個系統(tǒng)即將在不久后出現(xiàn)。如果這都可能發(fā)生，還有什么是可能的嗎？我并不驚訝 OpenAI 5 還沒達到那種水平，但我們可以期待接下來會發(fā)生些什么。

@StrictOrder

在我看來，我們是在要求我們的函數(shù)逼近器去嘗試近似錯誤的函數(shù)，或者更確切地說，我們給它們提供過于龐大的搜索空間，以致于它們無法將所接收到的信息點連接起來，因此它們只是利用這些經(jīng)驗來充實自己，而非泛化。

例如，我看到基于模型的智能體收斂于一個數(shù)量級更小的樣本。這似乎是該領域非常有前途的一個研究方向。它讓我想起在殘差連接、RNN 、forget gates 模型出現(xiàn)以前訓練深度圖像分類器是多么的困難。我們需要修剪我們要求模型搜索的空間，或者至少給它一些好的先驗，并以某種方式保存已經(jīng)在一般表示中學習的信息。我們需要對模型的搜索空間進行剪枝，或者起碼提供一些好的先驗信息，并以某種方式保存在一般表示中已經(jīng)學會的信息里。

最后我想說，放輕松。他們大部分時間都在從零開始學習。新生嬰兒需要多長的時間才能實現(xiàn)某種連貫性? 得益于數(shù)十億年來進化算法形式的計算，它們被賦予一種能夠最好表示可能遇到的各種函數(shù)與模式的神經(jīng)結構。

@Nater5000

Open AI Five 并未基于任何復雜的東西，至少就深度強化學習目前所能達到的狀態(tài)而言。事實上，各種關于 OpenAI 的文章全面描述了它是如何運作的，從某種意義上說，這些算法并不依賴于近期開發(fā)出的許多復雜「擴展」來幫助推動強化學習研究。（AlphaStar 也是如此）

反之，OpenAI Five 最令人印象深刻的地方就在于他們成功地使用「簡單」的方法對之進行訓練。當然，花了 10 個月時間進行訓練這個事實清楚表明這并非一個可以持續(xù)向前推進的可行方法。然而 Five 的這些智能體相對簡單，僅僅通過對更復雜的方法進行實驗就可以做出改進，這點說明我們實際上離深度強化學習的極限還有多遠。

最重要的是，F(xiàn)ive 在正式公開以后以及公開期間就未再受過訓練。換句話說，人類能夠乘機學會如何打敗它，所以這并非什么了不起的成就，因為 Five 壓根無法保護自己免受人類利用它們的策略弱點進行攻擊。相反的，如果 OpenAI 允許這些智能體從游戲中自我學習，我們會發(fā)現(xiàn)，人類的擊敗策略將會在 Five 從失敗中學習后失效。

聽到有人說五人沒有他們想象那么好，這讓我覺得很瘋狂，就因為它們輸?shù)袅瞬坏?1％的賽事。該數(shù)字更能說明的是游戲的復雜性，而非智能體模型或訓練算法的不足。成千上萬的玩家致力于擊敗這一單一的 AI，我們可以將之理解為一個可以從經(jīng)驗中進行學習的大眾來源對抗智能體。將其與靜態(tài)模型相比似乎有點不太公平，因為靜態(tài)模型無法抵御自身的缺點來保護自己 lol。

無論如何，深度強化學習遠未達到極限。自 OpenAI Five 項目啟動以來，在理解深度強化學習方面已經(jīng)取得了許多進展，因此認為它已經(jīng)過時也不完全是錯誤的。況且從一開始他們就不準備做一些花哨的事情。在如此復雜、基于策略的環(huán)境中訓練相對通用的 RL 模型，它們的性能令人震驚。況且還沒考慮到這是一個多智能體問題，人們似乎沒有意識到這本身就是極其瘋狂的事情 lol。

via https://www.reddit.com/r/MachineLearning/comments/bgvefd/d_have_we_hit_the_limits_of_deep_reinforcement/

雷鋒網(wǎng) AI 科技評論

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

3人收藏

黃善清

編輯

發(fā)私信

當月熱門文章

深度強化學習這塊，有人說我們已經(jīng)觸頂了……

深度強化學習這塊，有人說我們已經(jīng)觸頂了……