0
雷鋒網(wǎng) AI 科技評論:Open AI Five 討論熱潮正在持續(xù)。近日,有人在 reddit 網(wǎng)站上指出,Open AI Five 正式對外開放后的游戲表現(xiàn)不如預期,這說明深度強化學習已經(jīng)觸頂,由此引發(fā)網(wǎng)友們的激烈討論,雷鋒網(wǎng) AI 科技評論將當中較有代表性的論點編譯如下。
原題:
這篇帖子(https://www.reddit.com/r/MachineLearning/comments/bfq8v9/d_openai_five_vs_humans_currently_at_410633_992/)與推特(https://twitter.com/sherjilozair/status/1119256767798620161)指出,Open AI Five 略等同于接受將近 45,000 年的游戲培訓,結果人類只花了不到一天的時間,便找著不斷超越它的游戲策略。
我們都知道,Open AI Five 與 AlphaStar 是現(xiàn)有規(guī)模最大、操作最復雜的深度強化學習落地實踐,但依然與人類智能存在較大差距。而且我敢打賭,如果將 AlphaStar 進行公開發(fā)布,任意人可以與之游戲,它也將迎來同樣命運。
我知道有很多研究正在進行中,試圖讓深度強化學習變得更具有數(shù)據(jù)效率性,且在分布不均與對抗性例子問題上更具有魯棒性。但目前看來,它與人類之間的差距是如此之大,以至于我懷疑,除了范式轉變外,任何事情都不能有效地彌合這種差距。
對此,你的想法是什么?這是深度強化學習所能達到的極限,還是說我們仍然有希望推動該范式的發(fā)展?
網(wǎng)友回答:
@hobbesfanclub
我覺得一切才剛剛開始。每天都有大量的研究成果被發(fā)布,我甚至都有點跟不上了。我認為最先進的那些技術,經(jīng)常過幾天便不再是了,說明該領域依然有大量的工作需要我們去做。
對于在該領域工作的人來說,這些成就如今看來仍然叫人難以置信,真正令人印象深刻的,還是這些技術在宏偉的計劃里顯得非常年輕......
@adventuringraw
這個討論本身就很搞笑...... 過去針對深度學習也有過類似探討。大概是說我們是否已經(jīng)達到神經(jīng)網(wǎng)絡的發(fā)展極限?要是沒有基本的范式轉變,是否更不可能取得突破?但是你看,后來出現(xiàn)過各種各樣基于神經(jīng)網(wǎng)絡的新方法,這些方法曾在 2012 讓人如此興奮。GAN 就不用說了,還有 VAE、神經(jīng)風格轉移,包括深度強化學習本身同樣基于神經(jīng)網(wǎng)絡理論,與其說深度學習被取代了,倒不如說它被積壓在一堆新知識下面。它是一個組件、一個問題解決策略、一種思維方式。就連 NN 自身也是建立在各種過往的進步和見解上。
這只是我個人的想法...... 這看起來似乎是無模型方法的根本問題。你需要對特征空間進行密集覆蓋,或者換句話說……你也許知道需要在一個充分探索過的區(qū)域做些什么,卻不一定能夠據(jù)此進行新的推理。那可以怎么做呢?你需要一個具備世界觀的模型來進行推理。我之前看過一篇基于谷歌大腦 SimPLe 模型的強化學習論文,嚴格來說,轉換至基于強化學習的模型并不是一個新想法... 在我們獲得能夠進行抽象推理的代理以前,尚有一些重要問題有待我們去解決。比如要怎么在空間中習得相關的獨立實體、行動等?是否能夠以無人監(jiān)督的方式完成?在給出早期證據(jù)的情況下,如何通過策劃實驗來幫助消除可能世界的差異?如何將當前對世界的理解壓縮成為低維度的表示,以便能夠完美解析出問題解決的關鍵維度?就像……它可以習得身處環(huán)境的地圖嗎?創(chuàng)建有層次的長期計劃的最佳方法是什么(先做什么,后做什么?)即便是圖像分類,我們依然在基于形狀的提取功能而非基于紋理的提取功能實現(xiàn)上面臨困難……... 總的來說,局部模式比起全局模式更容易有瑕疵,因此我并不十分驚訝,我認為是 OpenAI 5 發(fā)現(xiàn)自身所做的策略更好被利用,從而使其更容易受到具有正確洞察力的玩家擊破。
我最近一直在讀 Judea Pearl 的因果關系論……從中發(fā)現(xiàn)了一些很有意思的東西。我不認為原始的 Pearl 因果模型表明我們需要的是明確向世界學習的智能體,而是能夠適應新環(huán)境、進行宏觀規(guī)劃的智能體,這種 智能體能夠進行反事實推理,對自身世界具有強而有力的理解。鑒于我們還沒完全了解即便只是創(chuàng)建一個魯棒性的圖像分類器究竟需要些什么(即使是在監(jiān)督的環(huán)境中,無人監(jiān)督模式更不用說了),我認為在深度強化學習能夠實現(xiàn)自主進化以前,我們還有部分理論需要進行補充。
最瘋狂的是...... 這些障礙似乎正在消失。這意味著什么?一個會玩 Dota2 、懂得合作、懂得推理的無人監(jiān)督系統(tǒng)...... 現(xiàn)在就開始感覺這個系統(tǒng)即將在不久后出現(xiàn)。如果這都可能發(fā)生,還有什么是可能的嗎?我并不驚訝 OpenAI 5 還沒達到那種水平,但我們可以期待接下來會發(fā)生些什么。
@StrictOrder
在我看來,我們是在要求我們的函數(shù)逼近器去嘗試近似錯誤的函數(shù),或者更確切地說,我們給它們提供過于龐大的搜索空間,以致于它們無法將所接收到的信息點連接起來,因此它們只是利用這些經(jīng)驗來充實自己,而非泛化。
例如,我看到基于模型的智能體收斂于一個數(shù)量級更小的樣本。這似乎是該領域非常有前途的一個研究方向。它讓我想起在殘差連接、RNN 、forget gates 模型出現(xiàn)以前訓練深度圖像分類器是多么的困難。我們需要修剪我們要求模型搜索的空間,或者至少給它一些好的先驗,并以某種方式保存已經(jīng)在一般表示中學習的信息。我們需要對模型的搜索空間進行剪枝,或者起碼提供一些好的先驗信息,并以某種方式保存在一般表示中已經(jīng)學會的信息里。
最后我想說,放輕松。他們大部分時間都在從零開始學習。新生嬰兒需要多長的時間才能實現(xiàn)某種連貫性? 得益于數(shù)十億年來進化算法形式的計算,它們被賦予一種能夠最好表示可能遇到的各種函數(shù)與模式的神經(jīng)結構。
@Nater5000
Open AI Five 并未基于任何復雜的東西,至少就深度強化學習目前所能達到的狀態(tài)而言。事實上,各種關于 OpenAI 的文章全面描述了它是如何運作的,從某種意義上說,這些算法并不依賴于近期開發(fā)出的許多復雜「擴展」來幫助推動強化學習研究。(AlphaStar 也是如此)
反之,OpenAI Five 最令人印象深刻的地方就在于他們成功地使用「簡單」的方法對之進行訓練。當然,花了 10 個月時間進行訓練這個事實清楚表明這并非一個可以持續(xù)向前推進的可行方法。然而 Five 的這些 智能體相對簡單,僅僅通過對更復雜的方法進行實驗就可以做出改進,這點說明我們實際上離深度強化學習的極限還有多遠。
最重要的是,F(xiàn)ive 在正式公開以后以及公開期間就未再受過訓練。換句話說,人類能夠乘機學會如何打敗它,所以這并非什么了不起的成就,因為 Five 壓根無法保護自己免受人類利用它們的策略弱點進行攻擊。相反的,如果 OpenAI 允許這些智能體從游戲中自我學習,我們會發(fā)現(xiàn),人類的擊敗策略將會在 Five 從失敗中學習后失效。
聽到有人說五人沒有他們想象那么好,這讓我覺得很瘋狂,就因為它們輸?shù)袅瞬坏?1%的賽事。該數(shù)字更能說明的是游戲的復雜性,而非智能體模型或訓練算法的不足。成千上萬的玩家致力于擊敗這一單一的 AI,我們可以將之理解為一個可以從經(jīng)驗中進行學習的大眾來源對抗智能體。將其與靜態(tài)模型相比似乎有點不太公平,因為靜態(tài)模型無法抵御自身的缺點來保護自己 lol。
無論如何,深度強化學習遠未達到極限。自 OpenAI Five 項目啟動以來,在理解深度強化學習方面已經(jīng)取得了許多進展,因此認為它已經(jīng)過時也不完全是錯誤的。況且從一開始他們就不準備做一些花哨的事情。在如此復雜、基于策略的環(huán)境中訓練相對通用的 RL 模型,它們的性能令人震驚。況且還沒考慮到這是一個多智能體問題,人們似乎沒有意識到這本身就是極其瘋狂的事情 lol。
雷鋒網(wǎng) AI 科技評論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。