0
雷鋒網(wǎng) AI 科技評(píng)論:Open AI Five 討論熱潮正在持續(xù)。近日,有人在 reddit 網(wǎng)站上指出,Open AI Five 正式對(duì)外開放后的游戲表現(xiàn)不如預(yù)期,這說明深度強(qiáng)化學(xué)習(xí)已經(jīng)觸頂,由此引發(fā)網(wǎng)友們的激烈討論,雷鋒網(wǎng) AI 科技評(píng)論將當(dāng)中較有代表性的論點(diǎn)編譯如下。
原題:
這篇帖子(https://www.reddit.com/r/MachineLearning/comments/bfq8v9/d_openai_five_vs_humans_currently_at_410633_992/)與推特(https://twitter.com/sherjilozair/status/1119256767798620161)指出,Open AI Five 略等同于接受將近 45,000 年的游戲培訓(xùn),結(jié)果人類只花了不到一天的時(shí)間,便找著不斷超越它的游戲策略。
我們都知道,Open AI Five 與 AlphaStar 是現(xiàn)有規(guī)模最大、操作最復(fù)雜的深度強(qiáng)化學(xué)習(xí)落地實(shí)踐,但依然與人類智能存在較大差距。而且我敢打賭,如果將 AlphaStar 進(jìn)行公開發(fā)布,任意人可以與之游戲,它也將迎來同樣命運(yùn)。
我知道有很多研究正在進(jìn)行中,試圖讓深度強(qiáng)化學(xué)習(xí)變得更具有數(shù)據(jù)效率性,且在分布不均與對(duì)抗性例子問題上更具有魯棒性。但目前看來,它與人類之間的差距是如此之大,以至于我懷疑,除了范式轉(zhuǎn)變外,任何事情都不能有效地彌合這種差距。
對(duì)此,你的想法是什么?這是深度強(qiáng)化學(xué)習(xí)所能達(dá)到的極限,還是說我們?nèi)匀挥邢M苿?dòng)該范式的發(fā)展?
網(wǎng)友回答:
@hobbesfanclub
我覺得一切才剛剛開始。每天都有大量的研究成果被發(fā)布,我甚至都有點(diǎn)跟不上了。我認(rèn)為最先進(jìn)的那些技術(shù),經(jīng)常過幾天便不再是了,說明該領(lǐng)域依然有大量的工作需要我們?nèi)プ觥?/p>
對(duì)于在該領(lǐng)域工作的人來說,這些成就如今看來仍然叫人難以置信,真正令人印象深刻的,還是這些技術(shù)在宏偉的計(jì)劃里顯得非常年輕......
@adventuringraw
這個(gè)討論本身就很搞笑...... 過去針對(duì)深度學(xué)習(xí)也有過類似探討。大概是說我們是否已經(jīng)達(dá)到神經(jīng)網(wǎng)絡(luò)的發(fā)展極限?要是沒有基本的范式轉(zhuǎn)變,是否更不可能取得突破?但是你看,后來出現(xiàn)過各種各樣基于神經(jīng)網(wǎng)絡(luò)的新方法,這些方法曾在 2012 讓人如此興奮。GAN 就不用說了,還有 VAE、神經(jīng)風(fēng)格轉(zhuǎn)移,包括深度強(qiáng)化學(xué)習(xí)本身同樣基于神經(jīng)網(wǎng)絡(luò)理論,與其說深度學(xué)習(xí)被取代了,倒不如說它被積壓在一堆新知識(shí)下面。它是一個(gè)組件、一個(gè)問題解決策略、一種思維方式。就連 NN 自身也是建立在各種過往的進(jìn)步和見解上。
這只是我個(gè)人的想法...... 這看起來似乎是無模型方法的根本問題。你需要對(duì)特征空間進(jìn)行密集覆蓋,或者換句話說……你也許知道需要在一個(gè)充分探索過的區(qū)域做些什么,卻不一定能夠據(jù)此進(jìn)行新的推理。那可以怎么做呢?你需要一個(gè)具備世界觀的模型來進(jìn)行推理。我之前看過一篇基于谷歌大腦 SimPLe 模型的強(qiáng)化學(xué)習(xí)論文,嚴(yán)格來說,轉(zhuǎn)換至基于強(qiáng)化學(xué)習(xí)的模型并不是一個(gè)新想法... 在我們獲得能夠進(jìn)行抽象推理的代理以前,尚有一些重要問題有待我們?nèi)ソ鉀Q。比如要怎么在空間中習(xí)得相關(guān)的獨(dú)立實(shí)體、行動(dòng)等?是否能夠以無人監(jiān)督的方式完成?在給出早期證據(jù)的情況下,如何通過策劃實(shí)驗(yàn)來幫助消除可能世界的差異?如何將當(dāng)前對(duì)世界的理解壓縮成為低維度的表示,以便能夠完美解析出問題解決的關(guān)鍵維度?就像……它可以習(xí)得身處環(huán)境的地圖嗎?創(chuàng)建有層次的長(zhǎng)期計(jì)劃的最佳方法是什么(先做什么,后做什么?)即便是圖像分類,我們依然在基于形狀的提取功能而非基于紋理的提取功能實(shí)現(xiàn)上面臨困難……... 總的來說,局部模式比起全局模式更容易有瑕疵,因此我并不十分驚訝,我認(rèn)為是 OpenAI 5 發(fā)現(xiàn)自身所做的策略更好被利用,從而使其更容易受到具有正確洞察力的玩家擊破。
我最近一直在讀 Judea Pearl 的因果關(guān)系論……從中發(fā)現(xiàn)了一些很有意思的東西。我不認(rèn)為原始的 Pearl 因果模型表明我們需要的是明確向世界學(xué)習(xí)的智能體,而是能夠適應(yīng)新環(huán)境、進(jìn)行宏觀規(guī)劃的智能體,這種 智能體能夠進(jìn)行反事實(shí)推理,對(duì)自身世界具有強(qiáng)而有力的理解。鑒于我們還沒完全了解即便只是創(chuàng)建一個(gè)魯棒性的圖像分類器究竟需要些什么(即使是在監(jiān)督的環(huán)境中,無人監(jiān)督模式更不用說了),我認(rèn)為在深度強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)自主進(jìn)化以前,我們還有部分理論需要進(jìn)行補(bǔ)充。
最瘋狂的是...... 這些障礙似乎正在消失。這意味著什么?一個(gè)會(huì)玩 Dota2 、懂得合作、懂得推理的無人監(jiān)督系統(tǒng)...... 現(xiàn)在就開始感覺這個(gè)系統(tǒng)即將在不久后出現(xiàn)。如果這都可能發(fā)生,還有什么是可能的嗎?我并不驚訝 OpenAI 5 還沒達(dá)到那種水平,但我們可以期待接下來會(huì)發(fā)生些什么。
@StrictOrder
在我看來,我們是在要求我們的函數(shù)逼近器去嘗試近似錯(cuò)誤的函數(shù),或者更確切地說,我們給它們提供過于龐大的搜索空間,以致于它們無法將所接收到的信息點(diǎn)連接起來,因此它們只是利用這些經(jīng)驗(yàn)來充實(shí)自己,而非泛化。
例如,我看到基于模型的智能體收斂于一個(gè)數(shù)量級(jí)更小的樣本。這似乎是該領(lǐng)域非常有前途的一個(gè)研究方向。它讓我想起在殘差連接、RNN 、forget gates 模型出現(xiàn)以前訓(xùn)練深度圖像分類器是多么的困難。我們需要修剪我們要求模型搜索的空間,或者至少給它一些好的先驗(yàn),并以某種方式保存已經(jīng)在一般表示中學(xué)習(xí)的信息。我們需要對(duì)模型的搜索空間進(jìn)行剪枝,或者起碼提供一些好的先驗(yàn)信息,并以某種方式保存在一般表示中已經(jīng)學(xué)會(huì)的信息里。
最后我想說,放輕松。他們大部分時(shí)間都在從零開始學(xué)習(xí)。新生嬰兒需要多長(zhǎng)的時(shí)間才能實(shí)現(xiàn)某種連貫性? 得益于數(shù)十億年來進(jìn)化算法形式的計(jì)算,它們被賦予一種能夠最好表示可能遇到的各種函數(shù)與模式的神經(jīng)結(jié)構(gòu)。
@Nater5000
Open AI Five 并未基于任何復(fù)雜的東西,至少就深度強(qiáng)化學(xué)習(xí)目前所能達(dá)到的狀態(tài)而言。事實(shí)上,各種關(guān)于 OpenAI 的文章全面描述了它是如何運(yùn)作的,從某種意義上說,這些算法并不依賴于近期開發(fā)出的許多復(fù)雜「擴(kuò)展」來幫助推動(dòng)強(qiáng)化學(xué)習(xí)研究。(AlphaStar 也是如此)
反之,OpenAI Five 最令人印象深刻的地方就在于他們成功地使用「簡(jiǎn)單」的方法對(duì)之進(jìn)行訓(xùn)練。當(dāng)然,花了 10 個(gè)月時(shí)間進(jìn)行訓(xùn)練這個(gè)事實(shí)清楚表明這并非一個(gè)可以持續(xù)向前推進(jìn)的可行方法。然而 Five 的這些 智能體相對(duì)簡(jiǎn)單,僅僅通過對(duì)更復(fù)雜的方法進(jìn)行實(shí)驗(yàn)就可以做出改進(jìn),這點(diǎn)說明我們實(shí)際上離深度強(qiáng)化學(xué)習(xí)的極限還有多遠(yuǎn)。
最重要的是,F(xiàn)ive 在正式公開以后以及公開期間就未再受過訓(xùn)練。換句話說,人類能夠乘機(jī)學(xué)會(huì)如何打敗它,所以這并非什么了不起的成就,因?yàn)?Five 壓根無法保護(hù)自己免受人類利用它們的策略弱點(diǎn)進(jìn)行攻擊。相反的,如果 OpenAI 允許這些智能體從游戲中自我學(xué)習(xí),我們會(huì)發(fā)現(xiàn),人類的擊敗策略將會(huì)在 Five 從失敗中學(xué)習(xí)后失效。
聽到有人說五人沒有他們想象那么好,這讓我覺得很瘋狂,就因?yàn)樗鼈冚數(shù)袅瞬坏?1%的賽事。該數(shù)字更能說明的是游戲的復(fù)雜性,而非智能體模型或訓(xùn)練算法的不足。成千上萬的玩家致力于擊敗這一單一的 AI,我們可以將之理解為一個(gè)可以從經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)的大眾來源對(duì)抗智能體。將其與靜態(tài)模型相比似乎有點(diǎn)不太公平,因?yàn)殪o態(tài)模型無法抵御自身的缺點(diǎn)來保護(hù)自己 lol。
無論如何,深度強(qiáng)化學(xué)習(xí)遠(yuǎn)未達(dá)到極限。自 OpenAI Five 項(xiàng)目啟動(dòng)以來,在理解深度強(qiáng)化學(xué)習(xí)方面已經(jīng)取得了許多進(jìn)展,因此認(rèn)為它已經(jīng)過時(shí)也不完全是錯(cuò)誤的。況且從一開始他們就不準(zhǔn)備做一些花哨的事情。在如此復(fù)雜、基于策略的環(huán)境中訓(xùn)練相對(duì)通用的 RL 模型,它們的性能令人震驚。況且還沒考慮到這是一個(gè)多智能體問題,人們似乎沒有意識(shí)到這本身就是極其瘋狂的事情 lol。
雷鋒網(wǎng) AI 科技評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。