0
雷鋒網(wǎng)消息,關(guān)于OpenAI的DotA 2游戲人工智能在The International比賽上擊敗了人類玩家的消息,就像當時的AlphoGo一樣,又一次刷屏了。我們仿佛看到了AI又在得意地笑。
這次比賽重要的是,像DotA這樣的MOBA多人在線戰(zhàn)術(shù)競技游戲,以及星際爭霸這樣的RTS即時戰(zhàn)略游戲,一直被視為超越了當前AI技術(shù)的能力,遠非AI能掌握及擊敗人類的。這些游戲需要在比賽中有長時間的戰(zhàn)略決策和多人合作,并具有比國際象棋、圍棋等更復雜的狀態(tài)和行動空間,后面的幾種棋類游戲在過去幾十年里,都逐一被AI技術(shù)攻略了。
雷鋒網(wǎng)此前報道,DeepMind已經(jīng)研究星際爭霸2有一段時間了,前不久也發(fā)布了一些研究成果。國內(nèi)的阿里巴巴也與倫敦大學合作,研究過AI與星際。但到目前為止,研究人員還沒有取得重大突破,而且一般認為,我們距離讓AI在星際爭霸2中戰(zhàn)勝人類還有至少1-2年。
這也是為什么OpenAI的消息如此震驚的原因。
但如果更多了解DotA 2的AI是怎么樣的,它是如何訓練的,它用了什么樣的游戲環(huán)境,就會發(fā)現(xiàn),它取得了不少令人印象深刻的研究成果,但不是想像中那樣的突破性的AI技術(shù)。前Google大腦團隊成員Denny Britz就在hacker news上發(fā)起了討論,從他的分析和其他討論中也可以看出不少端倪。
不久后OpenAI就會公布具體的研究細節(jié)。不過先來看看DotA 2的AI解決的問題在現(xiàn)實中有多難,以及它與AlphaGo比又怎么樣。
1v1的難度與5v5沒法比
一般玩DotA 2游戲,都是5v5的對局。這種玩法需要用到高級的策略制定,團隊溝通和協(xié)調(diào)能力,通常會是45分鐘左右一局。1v1游戲的限制就很多了,兩名選手基本上沿著單線行動,試圖殺死對方,游戲時間通常在幾分鐘內(nèi)。1v1比賽需要的是機械技能和短期戰(zhàn)術(shù),不需要長期規(guī)劃或協(xié)調(diào),而后者才是對當前AI技術(shù)最具挑戰(zhàn)性的。事實上,在1v1中可以采取的有用行動數(shù)量是少于圍棋的。有效狀態(tài)空間,即玩家對游戲中正在發(fā)生的情況的想法,如果以更有效的方式進行表征的話,應該比圍棋要小。
AI可以得到更多信息
OpenAI的人工智能很可能是在游戲AI的API上開發(fā)的,這樣它可以訪問人類無法訪問的各種信息。而且,即使OpenAI研究者限制了訪問某些類型的信息,AI比起人類仍然可以得到更準確的信息。例如,一項技能只能在一定范圍內(nèi)擊中對手,而人類玩家必須看屏幕來估算與對手的距離。這需要練習,但AI就知道確切的距離信息,然后立即決定使用技能。獲得各種精確的數(shù)據(jù)信息會帶來很大的優(yōu)勢,比如在這次的游戲過程中,AI就有好幾次是在最遠距離上發(fā)動了技能。
反應時間優(yōu)勢
AI可以做到立即反應,但人類不行。如果反應優(yōu)勢再加上上面說的數(shù)據(jù)優(yōu)勢,就會形成另一大優(yōu)勢。比如,一旦對手逃出特定技能的使用范圍,AI就可以立即取消使用,避免無效的技能施放,也不會耽誤回復時間。
僅使用特定的游戲角色
DotA中有100多介角色,每個都有不同的能力和優(yōu)勢。這次比賽中,OpenAI的人工智能學習玩的唯一角色是影魔,當然影魔也是中路solo的常用英雄。它的技能一般直接攻擊,而不是更復雜的讓技能持續(xù)一段時間,這樣就更容易從距離數(shù)據(jù)和快速反應時間這兩個優(yōu)勢中獲益,這正是AI擅長的。
部分規(guī)則寫死
這次的游戲AI也不是一切從零開始訓練的,它對游戲算是有一些“了解”。裝備選擇是寫死的,押兵線這種技術(shù)也是,這些對比賽來說也很重要。根據(jù)現(xiàn)在的消息,AI學習的是與對手的互動。
總體來說,鑒于1v1比賽主要是機械技能的比拼,那人類玩家被擊敗也就不奇怪了。而且由于比賽環(huán)境有限制,加上人為限制了一系列可能的行動,以及幾乎沒有必要進行長期的規(guī)劃或協(xié)調(diào),結(jié)論也就顯而易見了,即在這場1v1的DotA比賽中,AI擊敗人類冠軍要解決的問題,實際上比圍棋要更簡單。
AI技術(shù)本質(zhì)上沒有出現(xiàn)突然的突破,它的成功是算法的成功,也是研究者的成功。研究者聰明地設(shè)置了問題,并用正確的方式避開了當前技術(shù)的限制,取得了想要的成果。
據(jù)稱,OpenAI的人工智能的訓練時間大概是2周左右。AlphaGo當時需要在Google的GPU集群上進行幾個月的高度分布的大規(guī)模培訓。自那以來技術(shù)上已經(jīng)取得了一些進展,但還不足以將計算要求降低一個數(shù)量級。
或許不明真相的新聞討論有些過度了,不過實際上這次的研究還有不少非常令人驚訝的成果。
完全通過自我對抗進行訓練
這次AI不需要任何訓練數(shù)據(jù),它也不用從人類的演示中學習,而是完全從隨機開始,并且不斷與自己對戰(zhàn)。雖然這種技術(shù)并不新鮮,但令人驚訝的是,AI學到了一些人類玩家已經(jīng)在使用的技術(shù),這已經(jīng)很厲害了?;蛟SAI會學會其他人類不曾用過的技術(shù),就像我們在AlphaGo與人類的對局中看到的那樣,人類玩家已經(jīng)開始從AI不那么容易理解的下法中學習了。
AI加電子競技有了很大進步
用DotA和星際這樣具有挑戰(zhàn)性的環(huán)境來測試AI技術(shù),是很重要的。如果電子競技社區(qū)和游戲開發(fā)商也對AI技術(shù)應用于游戲的價值很感興趣,那在得到他們的支持抂,AI技術(shù)很可能會有進一步的進展。
部分可觀察的環(huán)境
雖然OpenAI用游戲API開發(fā)的細節(jié)尚不清楚,但從人類玩家的角度來看,游戲中只能看到屏幕上顯示的內(nèi)容,玩家的視角受到了限制,比如說在上坡這樣的地形上,就無法看清坡上的狀況。這意味著,與圍棋或象棋不同,對戰(zhàn)游戲是處于一種部分可觀察的環(huán)境中,無法了解有關(guān)當前游戲狀態(tài)的完整信息。這些問題AI很難以解決,屬于需要進行積極研究的領(lǐng)域。目前還不清楚1v1的DotA比賽中,環(huán)境的可觀察性有多重要。
其實對于很多乍聽起來聳人聽聞的技術(shù),都需要有清醒的認識。不出意料的,雷鋒網(wǎng)發(fā)現(xiàn)馬斯克也在Twitter對這一事件作了評價。
他說,“OpenAI第一次在電子競技中擊敗了人類頂級選手,難度比象棋和圍棋都要大得多”,隨后開始談論AI的危害,“沒人喜歡被監(jiān)管,但一切(汽車、飛機、食品、藥品等)可能給公眾帶來危害的都受到了監(jiān)管,AI也應如此”。
這些炒作當然不是OpenAI研究者的錯,研究者對自己成果的局限一直有非常清晰和明確的認識。過度解讀AI的進步反而會帶來一些危害,我們期待OpenAI公布他們研究的技術(shù)細節(jié),避免錯誤的猜測。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。