0
本文作者: 張馳 | 2017-08-14 15:01 |
雷鋒網(wǎng)消息,關(guān)于OpenAI的DotA 2游戲人工智能在The International比賽上擊敗了人類玩家的消息,就像當(dāng)時(shí)的AlphoGo一樣,又一次刷屏了。我們仿佛看到了AI又在得意地笑。
這次比賽重要的是,像DotA這樣的MOBA多人在線戰(zhàn)術(shù)競(jìng)技游戲,以及星際爭(zhēng)霸這樣的RTS即時(shí)戰(zhàn)略游戲,一直被視為超越了當(dāng)前AI技術(shù)的能力,遠(yuǎn)非AI能掌握及擊敗人類的。這些游戲需要在比賽中有長(zhǎng)時(shí)間的戰(zhàn)略決策和多人合作,并具有比國(guó)際象棋、圍棋等更復(fù)雜的狀態(tài)和行動(dòng)空間,后面的幾種棋類游戲在過去幾十年里,都逐一被AI技術(shù)攻略了。
雷鋒網(wǎng)此前報(bào)道,DeepMind已經(jīng)研究星際爭(zhēng)霸2有一段時(shí)間了,前不久也發(fā)布了一些研究成果。國(guó)內(nèi)的阿里巴巴也與倫敦大學(xué)合作,研究過AI與星際。但到目前為止,研究人員還沒有取得重大突破,而且一般認(rèn)為,我們距離讓AI在星際爭(zhēng)霸2中戰(zhàn)勝人類還有至少1-2年。
這也是為什么OpenAI的消息如此震驚的原因。
但如果更多了解DotA 2的AI是怎么樣的,它是如何訓(xùn)練的,它用了什么樣的游戲環(huán)境,就會(huì)發(fā)現(xiàn),它取得了不少令人印象深刻的研究成果,但不是想像中那樣的突破性的AI技術(shù)。前Google大腦團(tuán)隊(duì)成員Denny Britz就在hacker news上發(fā)起了討論,從他的分析和其他討論中也可以看出不少端倪。
不久后OpenAI就會(huì)公布具體的研究細(xì)節(jié)。不過先來看看DotA 2的AI解決的問題在現(xiàn)實(shí)中有多難,以及它與AlphaGo比又怎么樣。
1v1的難度與5v5沒法比
一般玩DotA 2游戲,都是5v5的對(duì)局。這種玩法需要用到高級(jí)的策略制定,團(tuán)隊(duì)溝通和協(xié)調(diào)能力,通常會(huì)是45分鐘左右一局。1v1游戲的限制就很多了,兩名選手基本上沿著單線行動(dòng),試圖殺死對(duì)方,游戲時(shí)間通常在幾分鐘內(nèi)。1v1比賽需要的是機(jī)械技能和短期戰(zhàn)術(shù),不需要長(zhǎng)期規(guī)劃或協(xié)調(diào),而后者才是對(duì)當(dāng)前AI技術(shù)最具挑戰(zhàn)性的。事實(shí)上,在1v1中可以采取的有用行動(dòng)數(shù)量是少于圍棋的。有效狀態(tài)空間,即玩家對(duì)游戲中正在發(fā)生的情況的想法,如果以更有效的方式進(jìn)行表征的話,應(yīng)該比圍棋要小。
AI可以得到更多信息
OpenAI的人工智能很可能是在游戲AI的API上開發(fā)的,這樣它可以訪問人類無法訪問的各種信息。而且,即使OpenAI研究者限制了訪問某些類型的信息,AI比起人類仍然可以得到更準(zhǔn)確的信息。例如,一項(xiàng)技能只能在一定范圍內(nèi)擊中對(duì)手,而人類玩家必須看屏幕來估算與對(duì)手的距離。這需要練習(xí),但AI就知道確切的距離信息,然后立即決定使用技能。獲得各種精確的數(shù)據(jù)信息會(huì)帶來很大的優(yōu)勢(shì),比如在這次的游戲過程中,AI就有好幾次是在最遠(yuǎn)距離上發(fā)動(dòng)了技能。
反應(yīng)時(shí)間優(yōu)勢(shì)
AI可以做到立即反應(yīng),但人類不行。如果反應(yīng)優(yōu)勢(shì)再加上上面說的數(shù)據(jù)優(yōu)勢(shì),就會(huì)形成另一大優(yōu)勢(shì)。比如,一旦對(duì)手逃出特定技能的使用范圍,AI就可以立即取消使用,避免無效的技能施放,也不會(huì)耽誤回復(fù)時(shí)間。
僅使用特定的游戲角色
DotA中有100多介角色,每個(gè)都有不同的能力和優(yōu)勢(shì)。這次比賽中,OpenAI的人工智能學(xué)習(xí)玩的唯一角色是影魔,當(dāng)然影魔也是中路solo的常用英雄。它的技能一般直接攻擊,而不是更復(fù)雜的讓技能持續(xù)一段時(shí)間,這樣就更容易從距離數(shù)據(jù)和快速反應(yīng)時(shí)間這兩個(gè)優(yōu)勢(shì)中獲益,這正是AI擅長(zhǎng)的。
部分規(guī)則寫死
這次的游戲AI也不是一切從零開始訓(xùn)練的,它對(duì)游戲算是有一些“了解”。裝備選擇是寫死的,押兵線這種技術(shù)也是,這些對(duì)比賽來說也很重要。根據(jù)現(xiàn)在的消息,AI學(xué)習(xí)的是與對(duì)手的互動(dòng)。
總體來說,鑒于1v1比賽主要是機(jī)械技能的比拼,那人類玩家被擊敗也就不奇怪了。而且由于比賽環(huán)境有限制,加上人為限制了一系列可能的行動(dòng),以及幾乎沒有必要進(jìn)行長(zhǎng)期的規(guī)劃或協(xié)調(diào),結(jié)論也就顯而易見了,即在這場(chǎng)1v1的DotA比賽中,AI擊敗人類冠軍要解決的問題,實(shí)際上比圍棋要更簡(jiǎn)單。
AI技術(shù)本質(zhì)上沒有出現(xiàn)突然的突破,它的成功是算法的成功,也是研究者的成功。研究者聰明地設(shè)置了問題,并用正確的方式避開了當(dāng)前技術(shù)的限制,取得了想要的成果。
據(jù)稱,OpenAI的人工智能的訓(xùn)練時(shí)間大概是2周左右。AlphaGo當(dāng)時(shí)需要在Google的GPU集群上進(jìn)行幾個(gè)月的高度分布的大規(guī)模培訓(xùn)。自那以來技術(shù)上已經(jīng)取得了一些進(jìn)展,但還不足以將計(jì)算要求降低一個(gè)數(shù)量級(jí)。
或許不明真相的新聞?dòng)懻撚行┻^度了,不過實(shí)際上這次的研究還有不少非常令人驚訝的成果。
完全通過自我對(duì)抗進(jìn)行訓(xùn)練
這次AI不需要任何訓(xùn)練數(shù)據(jù),它也不用從人類的演示中學(xué)習(xí),而是完全從隨機(jī)開始,并且不斷與自己對(duì)戰(zhàn)。雖然這種技術(shù)并不新鮮,但令人驚訝的是,AI學(xué)到了一些人類玩家已經(jīng)在使用的技術(shù),這已經(jīng)很厲害了?;蛟SAI會(huì)學(xué)會(huì)其他人類不曾用過的技術(shù),就像我們?cè)贏lphaGo與人類的對(duì)局中看到的那樣,人類玩家已經(jīng)開始從AI不那么容易理解的下法中學(xué)習(xí)了。
AI加電子競(jìng)技有了很大進(jìn)步
用DotA和星際這樣具有挑戰(zhàn)性的環(huán)境來測(cè)試AI技術(shù),是很重要的。如果電子競(jìng)技社區(qū)和游戲開發(fā)商也對(duì)AI技術(shù)應(yīng)用于游戲的價(jià)值很感興趣,那在得到他們的支持抂,AI技術(shù)很可能會(huì)有進(jìn)一步的進(jìn)展。
部分可觀察的環(huán)境
雖然OpenAI用游戲API開發(fā)的細(xì)節(jié)尚不清楚,但從人類玩家的角度來看,游戲中只能看到屏幕上顯示的內(nèi)容,玩家的視角受到了限制,比如說在上坡這樣的地形上,就無法看清坡上的狀況。這意味著,與圍棋或象棋不同,對(duì)戰(zhàn)游戲是處于一種部分可觀察的環(huán)境中,無法了解有關(guān)當(dāng)前游戲狀態(tài)的完整信息。這些問題AI很難以解決,屬于需要進(jìn)行積極研究的領(lǐng)域。目前還不清楚1v1的DotA比賽中,環(huán)境的可觀察性有多重要。
其實(shí)對(duì)于很多乍聽起來聳人聽聞的技術(shù),都需要有清醒的認(rèn)識(shí)。不出意料的,雷鋒網(wǎng)發(fā)現(xiàn)馬斯克也在Twitter對(duì)這一事件作了評(píng)價(jià)。
他說,“OpenAI第一次在電子競(jìng)技中擊敗了人類頂級(jí)選手,難度比象棋和圍棋都要大得多”,隨后開始談?wù)揂I的危害,“沒人喜歡被監(jiān)管,但一切(汽車、飛機(jī)、食品、藥品等)可能給公眾帶來危害的都受到了監(jiān)管,AI也應(yīng)如此”。
這些炒作當(dāng)然不是OpenAI研究者的錯(cuò),研究者對(duì)自己成果的局限一直有非常清晰和明確的認(rèn)識(shí)。過度解讀AI的進(jìn)步反而會(huì)帶來一些危害,我們期待OpenAI公布他們研究的技術(shù)細(xì)節(jié),避免錯(cuò)誤的猜測(cè)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。