AI別笑，1v1的DotA比賽其實(shí)比圍棋簡(jiǎn)單

本文作者：張馳

2017-08-14 15:01

導(dǎo)語：顯而易見，在這場(chǎng)1v1的DotA比賽中，AI擊敗人類冠軍要解決的問題，實(shí)際上比圍棋要更簡(jiǎn)單。

雷鋒網(wǎng)消息，關(guān)于OpenAI的DotA 2游戲人工智能在The International比賽上擊敗了人類玩家的消息，就像當(dāng)時(shí)的AlphoGo一樣，又一次刷屏了。我們仿佛看到了AI又在得意地笑。

這次比賽重要的是，像DotA這樣的MOBA多人在線戰(zhàn)術(shù)競(jìng)技游戲，以及星際爭(zhēng)霸這樣的RTS即時(shí)戰(zhàn)略游戲，一直被視為超越了當(dāng)前AI技術(shù)的能力，遠(yuǎn)非AI能掌握及擊敗人類的。這些游戲需要在比賽中有長(zhǎng)時(shí)間的戰(zhàn)略決策和多人合作，并具有比國際象棋、圍棋等更復(fù)雜的狀態(tài)和行動(dòng)空間，后面的幾種棋類游戲在過去幾十年里，都逐一被AI技術(shù)攻略了。

雷鋒網(wǎng)此前報(bào)道，DeepMind已經(jīng)研究星際爭(zhēng)霸2有一段時(shí)間了，前不久也發(fā)布了一些研究成果。國內(nèi)的阿里巴巴也與倫敦大學(xué)合作，研究過AI與星際。但到目前為止，研究人員還沒有取得重大突破，而且一般認(rèn)為，我們距離讓AI在星際爭(zhēng)霸2中戰(zhàn)勝人類還有至少1-2年。

這也是為什么OpenAI的消息如此震驚的原因。

但如果更多了解DotA 2的AI是怎么樣的，它是如何訓(xùn)練的，它用了什么樣的游戲環(huán)境，就會(huì)發(fā)現(xiàn)，它取得了不少令人印象深刻的研究成果，但不是想像中那樣的突破性的AI技術(shù)。前Google大腦團(tuán)隊(duì)成員Denny Britz就在hacker news上發(fā)起了討論，從他的分析和其他討論中也可以看出不少端倪。

不久后OpenAI就會(huì)公布具體的研究細(xì)節(jié)。不過先來看看DotA 2的AI解決的問題在現(xiàn)實(shí)中有多難，以及它與AlphaGo比又怎么樣。

1v1的難度與5v5沒法比

一般玩DotA 2游戲，都是5v5的對(duì)局。這種玩法需要用到高級(jí)的策略制定，團(tuán)隊(duì)溝通和協(xié)調(diào)能力，通常會(huì)是45分鐘左右一局。1v1游戲的限制就很多了，兩名選手基本上沿著單線行動(dòng)，試圖殺死對(duì)方，游戲時(shí)間通常在幾分鐘內(nèi)。1v1比賽需要的是機(jī)械技能和短期戰(zhàn)術(shù)，不需要長(zhǎng)期規(guī)劃或協(xié)調(diào)，而后者才是對(duì)當(dāng)前AI技術(shù)最具挑戰(zhàn)性的。事實(shí)上，在1v1中可以采取的有用行動(dòng)數(shù)量是少于圍棋的。有效狀態(tài)空間，即玩家對(duì)游戲中正在發(fā)生的情況的想法，如果以更有效的方式進(jìn)行表征的話，應(yīng)該比圍棋要小。

AI可以得到更多信息

OpenAI的人工智能很可能是在游戲AI的API上開發(fā)的，這樣它可以訪問人類無法訪問的各種信息。而且，即使OpenAI研究者限制了訪問某些類型的信息，AI比起人類仍然可以得到更準(zhǔn)確的信息。例如，一項(xiàng)技能只能在一定范圍內(nèi)擊中對(duì)手，而人類玩家必須看屏幕來估算與對(duì)手的距離。這需要練習(xí)，但AI就知道確切的距離信息，然后立即決定使用技能。獲得各種精確的數(shù)據(jù)信息會(huì)帶來很大的優(yōu)勢(shì)，比如在這次的游戲過程中，AI就有好幾次是在最遠(yuǎn)距離上發(fā)動(dòng)了技能。

反應(yīng)時(shí)間優(yōu)勢(shì)

AI可以做到立即反應(yīng)，但人類不行。如果反應(yīng)優(yōu)勢(shì)再加上上面說的數(shù)據(jù)優(yōu)勢(shì)，就會(huì)形成另一大優(yōu)勢(shì)。比如，一旦對(duì)手逃出特定技能的使用范圍，AI就可以立即取消使用，避免無效的技能施放，也不會(huì)耽誤回復(fù)時(shí)間。

僅使用特定的游戲角色

DotA中有100多介角色，每個(gè)都有不同的能力和優(yōu)勢(shì)。這次比賽中，OpenAI的人工智能學(xué)習(xí)玩的唯一角色是影魔，當(dāng)然影魔也是中路solo的常用英雄。它的技能一般直接攻擊，而不是更復(fù)雜的讓技能持續(xù)一段時(shí)間，這樣就更容易從距離數(shù)據(jù)和快速反應(yīng)時(shí)間這兩個(gè)優(yōu)勢(shì)中獲益，這正是AI擅長(zhǎng)的。

部分規(guī)則寫死

這次的游戲AI也不是一切從零開始訓(xùn)練的，它對(duì)游戲算是有一些“了解”。裝備選擇是寫死的，押兵線這種技術(shù)也是，這些對(duì)比賽來說也很重要。根據(jù)現(xiàn)在的消息，AI學(xué)習(xí)的是與對(duì)手的互動(dòng)。

總體來說，鑒于1v1比賽主要是機(jī)械技能的比拼，那人類玩家被擊敗也就不奇怪了。而且由于比賽環(huán)境有限制，加上人為限制了一系列可能的行動(dòng)，以及幾乎沒有必要進(jìn)行長(zhǎng)期的規(guī)劃或協(xié)調(diào)，結(jié)論也就顯而易見了，即在這場(chǎng)1v1的DotA比賽中，AI擊敗人類冠軍要解決的問題，實(shí)際上比圍棋要更簡(jiǎn)單。

AI別笑，1v1的DotA比賽其實(shí)比圍棋簡(jiǎn)單

AI技術(shù)本質(zhì)上沒有出現(xiàn)突然的突破，它的成功是算法的成功，也是研究者的成功。研究者聰明地設(shè)置了問題，并用正確的方式避開了當(dāng)前技術(shù)的限制，取得了想要的成果。

據(jù)稱，OpenAI的人工智能的訓(xùn)練時(shí)間大概是2周左右。AlphaGo當(dāng)時(shí)需要在Google的GPU集群上進(jìn)行幾個(gè)月的高度分布的大規(guī)模培訓(xùn)。自那以來技術(shù)上已經(jīng)取得了一些進(jìn)展，但還不足以將計(jì)算要求降低一個(gè)數(shù)量級(jí)。

或許不明真相的新聞?dòng)懻撚行┻^度了，不過實(shí)際上這次的研究還有不少非常令人驚訝的成果。

完全通過自我對(duì)抗進(jìn)行訓(xùn)練

這次AI不需要任何訓(xùn)練數(shù)據(jù)，它也不用從人類的演示中學(xué)習(xí)，而是完全從隨機(jī)開始，并且不斷與自己對(duì)戰(zhàn)。雖然這種技術(shù)并不新鮮，但令人驚訝的是，AI學(xué)到了一些人類玩家已經(jīng)在使用的技術(shù)，這已經(jīng)很厲害了?；蛟SAI會(huì)學(xué)會(huì)其他人類不曾用過的技術(shù)，就像我們?cè)贏lphaGo與人類的對(duì)局中看到的那樣，人類玩家已經(jīng)開始從AI不那么容易理解的下法中學(xué)習(xí)了。

AI加電子競(jìng)技有了很大進(jìn)步

用DotA和星際這樣具有挑戰(zhàn)性的環(huán)境來測(cè)試AI技術(shù)，是很重要的。如果電子競(jìng)技社區(qū)和游戲開發(fā)商也對(duì)AI技術(shù)應(yīng)用于游戲的價(jià)值很感興趣，那在得到他們的支持抂，AI技術(shù)很可能會(huì)有進(jìn)一步的進(jìn)展。

部分可觀察的環(huán)境

雖然OpenAI用游戲API開發(fā)的細(xì)節(jié)尚不清楚，但從人類玩家的角度來看，游戲中只能看到屏幕上顯示的內(nèi)容，玩家的視角受到了限制，比如說在上坡這樣的地形上，就無法看清坡上的狀況。這意味著，與圍棋或象棋不同，對(duì)戰(zhàn)游戲是處于一種部分可觀察的環(huán)境中，無法了解有關(guān)當(dāng)前游戲狀態(tài)的完整信息。這些問題AI很難以解決，屬于需要進(jìn)行積極研究的領(lǐng)域。目前還不清楚1v1的DotA比賽中，環(huán)境的可觀察性有多重要。

其實(shí)對(duì)于很多乍聽起來聳人聽聞的技術(shù)，都需要有清醒的認(rèn)識(shí)。不出意料的，雷鋒網(wǎng)發(fā)現(xiàn)馬斯克也在Twitter對(duì)這一事件作了評(píng)價(jià)。

AI別笑，1v1的DotA比賽其實(shí)比圍棋簡(jiǎn)單

他說，“OpenAI第一次在電子競(jìng)技中擊敗了人類頂級(jí)選手，難度比象棋和圍棋都要大得多”，隨后開始談?wù)揂I的危害，“沒人喜歡被監(jiān)管，但一切（汽車、飛機(jī)、食品、藥品等）可能給公眾帶來危害的都受到了監(jiān)管，AI也應(yīng)如此”。

這些炒作當(dāng)然不是OpenAI研究者的錯(cuò)，研究者對(duì)自己成果的局限一直有非常清晰和明確的認(rèn)識(shí)。過度解讀AI的進(jìn)步反而會(huì)帶來一些危害，我們期待OpenAI公布他們研究的技術(shù)細(xì)節(jié)，避免錯(cuò)誤的猜測(cè)。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

張馳

專業(yè)寫瞎

不受意識(shí)控制地報(bào)道那些讓人感動(dòng)的產(chǎn)品技術(shù)和事件......zhchsimons@gmail.com ；微信：nksimons；《腦洞》公眾號(hào)：hackmind

發(fā)私信

當(dāng)月熱門文章