丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

本文作者: 楊曉凡 2018-06-26 19:58
導(dǎo)語(yǔ):簡(jiǎn)化環(huán)境里獲得的優(yōu)秀表現(xiàn),但帶來(lái)了對(duì)強(qiáng)化學(xué)習(xí)的新的思考

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

雷鋒網(wǎng) AI 科技評(píng)論按:各位讀者想必今天一睜眼就被「OpenAI 的人工智能在 DOTA 5v5 比賽中也打敗了人類選手」的新聞刷屏了。OpenAI 開發(fā)的 DOTA AI 去年在 1v1 solo 中打敗頂級(jí)職業(yè)選手 Dendi 和 Sumail 之后,緊接著就放出豪言還要在 5v5 的 DOTA 比賽中擊敗人類,這一天仿佛這么快就到來(lái)了。

5v5 AI,一個(gè)新的臺(tái)階,不過(guò)這個(gè) AI 其實(shí)還比較初級(jí)

DOTA(以及 DOTA2)是目前最火熱的電子競(jìng)技游戲之一,也是當(dāng)之無(wú)愧的職業(yè)比賽規(guī)模最大、獎(jiǎng)金最高的游戲。DOTA 游戲有很高的難度,對(duì)人類玩家來(lái)說(shuō)都需要很長(zhǎng)的學(xué)習(xí)時(shí)間,因?yàn)?nbsp;DOTA 中有上百種英雄、上百種物品、多種游戲策略、不同英雄有不同的玩法、不同的英雄組合之間也有獨(dú)特的技能和裝備配合;除此之外玩家還需要審時(shí)度勢(shì),同一個(gè)英雄在不同局面中也有不同的玩法。DOTA 的職業(yè)比賽也因此而變得激動(dòng)人心,選手的局部小操作和整個(gè)團(tuán)隊(duì)改變戰(zhàn)局的戰(zhàn)略執(zhí)行都會(huì)被玩家們津津樂(lè)道。

復(fù)雜的英雄、物品、配合、長(zhǎng)短期策略結(jié)合等方面正是我們長(zhǎng)期認(rèn)為 DOTA 這樣的游戲?qū)ΜF(xiàn)階段的 AI 來(lái)說(shuō)過(guò)于困難的原因。而且除了這些人類眼中的認(rèn)知難題之外,DOTA 游戲的行動(dòng)空間還非常龐大。相比于圍棋中每一步操作只需要在棋盤上剩余的空位中選一個(gè)落子,DOTA 中的行動(dòng)是非常密集的(每分鐘操作在 100 次數(shù)量級(jí))、考慮時(shí)間長(zhǎng)短的(比如持續(xù)施法技能)、數(shù)值連續(xù)的(比如走位)、復(fù)雜多值化的(比如購(gòu)買裝備)、信息是部分可觀察的(地圖上有大量的無(wú)視野區(qū)域),反饋也可以認(rèn)為是稀疏的(勝負(fù)最為重要),所以主流觀點(diǎn)一度認(rèn)為類似 DeepMind 開發(fā) AlphaGo 時(shí)那樣的純粹強(qiáng)化學(xué)習(xí)自我對(duì)弈是無(wú)法學(xué)會(huì)玩 DOTA (以及星際等即時(shí)戰(zhàn)略游戲)的,過(guò)大的行為空間會(huì)讓訓(xùn)練過(guò)程長(zhǎng)期停留在沒(méi)有有效反饋的區(qū)域從而無(wú)法收斂。層級(jí)強(qiáng)化學(xué)習(xí)被認(rèn)為是一種有希望幫助訓(xùn)練過(guò)程快速走出低效探索的方法,但發(fā)展仍不成熟。

OpenAI 對(duì)于 DOTA AI 的最終目標(biāo)是開發(fā)出能夠打敗人類職業(yè)選手的 AI。顯然這樣的目標(biāo)是無(wú)法一蹴而就的,所以他們的指導(dǎo)思想是分步走,從英雄、物品、地圖范圍、策略都有高度限制的 1v1 比賽開始,然后逐步減少限制,同時(shí)逐步改善模型,一步步接近最終目標(biāo);去年 TI(國(guó)際邀請(qǐng)賽)中 1v1 打敗 Dendi,以及在測(cè)試比賽中打敗 Sumail 的 DOTA AI 就是其中的第一步。對(duì)于這樣的結(jié)果,初看有些意外,但細(xì)想之下還是比較合理的。畢竟玩 Atari 游戲我們都已經(jīng)司空見慣了。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

對(duì)于接下來(lái)的 5v5 AI(名為 OpenAI Five),自然也保留了諸多限制,游戲環(huán)境和各位玩家熟悉的樣子有諸多不同。OpenAI Five 在這個(gè)環(huán)境里做了多次迭代更新,4 月 23 日版本首次打敗了 OpenAI 自己編寫的基于腳本的基準(zhǔn)模型,5 月 15 日的版本與 OpenAI 員工隊(duì)伍(天梯分段 2500,高于 46% 的玩家)打了一勝一負(fù);而 6 月 6 日的版本則在與業(yè)余戰(zhàn)隊(duì)(天梯分段 4200,高于 93% 的玩家)和半職業(yè)戰(zhàn)隊(duì)(天梯分段 5500,高于 99% 的玩家)的比賽中都贏得了三局中的前兩局。

OpenAI Five 目前設(shè)定的游戲中的限制有以下這些方面:

  • 比賽雙方都使用固定的瘟疫法師、冥界亞龍、矮人火槍手、水晶室女、巫妖 5 個(gè)英雄,而不是在超過(guò) 110 個(gè)英雄中任意選擇(顯然我們也可以推測(cè)出 OpenAI 就是以這組固定的英雄進(jìn)行訓(xùn)練的)

  • 禁止使用守衛(wèi),禁止使用隱身物品(消耗品及裝備)

  • 禁止使用幻象和分身

  • 禁止打肉山

  • 禁止購(gòu)買圣劍、魔瓶、壓制之刃、遠(yuǎn)行鞋、知識(shí)之書、眼淚

  • 禁止使用掃描

  • OpenAI Five 方有五個(gè)無(wú)敵的信使,不過(guò)也禁止使用這些信使看視野以及承受傷害

顯然各位 DOTA 玩家一看就知道,僅英雄選擇的限制這一項(xiàng)就極大降低了游戲的復(fù)雜度;隱身、肉山之類的禁用也縮小了戰(zhàn)略戰(zhàn)術(shù)的選擇空間;至于 5 個(gè)無(wú)敵的信使就更像是對(duì) 5 個(gè) AI 之間(也許并不理想的)協(xié)作能力的妥協(xié)了。

不過(guò),能打敗業(yè)余和半職業(yè)戰(zhàn)隊(duì)的表現(xiàn)畢竟還是有一些特色的,能在三局中贏得前兩局也說(shuō)明了 AI 的策略選擇與執(zhí)行的效果。在幾場(chǎng)比賽中 OpenAI Five 的玩法體現(xiàn)出了這些特點(diǎn):

  • 采取的策略總是放空自己的優(yōu)勢(shì)路,攻擊對(duì)方的優(yōu)勢(shì)路(以及到中路的這小半場(chǎng)),以求造成壓力、形成優(yōu)勢(shì)。(所以人類職業(yè)選手到了第三局也就能夠反制這樣的固定策略了)

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

OpenAI Five 五個(gè)英雄都集結(jié)在對(duì)方優(yōu)勢(shì)路到中塔之間的區(qū)域
  • 快速主動(dòng)地組織 gank 并推搭

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

比賽開始 2 分鐘,AI 的 2 級(jí)冰女和 2 級(jí)毒龍 gank 中路
  • 比賽前期給輔助英雄讓錢讓經(jīng)驗(yàn),這讓輔助英雄更快地達(dá)到最高輸出,同時(shí)也更快地結(jié)束比賽

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

人類方進(jìn)攻高地,AI 冰女 BKB 跳大,配合隊(duì)友擊殺對(duì)方四人

復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)比預(yù)想的要簡(jiǎn)單?

即便游戲中有一些限制,但還是有足夠的復(fù)雜度,而且我們也看到了 AI 在游戲中的精彩表現(xiàn)。從技術(shù)角度來(lái)說(shuō),這也給了我們新的啟發(fā)。

正如前文提到的,DOTA 中復(fù)雜的行動(dòng)空間以及對(duì)長(zhǎng)短期策略結(jié)合的需求的讓領(lǐng)域內(nèi)的研究者,甚至包括 OpenAI 的人自己都認(rèn)為 DOTA 需要層次化強(qiáng)化學(xué)習(xí)這樣的全新的深度學(xué)習(xí)技術(shù),但其實(shí)只通過(guò)雷鋒網(wǎng) AI 科技評(píng)論也曾介紹過(guò)的近端策略優(yōu)化 PPO 就已經(jīng)達(dá)到如此的水平 —— 至少是在用足夠大的規(guī)模做訓(xùn)練,以及選用了合適的超參數(shù)平衡了探索行為的程度的時(shí)候。

OpenAI 使用了256 個(gè) V100 GPU 和 128000 個(gè) CPU 訓(xùn)練模型,不使用人類數(shù)據(jù),80% 的時(shí)間自我對(duì)弈,20% 的時(shí)間和過(guò)去的版本對(duì)弈。訓(xùn)練中每天進(jìn)行的游戲數(shù)量時(shí)長(zhǎng)相當(dāng)于大約 180 年。根據(jù) DOTA 解說(shuō) Blitz 評(píng)價(jià),OpenAI Five 的補(bǔ)刀只是普通玩家水平,但整場(chǎng)游戲的長(zhǎng)期策略執(zhí)行已經(jīng)有了職業(yè)選手水準(zhǔn)。用現(xiàn)有的方法就能達(dá)到短期策略和長(zhǎng)期策略之間的均衡,算是一項(xiàng)驚喜的發(fā)現(xiàn)。

另一方面,OpenAI Five 中使用的模型架構(gòu)也出人意料地簡(jiǎn)單。每一個(gè)英雄由一個(gè)單獨(dú)的 LSTM 模型控制,而它只是一個(gè)單層的、含有 1024 個(gè)單元的 LSTM 網(wǎng)絡(luò)。網(wǎng)絡(luò)從 Value (DOTA2 制作公司)提供的 BOT API 獲取數(shù)據(jù),然后通過(guò)多個(gè)不同的動(dòng)作輸出接口進(jìn)行控制。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

OpenAI Five 的網(wǎng)絡(luò)架構(gòu)圖

OpenAI 對(duì)于反饋的設(shè)計(jì)也別有用心。除了輸贏之外也選用了人類選手常用的指標(biāo):總財(cái)產(chǎn)、擊殺數(shù)、死亡數(shù)、助攻數(shù)、補(bǔ)刀數(shù)等等。但是為了避免 AI 過(guò)于關(guān)注這些偏向于短期策略的數(shù)據(jù),他們的反饋設(shè)計(jì)只鼓勵(lì) AI 在這些方面做到人類玩家的平均水平。

還有一個(gè)項(xiàng)目是 AI 之間的合作。OpenAI 并沒(méi)有為 AI 之間設(shè)計(jì)顯式的溝通頻道,目前他們?cè)O(shè)計(jì)了一個(gè)名為「團(tuán)隊(duì)精神」的超參數(shù),這個(gè) 0 到 1 之間的值會(huì)反應(yīng)每個(gè)英雄關(guān)注自己?jiǎn)为?dú)的反饋和整個(gè)團(tuán)隊(duì)的反饋之間的比例。在訓(xùn)練中 OpenAI 通過(guò)退火來(lái)優(yōu)化這個(gè)值的具體大小。

總結(jié)

雖然我們說(shuō)到目前的 5v5 OpenAI Five 的實(shí)際表現(xiàn)不過(guò)如此,但以現(xiàn)有的資源和方法就達(dá)到了超出預(yù)期的效果,這也值得我們反思以往的強(qiáng)化學(xué)習(xí)研究中,方法與實(shí)現(xiàn)是否有諸多做的不完善的地方才導(dǎo)致容易遇到訓(xùn)練困難、表現(xiàn)瓶頸、表現(xiàn)不穩(wěn)定性等問(wèn)題;另一方面,在現(xiàn)有方法的威力完全得到發(fā)揮的地方,我們也更容易清晰地看到繼續(xù)提升表現(xiàn)還需要哪些創(chuàng)新。

OpenAI 還會(huì)在 7 月 28 日組織頂尖人類職業(yè)玩家再與 OpenAI Five 進(jìn)行比賽,這之前系統(tǒng)還會(huì)進(jìn)行調(diào)試更新。我們期待 OpenAI Five 近期能有更新、更強(qiáng)的表現(xiàn),也期待它早日在無(wú)限制的完全展現(xiàn)了 DOTA 復(fù)雜程度的環(huán)境中再展風(fēng)姿,更與 OpenAI 全體一起期待這些用于 DOTA AI 的技術(shù)能為更多真實(shí)世界問(wèn)題帶來(lái)幫助。

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過(guò)如此

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)