丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給木子
發(fā)送

0

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

本文作者: 木子 2021-12-10 12:27
導(dǎo)語:騰訊絕悟AI奪冠Minecraft AI競賽,挑戰(zhàn)開放世界難題

絕悟AI開始挑戰(zhàn)更復(fù)雜的開放世界游戲環(huán)境了。

Minecraft (中文譯名《我的世界》) 是全球最暢銷的開放世界3D游戲。隨機生成的開放地圖、自由靈活的玩法、多線程長鏈條任務(wù),給AI研究帶來了極大挑戰(zhàn)。針對Minecraft的復(fù)雜環(huán)境,游戲AI賽事MineRL邀請全球程序員在4天時間內(nèi)用一臺計算機訓(xùn)練AI找到游戲中的鉆石。 

12月8日,第三屆MineRL競賽主賽道 (research track) 發(fā)布成績,AI 的“鉆石之夢”向前踏進了一大步:騰訊AI Lab“絕悟”以76.970分的絕對優(yōu)勢奪冠。研究成果已發(fā)布在Arxiv上,算法框架可復(fù)用于其他復(fù)雜決策環(huán)境。

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

(論文鏈接:https://arxiv.org/abs/2112.04907

MineRL競賽由卡內(nèi)基·梅隆大學(xué)、微軟、DeepMind、OpenAI,聯(lián)合機器學(xué)習(xí)頂級會議NeurIPS共同舉辦,極富挑戰(zhàn)性的賽題持續(xù)吸引全球開發(fā)者關(guān)注。今年賽事共有59支團隊、近500名選手投身其中,其中不乏世界頂級學(xué)府和研究機構(gòu)的科研強隊。競賽的研究主題是:訓(xùn)練樣本高效的Minecraft AI智能體。

騰訊AI Lab創(chuàng)新性地通過分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning)、表示學(xué)習(xí)(Representation Learning)、自模仿學(xué)習(xí)(Self-imitation Learning)、集成行為克?。‥nsemble Behavior Cloning)等算法高效實現(xiàn)比賽目標(biāo)。

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

 

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

(絕悟AI以壓倒性優(yōu)勢獲得歷史最高分,今年榜單詳見鏈接

極度多樣的環(huán)境、完全靠隨機種子生成的地圖、長決策序列與復(fù)雜的技能學(xué)習(xí)、高自由度玩法帶來的海量策略偏好都增加了Minecraft AI研究的難度。比如,為了讓AI在15分鐘內(nèi)找到鉆石,AI需要經(jīng)歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經(jīng)過一系列加工才能合成鉆石。

此外,主辦方還制定了種種嚴(yán)苛的規(guī)則:包括禁止參賽者編寫規(guī)則、游戲環(huán)境甚至將背包信息與動作空間加密、且不允許使用預(yù)訓(xùn)練模型,只允許與環(huán)境最多交互八百萬次,每個參賽隊伍只能使用6核CPU與半張NVIDIA K80顯卡訓(xùn)練4天——這個配置幾乎對于所有高校實驗室與個人研究者都可以負(fù)擔(dān)的。

這次比賽的目的在于促進樣本高效 (Sample-efficient) 游戲AI算法的發(fā)展。目前流行的強化學(xué)習(xí)算法一般需要多達(dá)成百上千萬次的試錯來尋找最優(yōu)流程,耗費大量的時間和計算資源。而純靠人類數(shù)據(jù)的模仿學(xué)習(xí)算法雖然更快,但性能上往往不盡如人意。

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

(Minecraft 游戲截圖)

絕悟AI創(chuàng)新性地提出了一種樣本高效的基于分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning)的解決方案。數(shù)據(jù)表明,騰訊AI Lab推出的上層控制器的預(yù)測準(zhǔn)確率可以達(dá)到99.95%,也就是說,AI從人類數(shù)據(jù)中學(xué)到了一套幾乎不出錯的宏觀策略,每時每刻都清晰地知道自己下一步的正確動向。

在狀態(tài)空間表征上,Minecraft游戲遇到的最大挑戰(zhàn)在于如何理解復(fù)雜的開放地圖。首先被選中的是近年來熱門的表示學(xué)習(xí)方法 (Representation Learning)。但研究人員很快發(fā)現(xiàn),已有方法只適用于2D場景,在MineCraft游戲環(huán)境里效果很差。于是騰訊AI Lab設(shè)計了一種“基于動作感知”(Action-aware Representation Learning)的新穎算法,用來捕捉每個動作對環(huán)境產(chǎn)生的影響,形成注意力機制。實驗表明,該算法可以顯著提升智能體獲得資源的能力與效率。

歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍

(不同動作的可視化結(jié)果,AI學(xué)會了關(guān)注當(dāng)前圖像中的關(guān)鍵區(qū)域)

隨著游戲推進,智能體與人類的策略出現(xiàn)了很大的分歧。此時,人類數(shù)據(jù)已經(jīng)很難用于指導(dǎo)AI。絕悟AI使用了自模仿學(xué)習(xí) (Self-imitation Learning)的思想,提出了基于鑒別器的自模仿學(xué)習(xí)算法,AI可以從自身過往的成功與失敗中獲得經(jīng)驗與教訓(xùn),并在察覺到當(dāng)前狀況不妙的時候,主動往更好的方向修正。對比實驗證明,在加入自模仿策略后,智能體探索到的行為更加一致,也可以顯著降低進入危險區(qū)域的概率。

對于合成物品等需要長鏈條的動作序列的任務(wù),研究人員也做了細(xì)致的優(yōu)化。通過動作序列一致性過濾 (Consistency Filtering) 與基于投票的集成學(xué)習(xí)(Ensemble Learning),模型在合成物品階段的成功率從35%提升到96%,一舉將最薄弱的鏈條扭轉(zhuǎn)為了最穩(wěn)定的制勝點。

利用高度復(fù)雜、高度定制化的游戲場景作訓(xùn)練場,騰訊 AI Lab 的深度強化學(xué)習(xí)智能體正不斷走近現(xiàn)實。棋牌游戲 AI “絕藝”從圍棋棋盤逐步走向象棋、麻將,策略協(xié)作型 AI “絕悟”從MOBA走向FPS、RTS,再到如今的 3D開放世界 MineCraft。它們邁向全新挑戰(zhàn)的每一步,都讓AI離解決現(xiàn)實問題、科技向善的大目標(biāo)更近了一步。

隨著虛實集成世界逐步變成現(xiàn)實,這些研究的經(jīng)驗、方法與結(jié)論,將在真實世界創(chuàng)造更大的實用價值。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說