碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

本文作者：貝爽

2020-12-30 18:15

導語：從圍棋、王者到足球，AI越來越強了！

你以為AI只會打王者？NO，踢足球也溜的很！

先來欣賞兩個精彩片段：

快、準、直！一記完美的長傳后，直射球門！

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

連續(xù)突破重圍，輕松傳球4次。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

看到如此嫻熟的球技，你是不是和小編一樣誤以為是人類，其實賽場上的球員全部是AI代理。剛剛完成傳球、射門的黃色球衣球員正式騰訊的絕悟AI——足球版WeKick。

絕悟，是騰訊AI Lab與王者榮耀聯合研發(fā)的策略協(xié)作型AI，上個月剛剛升級為完全體（讓AI掌握了所有英雄的所有技能）。絕悟Wicke版是基于絕悟完全體遷移得到的，并針對足球任務進行了針對性調整。

WeKick剛剛參加完首屆谷歌足球Kaggle競賽，以上是賽場上傳來的精彩片段。在這場全球頂級AI足球賽中，WeKick憑借1785.8分分絕對性優(yōu)勢，一舉擊敗了1138支優(yōu)秀團隊奪得了本次競賽的冠軍。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

這是絕悟完全體首次應用于足球任務，并參加大型國際足球競賽，取得如此成績，可見其背后深度強化學習方法的通用能力。

與王者榮耀一樣，足球競賽也屬于即時策略型游戲，需要AI具備長線思考、快速決策、處理復雜環(huán)境的能力。在本次競賽中，一個球員需要一個智能體（11vs11賽制），AI代理不僅需要控制球員之間的相互配合，還要時刻觀察對手的行為，并做出及時應對。

在瞬息萬變的賽場上，這背后需要復雜的團隊協(xié)作、實時決策和競爭策略。

那么，在如此高難度的挑戰(zhàn)賽中，為何絕悟WeKick能夠殺出重圍，奪得冠軍？

WeKick背后的三大優(yōu)化策略

此次競賽使用的是Google Research Football強化學習環(huán)境。

得益于深度強化學習在游戲領域突飛猛進，從Atari游戲，圍棋，再到多種不同的視頻游戲，AI智能體在不斷迭代中變得越來越強，使足球運動團隊策略的難關也得以被攻克。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

與MOBA游戲中不斷有經濟、血量、經驗等實時學習信號不同，足球的游戲激勵非常稀疏，基本只能依靠進球，而稀疏激勵一直是目前強化學習一大難題。

也就是說，單純的從零開始完全采用強化學習來訓練足球AI也相當困難。對此，騰訊AI Lab提出了三項改進方案：

基于絕悟完全體的架構遷移，定制自博弈化強化學習框架。
在特征與獎勵設計上，生成對抗模擬學習（GAIL）與人工設計獎勵相結合的方案
采用League （若干策略池）多風格強化學習訓練方案。

首先是定制化框架，研究人員采用自博弈（Self-Play）強化學習來從零開始訓練模型，并部署到異步的分布式強化學習框架中。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

雖然該異步架構犧牲了訓練階段的部分實時性能，但靈活性卻得到顯著提升，而且還支持在訓練過程中按需調整計算資源，使其能適應 11 智能體足球游戲訓練環(huán)境。

此外，由于MOBA游戲和足球游戲任務目標存在差異，絕悟WeKick采用了生成對抗模擬學習（GAIL）與人工設計的獎勵結合的方式，在特征與獎勵設計上進行了擴展和創(chuàng)新。

該方案利用了生成對抗訓練機制來擬合專家行為的狀態(tài)和動作分布，使絕悟WeKick可以從其它球隊學習。然后，再將 GAIL 訓練的模型作為固定對手進行進一步自博弈訓練，進一步提升策略的穩(wěn)健性。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

但這種通過自博弈強化學習得到的模型有一個天然的缺點：很容易收斂到單一風格。在實際比賽的時候單一風格的模型很容易發(fā)生由于沒見過某種打法而表現失常，最終導致成績不佳的情況。

因此，為了提升策略的多樣性和穩(wěn)健性，絕悟還采用了針對多智能體學習任務的League（若干策略池）多風格強化學習訓練方案。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

這種League多風格強化學習訓練方案的主要流程可簡單總結為先專精后綜合，如下：

首先訓練一個具備一定程度競技能力的基礎模型，比如運球過人、傳球配合、射門得分；
接著基于基礎模型訓練出多個風格化模型。每個模型專注一種風格打法，在風格化模型訓練的過程中會定期加入主模型作為對手，避免過度堅持風格，丟失基本能力；
最后基于多個基礎模型訓練一個主模型，主模型除了以自己的歷史模型為對手以外，還會定期加入所有風格化對手的最新模型作為對手，確保主模型能夠適應風格完全不同的對手。

內部能力評分系統(tǒng)顯示，加入對手池訓練以后的主模型，可以在基礎模型的基礎上提高200分，比最強的風格化打法高80分。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

最后基于定制化的框架改進，生成對抗模擬學習（GAIL）方案以及 League （若干策略池）多風格強化學習訓練方案，使絕悟遠超過其他AI球員，取得了1785.8的高分。

Kaggle首屆比賽，難度升級！

本屆比賽是Kaggle首次針對足球AI領域發(fā)布的賽題。Kaggle是全球最大的數據科學社區(qū)和數據科學競賽平臺，創(chuàng)立于2010年。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

由于足球運動團隊策略因其復雜性、多樣性和高難度，一直是困擾世界頂尖AI研究團隊的難題，加上稀疏的游戲激勵使其成為比MOBA游戲更難攻克的目標。Google Research聯合英超曼城在Kaggle上舉辦了這場賽事，希望進一步推動多智能體技術研究。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

基于此，不同其他AI足球賽事，本屆比賽在難度上進行了大幅度升級，如前所述比賽采取11vs11賽制，參賽團隊需要控制其中1個智能體與10個內置智能體組成球隊。

當完整的足球獨立智能體個數達到11個，強化學習的難度將隨著智能體個數的增長呈現指數級的爆炸增長，而且足球智能體之間差距不大，如何自動形成角色分工以及在不同角色間的激勵分配將成為各個團隊多智能體強化的一大挑戰(zhàn)。

在參加本屆比賽之前，騰訊絕悟團隊已經從足球比賽中的單個智能體控制轉向多智能體同時控制、協(xié)同作戰(zhàn)深入的研究方向。之前，在參加5v5形式（多智能體）的谷歌天梯比賽Google Research Football League中，騰訊絕悟團隊也摘得了冠軍。

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

此次，絕悟WeKick在足球競賽中再次奪冠，可以看出完全體升級后的絕悟AI，其背后深度強化學習在處理復雜任務上的能力，以及其底層架構的通用能力。

騰訊AI Lab在智能體領域已開發(fā)多年，從圍棋AI絕藝到MOBA游戲AI絕悟再到如今的AI足球隊WeKick，其深度強化學習智能體步步進化，在逐漸向更復雜更多樣化的問題遷移。騰訊AI Lab表示，他們的終極目標是邁向通用人工智能，長遠來看，絕悟背后的研發(fā)經驗和算法積累，未來還將在AI與農業(yè)、醫(yī)療及智慧城市等廣闊領域的結合上展現巨大潛力，創(chuàng)造出更大的實用價值。

論文：https://arxiv.org/abs/1912.09729

谷歌足球競賽官網：https://www.kaggle.com/c/google-football/leaderboard

雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

貝爽

編輯

發(fā)私信

當月熱門文章

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

WeKick背后的三大優(yōu)化策略

Kaggle首屆比賽，難度升級！

碾壓1138支AI！騰訊『絕悟WeKick』在Kaggle足球競賽中一舉奪冠

Kaggle首屆比賽，難度升級！