丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

本文作者: 楊曉凡 2019-10-14 16:13
導(dǎo)語(yǔ):征服麻將,征服斗地主

雷鋒網(wǎng) AI 科技評(píng)論按:在過(guò)去的兩三年中,我們經(jīng)常聽(tīng)說(shuō)人工智能在棋牌類游戲(博弈)中取得新的成果,比如基于深度強(qiáng)化學(xué)習(xí)的 AlphaGo 擊敗了人類世界冠軍,由 AlphaGo 進(jìn)化而來(lái)的 AlphaZero 還一并搞定了國(guó)際象棋和日本象棋;基于博弈論的冷撲大師(Libratus)也在無(wú)限注德州撲克比賽中擊敗了人類職業(yè)選手;今年在澳門舉行的 IJCAI 2019 上我們也發(fā)現(xiàn)了一篇斗地主 AI 論文

不過(guò),雖然這些團(tuán)隊(duì)各自做出了令人矚目的成果,但不管對(duì)于工業(yè)界還是學(xué)術(shù)界來(lái)說(shuō),都缺少一個(gè)迅速開(kāi)發(fā)和測(cè)試棋牌類 AI 的環(huán)境。最近德州農(nóng)工大學(xué)胡俠帶領(lǐng)的華人團(tuán)隊(duì)就給出了他們的解決方案,開(kāi)源了基于牌類游戲設(shè)計(jì)的強(qiáng)化學(xué)習(xí) Python 平臺(tái) RLCard,在打包實(shí)現(xiàn)了多種牌類游戲算法的同時(shí),也提供了中西方最流行的幾種牌類游戲環(huán)境(包括斗地主、麻將、21點(diǎn)、德州撲克、UNO等),致力于為強(qiáng)化學(xué)習(xí)提供一個(gè)統(tǒng)一、易用的開(kāi)發(fā)和測(cè)試環(huán)境。雷鋒網(wǎng) AI 科技評(píng)論介紹如下。

RLCard 介紹

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

具體來(lái)說(shuō),RLCard 實(shí)現(xiàn)了四種有代表性的強(qiáng)化學(xué)習(xí)算法:作為強(qiáng)化學(xué)習(xí)的代表算法的 DQN、作為帶有自我學(xué)習(xí)的強(qiáng)化學(xué)習(xí)的代表算法的 NSFP、反事實(shí)后悔最小化 CFR 以及深度反事實(shí)后悔最小化 DeepCFR。RLCard 中也帶有一個(gè)隨機(jī)智能體。

RLCard 中實(shí)現(xiàn)了八種牌類游戲環(huán)境:二十一點(diǎn)(Blackjack),三種德州撲克(簡(jiǎn)化版德?lián)?Leduc Hold'em,有限制德?lián)?Limit Texas Hold'em 以及無(wú)限制德?lián)?No-limit Texas Hold'em ),斗地主,麻將,UNO 以及升級(jí)(目前升級(jí)游戲環(huán)境還在開(kāi)發(fā)中)。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

RLCard 安裝快速、使用簡(jiǎn)單,提供大量的實(shí)例、文檔及 demo;提供人類與 AI,以及 AI 與 AI 間對(duì)戰(zhàn)的接口,支持并行加速。平臺(tái)設(shè)計(jì)遵循以下設(shè)計(jì)原則:

  1. 易于比較。在 RLCard 中的得到結(jié)果可以方便比較。不同的研究者會(huì)提出各種各樣的算法,RLCard 通過(guò) AI 間博弈進(jìn)行性能評(píng)估。通過(guò)設(shè)置同樣的隨機(jī)種子,同樣的結(jié)果可以在多次實(shí)驗(yàn)上復(fù)現(xiàn)。

  2. 易用。盡可能用簡(jiǎn)單的接口產(chǎn)生游戲數(shù)據(jù),并且支持對(duì)游戲狀態(tài)編碼、動(dòng)作編碼、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、游戲規(guī)則的自定義。

  3. 可擴(kuò)展。盡可能最小化環(huán)境依賴,使得工具包維護(hù)簡(jiǎn)單。新游戲遵循工具包的設(shè)計(jì)原則也可以方便加入。

對(duì)于游戲環(huán)境實(shí)現(xiàn),RLCard 平臺(tái)抽象并定義了這些游戲概念:玩家,比賽(Game),對(duì)局(Round),發(fā)牌者(Dealer),裁判(Judger)。游戲環(huán)境實(shí)現(xiàn)都通過(guò)這些概念對(duì)應(yīng)的類,這樣的相同的設(shè)計(jì)規(guī)范讓游戲邏輯更容易理解、更容易操作。別的牌類游戲也基本都可以符合這個(gè)結(jié)構(gòu),未來(lái)如果想要增加很容易。

作為對(duì)比,現(xiàn)有的強(qiáng)化學(xué)習(xí)庫(kù)多數(shù)都是單智能體環(huán)境的(比如 OpenAI Gym);近期雖然也有一些支持多智能體的環(huán)境(比如星際2),但它們并不支持牌類游戲。RLCard 專為牌類游戲設(shè)計(jì),不僅是一些牌類游戲在強(qiáng)化學(xué)習(xí)庫(kù)中的首次實(shí)現(xiàn),也提供了簡(jiǎn)單直觀的接口,便于強(qiáng)化學(xué)習(xí)研究。

在目前的學(xué)術(shù)文獻(xiàn)中,解決撲克游戲的最熱門的方法是反事實(shí)后悔最小化(Counterfactual Regret Minimization,CFR),以及它的各種變體,勝過(guò)了人類職業(yè)選手的冷撲大師(Libratus)使用的就是基于 CFR 的方法。不過(guò),CFR 很消耗計(jì)算資源,因?yàn)樗枰耆闅v整個(gè)游戲樹(shù),所以它也不適用于斗地主之類的狀態(tài)空間很大的游戲。

近期也有研究表明,強(qiáng)化學(xué)習(xí)策略可以在打賭類的博弈中取得很好的表現(xiàn),比如玩斗地主就玩得不錯(cuò)。這些美妙的成果,以及強(qiáng)化學(xué)習(xí)本身的靈活性都讓我們有可能探索狀態(tài)空間、行動(dòng)空間更大的更困難的牌類游戲。

RLCard 使用方法

RLCard 使用簡(jiǎn)單,輸入 pip install rlcard 可快速安裝。安裝完成后,用以下 5 行代碼就能用隨機(jī)的智能體產(chǎn)生對(duì)局?jǐn)?shù)據(jù),返回的數(shù)據(jù)可直接用于強(qiáng)化學(xué)習(xí)算法訓(xùn)練。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

另外,RLCard還提供了豐富的的運(yùn)行實(shí)例,包括產(chǎn)生隨機(jī)數(shù)據(jù),訓(xùn)練CFR、DQN、NFSP等算法,以及多進(jìn)程運(yùn)行實(shí)例。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

RLCard 提供人機(jī)對(duì)戰(zhàn) demo。RLCard 提供 Leduc Hold'em 游戲環(huán)境的一個(gè)預(yù)訓(xùn)練模型,可以直接測(cè)試人機(jī)對(duì)戰(zhàn)。Leduc Hold'em 是一個(gè)簡(jiǎn)化版的德州撲克,游戲使用 6 張牌(紅桃 J、Q、K,黑桃 J、Q、K),牌型大小比較中 對(duì)牌>單牌,K>Q>J,目標(biāo)是贏得更多的籌碼。與預(yù)訓(xùn)練模型對(duì)局展示如下:

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

RLCard 評(píng)估

除此之外,開(kāi)發(fā)團(tuán)隊(duì)還對(duì) RLCard 做了系統(tǒng)的評(píng)估。他們測(cè)試了最流行的強(qiáng)化學(xué)習(xí)算法在環(huán)境上的表現(xiàn)。測(cè)試方法包括與隨機(jī)策略的比較以及 AI 間互相對(duì)戰(zhàn)的比較。發(fā)現(xiàn)主流算法在小型游戲上普遍有較好的效果,但是在較復(fù)雜游戲(例如斗地主、UNO)效果一般。如何在復(fù)雜的游戲中更好地訓(xùn)練強(qiáng)化學(xué)習(xí)算法需要更多的研究。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

團(tuán)隊(duì)也對(duì)游戲運(yùn)行的效率進(jìn)行了評(píng)估。在 24 核 2.10GHz CPU 服務(wù)器上對(duì)各個(gè)游戲的運(yùn)行時(shí)間進(jìn)行了測(cè)試,使用多進(jìn)程可以更高效地產(chǎn)生游戲數(shù)據(jù)。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

目前 RLCard 的官網(wǎng)已經(jīng)上線,其中提供了詳細(xì)的文檔。學(xué)術(shù)論文也已經(jīng)發(fā)表在 arXiv,第一作者為查道琛。詳細(xì)信息可以訪問(wèn)下面的鏈接:

未來(lái),作者們還會(huì)繼續(xù)優(yōu)化和增強(qiáng)這個(gè)平臺(tái),他們的計(jì)劃包括增加基于規(guī)則的智能體、增加更多預(yù)訓(xùn)練模型(幫助評(píng)價(jià)模型),增加更多游戲環(huán)境和算法,以及增加可視化和分析功能等。相信這個(gè)環(huán)境能對(duì)領(lǐng)域內(nèi)的研究人員們起到很大幫助。

感謝查道琛、胡俠對(duì)文本提供的幫助。雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

卡牌游戲八合一,華人團(tuán)隊(duì)開(kāi)源強(qiáng)化學(xué)習(xí)研究平臺(tái)RLCard

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)