0
雷鋒網(wǎng) AI 科技評論按,近年來,AI 在博弈游戲中的研究成為研究者們關(guān)注的熱點之一。2017 年,AlphaGo 成功擊敗人類最高圍棋水平的代表柯潔,一度占據(jù)各大媒體的頭條。之后,AlphaGo 不斷進化,AlphaZero 輕松擊敗國際象棋和日本將棋并擊敗業(yè)內(nèi)遠(yuǎn)超人類冠軍水平的頂尖計算機程序。今年,OpenAI Five 擊敗 DOTA2 世界冠軍 OG 團隊。
而在今年 AAMAS 2019 的 140 篇入選論文中,我們注意到,其中有一篇關(guān)于不完全信息博弈游戲——橋牌游戲的論文——《Competitive Bridge Bidding with Deep Neural Networks》。該論文的作者是中科院計算所博士生榮江(現(xiàn)在阿里巴巴工作)、微軟亞洲研究院資深研究員秦濤博士、新加坡南洋理工大學(xué)計算機科學(xué)與工程學(xué)院安波博士。
論文主要研究了在橋牌游戲中,基于神經(jīng)網(wǎng)絡(luò)構(gòu)建叫牌系統(tǒng)的方法。
論文下載地址:https://arxiv.org/abs/1903.00900v2
論文的摘要如下:
雷鋒網(wǎng) AI 科技評論將摘要翻譯如下:
橋牌游戲分為叫牌和打牌兩個階段。對計算機程序來說,雖然打牌相對容易,但叫牌是非常具有挑戰(zhàn)性的。在叫牌階段,每個玩家只知道自己牌,但同時,他需要在對手的干擾下與搭檔交換信息?,F(xiàn)有的解決完全信息博弈的方法不能直接應(yīng)用于叫牌中。大多數(shù)橋牌程序都是基于人工設(shè)計的規(guī)則,但是,這些規(guī)則并不能覆蓋所有的情況,而且,它們通常模棱兩可甚至相互矛盾。本文首次提出了一種基于深度學(xué)習(xí)技術(shù)的叫牌系統(tǒng),在文中,我們展示了兩個創(chuàng)新點。首先,我們設(shè)計了一個緊湊的表示,對私人和公共信息進行編碼,供玩家投標(biāo)。第二,在分析其他玩家的未知牌對最終結(jié)果的影響的基礎(chǔ)上,設(shè)計了兩個神經(jīng)網(wǎng)絡(luò)來處理不完全信息,第一個神經(jīng)網(wǎng)絡(luò)推斷出搭檔的牌,第二個神經(jīng)網(wǎng)絡(luò)將第一個神經(jīng)網(wǎng)絡(luò)的輸出作為其輸入的一部分來選擇叫牌。實驗結(jié)果表明,我們的叫牌系統(tǒng)優(yōu)于基于規(guī)則的最優(yōu)方案。
橋牌游戲的研究背景是什么?有哪些難點?其現(xiàn)實意義是什么?本次論文的工作,用了哪些方法,遇到了什么困難?帶著這些問題,雷鋒網(wǎng) AI 科技評論采訪了論文的作者。以下是這次采訪的主要內(nèi)容。
問答記錄:
AI 科技評論:你們著手橋牌游戲研究有多久了?訓(xùn)練數(shù)據(jù)源是什么?為什么會研究橋牌而不是德?lián)洌窟@兩個游戲都是不完全信息博弈,它們的異同點在哪里,研究的側(cè)重點有區(qū)別嗎?
答:我們是 2016 年開始研究橋牌的,一直到 2018 年,歷時一年多,文章于 2019 年發(fā)表在 AAMAS 上。
我們的數(shù)據(jù)包括兩部分,用于監(jiān)督學(xué)習(xí)的專家數(shù)據(jù)和用于強化學(xué)習(xí)的隨機數(shù)據(jù)。其中專家數(shù)據(jù)來自 Vugraph Project(http://www.bridgebase.com/vugraph_archives/vugraph_archives.php),該項目記錄了世界各種高水平橋牌比賽的完整過程,經(jīng)過處理以后共得到 1200 萬條專家數(shù)據(jù)。用于強化學(xué)習(xí) self-play 的數(shù)據(jù)是隨機生成的,我們用了 100 萬局比賽。
實習(xí)的時候有同事懂橋牌,我們覺得有意思就開始研究橋牌了。橋牌和德?lián)涔餐c是,它們都是不完全信息博弈。它們的不同點有兩個,第一點是橋牌有四個人,已有的算法很難保證像二人德?lián)淠菢诱业郊{什均衡,第二點是,橋牌涉及到隊友間的協(xié)作。
相比于德?lián)?,橋牌的難度更大、更具有挑戰(zhàn)性。雖然它們都是不完全信息博弈,但已經(jīng)發(fā)表的德?lián)渌惴ǎㄈ?CFR 算法)僅對二人德?lián)溆欣碚摫WC,無法拓展到多人。而橋牌是四人博弈,因此會更難一些。此外,橋牌不僅涉及到對手間的對抗,還涉及到隊友間的合作,比德?lián)涓鼜?fù)雜。
之所以選擇橋牌,是因為現(xiàn)實中大部分環(huán)境是既充滿合作也充滿競爭的,如果我們能做好橋牌這種非完全信息游戲,那么我們就能對很多實際生活中遇到的問題進行建模了。比如,這項研究成果可以用在處理國家和國家之間的關(guān)系上,任何國家和國家之間關(guān)系都不是兩個國家之間的關(guān)系,我們要考慮到多方的關(guān)系,而這些國家之間既存在競爭也可能同時存在合作。其中會涉及到很多私有信息,這些信息都是未公開的,為非完全信息,這就和橋牌游戲是類似的。我們覺得,這項工作是比較接近現(xiàn)實的抽象,通過這項研究,我們可以發(fā)掘相關(guān)算和積累相關(guān)技術(shù),便于日后落地到實際應(yīng)用。
AI 科技評論:你們的文章中提到,橋牌游戲的難點有兩個,一是進行決策時需要考慮的狀態(tài)空間很大,二是來自對手的挑戰(zhàn),你們是如何應(yīng)對這些難點的?
答:第一,我們用了一個緊湊的向量來表征狀態(tài)(如下圖所示),從而降低模型輸入的維度。此外,由于每個玩家只能看到自己的 13 張牌,其余 39 張都是未知的,這導(dǎo)致不完全信息的信息集很大,我們通過預(yù)測隊友的牌來縮小信息集,從而降低結(jié)果的不確定性。
第二,我們首先通過監(jiān)督學(xué)習(xí)來較好地初始化智能體,然后通過強化學(xué)習(xí)算法讓我們的智能體不停地 self-play,這個過程中同一個團隊的 2 個智能體會通過不斷修正對隊友牌面的預(yù)測準(zhǔn)確性來保持信息交換和協(xié)作,同時與自己的歷史版本對抗,在不斷的學(xué)習(xí)中提升自己的勝率。
AI 科技評論:你們的成果超越了過去三年的冠軍,和他們相比,你們的優(yōu)勢和創(chuàng)新點在哪里?
答:橋牌分兩個階段,叫牌(bidding)和打牌(playing)。我們目前的工作只是在叫牌階段超越了當(dāng)前版本的 Wbridge5,當(dāng)然,Wbridge5 也在不斷優(yōu)化中。我們的優(yōu)勢在于用神經(jīng)網(wǎng)絡(luò)構(gòu)建叫牌系統(tǒng),這樣能夠通過監(jiān)督和強化學(xué)習(xí)讓該系統(tǒng)不停地探索和優(yōu)化自己的策略,而 Wbridge5 是基于規(guī)則的,他們通過消除已有規(guī)則中的歧義和沖突來優(yōu)化自己的系統(tǒng),這樣就會有一定的局限性,把系統(tǒng)的性能的上限局限在了人類已有的知識中。
AI 科技評論:你們的工作是如何分工的?在研究的過程中,選取了哪些特征,嘗試過哪些機器學(xué)習(xí)算法?未來會在哪些方面進行改進和提升?
答:榮江主要負(fù)責(zé)具體實現(xiàn)工作,秦濤老師和安波老師參與方案的討論并指導(dǎo)榮江工作。
我們用到的特征包括完全信息和不完全信息兩部分,其中完全信息包括自己的牌、局況(vulnerability)、叫牌序列(bidding history),不完全信息包括對隊友牌的預(yù)測。
研究過程中,我們嘗試過 DQN 算法,但由于不完全信息帶來的不確定性,DQN 算法的方差很大。另外,我們還試過 boosting tree 算法,這種算法的好處是有很好的模型可解釋性,但算法的性能并沒有基于 policy 的強化學(xué)習(xí)算法好。此外,我們還嘗試過單純用強化學(xué)習(xí)算法,但是算法不收斂,這跟完全信息類型的博弈(如圍棋)有很大差別。
未來,我們會嘗試加入帶有 reward shaping 功能的 value-network,用于位叫牌過程的每一步中間結(jié)果生成一個單獨的即時收益,而不是等到叫牌結(jié)束后給所有中間過程一個相同的收益,這可能會有讓策略更新的方向更加精準(zhǔn)。此外,我們還會嘗試加入 attention 模塊(如 Transformer),對叫牌序列做權(quán)重處理,讓智能體能捕捉到更加關(guān)鍵的信息,從而得到更好的策略。
AI 科技評論:這項工作成果的應(yīng)用前景如何?可以用在工業(yè)上嗎?
答:我們的算法說明「策略網(wǎng)絡(luò)+預(yù)測網(wǎng)絡(luò)」這種組合是有效的,這個思路可以用在很多地方,比如商業(yè)推薦系統(tǒng)。我們正在嘗試用一個預(yù)測網(wǎng)絡(luò)來預(yù)測用戶的興趣,然后通過一個打分網(wǎng)絡(luò)來對用戶感興趣的商品進行排序。
AI 科技評論:目前,橋牌游戲研究在國內(nèi)外的研究現(xiàn)狀如何,這項研究未來的方向是什么?
答:目前,做棋牌類游戲研究的人非常多。目前,科學(xué)家們已經(jīng)攻破了圍棋這種完全信息的游戲,因此我們著手研究橋牌這種非完全信息游戲。目前,這些游戲在國外的研究相對于國內(nèi)來說要多一些。
目前幾乎所有的橋牌軟件(如 GIB,Wbridge5,Jack 等)都是基于規(guī)則的。雖然深度學(xué)習(xí)已經(jīng)在很多完全信息類博弈中取得了顯著的效果(如 AlphaGo),但目前橋牌領(lǐng)域使用的還很少。ECAI16 發(fā)表了一篇基于神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)的橋牌算法,但該算法不考慮競爭,即假設(shè)對手一直出「pass」。我們的論文應(yīng)該是第一篇用深度學(xué)習(xí)算法來求解橋牌叫牌游戲的文章。今后應(yīng)該會出現(xiàn)更多基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的橋牌算法。
AI 科技評論:您對游戲類的研究有什么看法?這種研究有什么實際意義嗎?
答:科學(xué)研究始終要走在工業(yè)應(yīng)用的前面,要有前瞻性。從 AI 的發(fā)展歷史來看,很多精妙的算法和理論都是從研究游戲開始的,學(xué)者們在研究的過程中能積累大量的知識和技術(shù),最后用于實際應(yīng)用,如博弈論的研究可從最簡單的囚徒困境游戲開始,強化學(xué)習(xí)算法也基本上是基于游戲(如 Atari Games)來不斷發(fā)展的。
現(xiàn)實應(yīng)用往往過于復(fù)雜,而游戲的規(guī)則明確,易于建模,為科學(xué)研究提供了很好的對象,從游戲研究入手來探索新的理論和技術(shù)然后拓展到實際是一個自然的過程。
雖然,這些工作未來具體會用在哪里我們并不知道,但是在 AI 的發(fā)展歷史上,游戲起到非常重要的作用,它是一項比較偏基礎(chǔ)性的研究,短期內(nèi)也很難看它的應(yīng)用,但是,這些研究能夠推動整個領(lǐng)域的發(fā)展。因此,研究游戲的解法是很有意義的。
附:論文作者簡介
榮江
榮江,于 2019 年在中國科學(xué)院計算技術(shù)研究所獲得計算機科學(xué)博士學(xué)位,主要研究領(lǐng)域包括機器學(xué)習(xí)、強化學(xué)習(xí)、博弈論、多智能體系統(tǒng)等,在相關(guān)國際會議(AAAI、AAMAS 等)發(fā)表過多篇論文,現(xiàn)任阿里巴巴高級算法工程師。
秦濤
秦濤博士,微軟亞洲研究院資深研究員,研究重點是深度學(xué)習(xí)和強化學(xué)習(xí)的算法設(shè)計、理論分析及在實際問題中的應(yīng)用,在國際會議和期刊上發(fā)表學(xué)術(shù)論文 100 余篇,曾/現(xiàn)任機器學(xué)習(xí)及人工智能方向多個國際大會領(lǐng)域主席,曾任多個國際學(xué)術(shù)研討會聯(lián)合主席。秦濤博士是中國科學(xué)技術(shù)大學(xué)兼職博士生導(dǎo)師,IEEE、ACM 高級會員。他的團隊獲得國際機器翻譯大賽(WMT2019)8 項第一。
安波
安波,南洋理工大學(xué)校長委員會講席副教授,于 2011 年在美國麻省大學(xué) Amherst 分校獲計算機科學(xué)博士學(xué)位。主要研究領(lǐng)域包括人工智能、多智能體系統(tǒng)、算法博弈論、強化學(xué)習(xí)、及優(yōu)化。曾獲 2010 年國際智能體及多智能體系統(tǒng)協(xié)會 (IFAAMAS) 杰出博士論文獎、 2011 年美國海岸警衛(wèi)隊的卓越運營獎、2012 年國際智能體及多智能體系統(tǒng)年會 (AAMAS) 最佳應(yīng)用論文獎、2016 年人工智能創(chuàng)新應(yīng)用會議 (IAAI) 創(chuàng)新應(yīng)用論文獎,2012 年美國運籌學(xué)和管理學(xué)研究協(xié)會 (INFORMS)Daniel H. Wagner 杰出運籌學(xué)應(yīng)用獎,以及 2018 年南洋青年研究獎等榮譽。受邀在 2017 年國際人工智能聯(lián)合會議 (IJCAI) 上做 Early Career Spotlight talk。獲得 2017 年微軟合作 AI 挑戰(zhàn)賽的冠軍。入選 2018 年度 IEEE Intelligent Systems 的「人工智能 10 大新星」(AI's 10 to Watch)。當(dāng)選為國際智能體及多智能體系統(tǒng)協(xié)會理事會成員和 AAAI 高級會員。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。