洞見 | 就算是輸給AI，也不能說(shuō)人類丟掉了德州撲克的陣地

本文作者：谷磊

2017-04-06 20:01

導(dǎo)語(yǔ)：亞洲首度德州撲克人機(jī)大戰(zhàn)——“冷撲大師V.S.中國(guó)龍之隊(duì)”巔峰表演賽已經(jīng)在海南生態(tài)軟件園傳奇智力運(yùn)動(dòng)館開始，獲勝方將獲得200萬(wàn)人民幣獎(jiǎng)勵(lì)

雷鋒網(wǎng)4月6日消息，亞洲首度德州撲克人機(jī)大戰(zhàn)——“冷撲大師V.S.中國(guó)龍之隊(duì)”巔峰表演賽已經(jīng)在海南生態(tài)軟件園傳奇智力運(yùn)動(dòng)館開始，獲勝方將獲得200萬(wàn)人民幣獎(jiǎng)勵(lì)。首日上半場(chǎng)，中國(guó)龍之隊(duì)順利按進(jìn)度完成3600手牌，冷撲大師暫時(shí)領(lǐng)先中國(guó)龍之隊(duì)14145籌碼。因?yàn)槊咳藛胃笔峙浦刂煤蟮幕I碼量就有20000，所以這個(gè)差距非常的小。

冷撲大師和中國(guó)龍之隊(duì)的介紹詳見雷鋒網(wǎng)報(bào)道：亞洲首度德州撲克人機(jī)對(duì)戰(zhàn)即將開賭！| 附李開復(fù)演講全文

比賽時(shí)間：4月6日~10日上午8：00~13：00；下午16：00~21：00。現(xiàn)場(chǎng)畫面將滯后2小時(shí)。

直播傳送門：騰訊PC直播

騰訊app直播

看了上面的介紹我們知道，所謂的“冷撲大師”其實(shí)就是今年1月30日在匹茲堡戰(zhàn)勝4位頂尖人類玩家的Libratus。那么同是人機(jī)對(duì)戰(zhàn)，這次的看點(diǎn)在哪里呢？

看點(diǎn)

1、玩家

昨天的發(fā)布會(huì)上，從主辦方公開的龍之隊(duì)資料看，很多隊(duì)員都有深厚的計(jì)算機(jī)專業(yè)背景。比如：杜悅、許朝軍、張淮都曾就讀于清華的計(jì)算機(jī)系。用李開復(fù)的話說(shuō)就是：

匹茲堡之戰(zhàn)中被擊敗的職業(yè)棋手確實(shí)都是德?lián)涞捻敿饴殬I(yè)牌手，但他們并不懂計(jì)算機(jī)原理，而此次龍之隊(duì)都是學(xué)霸，全部擁有計(jì)算機(jī)領(lǐng)域的從業(yè)經(jīng)驗(yàn)，會(huì)讓比賽還保留懸念。

2、名人賽與名人點(diǎn)評(píng)

據(jù)悉，4月6日至10日期間，表演賽將以轉(zhuǎn)播形式邀請(qǐng)多位愛好撲克的名人，遠(yuǎn)程在各大直播平臺(tái)展開系列精彩點(diǎn)評(píng)，海泉基金創(chuàng)始人胡海泉、著名專欄作家王小山、360人工智能研究院院長(zhǎng)顏水成、樂視云CEO吳亞洲、追夢(mèng)者基金創(chuàng)始人朱波、英諾基金創(chuàng)始人李竹等將擔(dān)任專家評(píng)論員。

同時(shí)，據(jù)主辦方介紹，在4月10日賽事最后一天晚間，將有包括李開復(fù)在內(nèi)的36位來(lái)自科技圈、投資圈、媒體圈的名人大咖組成六支戰(zhàn)隊(duì)來(lái)挑戰(zhàn)冷撲大師。

比賽規(guī)則

隨著比賽的開始，除了昨天雷鋒網(wǎng)報(bào)道的規(guī)則外，更加詳細(xì)的規(guī)則也浮出水面：

1、分組

龍之隊(duì)成員分別在兩個(gè)房間與冷撲大師進(jìn)行1V1比賽。

ROOM1（A隊(duì)）：杜悅、朱亞希、童舟；

ROOM2（B隊(duì)）：許朝軍、張淮、王天健。

德州撲克一張臺(tái)面至少2人，最多22人，一般有2-10個(gè)玩家參與。目前冷撲大師還無(wú)法參與多人的牌局，這多少讓人感覺不那么刺激和熱鬧。

2、發(fā)牌

每個(gè)人類玩家同時(shí)打兩手牌，比賽采用復(fù)式發(fā)牌，也就是說(shuō)A隊(duì)人類拿到的手牌，是B隊(duì)電腦的手牌，A隊(duì)電腦的手牌是B隊(duì)人類的手牌。而且是隨機(jī)分配到某個(gè)牌手，并非一一對(duì)應(yīng)。

據(jù)雷鋒網(wǎng)了解，冷撲大師采用完全數(shù)學(xué)的模型和算法，后臺(tái)的計(jì)算機(jī)群計(jì)算量很大，所以人類同時(shí)打兩手牌時(shí)間上也是來(lái)得及的。

3、籌碼

在每一手牌開始，牌手和AI均有20000的籌碼，小盲注100，大盲注200。一手牌打完之后，無(wú)論結(jié)果如何，下一手牌雙方的籌碼都要重置回20000。

目前冷撲大師還不能在雙方不同籌碼的情況下與人類比賽，因?yàn)檫@在模型的建立上要更加復(fù)雜，而這無(wú)疑是降低了人機(jī)對(duì)抗時(shí)AI的難度。

德州撲克AI Libratus與圍棋AI AlphaGo有何不同？

2016年3月，自從 AlphaGo 以4:1的成績(jī)戰(zhàn)勝職業(yè)九段李世乭以后，圍棋AI的厲害為大眾所熟知。不論是在專業(yè)的學(xué)術(shù)期刊還是社交網(wǎng)絡(luò)，人們都展開了深入和廣泛的討論。但是對(duì)于德州撲克AI，大眾還所知甚少。那么德州撲克AI與圍棋AI有何不同？

AlphaGo是用大量的棋譜和自對(duì)弈做訓(xùn)練，而Libratus則是用隨機(jī)生成的牌局（隨機(jī)產(chǎn)生公共牌、底池籌碼、玩家拿牌概率）和嘗試性的動(dòng)作帶來(lái)的結(jié)果（在隨機(jī)生成的輸入情況下模擬玩家跟牌后的結(jié)果）作為訓(xùn)練數(shù)據(jù)。

“一對(duì)一無(wú)限注德州撲克”就是兩個(gè)人玩的賭博游戲，因?yàn)槭孪葧?huì)給每位玩家分發(fā) 2 張底牌，所以對(duì)方的“底牌信息”你是不知道的，對(duì)于計(jì)算機(jī)來(lái)說(shuō)，就是在處理一種“非完整信息博弈”。而AlphaGo 玩圍棋，對(duì)弈雙方的信息是完整的、對(duì)稱的，并沒有隱藏的信息。

Facebook 人工智能研究院研究員田淵棟之前剖析過：

非完整信息博弈更難，體現(xiàn)在：
一方面是因?yàn)閷?duì)于同樣的客觀狀態(tài)，各個(gè)玩家看到的信息不同，因此增加了每個(gè)玩家狀態(tài)空間的數(shù)目和決策的難度；
另一方面即使在同樣的狀態(tài)下，解非對(duì)稱信息游戲所需要的內(nèi)存也要比解對(duì)稱信息要多得多，這個(gè)主要是對(duì)于對(duì)稱信息博弈來(lái)說(shuō)，只要記得當(dāng)前局面并且向下推演找到比較好的策略就可以了；但對(duì)非對(duì)稱信息博弈，只記得當(dāng)前（不完整的）局面是不夠的，即使盤面上的情況相同，但對(duì)手之前的各種招法會(huì)導(dǎo)致事實(shí)上局面不同，只有把它們?nèi)剂_列出來(lái)進(jìn)行分析，才能保證想出的應(yīng)對(duì)策略不被別人利用。
同時(shí)，非對(duì)稱信息博弈的實(shí)用價(jià)值更大些。因?yàn)榉菍?duì)稱信息博弈的應(yīng)用范圍非常廣泛，涵括我們每天遇到的所有決策，上至國(guó)家戰(zhàn)略，下至日?，嵤?，全都可以以同樣的方法建模。

所以Libratus在德州撲克上AI取得了進(jìn)步，是具有重要意義的。

據(jù)田淵棟近期在AI科技評(píng)論上所做的分享，CMU 的Libratus，也就是現(xiàn)在的冷撲大師有三個(gè)特點(diǎn)：

一是沒有使用深度學(xué)習(xí)，而是用到了End-game solver。因?yàn)榈聯(lián)湟痪謺r(shí)間比較短，幾個(gè)回合就結(jié)束了，所以可以從下往上構(gòu)建游戲樹。這樣的好處是，最下面節(jié)點(diǎn)游戲樹的狀態(tài)是比較容易算出來(lái)的，用這個(gè)反過來(lái)指導(dǎo)設(shè)計(jì)上面的游戲樹。
二是像AlphaGo一樣也采用了蒙特卡羅方法，標(biāo)準(zhǔn)的CFR（Counterfactual Regret Minimization）在每次迭代的時(shí)候，要把整個(gè)游戲樹都搜一遍，這個(gè)對(duì)于稍微復(fù)雜一點(diǎn)的游戲來(lái)說(shuō)是不可接受的。因?yàn)槭侵笖?shù)級(jí)的復(fù)雜度，所以用蒙特卡羅方法，每次選一些節(jié)點(diǎn)去更新它上面的策略。
第三，一般來(lái)說(shuō)我們?cè)谧鲇螒虻臅r(shí)候往往會(huì)想到怎么去利用對(duì)方的弱點(diǎn)，但其實(shí)不是這樣的。更好的方法是，我盡量讓別人發(fā)現(xiàn)我的弱點(diǎn)，然后據(jù)此我可以去改進(jìn)它，變得越來(lái)越強(qiáng)。用術(shù)語(yǔ)來(lái)講，就是去算一下對(duì)手的最優(yōu)應(yīng)對(duì)（Best response），讓對(duì)手來(lái)利用你的弱點(diǎn)，然后用這個(gè)反過來(lái)提高自己的水平。

德州撲克AI Libratus有無(wú)弱點(diǎn)？

經(jīng)過AlphaGo和Libratus分別在圍棋和德?lián)漕I(lǐng)域幾次三番對(duì)人類頂尖玩家形成碾壓，也許很多人已經(jīng)對(duì)人類獲勝不報(bào)期望。本次賽前發(fā)布會(huì)上，龍之隊(duì)隊(duì)長(zhǎng)杜悅告訴媒體，這次他們僅有10%的獲勝希望。

其實(shí)或許不必如此悲觀，Libratus在兩個(gè)月前的匹茲堡人機(jī)對(duì)抗中并非贏的一帆風(fēng)順，甚至還被人類玩家發(fā)現(xiàn)了破綻。這點(diǎn)或許我們可以從近期著名撲克牌雜志Card Player 對(duì) Libratus 的創(chuàng)始成員 Brown 博士的專訪中窺見一二。此前雷鋒網(wǎng)已將專訪進(jìn)行翻譯，詳情請(qǐng)戳：德州撲克算法幕后研發(fā)者CMU博士Brown專訪：AI如何打敗頂級(jí)人類牌手？

洞見 | 就算是輸給AI，也不能說(shuō)人類丟掉了德州撲克的陣地

↑ 冷撲大師的創(chuàng)造者之一：Brown在現(xiàn)場(chǎng)（站著）

Card Player ：

在人類玩家緊追比分，對(duì)戰(zhàn)進(jìn)入白熱化的時(shí)候，你是不是在想對(duì)手可能已經(jīng)找到了Libratus的弱點(diǎn)，還是說(shuō)仍舊很有信心？

Brown：

第一周比賽快要結(jié)束時(shí)，雙方幾乎打成平局。人類選手也在第一周對(duì)Libratus會(huì)如何調(diào)整打法、它的強(qiáng)項(xiàng)在哪里等做出了一系列推測(cè)。他們沒有和我詳談他們認(rèn)為戰(zhàn)局將會(huì)如何發(fā)展，但從我聽到的來(lái)看，他們應(yīng)該是想從數(shù)據(jù)中尋找Libratus的套路，分析它的弱點(diǎn)和優(yōu)勢(shì)。所以，大體上我不怎么擔(dān)心。他們認(rèn)為AI在一些方面有缺陷，但實(shí)際上并沒有。

比如，在有一天的比賽中，他們80%都是再加注（ three-betting ），因?yàn)閺臄?shù)據(jù)來(lái)看，他們認(rèn)為AI 對(duì)特定的三倍打法（ three-bet size）不太擅長(zhǎng)。但我不認(rèn)為那是缺陷，只是他們的數(shù)據(jù)中存在噪音。他們?cè)诒荣愡M(jìn)程中獲得的數(shù)據(jù)導(dǎo)致他們得出了這樣的結(jié)論。

但他們確實(shí)看到了里面存在的一些問題。比如Libratus對(duì)特定的開局下注的大小對(duì)應(yīng)不好。比賽前我們認(rèn)為這不是什么大問題，但事實(shí)證明，這個(gè)弱點(diǎn)很要命。好在AI還留有一手——趁當(dāng)天晚上對(duì)手睡覺的時(shí)候，AI就開始連續(xù)不斷地進(jìn)行訓(xùn)練，彌補(bǔ)自己的不足以防止對(duì)手以后再次利用這一缺陷。所以你看到，從第二周局勢(shì)就開始轉(zhuǎn)變了。

雖然Brown博士在采訪中一開始回應(yīng)Libratus沒有弱點(diǎn)，但是后來(lái)又改口說(shuō)Libratus對(duì)特定的開局下注的大小對(duì)應(yīng)不好是個(gè)很要命的弱點(diǎn)。而就像前面介紹的，這次龍之隊(duì)的成員大多為擁有計(jì)算機(jī)專業(yè)背景的學(xué)霸，但愿他們能夠及早發(fā)現(xiàn)“冷撲大師”的弱點(diǎn)并善加利用，這多少將給我們?cè)鎏韼追秩祟惈@勝的希望。

總結(jié)

從比賽規(guī)則的制定中可以看出，不管是要求1V1的單挑，還是單局手牌后的籌碼重置，人類玩家都需要對(duì)AI “遷就”很多。所以即便是“冷撲大師”取得本次人機(jī)大賽的勝利，也不能說(shuō)人工智能在德州撲克上完全戰(zhàn)勝了人類。但是對(duì)于“非完整信息博弈”的人工智能研究課題而言，冷撲大師的勝利將有重大的意義。當(dāng)然，比賽才剛剛開始，大獎(jiǎng)花落誰(shuí)家尚未可知，讓我們拭目以待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。