1
本文作者: 佳航 | 2017-02-08 16:52 |
四名世界上最好的職業(yè)撲克玩家一月份的大部分時(shí)間都貓?jiān)谖挥谄テ澅さ拇蠛淤€場(chǎng),品味著失敗。他們會(huì)在上午11點(diǎn)前準(zhǔn)時(shí)出現(xiàn),身穿時(shí)髦的運(yùn)動(dòng)褲和有型的球鞋坐在電腦屏幕前。每個(gè)人在夜里回到賓館房間前差不多要打1500手在線無限級(jí)德州撲克的1對(duì)1單挑。這通常意味著每天工作都會(huì)超過晚上10點(diǎn)。在這漫長(zhǎng)的一天里,星巴克杯和水樽散亂堆放在玩家鍵盤旁,Chipotle墨西哥卷餅快餐包裝袋散落在他們腳邊。
每當(dāng)一個(gè)人類玩家打出一手牌,動(dòng)作將會(huì)被傳送到5英里外的卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的計(jì)算機(jī)服務(wù)器。從那里,一個(gè)指令將會(huì)再傳遞另外12英里才能到達(dá)玩家的對(duì)手那,這是運(yùn)行與位于近郊Monroeville的匹茲堡超級(jí)計(jì)算中心的軟件名為L(zhǎng)ibratus。Libratus立即打了8手牌---其中針對(duì)每個(gè)對(duì)手打兩手牌。它以一個(gè)刻意的,足夠讓人發(fā)狂的緩慢速率驅(qū)動(dòng)著它人類對(duì)手之一的Jason Les?!斑@讓日子變得更漫長(zhǎng),”Les說,這個(gè)熱忱的,有著運(yùn)動(dòng)范的男人,,似乎急切渴望能在上個(gè)星期的這個(gè)下午休息幾分鐘?!奥L(zhǎng)的等待不應(yīng)該影響我才對(duì),但有時(shí)你就像是感覺,‘好吧,這是已經(jīng)快要結(jié)束了?’“
Libratus,當(dāng)然是不需要休息的。它與人類玩家在其他方面也有所不同。當(dāng)賭注更高的時(shí)候,人類往往會(huì)思考更長(zhǎng)時(shí)間。而電腦玩家在小彩池上出牌最慢,這是因?yàn)楸仨毟鶕?jù)手頭所剩更多的籌碼而遍歷所有的附加可能性而引起的。Libratus也傾向于做出巨大的,突然的賭注,違反標(biāo)準(zhǔn)的投注慣例而把它的賭資以一種不規(guī)則的金額和奇特的間隔押到彩池中。
從人類玩家的角度來看,這樣的舉止是令人氣憤和魯莽的,從長(zhǎng)期來看還不“便宜”。但是Libratus作為撲克電腦玩家的主要屬性就是“壕無人性”。當(dāng)這場(chǎng)在大河賭場(chǎng)舉行的20日比賽周一落下帷幕時(shí),人類已經(jīng)損失了180萬美元。(實(shí)際上并不需要真正付出現(xiàn)金,錢是作為在撲克中計(jì)算得分的方式。)Tuomas Sandholm 和 Noam Brown,兩位身為卡內(nèi)基·梅隆大學(xué)的計(jì)算機(jī)科學(xué)家創(chuàng)造了人工智能Libratus,共同慶祝電腦首次在無限德州撲克--這個(gè)世界上最卓越的撲克游戲中打敗了頂級(jí)的人類玩家。
人工智能專家一直使用游戲作為開發(fā)和測(cè)試他們的“創(chuàng)造物”的一種方式。計(jì)算機(jī)們已經(jīng)擊敗了國(guó)際象棋,國(guó)際跳棋,西洋雙陸棋和圍棋游戲中最杰出的人類選手。因?yàn)闄C(jī)會(huì)的因素和玩家也不知道他們的對(duì)手持有什么牌,所以撲克游戲是一種獨(dú)特的挑戰(zhàn)。這種所謂的非完美信息博弈需要某種人類的狡詐--例如欺騙對(duì)手并且能夠察覺到對(duì)方在欺騙你--而這是電腦所欠缺的。
“你在比賽中所看到的撲克游戲是無限德州撲克,它的聲譽(yù)更多的來自于藝術(shù)而更甚于科學(xué),”Adam Kucharski說,他是《完美賭注:科學(xué)和數(shù)學(xué)是如何從賭博中排除幸運(yùn)》的作者?!坝幸环N念頭是這個(gè)游戲?qū)?huì)因?yàn)檫@些機(jī)器而更長(zhǎng)久的安全?!?/p>
這種思想在近幾個(gè)星期取得突破性進(jìn)展。在一月初,阿爾伯塔大學(xué)(University of Alberta )的研究人員發(fā)表了一篇文章,內(nèi)容是他們自己開發(fā)的名為DeepStack的AI擊敗了11個(gè)職業(yè)撲克玩家。
對(duì)于DeepStack是否能夠擊敗Libratus是一個(gè)有爭(zhēng)議的問題。Sandholm說,與他的機(jī)器人對(duì)陣的職業(yè)玩家比DeepStack擊敗的那些玩家更好。阿爾伯塔大學(xué)計(jì)算機(jī)程序負(fù)責(zé)人Michael Bowling承認(rèn)這一點(diǎn),但他也質(zhì)疑這些人類玩家在連續(xù)奮戰(zhàn)了將近一個(gè)月時(shí)是否還處于最佳狀態(tài)。DeepStack的獲勝優(yōu)勢(shì)也是Libratus的三倍。
兩個(gè)人都認(rèn)為撲克人工智能剛剛跨過了一個(gè)重要的門檻。對(duì)他們而言,這與撲克本身關(guān)系甚少。德州撲克只是他們尋找人工智能項(xiàng)目合作伙伴的一種方法,人工智能通過玩游戲的所得的收獲會(huì)傳回如網(wǎng)絡(luò)安全這樣的應(yīng)用?!斑@是社區(qū)達(dá)成的主要基準(zhǔn)數(shù)據(jù),但這些算法并不是僅僅為了玩撲克而開發(fā)的,”Sandholm說到,他曾經(jīng)是世界頂級(jí)的風(fēng)帆運(yùn)動(dòng)員之一,外表看起來有點(diǎn)像比爾蓋茨?!巴鎿淇酥皇且环N通用的用途?!?/p>
Tuomas Sandholm領(lǐng)導(dǎo)卡內(nèi)基梅隆大學(xué)的撲克研究項(xiàng)目
DeepStack和Libratus所玩的是一個(gè)特殊版本的撲克游戲。計(jì)算機(jī)匹配與每個(gè)對(duì)手單挑,而不是對(duì)抗一組玩家。每個(gè)玩家持有的籌碼數(shù)量在每手牌之后會(huì)重置,從而消除了那種擁有大量籌碼的玩家通過脅迫低端玩家進(jìn)行高額投注而產(chǎn)生復(fù)雜的心理游戲。PokerStars--全球領(lǐng)先的在線撲克游戲平臺(tái)的發(fā)言人Eric Hollreiser表示,這限制了AI給撲克產(chǎn)業(yè)所帶來的威脅。 “雖然它在一個(gè)手動(dòng)功能性基礎(chǔ)上模仿?lián)淇擞螒?,這與現(xiàn)實(shí)中牌桌上所發(fā)生的一切差別甚遠(yuǎn),”他說。
還有其他類似實(shí)驗(yàn)在較少受控的環(huán)境中進(jìn)行。自從科學(xué)家在實(shí)驗(yàn)室建立它們以來,撲克機(jī)器人就一直在進(jìn)行在線賭錢的游戲。它們歷來只玩低賭注游戲并從來沒有被認(rèn)為是老手。但是賭博行業(yè)分析師和在線撲克行業(yè)報(bào)告的發(fā)布商Chris Grove說,撲克機(jī)器人正在向更高賭注的競(jìng)賽中傳播。 “如果你是一個(gè)在線撲克運(yùn)營(yíng)商,這很可能是你的頭號(hào)欺詐憂慮,并且可能對(duì)相當(dāng)大的利潤(rùn)空間產(chǎn)生影響,”他說。
撲克產(chǎn)業(yè)和學(xué)術(shù)撲克界已經(jīng)悄然合作多年, 每個(gè)參與的人都對(duì)細(xì)節(jié)閉口不談。 但是商業(yè)撲克機(jī)器人制造者和試圖打擊他們的人都密切關(guān)注學(xué)術(shù)工作的進(jìn)展。 Bowling幾個(gè)的以前的弟子已經(jīng)去為在線撲克公司打工,并且至少有一個(gè)在銷售用于在線博彩的機(jī)器人。
在撲克行話中,可以代替你玩游戲的程序被稱之為“夢(mèng)境機(jī)器”。在線論壇的參與者交換關(guān)于何時(shí)的可疑活動(dòng)可能說明你在跟機(jī)器人對(duì)戰(zhàn) - 或關(guān)于他們?nèi)绾沃谱髯约旱膿淇藱C(jī)器人的"戰(zhàn)爭(zhēng)故事"。
加拿大博彩公司Amaya旗下的撲克之星游戲平臺(tái)(PokerStars),專門雇用70人打擊這種欺詐行為。 這些反欺詐員工直接聯(lián)系可疑玩家并要求他們描述在某手牌上所采取的策略。 該公司還會(huì)向可疑玩家發(fā)送電子郵件,要求制作360度視頻以顯示其周圍環(huán)境,隨后玩超過一個(gè)小時(shí)的游戲,并且在整個(gè)過程中手和鍵盤要確保完全可見。
機(jī)器人不必?fù)碛胸S富的撲克游戲技巧就可以從游戲運(yùn)營(yíng)商那里獲得盈利- 這對(duì)整個(gè)行業(yè)是危險(xiǎn)的。一個(gè)程序通過榨取普通玩家而獲得一定利潤(rùn)可能就會(huì)讓人鋌而走險(xiǎn)。但是位于英國(guó)的在線游戲公司Gamesys的撲克策略主管Darse Billings說,實(shí)際上“夢(mèng)境機(jī)器”和學(xué)術(shù)界所研究的AI使用不一樣的技術(shù),并試圖解決從根本上完全不同的挑戰(zhàn)。 打敗低端玩家的程序并不僅僅是一個(gè)打敗精英玩家程序的簡(jiǎn)化版本, 這是兩個(gè)完全獨(dú)立的問題。
Billings 比任何人都了解這兩種撲克領(lǐng)域。 他在20世紀(jì)90年代獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,然后成為一個(gè)職業(yè)撲克玩家,以償還學(xué)生貸款。 幾年后,他回到學(xué)校與阿爾伯塔大學(xué)(University of Alberta)的計(jì)算機(jī)科學(xué)家Jonathan Schaeffer合作,其最出名是編寫了可以完美進(jìn)行國(guó)際跳棋比賽的軟件。 Billings說服Schaeffer下一步專注于撲克。
為解開國(guó)際跳棋的問題,Schaeffer使用了一種基本上試圖在任何情況下都計(jì)算最佳移動(dòng)的方法,而并不去考慮到那一步發(fā)生了什么。但把每一步視為一個(gè)孤立問題在撲克這樣的游戲中是沒有意義的,因?yàn)檫@里涉及運(yùn)氣,而且并不是每個(gè)人都能獲取到完整的信息。阿爾伯塔大學(xué)的研究人員開始制定一個(gè)整體戰(zhàn)略,這需要采用在博弈理論中被稱為納什均衡(Nash equilibrium)的策略 --這是一種應(yīng)用于雙人博弈的方法,從長(zhǎng)期來看不管對(duì)手做出什么反應(yīng)都不會(huì)有損失。
納什均衡并不是一個(gè)理想的游戲風(fēng)格。 在撲克游戲中執(zhí)行均衡戰(zhàn)略的關(guān)鍵是打出最強(qiáng)和最有潛力的一手牌的同時(shí)還保持不可琢磨?!爱?dāng)你賭上你最強(qiáng)的一手牌的時(shí)候還是需要一絲謹(jǐn)慎的,”Billings說。該團(tuán)隊(duì)開發(fā)了一個(gè)謹(jǐn)慎風(fēng)格的AI,被稱為Pink先生,而另一個(gè)AI是積極進(jìn)取風(fēng)格,被稱為Agent Orange。很難描述一個(gè)計(jì)算機(jī)程序的所作所為,這聽起來不像你談?wù)摰臇|西卻實(shí)際上是你所思考的。
均衡策略吸引了阿爾伯塔大學(xué)的Bowling,其專長(zhǎng)是博弈理論,并在2003年開始應(yīng)用于撲克領(lǐng)域。Sandholm,作為卡內(nèi)基梅隆大學(xué)Bowling的論文委員會(huì)一員,在接下來的一年轉(zhuǎn)向撲克領(lǐng)域,采取了類似的方法。 Sandholm和Bowling從2006年開始共同舉行年度的計(jì)算機(jī)撲克比賽,定期對(duì)頂尖的人類玩家。 撇開他們這種競(jìng)爭(zhēng)關(guān)系,實(shí)驗(yàn)室一直在關(guān)注彼此的研究成果。
這兩個(gè)項(xiàng)目在過去幾年大幅進(jìn)化到了最終階段。 在2015年1月,Bowling的團(tuán)隊(duì)發(fā)表了一篇文章,顯示它如何解決有限德州撲克單挑玩法--一種比無限制德州撲克簡(jiǎn)單的雙人撲克游戲,因?yàn)橥婕铱梢韵拗仆蹲ⅰ?Sandholm和Brown(在過去五年里一直在撲克AI領(lǐng)域上與他一起工作的博士學(xué)生),在幾個(gè)月后在大河賭場(chǎng)舉行了他們第一次“人腦 vs AI”比賽。他們的機(jī)器,起名為Claudico,對(duì)抗四名職業(yè)玩家,在打了超過8萬手牌之后損失了$ 73.2萬。 Sandholm說,比賽勢(shì)均力敵可以稱之為平局,但至少有一個(gè)玩家對(duì)此表示有異議。
Sandholm和Brown說有自從那次比賽以來他們的AI在多個(gè)常規(guī)的方面有所改善。 Claudico在比賽的前期表現(xiàn)良好,但往往快結(jié)束時(shí)犯錯(cuò)。 它在錯(cuò)誤的時(shí)刻虛張聲勢(shì),并且根據(jù)桌上所打的牌計(jì)算牌局的時(shí)候總會(huì)遇到麻煩。最簡(jiǎn)單的情況,如果牌桌上有兩張王,而你手頭也有兩張王,這可以推斷出你的對(duì)手沒有王卡在手。 Libratus在所有這些方面都有改進(jìn),它的創(chuàng)造者仍然在其他方面保持謙虛的態(tài)度,尤其是在如何根據(jù)一天的比賽過程中所學(xué)習(xí)而進(jìn)行調(diào)整。
Libratus所有的細(xì)節(jié)最終將會(huì)在其創(chuàng)造者發(fā)表成果時(shí)一一揭曉。這種學(xué)術(shù)研究成果往往以各種方式滲透到現(xiàn)實(shí)世界的撲克比賽中。 據(jù)布朗說,年度的電腦撲克比賽(The Annual Computer Poker Competitions)也包括了進(jìn)入現(xiàn)金游戲的參賽者。 Bowling說他的研究論文在留言板上受到造機(jī)器人者的歡迎。 “有整個(gè)獨(dú)立的團(tuán)隊(duì)閱讀并且試圖理解這些論文,”他說。
Billings在2008年加入了撲克行業(yè)。他是少數(shù)之一離開阿爾伯塔大學(xué)項(xiàng)目之后這么做的人,而大多數(shù)人都加入了運(yùn)行游戲平臺(tái)的公司。 Richard Gibson 則自立門戶,創(chuàng)辦了一個(gè)名為機(jī)器人鯊魚游戲公司(Robot Shark Gaming ),其主要業(yè)務(wù)是構(gòu)建AI程序?qū)W習(xí)和打戰(zhàn)略游戲,還創(chuàng)建了一個(gè)稱之為Sportsbid的幻想體育公司。
Gibson 在2013年完成了博士學(xué)位,當(dāng)時(shí)一群職業(yè)玩家提出讓他提供可用于培訓(xùn)的軟件并為此付費(fèi)。 Gibson手頭只有其中一個(gè)人的名字而從來沒有私自會(huì)見過其中任何一個(gè)客戶,并不確認(rèn)這群玩家到底有多少人。“即使他們不將軟件用于在網(wǎng)上賭博,這仍然是一個(gè)污點(diǎn),”他說。
Gibson 開發(fā)了多個(gè)程序,并說他設(shè)計(jì)的軟件來演示各種策略的有效性; 程序并不能自己運(yùn)行。 在他最賺錢的一年里,Gibson 在那個(gè)項(xiàng)目上賺了大約10萬美元,客戶又額外在運(yùn)行軟件相關(guān)的計(jì)算能力上花了2萬到3萬美元。
匿名專業(yè)人士并不是Gibson的唯一客戶。 在有一個(gè)案例中,他說有人支付他幾萬美元花約6個(gè)月建立一個(gè)輕量級(jí)的撲克機(jī)器人。 他沒有詢問客戶將如何使用它 - 而且他并不想知道 - 但是設(shè)計(jì)方向指向一個(gè)特定的應(yīng)用場(chǎng)景。 “我的客戶想要一個(gè)獨(dú)立運(yùn)行的程序以便可以加載到他們的筆記本電腦,”他說。 “我想他們?cè)噲D利用它玩在線游戲“。
在大河賭場(chǎng)每個(gè)夜晚結(jié)束的時(shí)候,Les和他的撲克專家同伴將訂購(gòu)?fù)赓u和仔細(xì)研究白天對(duì)戰(zhàn)的數(shù)據(jù)以便盡可能尋找Libratus的弱點(diǎn)。在月初,他們每天早上醒來的時(shí)候都充滿樂觀的情緒,因?yàn)樗麄冇辛艘恍┬碌脑E竅。 “我們?cè)陬^幾天發(fā)現(xiàn)了一些特定的漏洞,”Les說。 “我們利用漏洞反復(fù)攻擊他們,但現(xiàn)在這些漏洞消失了。"
Libratus也在做出調(diào)整。 在白天,程序?qū)⑵溆?jì)算能力一部分分配在前臺(tái)進(jìn)行博弈出牌,另一部分能力分配在Sandholm所說的“持續(xù)戰(zhàn)略改進(jìn)”計(jì)算上。在晚上,程序完全側(cè)重于戰(zhàn)略分析,利用超級(jí)計(jì)算機(jī)的600個(gè)節(jié)點(diǎn),相當(dāng)于約 3,330臺(tái)高端MacBook協(xié)同工作。
在撲克和其他一些游戲中,AI在頂層博弈,電腦制定的策略反饋給人類玩家。 Les說他試圖弄清楚如何將一些Libratus的不規(guī)則投注行為適用于自己的比賽中。 ”這非常困難,我們基本上沒有足夠心智容量去做這個(gè),”他說。
如果人類已經(jīng)到達(dá)了對(duì)于他們來說電腦對(duì)手太過于完美這個(gè)節(jié)骨眼,像Sandholm 和Bowling所運(yùn)營(yíng)的實(shí)驗(yàn)室卻面臨著幾乎相反的問題。與專業(yè)玩家一對(duì)一比賽是一回事。但將Libratus和DeepStack變成玩家有信心擊敗一群存在缺陷的人卻并沒有明確的演進(jìn)路線。這是因?yàn)楫?dāng)其他人游戲的要點(diǎn)不是為了完美博弈而是為了識(shí)別和利用缺點(diǎn),那AI使用的均衡策略在多人游戲中就會(huì)崩潰。
幾年前Bowling做了一個(gè)實(shí)驗(yàn),其中三個(gè)機(jī)器人互相對(duì)抗。 其中兩個(gè)使用他的實(shí)驗(yàn)室最接近完美的機(jī)器人,而第三個(gè)機(jī)器人編程提高了魯莽特性。 在比賽結(jié)束時(shí),最笨的機(jī)器人僅僅丟失了少量的錢。 其中一個(gè)完美的機(jī)器玩家獲得大勝,而另一個(gè)輸?shù)暮軓氐住?/p>
“這真的很困難。 如果你知道你要坐下來與不太優(yōu)秀的人類玩家或其他程序一起比賽,你該采取何種策略?“Bowling說。 “你必須為此做好準(zhǔn)備。"
via bloomberg
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。