丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

從AlphaGo到Libratus,百頁(yè)白皮書(shū)詳解機(jī)器博弈

本文作者: 奕欣 2017-11-07 16:22
導(dǎo)語(yǔ):本白皮書(shū)介紹了機(jī)器博弈的發(fā)展過(guò)程、國(guó)內(nèi)外重要賽事、博弈典型技術(shù)與比賽平臺(tái);并結(jié)合相關(guān)棋種介紹各種專項(xiàng)博弈技術(shù),包括完備信息的棋類(lèi)比賽,也涵蓋不完備信息的牌類(lèi)游戲

雷鋒網(wǎng) AI 科技評(píng)論按:計(jì)算機(jī)博弈也稱機(jī)器博弈(Computer Games)。如果按英語(yǔ)字面意義來(lái)看,這一名詞應(yīng)該理解為「計(jì)算機(jī)游戲」。但從事計(jì)算機(jī)棋牌競(jìng)技研究的科學(xué)家們,所定義的「Computers Games」則是計(jì)算機(jī)像人一樣會(huì)思考和決策的棋類(lèi)游戲。為了與計(jì)算機(jī)游戲進(jìn)行區(qū)隔,Computer Games 采用的是「機(jī)器博弈」或「計(jì)算機(jī)博弈」這一具有指代性的譯名。

1997 年,IBM 深藍(lán)戰(zhàn)勝世界棋王卡斯帕羅夫成為了機(jī)器博弈的第一個(gè)里程碑,而在近 20 年后,AlphaGo 又橫掃了圍棋世界冠軍李世石,升級(jí)版 Master 橫掃 60 余名頂級(jí)高手,讓我們看到了計(jì)算機(jī)博弈的強(qiáng)大生命力與令人驚嘆的技術(shù)。

在 2005 年,中國(guó)人工智能學(xué)會(huì)成立了機(jī)器博弈專業(yè)委員會(huì),將國(guó)際象棋算法移植到中國(guó)象棋的電腦程序中,并取得了令人矚目的成果。為了更好地對(duì)機(jī)器博弈進(jìn)行一個(gè)細(xì)致、深入的全景式刻畫(huà),中國(guó)人工智能學(xué)會(huì)機(jī)器博弈專業(yè)委員會(huì)撰寫(xiě)了《機(jī)器博弈白皮書(shū)》。本白皮書(shū)介紹了機(jī)器博弈的發(fā)展過(guò)程、國(guó)內(nèi)外重要賽事、博弈典型技術(shù)與比賽平臺(tái);并結(jié)合相關(guān)棋種介紹各種專項(xiàng)博弈技術(shù),包括完備信息的棋類(lèi)比賽,也涵蓋不完備信息的牌類(lèi)游戲搜索算法。

雷鋒網(wǎng) AI 科技評(píng)論將 102 頁(yè)白皮書(shū)進(jìn)行簡(jiǎn)單梳理,對(duì)重點(diǎn)內(nèi)容做概要介紹。原報(bào)告為中文版本,歡迎關(guān)注 AI 科技評(píng)論(aitechtalk),在后臺(tái)回復(fù)關(guān)鍵詞「機(jī)器博弈」下載報(bào)告全文。

本文要點(diǎn):

  • 機(jī)器博弈的發(fā)展?fàn)顩r

  • 機(jī)器博弈的復(fù)雜度及典型技術(shù)

  • 完備機(jī)器博弈及非完備機(jī)器博弈的專項(xiàng)技術(shù)

機(jī)器博弈的發(fā)展?fàn)顩r

在 1928 年,「計(jì)算機(jī)之父」馮?諾依曼通過(guò)對(duì)兩人零和一類(lèi)博弈游戲的分析,提出了極大極小值定理,并證明博弈論的基本原理。在馮?諾依曼與摩根斯特恩合著的《博弈論和經(jīng)濟(jì)行為》(1944)中,將二人博弈推廣到 n 人博弈,并將博弈論系統(tǒng)應(yīng)用于經(jīng)濟(jì)領(lǐng)域,奠定了機(jī)器博弈研究的基礎(chǔ)與理論體系。

近代機(jī)器博弈的研究始于 20 世紀(jì) 50 年代,包括阿蘭?圖靈、科勞德?香農(nóng)、約翰?麥卡錫以及馮?諾依曼等人都做出了巨大的貢獻(xiàn)。隨著研究的深入,科學(xué)家們開(kāi)始研究國(guó)際象棋的博弈編程方案,并在 50 至 60 年代有了極大突破。由此,科學(xué)家們開(kāi)始思考,棋類(lèi)對(duì)弈是否能成為讓計(jì)算機(jī)嘗試戰(zhàn)勝人類(lèi)的入口。

從上世紀(jì)八十年代中期,美國(guó)卡耐基梅隆大學(xué)開(kāi)始研究世界級(jí)的國(guó)際象棋計(jì)算機(jī)程序,并在 IBM「深思」、「深藍(lán)」的不斷迭代中,計(jì)算機(jī)在 90 年代以來(lái)變得越來(lái)越聰明。1996 年的「深藍(lán)」、1997 年的「超級(jí)深藍(lán)」與卡斯帕羅夫的兩場(chǎng)比賽飽受世界矚目,堪稱「世紀(jì)之戰(zhàn)」。

進(jìn)入 21 世紀(jì),計(jì)算機(jī)博弈水平也在逐步提升。2016-2017 年,AlphaGo 與李世石在圍棋領(lǐng)域的兩場(chǎng)人機(jī)大戰(zhàn),堪稱是人機(jī)對(duì)抗史上是頂級(jí)比賽,從而也掀起了人工智能的全球熱潮。

隨著圍棋被攻克,科學(xué)家們開(kāi)始將目光投向了多人博弈的非完備信息機(jī)器博弈領(lǐng)域。2017 年初,美國(guó)卡耐基梅隆大學(xué)開(kāi)發(fā)的德州撲克博弈系統(tǒng) Libratus,在與 4 名人類(lèi)頂尖撲克選手的人機(jī)大戰(zhàn)中獲得了勝利,再次樹(shù)立了機(jī)器博弈的新一里程碑。

機(jī)器博弈的復(fù)雜度及典型技術(shù)

計(jì)算機(jī)的博弈水平代表了計(jì)算機(jī)的智能水平。而衡量其復(fù)雜程度的的兩個(gè)重要標(biāo)準(zhǔn)則包括了計(jì)算機(jī)博弈問(wèn)題的狀態(tài)復(fù)雜度與博弈樹(shù)復(fù)雜度。下圖為一些常見(jiàn)博弈問(wèn)題的狀態(tài)復(fù)雜度及博弈樹(shù)復(fù)雜度。

從AlphaGo到Libratus,百頁(yè)白皮書(shū)詳解機(jī)器博弈

計(jì)算機(jī)博弈的最高境界是找到該棋種的理想解,即不敗解。而計(jì)算機(jī)博弈的最大困難和無(wú)法逾越的障礙則是問(wèn)題的計(jì)算復(fù)雜性。被廣泛認(rèn)可的博弈問(wèn)題,其計(jì)算復(fù)雜性一般都屬于某復(fù)雜性類(lèi)的困難問(wèn)題(hard)或完全問(wèn)題(complete),屬于此類(lèi)計(jì)算復(fù)雜性類(lèi)的問(wèn)題,被認(rèn)為是最難解或是最難解的。

計(jì)算機(jī)博弈系統(tǒng)中,典型的關(guān)鍵技術(shù)主要包括搜索、評(píng)估與優(yōu)化、學(xué)習(xí)與訓(xùn)練等技術(shù)。典型的博弈搜索算法:

  1. 從搜索方向考慮,可分為深度優(yōu)先搜索與寬度優(yōu)先搜索;

  2. 從控制策略考慮,可分為盲目搜索與啟發(fā)搜索;

  3. 從搜索范圍考慮,可分為窮盡搜索、裁剪搜索。

此外,機(jī)器博弈的典型算法還包括迭代深化、最佳優(yōu)先算法、隨機(jī)搜索算法、并行計(jì)算、遺傳算法、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等。

計(jì)算機(jī)博弈平臺(tái)系統(tǒng)本身并不具有下棋或出牌的邏輯決策功能,但它能加載其它一個(gè)或多個(gè)決策引擎程序,使這些引擎程序以選手的角色參與對(duì)局。根據(jù)不同標(biāo)準(zhǔn),計(jì)算機(jī)博弈平臺(tái)可分為如下幾類(lèi):

  1. 完備信息博弈平臺(tái)和非完備信息博弈平臺(tái)

  2. 單引擎博弈平臺(tái)和多引擎博弈平臺(tái)

  3. 單機(jī)博弈平臺(tái)和網(wǎng)絡(luò)博弈平臺(tái)

  4. 程序級(jí)博弈平臺(tái)和模塊級(jí)博弈平臺(tái)

完備機(jī)器博弈及非完備機(jī)器博弈的專項(xiàng)技術(shù)

以完備信息機(jī)器博弈與非完備信息博弈的專項(xiàng)技術(shù),白皮書(shū)以棋類(lèi)為例,分述了不同棋種的游戲規(guī)則,并介紹了它們?cè)跈C(jī)器博弈所采用的主要技術(shù)。

國(guó)外機(jī)器博弈在完備信息博弈的研究代表是 Google 公司的 AlphaGo,它具有極強(qiáng)的自覺(jué)能力。AlphaGo 的成功充分驗(yàn)證了深度學(xué)習(xí)與計(jì)算機(jī)博弈技術(shù)結(jié)合的實(shí)用性。學(xué)者總結(jié) AlphaGo 的關(guān)鍵技術(shù)包括:

  1. 棋感直覺(jué):通過(guò)深度學(xué)習(xí)獲得,分為落子棋感與勝負(fù)棋感。AlphaGo 通過(guò)對(duì) 3000 萬(wàn)的經(jīng)典棋局進(jìn)行深度學(xué)習(xí)獲得快速走棋網(wǎng)絡(luò)(落子棋感)與策略網(wǎng)絡(luò);勝負(fù)棋感則是通過(guò)策略網(wǎng)絡(luò)不斷進(jìn)行自對(duì)弈得到。

  2. 搜索驗(yàn)證:搜索引擎采用蒙特卡洛搜索樹(shù)根據(jù)落子棋感與勝負(fù)棋感不斷展開(kāi)搜索樹(shù)。

國(guó)外機(jī)器博弈在不完備信息博弈的研究代表是美國(guó)卡耐基梅隆大學(xué)開(kāi)發(fā)的德州撲克博弈系統(tǒng) Libratus。主要包括三個(gè)關(guān)鍵模塊:

  1. 賽前納什均衡近似,讓 Libratus 自己學(xué)會(huì)德州撲克。它將最重要的博弈信息(如針對(duì)某一手牌對(duì)應(yīng)的戰(zhàn)略)進(jìn)行抽取,再應(yīng)用強(qiáng)化學(xué)習(xí)算法進(jìn)行提升。

  2. 殘局解算,讓 Libratus 不僅能在比賽前學(xué)習(xí),還能在比賽中學(xué)到東西。科學(xué)家從下往上構(gòu)建博弈樹(shù),得以較容易地算出最下面節(jié)點(diǎn)的狀態(tài),再反過(guò)來(lái)指導(dǎo)設(shè)計(jì)上面的博弈樹(shù),并使用蒙特卡洛方法,每次選一些節(jié)點(diǎn)更新上面的策略。

  3. 持續(xù)自我強(qiáng)化。在游戲中發(fā)現(xiàn)問(wèn)題所在,并找到更多細(xì)節(jié)進(jìn)行自我強(qiáng)化,得到更好的納什均衡。

目前,機(jī)器博弈也帶動(dòng)了游戲產(chǎn)業(yè)、智慧醫(yī)療、智能交通、航空、航天等相關(guān)產(chǎn)業(yè)中,特別是與軍事國(guó)防領(lǐng)域的產(chǎn)業(yè),催生新型武器與系統(tǒng)。

盡管機(jī)器博弈取得了巨大的成果,但依然存在一定局限性。具體包括:

  1. 應(yīng)用拓展方面仍有提升空間;在具有模糊性和隨機(jī)性的麻將、橋牌、斗地主、多國(guó)軍旗等非完備信息博弈上,雖然在基于案例的策略研究上有一定進(jìn)展,但相關(guān)研究還不成熟,開(kāi)發(fā)的程序智力有限,目前還難以戰(zhàn)勝人類(lèi)頂級(jí)高手,存在一定的提升空間。

  2. 在相關(guān)技術(shù)產(chǎn)業(yè)化方面,產(chǎn)學(xué)研結(jié)合還有不足之處。一方面,相關(guān)企業(yè)缺乏機(jī)器博弈的專業(yè)人才,特別是頂級(jí)人才的支持;另一方面,機(jī)器博弈領(lǐng)域?qū)<?、學(xué)者們?nèi)鄙傧嚓P(guān)部門(mén)、企業(yè)給予的研發(fā)資金支持。

在國(guó)內(nèi)外,包括國(guó)際象棋人機(jī)博弈大賽、圍棋人機(jī)與機(jī)機(jī)博弈大賽、橋牌計(jì)算機(jī)博弈大賽、德州撲克人機(jī)與機(jī)機(jī)博弈大賽、中國(guó)象棋人機(jī)與機(jī)機(jī)博弈大賽、中國(guó)計(jì)算機(jī)博弈大賽等多項(xiàng)賽事,本白皮書(shū)也做了詳細(xì)的介紹與回顧。

雷鋒網(wǎng)AI科技評(píng)論小結(jié):《機(jī)器博弈白皮書(shū)》成書(shū)之際恰逢國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,希望能更好讓讀者們對(duì)機(jī)器博弈這一技術(shù)產(chǎn)生系統(tǒng)性的了解。相信在未來(lái),計(jì)算機(jī)博弈將與其它領(lǐng)域的技術(shù)更加緊密結(jié)合,推動(dòng)人工智能產(chǎn)業(yè)發(fā)展。

原報(bào)告為中文版本,共 102 頁(yè),歡迎關(guān)注雷鋒網(wǎng) AI 科技評(píng)論(aitechtalk),在后臺(tái)回復(fù)關(guān)鍵詞「機(jī)器博弈」下載報(bào)告全文。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

從AlphaGo到Libratus,百頁(yè)白皮書(shū)詳解機(jī)器博弈

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)