丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

從AlphaGo到Libratus,百頁白皮書詳解機(jī)器博弈

本文作者: 奕欣 2017-11-07 16:22
導(dǎo)語:本白皮書介紹了機(jī)器博弈的發(fā)展過程、國內(nèi)外重要賽事、博弈典型技術(shù)與比賽平臺;并結(jié)合相關(guān)棋種介紹各種專項博弈技術(shù),包括完備信息的棋類比賽,也涵蓋不完備信息的牌類游戲

雷鋒網(wǎng) AI 科技評論按:計算機(jī)博弈也稱機(jī)器博弈(Computer Games)。如果按英語字面意義來看,這一名詞應(yīng)該理解為「計算機(jī)游戲」。但從事計算機(jī)棋牌競技研究的科學(xué)家們,所定義的「Computers Games」則是計算機(jī)像人一樣會思考和決策的棋類游戲。為了與計算機(jī)游戲進(jìn)行區(qū)隔,Computer Games 采用的是「機(jī)器博弈」或「計算機(jī)博弈」這一具有指代性的譯名。

1997 年,IBM 深藍(lán)戰(zhàn)勝世界棋王卡斯帕羅夫成為了機(jī)器博弈的第一個里程碑,而在近 20 年后,AlphaGo 又橫掃了圍棋世界冠軍李世石,升級版 Master 橫掃 60 余名頂級高手,讓我們看到了計算機(jī)博弈的強大生命力與令人驚嘆的技術(shù)。

在 2005 年,中國人工智能學(xué)會成立了機(jī)器博弈專業(yè)委員會,將國際象棋算法移植到中國象棋的電腦程序中,并取得了令人矚目的成果。為了更好地對機(jī)器博弈進(jìn)行一個細(xì)致、深入的全景式刻畫,中國人工智能學(xué)會機(jī)器博弈專業(yè)委員會撰寫了《機(jī)器博弈白皮書》。本白皮書介紹了機(jī)器博弈的發(fā)展過程、國內(nèi)外重要賽事、博弈典型技術(shù)與比賽平臺;并結(jié)合相關(guān)棋種介紹各種專項博弈技術(shù),包括完備信息的棋類比賽,也涵蓋不完備信息的牌類游戲搜索算法。

雷鋒網(wǎng) AI 科技評論將 102 頁白皮書進(jìn)行簡單梳理,對重點內(nèi)容做概要介紹。原報告為中文版本,歡迎關(guān)注 AI 科技評論(aitechtalk),在后臺回復(fù)關(guān)鍵詞「機(jī)器博弈」下載報告全文。

本文要點:

  • 機(jī)器博弈的發(fā)展?fàn)顩r

  • 機(jī)器博弈的復(fù)雜度及典型技術(shù)

  • 完備機(jī)器博弈及非完備機(jī)器博弈的專項技術(shù)

機(jī)器博弈的發(fā)展?fàn)顩r

在 1928 年,「計算機(jī)之父」馮?諾依曼通過對兩人零和一類博弈游戲的分析,提出了極大極小值定理,并證明博弈論的基本原理。在馮?諾依曼與摩根斯特恩合著的《博弈論和經(jīng)濟(jì)行為》(1944)中,將二人博弈推廣到 n 人博弈,并將博弈論系統(tǒng)應(yīng)用于經(jīng)濟(jì)領(lǐng)域,奠定了機(jī)器博弈研究的基礎(chǔ)與理論體系。

近代機(jī)器博弈的研究始于 20 世紀(jì) 50 年代,包括阿蘭?圖靈、科勞德?香農(nóng)、約翰?麥卡錫以及馮?諾依曼等人都做出了巨大的貢獻(xiàn)。隨著研究的深入,科學(xué)家們開始研究國際象棋的博弈編程方案,并在 50 至 60 年代有了極大突破。由此,科學(xué)家們開始思考,棋類對弈是否能成為讓計算機(jī)嘗試戰(zhàn)勝人類的入口。

從上世紀(jì)八十年代中期,美國卡耐基梅隆大學(xué)開始研究世界級的國際象棋計算機(jī)程序,并在 IBM「深思」、「深藍(lán)」的不斷迭代中,計算機(jī)在 90 年代以來變得越來越聰明。1996 年的「深藍(lán)」、1997 年的「超級深藍(lán)」與卡斯帕羅夫的兩場比賽飽受世界矚目,堪稱「世紀(jì)之戰(zhàn)」。

進(jìn)入 21 世紀(jì),計算機(jī)博弈水平也在逐步提升。2016-2017 年,AlphaGo 與李世石在圍棋領(lǐng)域的兩場人機(jī)大戰(zhàn),堪稱是人機(jī)對抗史上是頂級比賽,從而也掀起了人工智能的全球熱潮。

隨著圍棋被攻克,科學(xué)家們開始將目光投向了多人博弈的非完備信息機(jī)器博弈領(lǐng)域。2017 年初,美國卡耐基梅隆大學(xué)開發(fā)的德州撲克博弈系統(tǒng) Libratus,在與 4 名人類頂尖撲克選手的人機(jī)大戰(zhàn)中獲得了勝利,再次樹立了機(jī)器博弈的新一里程碑。

機(jī)器博弈的復(fù)雜度及典型技術(shù)

計算機(jī)的博弈水平代表了計算機(jī)的智能水平。而衡量其復(fù)雜程度的的兩個重要標(biāo)準(zhǔn)則包括了計算機(jī)博弈問題的狀態(tài)復(fù)雜度與博弈樹復(fù)雜度。下圖為一些常見博弈問題的狀態(tài)復(fù)雜度及博弈樹復(fù)雜度。

從AlphaGo到Libratus,百頁白皮書詳解機(jī)器博弈

計算機(jī)博弈的最高境界是找到該棋種的理想解,即不敗解。而計算機(jī)博弈的最大困難和無法逾越的障礙則是問題的計算復(fù)雜性。被廣泛認(rèn)可的博弈問題,其計算復(fù)雜性一般都屬于某復(fù)雜性類的困難問題(hard)或完全問題(complete),屬于此類計算復(fù)雜性類的問題,被認(rèn)為是最難解或是最難解的。

計算機(jī)博弈系統(tǒng)中,典型的關(guān)鍵技術(shù)主要包括搜索、評估與優(yōu)化、學(xué)習(xí)與訓(xùn)練等技術(shù)。典型的博弈搜索算法:

  1. 從搜索方向考慮,可分為深度優(yōu)先搜索與寬度優(yōu)先搜索;

  2. 從控制策略考慮,可分為盲目搜索與啟發(fā)搜索;

  3. 從搜索范圍考慮,可分為窮盡搜索、裁剪搜索。

此外,機(jī)器博弈的典型算法還包括迭代深化、最佳優(yōu)先算法、隨機(jī)搜索算法、并行計算、遺傳算法、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等。

計算機(jī)博弈平臺系統(tǒng)本身并不具有下棋或出牌的邏輯決策功能,但它能加載其它一個或多個決策引擎程序,使這些引擎程序以選手的角色參與對局。根據(jù)不同標(biāo)準(zhǔn),計算機(jī)博弈平臺可分為如下幾類:

  1. 完備信息博弈平臺和非完備信息博弈平臺

  2. 單引擎博弈平臺和多引擎博弈平臺

  3. 單機(jī)博弈平臺和網(wǎng)絡(luò)博弈平臺

  4. 程序級博弈平臺和模塊級博弈平臺

完備機(jī)器博弈及非完備機(jī)器博弈的專項技術(shù)

以完備信息機(jī)器博弈與非完備信息博弈的專項技術(shù),白皮書以棋類為例,分述了不同棋種的游戲規(guī)則,并介紹了它們在機(jī)器博弈所采用的主要技術(shù)。

國外機(jī)器博弈在完備信息博弈的研究代表是 Google 公司的 AlphaGo,它具有極強的自覺能力。AlphaGo 的成功充分驗證了深度學(xué)習(xí)與計算機(jī)博弈技術(shù)結(jié)合的實用性。學(xué)者總結(jié) AlphaGo 的關(guān)鍵技術(shù)包括:

  1. 棋感直覺:通過深度學(xué)習(xí)獲得,分為落子棋感與勝負(fù)棋感。AlphaGo 通過對 3000 萬的經(jīng)典棋局進(jìn)行深度學(xué)習(xí)獲得快速走棋網(wǎng)絡(luò)(落子棋感)與策略網(wǎng)絡(luò);勝負(fù)棋感則是通過策略網(wǎng)絡(luò)不斷進(jìn)行自對弈得到。

  2. 搜索驗證:搜索引擎采用蒙特卡洛搜索樹根據(jù)落子棋感與勝負(fù)棋感不斷展開搜索樹。

國外機(jī)器博弈在不完備信息博弈的研究代表是美國卡耐基梅隆大學(xué)開發(fā)的德州撲克博弈系統(tǒng) Libratus。主要包括三個關(guān)鍵模塊:

  1. 賽前納什均衡近似,讓 Libratus 自己學(xué)會德州撲克。它將最重要的博弈信息(如針對某一手牌對應(yīng)的戰(zhàn)略)進(jìn)行抽取,再應(yīng)用強化學(xué)習(xí)算法進(jìn)行提升。

  2. 殘局解算,讓 Libratus 不僅能在比賽前學(xué)習(xí),還能在比賽中學(xué)到東西。科學(xué)家從下往上構(gòu)建博弈樹,得以較容易地算出最下面節(jié)點的狀態(tài),再反過來指導(dǎo)設(shè)計上面的博弈樹,并使用蒙特卡洛方法,每次選一些節(jié)點更新上面的策略。

  3. 持續(xù)自我強化。在游戲中發(fā)現(xiàn)問題所在,并找到更多細(xì)節(jié)進(jìn)行自我強化,得到更好的納什均衡。

目前,機(jī)器博弈也帶動了游戲產(chǎn)業(yè)、智慧醫(yī)療、智能交通、航空、航天等相關(guān)產(chǎn)業(yè)中,特別是與軍事國防領(lǐng)域的產(chǎn)業(yè),催生新型武器與系統(tǒng)。

盡管機(jī)器博弈取得了巨大的成果,但依然存在一定局限性。具體包括:

  1. 應(yīng)用拓展方面仍有提升空間;在具有模糊性和隨機(jī)性的麻將、橋牌、斗地主、多國軍旗等非完備信息博弈上,雖然在基于案例的策略研究上有一定進(jìn)展,但相關(guān)研究還不成熟,開發(fā)的程序智力有限,目前還難以戰(zhàn)勝人類頂級高手,存在一定的提升空間。

  2. 在相關(guān)技術(shù)產(chǎn)業(yè)化方面,產(chǎn)學(xué)研結(jié)合還有不足之處。一方面,相關(guān)企業(yè)缺乏機(jī)器博弈的專業(yè)人才,特別是頂級人才的支持;另一方面,機(jī)器博弈領(lǐng)域?qū)<?、學(xué)者們?nèi)鄙傧嚓P(guān)部門、企業(yè)給予的研發(fā)資金支持。

在國內(nèi)外,包括國際象棋人機(jī)博弈大賽、圍棋人機(jī)與機(jī)機(jī)博弈大賽、橋牌計算機(jī)博弈大賽、德州撲克人機(jī)與機(jī)機(jī)博弈大賽、中國象棋人機(jī)與機(jī)機(jī)博弈大賽、中國計算機(jī)博弈大賽等多項賽事,本白皮書也做了詳細(xì)的介紹與回顧。

雷鋒網(wǎng)AI科技評論小結(jié):《機(jī)器博弈白皮書》成書之際恰逢國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,希望能更好讓讀者們對機(jī)器博弈這一技術(shù)產(chǎn)生系統(tǒng)性的了解。相信在未來,計算機(jī)博弈將與其它領(lǐng)域的技術(shù)更加緊密結(jié)合,推動人工智能產(chǎn)業(yè)發(fā)展。

原報告為中文版本,共 102 頁,歡迎關(guān)注雷鋒網(wǎng) AI 科技評論(aitechtalk),在后臺回復(fù)關(guān)鍵詞「機(jī)器博弈」下載報告全文。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

從AlphaGo到Libratus,百頁白皮書詳解機(jī)器博弈

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說