0
本文作者: 趙青暉 | 編輯:郭奕欣 | 2018-02-04 14:40 | 專題:AAAI 2018 |
美國當(dāng)?shù)貢r間 2 月 3 日,AAAI 2018 在第一天的預(yù)熱之后逐漸熱鬧了起來。雷鋒網(wǎng) AI 科技評論在前瞻報道中提到過,本次大會將會有 15 個 Workshop 陸續(xù)進行,其中《非對稱信息博弈的 AI( AI for Imperfect-Information Games)》就是其中一個。這一 workshop 的組織者包括 CMU 的 Noam Brown, DeepMind 的 Marc Lanctot 還有南加州大學(xué)博士生、曾獲谷歌 PhD 獎研金的徐海峰。
就像 AlphaGo 讓大家更加熟知深度學(xué)習(xí),大家對非對稱信息博弈開始了解并熟悉,很大程度也是因為 2017 年初,CMU 計算機系在讀博士生 Noam Brown 和計算機系教授 Tuomas Sandholm 聯(lián)合研發(fā)的 Libratus 在單挑無限注德州撲克( heads-up no-limit hold’em)人機對戰(zhàn)中完勝人類選手。在去年的 NIPS 2017 上,最佳論文正是由他倆的合作論文《Safe and Nested Subgame Solving for Imperfect-Information Games》所摘得。雷鋒字幕組也曾對這一論文解讀視頻進行獨家編譯。
正像 Noam Brown 和 Tuomas Sandholm 在 Reddit 上所表達(dá)的那樣:深度學(xué)習(xí)遠(yuǎn)非人工智能的全部,非對稱信息博弈也與 AI 聯(lián)系得越發(fā)緊密?!阜菍ΨQ信息博弈」常被用來模擬涉及隱藏信息的各種戰(zhàn)略交互(例如談判,拍賣等)和安全交互中。由于隱藏信息的存在,解決這些事件需要的方法與傳統(tǒng)的對稱信息(比如國際象棋或棋類游戲)完全不同。盡管在一些研究「非對稱信息模擬」的領(lǐng)域取得了相當(dāng)大的進展,但是每個領(lǐng)域所使用的技術(shù)盡管具有普遍性,卻仍然相對孤立。它們之間存在充分的跨學(xué)科交流的機會,讓研究人員們會通過已經(jīng)在一個領(lǐng)域中流行的方法的新應(yīng)用、或使用建立在不同領(lǐng)域中已有方法來創(chuàng)建新的技術(shù)。
本場 Workshop 的主要話題幾乎包含了「非對稱信息博弈的 AI」相關(guān)的大部分內(nèi)容,包括新近用于 AAAI 年度計算機撲克比賽(ACPC),用于解決大型不完美信息游戲的可伸縮算法,游戲中的對手建模和開發(fā),一般和多于兩個的算法建模和分析信息非對稱在游戲中的作用,戰(zhàn)略信號(又名說服),在不完整信息的戰(zhàn)略環(huán)境中進行探索與開發(fā),以及一些與非對稱信息博弈有關(guān)的其他主題的研究。
?研究者們將分享他們在研究 AI 在非對稱信息博弈中的理論和實踐方面當(dāng)前的研究成果,也提出有關(guān)如何改善相關(guān)領(lǐng)域算法的構(gòu)想,推動該領(lǐng)域的 AI 研究。
這場 Workshop 持續(xù)了一整天,原計劃是早上 9:30 開場,下午 5:00 結(jié)束,有 8 個演講者對他們的研究成果進行分享,每人限時半小時,以下是原定議程:
但由于第一位演講者未到現(xiàn)場,所以第一個主題《Dynamic Adaptation and Opponent Exploitation in Computer Poker》取消,活動推遲到 10 點,并將第二個主題作為開場,并且其中一些主題也做了相應(yīng)的調(diào)整。
開場的論文是由 CMU 的 Christian Kroer 帶來的,題目為《廣泛形式博弈中 Stackelberg 均衡的魯棒性及有限前瞻的擴展(Robust Stackelberg Equilibria in Extensive-Form Games and Extension to Limited Lookahead)》 ,而作者也包括了 Gabriele Farina 和 Tuomas Sandholm。后者與本次議程的主持人 Noam Brown 所研發(fā)的 Libratus 在 2017 年初打敗了人類選手,他也被譽為德州AI之父。
作為計算博弈論中的一個解決方案概念,Stackelberg 均衡已經(jīng)變得越來越重要,這在很大程度上受到諸如安全設(shè)置等實際問題的啟發(fā)。然而在實踐中,關(guān)于對手的模型通常具有不確定型。據(jù)作者介紹,這篇論文是首個在廣泛形式博弈中進行不確定條件下的 Stackelberg 均衡的研究。
Christian Kroer 的團隊引入了魯棒性較高的 Stackelberg 均衡,其中不確定性是關(guān)于對手的收益,以及對手有有限前瞻性和關(guān)于對手的節(jié)點評價函數(shù)的不確定。他們?yōu)榇_定性限制前瞻設(shè)置開發(fā)了一個新的混合整數(shù)程序。然后,系統(tǒng)把這個程序擴展到無限制下的 Stackelberg 均衡的魯棒設(shè)置,并且仍然位于對手有限的前瞻范圍內(nèi)。
該論文證明了對于對手的收益區(qū)間不確定性的具體情況(或者在有限的前瞻的情況下關(guān)于對手的節(jié)點評估),可以用一個混合整數(shù)程序來計算 Stackelberg 平衡的魯棒性,該程序的漸近大小與確定性設(shè)置相同。
2
第二篇論文是由哈佛大學(xué)的劉洋帶來的《建立高質(zhì)量信息的強化學(xué)習(xí)框架(A Reinforcement Learning Framework for Eliciting High Quality Information)》。
對等預(yù)測是一類機制,當(dāng)沒有驗證貢獻(xiàn)的基礎(chǔ)事實時,它有助于從 strategic human agents 中獲得高質(zhì)量的信息。盡管它的設(shè)計看似完善,但是在實踐中經(jīng)常失敗,主要是由于兩個缺點:(1) agents 對提供高質(zhì)量信息的努力的動機被認(rèn)為是已知的; (2) agents 被建模為完全理性的。
在這篇論文中,作者們提出了第一個強化學(xué)習(xí)(RL)框架,在這個領(lǐng)域,加強對等預(yù)測,來解決這兩個限制。在論文中提到的框架中,研究人員為數(shù)據(jù)請求者開發(fā)了一個RL算法,用于數(shù)據(jù)請求者動態(tài)調(diào)整縮放級別以最大化其收入,并使用對等預(yù)測評分函數(shù)調(diào)配工作人員。實驗顯示,在不同的模式下,數(shù)據(jù)請求者的收入顯著提高。
3
第三篇論文是由密歇根大學(xué)的 Mason Wright 帶來的《在連續(xù)雙標(biāo)拍賣中評估非自適應(yīng)交易的穩(wěn)定性:一種強化學(xué)習(xí)方法( Evaluating the Stability of Non-Adaptive Trading in Continuous Double Auctions: A Reinforcement Learning Approach)》。
該論文是在本次 AAAI 2018 大會上首次公開, 此前 Mason 和他的團隊曾在 2017 年發(fā)表過關(guān)于非對稱性信息博弈在連續(xù)雙標(biāo)拍賣中的研究成果,在本次的論文中,主要針對新的強化學(xué)習(xí)方法進行闡述,由于本篇論文還未正式放出,雷鋒網(wǎng) AI 科技評論將在后續(xù)的報道中對該篇論文的演講 PPT 進行詳細(xì)報道。
4
第四篇是由 Facebook AI Research 的研究工程師 Adam Lerer 主講的《在社會困境中結(jié)果主義的條件合作的非對稱博弈(Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information)》
在社會困境中,合作可以帶來高回報,但參與者面臨欺騙的動機,且這一情況在多主體的互動中無處不在。我們希望與純粹的合作伙伴進行合作,并避免背叛者的剝削;此外,我們還需要鼓勵其他的合作。然而,通常合作伙伴采取的行動(部分)未能被觀察到,或者個人行為的后果很難預(yù)測。這篇論文中證明,在一個大型的活動中,好的策略可以通過調(diào)整一個人的行為來建立一個獎勵機制,這被稱之為結(jié)果主義的條件合作。在論文中,Adam Lerer 展示了如何使用深度強化學(xué)習(xí)技術(shù)來構(gòu)建這樣的策略,并通過分析和實驗證明,它們在簡單的矩陣游戲之外的社會困境中是有效的,此外,論文還說明了單純依賴后果的局限性,并討論了對行動的后果意圖的理解的必要性。
5
第五個演講內(nèi)容是圣路易斯華盛頓大學(xué) Samuel Ang等人的課題《應(yīng)用于安全領(lǐng)域的博弈論目標(biāo)識別模型Game-theoretic Goal-Recognition Models with Applications to Security Domains》。
在人工智能規(guī)劃領(lǐng)域的目標(biāo)識別 (GR) 和目標(biāo)識別設(shè)計 (GRD) 問題的驅(qū)動下,論文分別介紹和研究了戰(zhàn)略代理的 GR 和 GRD 問題的兩種自然變體。更具體地說,就是考慮了游戲理論 (GT) 的場景,其中一個惡意對手的目標(biāo)是在一個 (物理或虛擬) 環(huán)境中對一個防御者監(jiān)視的目標(biāo)進行破壞。敵人必須采取一系列行動以攻擊預(yù)定目標(biāo)。在 GTGR 和 GTGRD 設(shè)置中,防御者試圖識別對手的預(yù)定目標(biāo),同時觀察對手的可用動作,這樣他/她就可以加強目標(biāo)防御攻擊。此外,在 GTGRD 設(shè)置中,防御者可以改變環(huán)境 (例如,增加路障),以便更好地區(qū)分對手的目標(biāo)/目標(biāo)。
在論文中,研究人員建議將 GTGR 和 GTGRD 設(shè)置為零和隨機游戲,其信息不對稱與對手的預(yù)定目標(biāo)有關(guān)。游戲是在圖形上播放的,頂點代表狀態(tài),邊緣是對手的動作。對于 GTGR 設(shè)置,如果防御者只局限于只玩固定的策略,那么計算最優(yōu)策略的問題 (對于防御者和對手) 都可以被制定并以一個線性程序來表示。對于 GTGRD 設(shè)置,在游戲開始時,防御者可以選擇 K 條邊來阻止,研究人員將計算最優(yōu)策略的問題作為混合整數(shù)規(guī)劃,并提出一種基于 LP 二元性和貪婪算法的啟發(fā)式算法。實驗表明,這一研究的啟發(fā)式算法具有良好的性能。與混合整數(shù)規(guī)劃方法相比,它具有更好的可擴展性。
目前研究中,現(xiàn)有的工作,尤其是 GRD 問題,幾乎完全集中在決策理論范式上,即對手在沒有考慮到他們可能被觀察的情況下選擇自己的行為。由于這種假設(shè)在 GT 場景中是不現(xiàn)實的,所以該篇論文提出的模型和算法填補了文獻(xiàn)中的一個空白。
6
第六篇論文是來自南加州大學(xué)的 Sara McCarthy 帶來的《在游戲中保持領(lǐng)先:用于威脅篩選的資源動態(tài)分配的自適應(yīng)魯棒性優(yōu)化(Staying Ahead of the Game: Adaptive Robust Optimization for Dynamic Allocation of Threat Screening Resources)》
Sara McCarthy 的研究考慮在安檢地點(例如,在機場或港口)動態(tài)分配不同效率的篩選資源(例如X光機等),以成功地避免一名被篩查者的攻擊。在此之前,研究人員引入了威脅篩選博弈模型來解決這個問題,雖然理論上能假設(shè)屏幕到達(dá)時間是完全已知的,但實際上,到達(dá)時間是不確定的,這嚴(yán)重阻礙了該方法的實現(xiàn)和性能。
因此,研究者們提出了一種新的威脅篩選資源動態(tài)分配框架,明確說明了篩選到達(dá)時間的不確定性。研究者將問題建模為一個多階段魯棒優(yōu)化問題,并提出了一個使用緊湊線性決策規(guī)則和魯棒重構(gòu)和約束隨機化相結(jié)合的解決方案。在進行了大量的數(shù)值實驗后,這些實驗表明,這種方法在處理性方面勝過(a)精確的解決方法,同時在最優(yōu)性方面只產(chǎn)生很小的損失,(b)方法忽略了可行性和最優(yōu)性方面的不確定性。
7
最后一篇論文來自卡內(nèi)基梅隆大學(xué)的于瀾濤,主題為《基于網(wǎng)絡(luò)信息綠色安全游戲的深度強化學(xué)習(xí)(Deep Reinforcement Learning for Green Security Game with Online Information)》。
出于保護瀕危野生動物免受偷獵和防止非法采伐等綠色安全領(lǐng)域的迫切需要,研究人員提出了博弈論模型,以優(yōu)化執(zhí)法機構(gòu)的巡邏。盡管有了這些努力,在線信息和在線互動(例如,巡邏者追蹤偷獵者的足跡)在之前的游戲模型和解決方案中被忽略了。這篇論文的研究旨在通過將安全游戲與深度強化學(xué)習(xí)相結(jié)合,為復(fù)雜的現(xiàn)實世界綠色安全問題提供更切實可行的解決方案。具體來說,研究者提出了一種新穎的游戲模型,它融合了在線信息的重要元素,并對可能的解決方案進行了討論,并提出了基于深度強化學(xué)習(xí)的未來研究方向。
以上就是 AAAI 第二天「人工智能非對稱信息博弈」專場 workshop 的全部內(nèi)容摘要,接下來,雷鋒網(wǎng) AI 科技評論會對全部 7 篇論文的 PPT 和演講內(nèi)容進行精編整理,逐步放出。
接下來 AAAI 的議程會更加精彩,明天雷鋒網(wǎng)將繼續(xù)在現(xiàn)場為大家報道精彩盛況。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章