0
本文作者: 奕欣 | 2017-04-19 16:05 |
雷鋒網(wǎng)編者按:德州撲克的人機(jī)大戰(zhàn)是繼圍棋之后最受關(guān)注的人工智能應(yīng)用之一,而以其為代表的博弈問題也成為了學(xué)者們關(guān)心和討論的話題。算法博弈論實(shí)際上在安全領(lǐng)域有著非常重要的指導(dǎo)意義,它通過提供一個(gè)恰當(dāng)?shù)臄?shù)學(xué)模型,借助有限的安全資源進(jìn)行合理的調(diào)配與部署。為此,雷鋒網(wǎng)邀請了新加坡南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的助理教授安波博士為我們揭示算法博弈論的魅力。
安波,新加坡南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南洋助理教授,于 2011 年在美國麻省大學(xué) Amherst 分校獲計(jì)算機(jī)科學(xué)博士學(xué)位。主要研究領(lǐng)域包括人工智能、多智能體系統(tǒng)、博弈論及優(yōu)化。有 60 余篇論文發(fā)表在人工智能領(lǐng)域的國際頂級(jí)會(huì)議 AAMAS、IJCAI、AAAI、ICAPS、KDD 以及著名學(xué)術(shù)期刊 JAAMAS、AIJ、IEEE Transactions。
曾獲 2010 年國際智能體及多智能體系統(tǒng)協(xié)會(huì) (IFAAMAS) 杰出博士論文獎(jiǎng)、2011 年美國海岸警衛(wèi)隊(duì)的卓越運(yùn)營獎(jiǎng)、2012 年國際智能體及多智能體系統(tǒng)年會(huì) (AAMAS) 最佳應(yīng)用論文獎(jiǎng)、2016 年人工智能創(chuàng)新應(yīng)用會(huì)議 (IAAI) 創(chuàng)新應(yīng)用論文獎(jiǎng),以及 2012 年美國運(yùn)籌學(xué)和管理學(xué)研究協(xié)會(huì) (INFORMS)Daniel H. Wagner 杰出運(yùn)籌學(xué)應(yīng)用獎(jiǎng)等榮譽(yù)。受邀在 2017 年國際人工智能聯(lián)合會(huì)議 (IJCAI) 上做 Early Career Spotlight talk. 他是 Journal of Artificial Intelligence Research (JAIR) 編委會(huì)成員以及 Journal of Autonomous Agents and Multi-agent Systems (JAAMAS) 的副主編。當(dāng)選為國際智能體及多智能體系統(tǒng)協(xié)會(huì)理事會(huì)成員。
雷鋒網(wǎng) AI 科技評(píng)論:最近關(guān)于德州撲克的人機(jī)大戰(zhàn)很火,能否請您為我們介紹一下求解這類博弈問題的挑戰(zhàn)?
安博士:德?lián)涞娜藱C(jī)大戰(zhàn)是 AlphaGo 的圍棋大戰(zhàn)之后最火爆的話題,特別是最近李開復(fù)老師在海南組織了卡內(nèi)基梅隆大學(xué) Libratus(中文名冷撲大師)系統(tǒng)與龍之隊(duì)的對決。不出意外,人類棋手再一次被 Libratus 系統(tǒng)碾壓。Libratus 系統(tǒng)之父 Tuomas Sandholm 教授是我的師兄也是我的學(xué)術(shù)偶像。Libratus 的成功與近幾年來最火的深度學(xué)習(xí)無關(guān),其成功完全歸功于德?lián)洳┺膯栴}均衡策略的求解。這是最讓人興奮的。圍棋比賽本身是一種完全信息博弈,而撲克是不完全信息博弈(玩家不能觀測到對手手中的牌),因此比完全信息博弈更難解決。Libratus 系統(tǒng)基于一些關(guān)鍵的技術(shù),包括博弈抽象及逆映射、基于 CFR 的均衡求解,以及殘局求解。Libratus 現(xiàn)在的成功不是終點(diǎn),比如 Libratus 目前只能單挑,不能參與群體賽。
雷鋒網(wǎng) AI 科技評(píng)論:安博士,您最近的一個(gè)主要研究方向是以算法博弈論的研究及其在安全領(lǐng)域的應(yīng)用。是否能和我們介紹一下這個(gè)研究方向目前的研究現(xiàn)狀?
安博士:保護(hù)關(guān)鍵公共基礎(chǔ)設(shè)施和目標(biāo),如機(jī)場、港口、歷史名勝、發(fā)電設(shè)施、政治人物,甚至珍稀動(dòng)物和自然資源等,是各國安全機(jī)構(gòu)面對的一項(xiàng)極具挑戰(zhàn)性的任務(wù)。有限的安全資源使得安全機(jī)構(gòu)不可能在任何時(shí)候都提供全面的安全保護(hù)。此外,安全部門的對手(如恐怖分子、罪犯)可以通過觀察來發(fā)現(xiàn)安全機(jī)構(gòu)的保護(hù)策略的固定模式和弱點(diǎn),并據(jù)此來選擇最優(yōu)的攻擊策略。一種降低對手觀察偵查能力的方式是隨機(jī)調(diào)度安全部門的保護(hù)行為,如警察巡邏、行李檢測、車輛檢查以及其他安全程序。然而,安全部門在進(jìn)行有效的隨機(jī)安全策略調(diào)度時(shí)面臨許多困難,特別是有限的安全資源不能無處不在或者每時(shí)每刻提供安全保護(hù)。安全領(lǐng)域資源分配的關(guān)鍵問題是如何找出有限的安全資源最優(yōu)配置方案,以獲取最佳的安全保護(hù)方案。
博弈論提供了一個(gè)恰當(dāng)?shù)臄?shù)學(xué)模型來研究有限的安全資源的部署,以最大限度地提高資源分配的有效性。安全博弈論研究是由南加州大學(xué) Milind Tambe 教授領(lǐng)導(dǎo)的 TEAMCORE 研究小組引導(dǎo)發(fā)展起來的,現(xiàn)在越來越多的學(xué)者參與到這項(xiàng)研究中,包括卡內(nèi)基梅隆大學(xué),杜克大學(xué),牛津大學(xué)等。相關(guān)的論文廣泛發(fā)表于人工智能領(lǐng)域的頂級(jí)會(huì)議 AAMAS、AAAI 和 IJCAI,安全博弈論的研究已經(jīng)成為當(dāng)前人工智能研究的熱點(diǎn)之一。基于安全博弈論的系統(tǒng)已經(jīng)被美國不同領(lǐng)域的安全機(jī)構(gòu)所應(yīng)用,包括機(jī)場安保、空中警察調(diào)度、海岸警衛(wèi)隊(duì)巡邏調(diào)度、野生動(dòng)物保護(hù),產(chǎn)生了很大的反響,如美國國會(huì)聽證數(shù)次提到了相關(guān)的研究成果及應(yīng)用。
雷鋒網(wǎng) AI 科技評(píng)論:整個(gè)研究過程中最富挑戰(zhàn)的地方在哪里?可以如何解決?
安博士:安全博弈論研究以解決實(shí)際重大安全問題為目標(biāo),而實(shí)際問題通常是非常復(fù)雜的,大規(guī)模的,且有很多不確定因素。另外安全領(lǐng)域的用戶有解決方案質(zhì)量的保證,因此諸如遺傳算法一類的啟發(fā)式算法不能被應(yīng)用。
算法設(shè)計(jì)的第一個(gè)挑戰(zhàn)就是求解大規(guī)模博弈問題。隨著安全部門安全策略、恐怖分子攻擊行為和安全資源數(shù)量的增加,防御者和攻擊者的策略空間都呈指數(shù)增長。傳統(tǒng)的算法無法解決此類大規(guī)模的安全博弈問題,因此,提高現(xiàn)有的安全博弈算法的可擴(kuò)展性是一大挑戰(zhàn)。
第二個(gè)主要挑戰(zhàn)是算法的魯棒性。傳統(tǒng)的博弈論通常假設(shè)參與者是完全理性的并且具有完美記憶能力的。但在現(xiàn)實(shí)中這些假設(shè)可能并不準(zhǔn)確。因此,在計(jì)算防御者的資源分配策略時(shí),算法應(yīng)考慮各種不確定性,包括效用誤差、執(zhí)行誤差、觀測誤差以及能力的不確定性。
雷鋒網(wǎng) AI 科技評(píng)論:實(shí)際上算法博弈論在很多安全領(lǐng)域已經(jīng)有一些嘗試和應(yīng)用,例如您參與的基于博弈論為美國海防制定巡邏計(jì)劃的研究獲得了 2012 年的 Daniel H. Wagner Prize,也已經(jīng)獲得了應(yīng)用。此外,您還有一篇關(guān)于野生動(dòng)物保護(hù)的論文獲得了 IAAI-16 的應(yīng)用革新獎(jiǎng)項(xiàng)。是否能簡單介紹一下這個(gè)工作特別是在算法設(shè)計(jì)以及應(yīng)用方面的難點(diǎn)?想了解下,和美國海防的巡邏應(yīng)用相比,同樣是圍繞博弈論設(shè)計(jì)安全算法,是否有共通和不同之處?
安博士:每一個(gè)應(yīng)用都帶來新的挑戰(zhàn)。在 14 年底給馬來西亞的合作 NGO 給了在動(dòng)物保護(hù)區(qū)的巡邏路線,但是他們無法執(zhí)行我們制定的巡邏路線,我們在 15 年 4 月專程到馬來西亞的動(dòng)物保護(hù)區(qū)森林里走了 8 個(gè)小時(shí)之后,才認(rèn)識(shí)到我們忽略一些地理信息,以至于巡邏人員無法完全按照我們制定的路線行走。后來通過分析地理信息,找出所有的山脊線,求解最優(yōu)的巡邏策略,并成功應(yīng)用起來。最后的算法也應(yīng)用了對攻擊方建模以及處理不確定信息的研究成果。
雷鋒網(wǎng) AI 科技評(píng)論:從美國聯(lián)邦空軍管理局,美國海岸警衛(wèi)隊(duì)到野生動(dòng)物保護(hù)組織,為這些專門領(lǐng)域所設(shè)計(jì)的應(yīng)用軟件,在未來可能有其它的應(yīng)用場景嗎?如果加入了博弈論的概念,是否存在一個(gè)通用性強(qiáng)的安全系統(tǒng),可以在多種場景中獲得普適性的應(yīng)用?
安博士:目前的安全博弈論研究可以應(yīng)用到更多的安全領(lǐng)域,如網(wǎng)絡(luò)安全、海洋巡邏、邊境巡邏、禁毒、抑制犯罪、對抗網(wǎng)絡(luò)謠言等。現(xiàn)有的一些核心算法設(shè)計(jì)思想可以應(yīng)用于新應(yīng)用領(lǐng)域的問題,但是每個(gè)領(lǐng)域可能都有自己的特點(diǎn),因此需要分析新應(yīng)用領(lǐng)域的一些結(jié)構(gòu)特點(diǎn),并利用這些特點(diǎn)提高算法的效率。
雷鋒網(wǎng) AI 科技評(píng)論:目前以安全博弈論研究還存在哪些亟待解決的問題?通常需要什么樣的數(shù)據(jù)來支撐研究及應(yīng)用?
安博士:很顯然,新的應(yīng)用領(lǐng)域會(huì)帶來很多新的研究挑戰(zhàn),之前的應(yīng)用也還有很大的改善空間。George Box 說過所有的模型都是錯(cuò)誤的。現(xiàn)有的安全博弈模型都是對復(fù)雜安全領(lǐng)域的抽象,并做了很多簡化以及很多較強(qiáng)的假設(shè)。(是否能具體說明一下?)未來的研究需要設(shè)計(jì)高保真度的攻擊者行為模型 (如攻擊者的理性行為選擇),更合理的模型來描述環(huán)境以及博弈問題的不確定性,以及博弈的時(shí)空動(dòng)態(tài)特性。
之前針對實(shí)體安全(特別是反恐)的安全博弈論研究能夠用到的數(shù)據(jù)很少,通常需要通過人工實(shí)驗(yàn)來獲得一些模擬的數(shù)據(jù)。珍稀動(dòng)物保護(hù)以及城市犯罪應(yīng)用領(lǐng)域有很多數(shù)據(jù)可以用來學(xué)習(xí)模型的一些參數(shù)。
雷鋒網(wǎng) AI 科技評(píng)論:深度學(xué)習(xí)系統(tǒng)最終需要解決知識(shí)不完備的情況,且系統(tǒng)在決策過程中需要考慮非常復(fù)雜的情況,實(shí)際上這與博弈論的理念非常相近,那么結(jié)合您所做的一些工作,您認(rèn)為人工智能能如何更好地與博弈論相結(jié)合?
安博士:傳統(tǒng)的人工智能技術(shù)通??紤]一個(gè)智能體(agent)的設(shè)計(jì),多智能體系統(tǒng)技術(shù)的出現(xiàn)使得我們能夠處理分布式的學(xué)習(xí)、推理、規(guī)劃、協(xié)調(diào)等問題。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,多智能體系統(tǒng)往往存在一些「自私」的智能體(如電子商務(wù)市場的交易方),因此需要引入博弈論來分析智能體的交互策略。我們現(xiàn)實(shí)社會(huì)中這種「自私」的行為比比皆是,比如司機(jī)會(huì)根據(jù)路況選擇最優(yōu)的路線去目的地,出租車會(huì)選擇最優(yōu)的運(yùn)營時(shí)間段來獲取最多的利潤(這也是很多大城市打車難現(xiàn)象的主要原因),如果我們想用人工智能技術(shù)來代替人類來做一些決策,我們需要用博弈論的方法來分析復(fù)雜的交互,設(shè)計(jì)出能真正替代人類做出理性決策的智能體,我們也做過出租車市場最優(yōu)定價(jià)以及電動(dòng)車充電站配置優(yōu)化方面的工作。
事實(shí)上,人工智能的開拓者比如 von Neumann 和 Simon 都對博弈論做出了杰出貢獻(xiàn)。博弈論和人工智能實(shí)際上都基于決策理論。例如,有一個(gè)著名觀點(diǎn)把人工智能定義為「智能體的研究和構(gòu)建」。國內(nèi)也有很多優(yōu)秀的從事算法博弈論研究的人工智能學(xué)者,分布在諸如 MSRA、清華、上財(cái)?shù)瓤蒲袡C(jī)構(gòu)。
雷鋒網(wǎng) AI 科技評(píng)論:有觀點(diǎn)認(rèn)為,機(jī)器學(xué)習(xí)理論認(rèn)為所面對的問題可以轉(zhuǎn)變?yōu)橐环N找尋優(yōu)化方案的過程。那么您如何看待博弈論與機(jī)器學(xué)習(xí)的優(yōu)化問題之間的聯(lián)系?
安博士:博弈論的研究最終都被轉(zhuǎn)化為優(yōu)化問題的求解,如 Libratus 系統(tǒng)完全基于大規(guī)模優(yōu)化算法的設(shè)計(jì)。機(jī)器學(xué)習(xí)跟統(tǒng)計(jì)學(xué)結(jié)合更緊密一些,而博弈論跟運(yùn)籌學(xué)結(jié)合更緊密一些。
雷鋒網(wǎng) AI 科技評(píng)論:這個(gè)課題聽上去并不像人臉識(shí)別、語音識(shí)別、NLP 這樣的領(lǐng)域一樣能廣泛應(yīng)用于我們的生活中,結(jié)合您的研究經(jīng)歷,談?wù)勀鸀楹螘?huì)選擇算法博弈論的研究方向?
安博士:之前的應(yīng)用更多針對于安全領(lǐng)域,目前有很多研究試圖將一些思想應(yīng)用于包括網(wǎng)絡(luò)安全其他領(lǐng)域。我在 USC 做博士后的時(shí)候開始從事這個(gè)領(lǐng)域的研究,后面就一直做下來了。我很幸運(yùn)參與這一方面的研究,這一系列研究最讓人驕傲的地方在于,我們不僅做了高質(zhì)量的研究工作,同時(shí)又有很多有巨大影響的實(shí)際應(yīng)用。
雷鋒網(wǎng) AI 科技評(píng)論:您將在今年的 IJCAI 發(fā)表 Early Career Spotlight 演講,介紹您最近幾年的研究工作。請順便介紹一下您了解到的其他一些熱門研究方向。
安博士:我可能會(huì)介紹我們這幾年將博弈論用于安全以及可持續(xù)發(fā)展方面的研究進(jìn)展。就我熟悉的多智能體系統(tǒng)領(lǐng)域來說,熱門研究領(lǐng)域包括算法博弈論、多智能體學(xué)習(xí)、分布式規(guī)劃、分布式優(yōu)化等。
雷鋒網(wǎng) AI 科技評(píng)論:目前 AI 在中國非?;馃?,是否能結(jié)合您的教學(xué)經(jīng)驗(yàn)以及參會(huì)情況,和我們分享下新加坡的 AI 發(fā)展?fàn)顩r(包括學(xué)界/業(yè)界)?
安博士:AI 在中國的火爆主要是工業(yè)界推動(dòng)的。盡管新加坡的幾所大學(xué)都有優(yōu)秀的 AI 學(xué)者,新加坡的工業(yè)界對 AI 的熱度不及中國。聽說新加坡政府最近在做一些大的規(guī)劃,希望這些計(jì)劃能讓真正推動(dòng) AI 研究。
從德州撲克到安全領(lǐng)域,算法博弈論的魅力就在于能在有限的資源下最大限度地進(jìn)行優(yōu)化利用,而基于算法的實(shí)用性,也擁有廣泛的應(yīng)用空間。相信在未來,不只限于安全領(lǐng)域,算法博弈論還能在更多的方向?yàn)槿祟悗肀憷?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。