丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給大壯旅
發(fā)送

0

DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單

本文作者: 大壯旅 編輯:郭奕欣 2018-01-20 06:45
導(dǎo)語:如何將博弈論應(yīng)用到多個 AI 系統(tǒng)的交互中?

DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單

雷鋒網(wǎng) AI 科技評論按,隨著 AI 系統(tǒng)在現(xiàn)實生活中變得越來越重要,我們自然該探索不同系統(tǒng)間的交互方式了,這些多智能體間到底用了什么獨(dú)特的方式呢?

在 DeepMind 的最新論文(發(fā)表在 Scientific Reports , Nature 出版社旗下雜志)中,研究人員用了博弈論來闡明這一問題。雷鋒網(wǎng)了解到,具體來說,他們研究了兩套智能系統(tǒng)在非對稱博弈游戲(asymmetric game)中的反應(yīng)和表現(xiàn),這些游戲包括 Leduc 撲克和一些圖版游戲(如 Scotland Yard)。

在現(xiàn)實生活中,我們會遇到許多類似非對稱博弈游戲的場景,自動拍賣(automated auction)就是其中之一。在這一過程中,會混入許多 AI 扮演的買家或賣家,而真正參與其中的人類買家和賣家也都有自己的小算盤。最終的測試結(jié)果讓研究人員對這種奇怪的情況有了深刻了解,他們還拿出了一個相當(dāng)簡單的分析方法。

雖然 DeepMind 的主要目標(biāo)是如何將博弈論應(yīng)用到多個 AI 系統(tǒng)的交互中去,但研究人員得出的結(jié)果也可以用在經(jīng)濟(jì)、生物進(jìn)化和實證博弈論等學(xué)科中。

眾所周知,博弈論是數(shù)學(xué)界的重量級理論,研究人員通常會用它來研究競爭態(tài)勢下決策者們的戰(zhàn)略,該理論幾乎可通用于人類、動物和計算機(jī)世界。不過,在 AI 研究中,它一般會被用在“多智能體”環(huán)境下的研究中。舉例來說,多款家政機(jī)器人合作清潔房間就屬于其中的應(yīng)用場景之一。

一般來說,多智能體系統(tǒng)的演化動力學(xué)都靠簡單的對稱博弈論來分析,比如經(jīng)典的囚徒困境理論。雖然此類游戲能幫我們對多智能體系統(tǒng)的工作方式有一定了解,并告訴我們?nèi)绾螌崿F(xiàn)你好我好大家好的理想結(jié)果(即所謂的納什均衡),但卻無法模擬所有情況。

DeepMind 的新技術(shù)讓研究人員能快速容易地在更復(fù)雜的不對稱博弈游戲中找到取得納什均衡的策略,這類游戲中玩家通常有不同的戰(zhàn)略、目標(biāo)和獎勵。如果你想了解 DeepMind 是如何用新技術(shù)“破解”這類游戲的,可以試著去了解“性別博弈”,它也是博弈論研究的經(jīng)典案例之一。

在“性別博弈”中,兩個玩家要協(xié)調(diào)晚上到底去哪玩,是去看歌劇還是看電影?令人遺憾的是,他們中有一個人傾向于看歌劇,另一個人則偏愛電影。這樣的情境下,不對稱的情況就出現(xiàn)了,因為即使兩個人達(dá)成一致,其中也有一個人會不高興。因此,要想繼續(xù)維持兩人的友誼(劃掉),或者說均衡,玩家就該共進(jìn)退(畢竟產(chǎn)生分歧換來的只有零回報)。

DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單

這個游戲有三種“勢均力敵”的均衡情況:

  1. 兩個玩家都決定去看歌劇,

  2. 兩人都選擇去看電影,

  3. 則是混合選項,即每位玩家在夜晚外出的五分之三時間內(nèi)享用自己的心頭好。

第三種選項是一種“不穩(wěn)定”(unstable)選項,用 DeepMind 的方法很輕松就能進(jìn)行簡化或者分解,非對稱博弈游戲也就轉(zhuǎn)換成為對稱的對應(yīng)部分。這一方法將兩個玩家的獎勵表分別當(dāng)作獨(dú)立的雙玩家對稱博弈,這樣也能輕松地找到原本不對稱博弈游戲的納什均衡點。

在下圖中,b 和 c 圖的納什均衡點很容易找到,借助它們我們就能在非對稱博弈中找到 a 圖中的最佳策略。當(dāng)然,我們也可以反過來,通過非對稱博弈來找尋對應(yīng)體中的平衡點。

DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單

紅點代表納什均衡。對于非對稱博弈游戲(a),可以從(b)與(c)代表的兩個對應(yīng)圖中找到納什均衡。如圖所示,x軸和y軸分別代表玩家1和2選擇看歌劇的可能性。

這種方法還可運(yùn)用于其他游戲,比如 Leduc 撲克,在論文中研究人員還對它進(jìn)行了詳細(xì)解讀。無論哪種情況下,這種方法都足夠簡單,它能幫玩家快速和直接的分析非對稱博弈游戲,進(jìn)而幫助我們理解不同的動態(tài)系統(tǒng),其中就包括多主題環(huán)境下的系統(tǒng)交互。

Via. DeepMind

論文地址:https://www.nature.com/articles/s41598-018-19194-4, 雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

DeepMind將博弈論融入多智能體研究,讓納什均衡變得更簡單

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說