0
本文作者: 亞爾曼?佩皮 | 2019-11-27 14:02 |
雷鋒網(wǎng)AI科技評論按:博弈論在現(xiàn)代人工智能(AI)解決方案中正扮演著至關(guān)重要的角色,深度強(qiáng)化學(xué)習(xí)(DRL)正是積極擁抱博弈論的頭等公民。
從單智能體程序到復(fù)雜的多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境,博弈論原理貫穿了 AI 程序的整個生命周期。而反過來,DRL 的快速演化也重新激發(fā)了人們對博弈論研究的關(guān)注。
目前,大多數(shù) DRL 模型事實(shí)上還停留在傳統(tǒng)的博弈論層面,例如納什均衡或零和游戲等。但隨著DRL的發(fā)展,傳統(tǒng)博弈論方法已經(jīng)逐漸呈現(xiàn)出不足之處,而同時則有一些新的博弈論方法被納入到人工智能的程序當(dāng)中。
因此,對于我們來說,若想進(jìn)一步優(yōu)化深度強(qiáng)化學(xué)習(xí)的模型,考慮融入新的博弈論方法,是值得考量的一個方向。
以下三個,正是在深刻影響 DRL 的「新」博弈論方法,或許用到你的模型中會大大改觀模型的性能。
在博弈論家族中,平均場博弈(MFG)還是一個相對較新的領(lǐng)域。
平均場博弈論誕生于 2006 年,這一理論是由兩個團(tuán)隊(duì)獨(dú)立提出的,一個是蒙特利爾的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一個是巴黎的 Jean-Michel Lasry和菲爾茲獎獲得者 Pierre-Louis Lions。
從概念上講,平均場博弈論是一套方法和技術(shù)的組合,它被用來研究由「理性博弈方」組成的大群體下的差異化博弈。這些智能體不僅對自身所處的狀態(tài)(如財富、資金)有偏好,還關(guān)注其他智能體在整個樣本分布中所處的位置。平均場博弈理論正是針對這些系統(tǒng)對廣義納什均衡進(jìn)行了研究。
平均場博弈的經(jīng)典案例是,如何訓(xùn)練魚群朝相同方向游,或者以協(xié)作方式游。
這個現(xiàn)象很難用理論解釋,但它的本質(zhì)事實(shí)上是,魚會根據(jù)最靠近的魚群的行為做出反映。再具體點(diǎn)兒,每條魚并不在乎其他單個魚的行為,而是關(guān)注附近作為一個整體、統(tǒng)一移動的魚群做出的行為。
如果我們用數(shù)學(xué)方程表述這個原理,一方面可以用 Hamilton-Jacobi-Bellman 方程來描述魚對周邊魚群的反應(yīng),另一方面則可以用 Fokker-Planck-Kolmogoroy 方程來表示決定整個魚群行動的所有魚的行為集合。
平均場博弈理論就是這兩個等式的組合。
從深度強(qiáng)化學(xué)習(xí)的角度來說,在研究大范圍環(huán)境中 大量智能體的表現(xiàn)方面,平均場博弈論扮演著重要的角色。
實(shí)驗(yàn)和理論已經(jīng)證實(shí),在“接近無限多智能體、并假設(shè)采用不精確的概率模型進(jìn)行操作”的環(huán)境中,已有的 DRL的方法并不具備現(xiàn)實(shí)可用性。
而 MFG 卻是模擬這類 DRL 環(huán)境的一個有意思的方法,非常值得嘗試。
一家叫做Prowler 的創(chuàng)業(yè)公司最近就在針對平均場博弈論(MFG)在大型多智能體(DRL)環(huán)境中的表現(xiàn)開展研究工作。
隨機(jī)博弈可追溯到 20 世紀(jì) 50 年代,它由諾貝爾經(jīng)濟(jì)學(xué)獎獲得者 Lloyd Shapley 提出。
理論上隨機(jī)博弈的規(guī)則是,讓有限多個博弈者在有限個狀態(tài)空間中進(jìn)行博弈,每個博弈者在每個狀態(tài)空間都從有限個行為中選出一個行為,這些行為的組合結(jié)果會決定博弈者所獲得的獎勵,并得出下一個狀態(tài)空間的概率分布。
隨機(jī)博弈的經(jīng)典案例是哲學(xué)家的晚餐問題:n+1 位哲學(xué)家(n 大于等于 1)圍坐在一個圓桌周圍,圓桌中間放了一碗米飯。每兩位鄰座的哲學(xué)家之間會放一支筷子以供這兩位取用。因?yàn)樽雷邮菆A形的,筷子的數(shù)量與哲學(xué)家的數(shù)量一樣多。為了從碗中取到東西吃,哲學(xué)家需要同時從兩邊各取一支筷子組成一雙,因此,在一位哲學(xué)家吃東西時,他的兩位鄰座就無法同時進(jìn)食。哲學(xué)家的生活簡單到只需要吃和思考,而為了存活下來,哲學(xué)家需要不斷地思考和吃東西。這場博弈的任務(wù)就是設(shè)計出一個可以讓所有的哲學(xué)家都活下來的制度。
DRL 已經(jīng)開始應(yīng)用隨機(jī)博弈理論解決多玩家游戲問題。在許多多玩家游戲中,AI 智能體戰(zhàn)隊(duì)需要評估如何通過與其他智能體協(xié)作和競爭以最大化正向結(jié)果。
這一問題一般被稱作探索-利用困境。在 DRL 智能體中構(gòu)建隨機(jī)博弈動態(tài)機(jī)制,可以有效地平衡 DRL 智能體在探索能力和利用能力方面的發(fā)展。DeepMind 在訓(xùn)練 AI 掌握 Quake III 游戲的工作中,就融合了一些隨機(jī)博弈論中的概念。
進(jìn)化博弈理論(EGT)是從達(dá)爾文進(jìn)化論中得到的啟發(fā)。
EGT 的起源可以追溯到 1973 年,當(dāng)時 John Maynard Smith 和 George R.Price兩人采用「策略」分析將演化競爭形式化,并建立數(shù)學(xué)標(biāo)準(zhǔn),從而來預(yù)測不同競爭策略所產(chǎn)生的結(jié)果。
從概念上來說,EGT 是博弈論在進(jìn)化場景中的應(yīng)用。在這種博弈中,一群智能體通過重復(fù)選擇的進(jìn)化過程,與多樣化的策略進(jìn)行持續(xù)交互,從而創(chuàng)建出一個穩(wěn)定的解決方案。
它背后的思路是,許多行為都涉及到群體中多個智能體間的交互,而其中某一個智能體是否獲得成功,取決于它采取的策略與其他智能體的策略如何交互。
經(jīng)典博弈論將關(guān)注點(diǎn)放在靜態(tài)策略上,即參與者采取的策略不會隨著時間改變,而進(jìn)化博弈與經(jīng)典博弈論不同,它關(guān)注策略如何隨著時間演化,以及哪個動態(tài)策略是進(jìn)化進(jìn)程中最成功的那一個。
EGT 的經(jīng)典案例是鷹鴿博弈(Howk Dove Game),它模擬了鷹與鴿之間對可共享資源的競爭。博弈中的每個競爭者都遵循以下兩種策略之中的一種:
鷹:本能的強(qiáng)勢,充滿侵略性,除非身負(fù)重傷,否則絕不退卻。
鴿:面對強(qiáng)勢進(jìn)攻會立即逃跑。
如果假設(shè):
1)兩個同樣強(qiáng)勢進(jìn)攻的鷹進(jìn)行搏斗,兩者之間必然會發(fā)生沖突,且兩者都很有可能受傷;
2)沖突的代價是每人都受到一定程度的損傷,用常量 C 表示這個損失;
3)如果鷹與鴿相遇,鴿會立刻逃跑,而鷹則會占有資源;
4)兩只鴿相遇,則他們將公平地分享資源。鷹鴿博弈的對應(yīng)收益可以用以下矩陣總結(jié):
EGT 看上去似乎是特地為 DRL 環(huán)境而設(shè)計的。
在多智能體的 DRL 環(huán)境中,智能體在彼此交互的過程中會周期性地調(diào)整自己的策略。而 EGT 正是一種可以高效模擬這些交互的方法。最近,OpenAI 就展示了經(jīng)過這種動態(tài)訓(xùn)練的智能體在玩捉迷藏游戲時的表現(xiàn)(https://openai.com/blog/emergent-tool-use/)。
雷鋒網(wǎng)via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1
雷鋒網(wǎng)報道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。