0
本文作者: 翻山 | 2017-01-16 16:07 |
雷鋒網(wǎng)按:作者Carlos Perez是一名軟件開(kāi)發(fā)者,著有《深度學(xué)習(xí)的設(shè)計(jì)模型》一書。他在這篇文章中提及了我們熟悉的概念——博弈論,并認(rèn)為這一概念將會(huì)更廣泛地應(yīng)用于機(jī)器學(xué)習(xí)中。
在電影《美麗心靈》中,“如何科學(xué)把妹”讓我們得以直觀地理解約翰·納什的博弈論,但實(shí)際上不完全信息博弈論中的近似納什均衡也已經(jīng)出現(xiàn)在一些機(jī)器學(xué)習(xí)的論文中。其中原因何在?雷鋒網(wǎng)為讀者們編譯了他在KDnuggets上的文章,一起來(lái)看看吧。
如果你一直是我文章的讀者,那么你應(yīng)該知道,對(duì)于許多深度學(xué)習(xí)的資深從業(yè)者來(lái)說(shuō),新的架構(gòu)設(shè)計(jì)將包含越來(lái)越多的博弈論的要素。
這種做法將具有直觀的意義。原因有二。其一,深度學(xué)習(xí)系統(tǒng)最終需要解決知識(shí)不完備的情況。實(shí)際上我們已經(jīng)在AlphaGo中領(lǐng)教到了。AlphaGo使用部分的知識(shí)就可以在戰(zhàn)術(shù)以及戰(zhàn)略上打敗人類當(dāng)中最優(yōu)秀的圍棋選手。
第二個(gè)直觀的意義是深度學(xué)習(xí)系統(tǒng)不會(huì)像在現(xiàn)在一樣保留單一的完整性,而是將包含多種協(xié)調(diào)(或者說(shuō)競(jìng)爭(zhēng))機(jī)制。這種情形已經(jīng)應(yīng)用于對(duì)抗網(wǎng)絡(luò)中了。對(duì)抗網(wǎng)絡(luò)包含競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò),既是攻方,也是防守方。前者會(huì)生成假圖像,后者將會(huì)鑒別圖像的真?zhèn)?。該系統(tǒng)十分有意思,它并不需要一個(gè)具有封閉形式的損失函數(shù)。實(shí)際上,一些系統(tǒng)擁有發(fā)現(xiàn)自身?yè)p失函數(shù)的驚奇能力。對(duì)抗神經(jīng)網(wǎng)絡(luò)的劣勢(shì)之一是很難訓(xùn)練。對(duì)抗學(xué)習(xí)需要在非合作博弈中包含納什均衡。在最近的無(wú)監(jiān)督學(xué)習(xí)論文中,Yann Lecun將對(duì)抗網(wǎng)絡(luò)稱為“最近二十年以來(lái),機(jī)器學(xué)習(xí)領(lǐng)域中最有意思的想法”,這一點(diǎn)雷鋒網(wǎng)此前也有提及。
我們?nèi)匀惶幱谠谏疃葘W(xué)習(xí)領(lǐng)域中應(yīng)用博弈論的早期階段,但是我要指出的是一些有關(guān)機(jī)器學(xué)習(xí)的論文,已經(jīng)有了博弈論的影子。David Balduzzi設(shè)計(jì)了一個(gè)深度學(xué)習(xí)的框架,該框架使用了博弈論的方法。他在論文《深度學(xué)習(xí)的語(yǔ)義、表達(dá)以及語(yǔ)法》中寫道:
太過(guò)寬泛,是這種方法的薄弱之處。......不過(guò),通過(guò)將簡(jiǎn)單函數(shù)的組合看作是深度學(xué)習(xí)架構(gòu)的基本特征,倒有可能創(chuàng)造出一種非凸游戲。通過(guò)分布式通信協(xié)議與語(yǔ)法將這種組合進(jìn)行形式化。
這種方法非常好,適用于解決我們的疑惑。他使用了幾張圖(是關(guān)于對(duì)抗神經(jīng)網(wǎng)絡(luò)的圖)來(lái)表明他的方法的優(yōu)點(diǎn):
要是所有的教科書都使用這種方法,那該多好!
David Silver與Johannes Heinrich曾共同發(fā)表過(guò)一篇名為《在非完備信息博弈論當(dāng)中深度增強(qiáng)學(xué)習(xí)的表現(xiàn)》的論文,在該論文中,他們寫到:
NFSP是第一種端到端的深度增強(qiáng)學(xué)習(xí)方法,我們可以將這種方法應(yīng)用于不完全信息博弈論中的近似納什均衡。NFSP與以前的博弈論理論方法不同,在沒(méi)有先驗(yàn)知識(shí)的情況下,NSPF是動(dòng)態(tài)可伸縮的。此外,NSPF也是第一個(gè)可以在自我訓(xùn)練中有效收斂到近似納什均衡的深度增強(qiáng)學(xué)習(xí)方法。
Jason Hartford等人使用深度學(xué)習(xí)來(lái)預(yù)測(cè)人的行為。他們?cè)凇渡疃葘W(xué)習(xí)在預(yù)測(cè)人的策略行為當(dāng)中的應(yīng)用》中寫到:
通過(guò)結(jié)合認(rèn)知偏差以及認(rèn)知心理學(xué)中自我審視的局限性,行為博弈論理論已經(jīng)發(fā)展到擁有大量的模型來(lái)在戰(zhàn)略環(huán)境中預(yù)測(cè)人的行為。
有三個(gè)玩家,他們將三種不同的博弈論方法應(yīng)用于深度學(xué)習(xí)當(dāng)中:
(1)作為描述與分析新的深度學(xué)習(xí)架構(gòu)的手段;
(2)作為構(gòu)建學(xué)習(xí)策略的方式;
(3)用來(lái)預(yù)測(cè)人類玩家行為的方法。
最后一種方法令人毛骨悚然。
數(shù)學(xué)給予了我們抽象,并幫助我們來(lái)理解復(fù)雜的系統(tǒng)。然而,任何一種形式的抽象都有它的局限性。因?yàn)橐恍┘?xì)節(jié)被忽略掉了。我們通過(guò)使用幾何、力學(xué)以及邏輯來(lái)勾勒出這些復(fù)雜的系統(tǒng)的工作原理。這些系統(tǒng)的分類器來(lái)源于其他的分類器。我們從中獲益匪淺。他們都是自相似的系統(tǒng),他們都屬于同一個(gè)集體。在該集體中,這些系統(tǒng)相互作用,相互影響。更進(jìn)一步來(lái)講,我們使用這些系統(tǒng)來(lái)預(yù)測(cè)我們的未來(lái)。這些預(yù)測(cè)需要使用不完備與不完善的數(shù)據(jù)。因此我們需要一個(gè)數(shù)學(xué)框架來(lái)研究眾多交互部分的行為,而這些交互的部分擁有不同的信息集。
經(jīng)典的機(jī)器學(xué)習(xí)理論認(rèn)為問(wèn)題可以轉(zhuǎn)變成優(yōu)化問(wèn)題。這就需要算法來(lái)尋找最佳的解決方案。然而我們希望我們使用機(jī)器學(xué)習(xí)方法訓(xùn)練出的模型,沒(méi)有過(guò)度擬合數(shù)據(jù),并且能夠很好地處理從未遇到過(guò)的數(shù)據(jù)。我們希望我們的模型能夠?qū)ξ粗鞒鲱A(yù)測(cè)。這種要求(也被稱作泛化)和傳統(tǒng)的優(yōu)化問(wèn)題有很大的不同。這種要求也不同于經(jīng)典動(dòng)力學(xué)。經(jīng)典動(dòng)力學(xué)要求獲得盡可能多的數(shù)據(jù)。這就是為什么在將深度學(xué)習(xí)應(yīng)用到工程的時(shí)候,需要對(duì)優(yōu)化問(wèn)題附加約束。在一些文章中,這些限制被稱為“先驗(yàn)”(我并不喜歡這種稱謂),或者說(shuō)優(yōu)化問(wèn)題中的正則化。
正則化的來(lái)源是什么?我們?cè)撊绾芜x擇一個(gè)好的正則化?我們?cè)撊绾魏侠淼靥幚硇畔??通過(guò)使用博弈論的方式,我們將獲得答案。這也就是博弈論會(huì)在機(jī)器學(xué)習(xí)領(lǐng)域中變得重要的原因。
正則化有時(shí)會(huì)涉及到結(jié)構(gòu)風(fēng)險(xiǎn)最小化。換句話說(shuō),我們使用類似于降低各方風(fēng)險(xiǎn)的策略來(lái)構(gòu)建處理正則化的機(jī)制。最終我們得到了完整的結(jié)論。博弈論是用來(lái)研究理性決策者之間關(guān)系的數(shù)學(xué)模型。決策者之間的關(guān)系包括競(jìng)爭(zhēng)與合作。為了理解學(xué)習(xí)機(jī),我們最終使用數(shù)學(xué)來(lái)研究智慧生物之間的交互。
via KDnuggets,雷鋒網(wǎng)編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。