0
本文作者: 翻山 | 2017-01-16 16:07 |
雷鋒網(wǎng)按:作者Carlos Perez是一名軟件開發(fā)者,著有《深度學(xué)習(xí)的設(shè)計(jì)模型》一書。他在這篇文章中提及了我們熟悉的概念——博弈論,并認(rèn)為這一概念將會更廣泛地應(yīng)用于機(jī)器學(xué)習(xí)中。
在電影《美麗心靈》中,“如何科學(xué)把妹”讓我們得以直觀地理解約翰·納什的博弈論,但實(shí)際上不完全信息博弈論中的近似納什均衡也已經(jīng)出現(xiàn)在一些機(jī)器學(xué)習(xí)的論文中。其中原因何在?雷鋒網(wǎng)為讀者們編譯了他在KDnuggets上的文章,一起來看看吧。
如果你一直是我文章的讀者,那么你應(yīng)該知道,對于許多深度學(xué)習(xí)的資深從業(yè)者來說,新的架構(gòu)設(shè)計(jì)將包含越來越多的博弈論的要素。
這種做法將具有直觀的意義。原因有二。其一,深度學(xué)習(xí)系統(tǒng)最終需要解決知識不完備的情況。實(shí)際上我們已經(jīng)在AlphaGo中領(lǐng)教到了。AlphaGo使用部分的知識就可以在戰(zhàn)術(shù)以及戰(zhàn)略上打敗人類當(dāng)中最優(yōu)秀的圍棋選手。
第二個直觀的意義是深度學(xué)習(xí)系統(tǒng)不會像在現(xiàn)在一樣保留單一的完整性,而是將包含多種協(xié)調(diào)(或者說競爭)機(jī)制。這種情形已經(jīng)應(yīng)用于對抗網(wǎng)絡(luò)中了。對抗網(wǎng)絡(luò)包含競爭神經(jīng)網(wǎng)絡(luò),既是攻方,也是防守方。前者會生成假圖像,后者將會鑒別圖像的真?zhèn)?。該系統(tǒng)十分有意思,它并不需要一個具有封閉形式的損失函數(shù)。實(shí)際上,一些系統(tǒng)擁有發(fā)現(xiàn)自身損失函數(shù)的驚奇能力。對抗神經(jīng)網(wǎng)絡(luò)的劣勢之一是很難訓(xùn)練。對抗學(xué)習(xí)需要在非合作博弈中包含納什均衡。在最近的無監(jiān)督學(xué)習(xí)論文中,Yann Lecun將對抗網(wǎng)絡(luò)稱為“最近二十年以來,機(jī)器學(xué)習(xí)領(lǐng)域中最有意思的想法”,這一點(diǎn)雷鋒網(wǎng)此前也有提及。
我們?nèi)匀惶幱谠谏疃葘W(xué)習(xí)領(lǐng)域中應(yīng)用博弈論的早期階段,但是我要指出的是一些有關(guān)機(jī)器學(xué)習(xí)的論文,已經(jīng)有了博弈論的影子。David Balduzzi設(shè)計(jì)了一個深度學(xué)習(xí)的框架,該框架使用了博弈論的方法。他在論文《深度學(xué)習(xí)的語義、表達(dá)以及語法》中寫道:
太過寬泛,是這種方法的薄弱之處。......不過,通過將簡單函數(shù)的組合看作是深度學(xué)習(xí)架構(gòu)的基本特征,倒有可能創(chuàng)造出一種非凸游戲。通過分布式通信協(xié)議與語法將這種組合進(jìn)行形式化。
這種方法非常好,適用于解決我們的疑惑。他使用了幾張圖(是關(guān)于對抗神經(jīng)網(wǎng)絡(luò)的圖)來表明他的方法的優(yōu)點(diǎn):
要是所有的教科書都使用這種方法,那該多好!
David Silver與Johannes Heinrich曾共同發(fā)表過一篇名為《在非完備信息博弈論當(dāng)中深度增強(qiáng)學(xué)習(xí)的表現(xiàn)》的論文,在該論文中,他們寫到:
NFSP是第一種端到端的深度增強(qiáng)學(xué)習(xí)方法,我們可以將這種方法應(yīng)用于不完全信息博弈論中的近似納什均衡。NFSP與以前的博弈論理論方法不同,在沒有先驗(yàn)知識的情況下,NSPF是動態(tài)可伸縮的。此外,NSPF也是第一個可以在自我訓(xùn)練中有效收斂到近似納什均衡的深度增強(qiáng)學(xué)習(xí)方法。
Jason Hartford等人使用深度學(xué)習(xí)來預(yù)測人的行為。他們在《深度學(xué)習(xí)在預(yù)測人的策略行為當(dāng)中的應(yīng)用》中寫到:
通過結(jié)合認(rèn)知偏差以及認(rèn)知心理學(xué)中自我審視的局限性,行為博弈論理論已經(jīng)發(fā)展到擁有大量的模型來在戰(zhàn)略環(huán)境中預(yù)測人的行為。
有三個玩家,他們將三種不同的博弈論方法應(yīng)用于深度學(xué)習(xí)當(dāng)中:
(1)作為描述與分析新的深度學(xué)習(xí)架構(gòu)的手段;
(2)作為構(gòu)建學(xué)習(xí)策略的方式;
(3)用來預(yù)測人類玩家行為的方法。
最后一種方法令人毛骨悚然。
數(shù)學(xué)給予了我們抽象,并幫助我們來理解復(fù)雜的系統(tǒng)。然而,任何一種形式的抽象都有它的局限性。因?yàn)橐恍┘?xì)節(jié)被忽略掉了。我們通過使用幾何、力學(xué)以及邏輯來勾勒出這些復(fù)雜的系統(tǒng)的工作原理。這些系統(tǒng)的分類器來源于其他的分類器。我們從中獲益匪淺。他們都是自相似的系統(tǒng),他們都屬于同一個集體。在該集體中,這些系統(tǒng)相互作用,相互影響。更進(jìn)一步來講,我們使用這些系統(tǒng)來預(yù)測我們的未來。這些預(yù)測需要使用不完備與不完善的數(shù)據(jù)。因此我們需要一個數(shù)學(xué)框架來研究眾多交互部分的行為,而這些交互的部分擁有不同的信息集。
經(jīng)典的機(jī)器學(xué)習(xí)理論認(rèn)為問題可以轉(zhuǎn)變成優(yōu)化問題。這就需要算法來尋找最佳的解決方案。然而我們希望我們使用機(jī)器學(xué)習(xí)方法訓(xùn)練出的模型,沒有過度擬合數(shù)據(jù),并且能夠很好地處理從未遇到過的數(shù)據(jù)。我們希望我們的模型能夠?qū)ξ粗鞒鲱A(yù)測。這種要求(也被稱作泛化)和傳統(tǒng)的優(yōu)化問題有很大的不同。這種要求也不同于經(jīng)典動力學(xué)。經(jīng)典動力學(xué)要求獲得盡可能多的數(shù)據(jù)。這就是為什么在將深度學(xué)習(xí)應(yīng)用到工程的時候,需要對優(yōu)化問題附加約束。在一些文章中,這些限制被稱為“先驗(yàn)”(我并不喜歡這種稱謂),或者說優(yōu)化問題中的正則化。
正則化的來源是什么?我們該如何選擇一個好的正則化?我們該如何合理地處理信息?通過使用博弈論的方式,我們將獲得答案。這也就是博弈論會在機(jī)器學(xué)習(xí)領(lǐng)域中變得重要的原因。
正則化有時會涉及到結(jié)構(gòu)風(fēng)險最小化。換句話說,我們使用類似于降低各方風(fēng)險的策略來構(gòu)建處理正則化的機(jī)制。最終我們得到了完整的結(jié)論。博弈論是用來研究理性決策者之間關(guān)系的數(shù)學(xué)模型。決策者之間的關(guān)系包括競爭與合作。為了理解學(xué)習(xí)機(jī),我們最終使用數(shù)學(xué)來研究智慧生物之間的交互。
via KDnuggets,雷鋒網(wǎng)編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。