從科學(xué)把妹說起，為何博弈論能成為深度學(xué)習(xí)的未來？

本文作者：翻山

2017-01-16 16:07

導(dǎo)語：最新的深度學(xué)習(xí)框架設(shè)計元素包含了博弈論的相關(guān)概念。因為深度學(xué)習(xí)系統(tǒng)需要適應(yīng)于不完備知識領(lǐng)域以及協(xié)調(diào)系統(tǒng)。對于這兩方面，博弈論都能夠提供幫助。

雷鋒網(wǎng)按：作者Carlos Perez是一名軟件開發(fā)者，著有《深度學(xué)習(xí)的設(shè)計模型》一書。他在這篇文章中提及了我們熟悉的概念——博弈論，并認(rèn)為這一概念將會更廣泛地應(yīng)用于機器學(xué)習(xí)中。

在電影《美麗心靈》中，“如何科學(xué)把妹”讓我們得以直觀地理解約翰·納什的博弈論，但實際上不完全信息博弈論中的近似納什均衡也已經(jīng)出現(xiàn)在一些機器學(xué)習(xí)的論文中。其中原因何在？雷鋒網(wǎng)為讀者們編譯了他在KDnuggets上的文章，一起來看看吧。

如果你一直是我文章的讀者，那么你應(yīng)該知道，對于許多深度學(xué)習(xí)的資深從業(yè)者來說，新的架構(gòu)設(shè)計將包含越來越多的博弈論的要素。

這種做法將具有直觀的意義。原因有二。其一，深度學(xué)習(xí)系統(tǒng)最終需要解決知識不完備的情況。實際上我們已經(jīng)在AlphaGo中領(lǐng)教到了。AlphaGo使用部分的知識就可以在戰(zhàn)術(shù)以及戰(zhàn)略上打敗人類當(dāng)中最優(yōu)秀的圍棋選手。

第二個直觀的意義是深度學(xué)習(xí)系統(tǒng)不會像在現(xiàn)在一樣保留單一的完整性，而是將包含多種協(xié)調(diào)（或者說競爭）機制。這種情形已經(jīng)應(yīng)用于對抗網(wǎng)絡(luò)中了。對抗網(wǎng)絡(luò)包含競爭神經(jīng)網(wǎng)絡(luò)，既是攻方，也是防守方。前者會生成假圖像，后者將會鑒別圖像的真?zhèn)?。該系統(tǒng)十分有意思，它并不需要一個具有封閉形式的損失函數(shù)。實際上，一些系統(tǒng)擁有發(fā)現(xiàn)自身損失函數(shù)的驚奇能力。對抗神經(jīng)網(wǎng)絡(luò)的劣勢之一是很難訓(xùn)練。對抗學(xué)習(xí)需要在非合作博弈中包含納什均衡。在最近的無監(jiān)督學(xué)習(xí)論文中，Yann Lecun將對抗網(wǎng)絡(luò)稱為“最近二十年以來，機器學(xué)習(xí)領(lǐng)域中最有意思的想法”，這一點雷鋒網(wǎng)此前也有提及。

我們?nèi)匀惶幱谠谏疃葘W(xué)習(xí)領(lǐng)域中應(yīng)用博弈論的早期階段，但是我要指出的是一些有關(guān)機器學(xué)習(xí)的論文，已經(jīng)有了博弈論的影子。David Balduzzi設(shè)計了一個深度學(xué)習(xí)的框架，該框架使用了博弈論的方法。他在論文《深度學(xué)習(xí)的語義、表達以及語法》中寫道：

太過寬泛，是這種方法的薄弱之處。......不過，通過將簡單函數(shù)的組合看作是深度學(xué)習(xí)架構(gòu)的基本特征，倒有可能創(chuàng)造出一種非凸游戲。通過分布式通信協(xié)議與語法將這種組合進行形式化。

這種方法非常好，適用于解決我們的疑惑。他使用了幾張圖（是關(guān)于對抗神經(jīng)網(wǎng)絡(luò)的圖）來表明他的方法的優(yōu)點：

從科學(xué)把妹說起，為何博弈論能成為深度學(xué)習(xí)的未來？

要是所有的教科書都使用這種方法，那該多好！

David Silver與Johannes Heinrich曾共同發(fā)表過一篇名為《在非完備信息博弈論當(dāng)中深度增強學(xué)習(xí)的表現(xiàn)》的論文，在該論文中，他們寫到：

NFSP是第一種端到端的深度增強學(xué)習(xí)方法，我們可以將這種方法應(yīng)用于不完全信息博弈論中的近似納什均衡。NFSP與以前的博弈論理論方法不同，在沒有先驗知識的情況下，NSPF是動態(tài)可伸縮的。此外，NSPF也是第一個可以在自我訓(xùn)練中有效收斂到近似納什均衡的深度增強學(xué)習(xí)方法。

Jason Hartford等人使用深度學(xué)習(xí)來預(yù)測人的行為。他們在《深度學(xué)習(xí)在預(yù)測人的策略行為當(dāng)中的應(yīng)用》中寫到：

通過結(jié)合認(rèn)知偏差以及認(rèn)知心理學(xué)中自我審視的局限性，行為博弈論理論已經(jīng)發(fā)展到擁有大量的模型來在戰(zhàn)略環(huán)境中預(yù)測人的行為。

有三個玩家，他們將三種不同的博弈論方法應(yīng)用于深度學(xué)習(xí)當(dāng)中：

（1）作為描述與分析新的深度學(xué)習(xí)架構(gòu)的手段；
（2）作為構(gòu)建學(xué)習(xí)策略的方式；
（3）用來預(yù)測人類玩家行為的方法。

最后一種方法令人毛骨悚然。

數(shù)學(xué)給予了我們抽象，并幫助我們來理解復(fù)雜的系統(tǒng)。然而，任何一種形式的抽象都有它的局限性。因為一些細節(jié)被忽略掉了。我們通過使用幾何、力學(xué)以及邏輯來勾勒出這些復(fù)雜的系統(tǒng)的工作原理。這些系統(tǒng)的分類器來源于其他的分類器。我們從中獲益匪淺。他們都是自相似的系統(tǒng)，他們都屬于同一個集體。在該集體中，這些系統(tǒng)相互作用，相互影響。更進一步來講，我們使用這些系統(tǒng)來預(yù)測我們的未來。這些預(yù)測需要使用不完備與不完善的數(shù)據(jù)。因此我們需要一個數(shù)學(xué)框架來研究眾多交互部分的行為，而這些交互的部分擁有不同的信息集。

經(jīng)典的機器學(xué)習(xí)理論認(rèn)為問題可以轉(zhuǎn)變成優(yōu)化問題。這就需要算法來尋找最佳的解決方案。然而我們希望我們使用機器學(xué)習(xí)方法訓(xùn)練出的模型，沒有過度擬合數(shù)據(jù)，并且能夠很好地處理從未遇到過的數(shù)據(jù)。我們希望我們的模型能夠?qū)ξ粗鞒鲱A(yù)測。這種要求（也被稱作泛化）和傳統(tǒng)的優(yōu)化問題有很大的不同。這種要求也不同于經(jīng)典動力學(xué)。經(jīng)典動力學(xué)要求獲得盡可能多的數(shù)據(jù)。這就是為什么在將深度學(xué)習(xí)應(yīng)用到工程的時候，需要對優(yōu)化問題附加約束。在一些文章中，這些限制被稱為“先驗”（我并不喜歡這種稱謂），或者說優(yōu)化問題中的正則化。

正則化的來源是什么？我們該如何選擇一個好的正則化？我們該如何合理地處理信息？通過使用博弈論的方式，我們將獲得答案。這也就是博弈論會在機器學(xué)習(xí)領(lǐng)域中變得重要的原因。

正則化有時會涉及到結(jié)構(gòu)風(fēng)險最小化。換句話說，我們使用類似于降低各方風(fēng)險的策略來構(gòu)建處理正則化的機制。最終我們得到了完整的結(jié)論。博弈論是用來研究理性決策者之間關(guān)系的數(shù)學(xué)模型。決策者之間的關(guān)系包括競爭與合作。為了理解學(xué)習(xí)機，我們最終使用數(shù)學(xué)來研究智慧生物之間的交互。

via KDnuggets，雷鋒網(wǎng)編譯。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

翻山

編輯

發(fā)私信

當(dāng)月熱門文章

從科學(xué)把妹說起，為何博弈論能成為深度學(xué)習(xí)的未來？

從科學(xué)把妹說起，為何博弈論能成為深度學(xué)習(xí)的未來？