關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

本文作者： AI研習(xí)社-譯站

2019-07-03 15:42

導(dǎo)語：信息論是一個重要的領(lǐng)域，它對深度學(xué)習(xí)和人工智能作出了重大貢獻，但很多人對它卻并不了解。

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

原標題 | Must know Information Theory concepts in Deep Learning (AI)
作者 | Abhishek Parbhakar
譯者 | 敬愛的勇哥（算法工程師）
編輯：王立魚
原文鏈接：
https://towardsdatascience.com/must-know-information-theory-concepts-in-deep-learning-ai-e54a5da9769d

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

信息論是一個重要的領(lǐng)域，它對深度學(xué)習(xí)和人工智能作出了重大貢獻，但很多人對它卻并不了解。信息論可以看作是微積分、概率論和統(tǒng)計學(xué)這些深度學(xué)習(xí)基本組成部分的復(fù)雜融合。人工智能中的很多概念來自信息論或相關(guān)領(lǐng)域：

常用的交叉熵損失函數(shù)
根據(jù)最大信息增益構(gòu)建決策樹
廣泛應(yīng)用于NLP和語音領(lǐng)域的維特比算法
廣泛用于機器翻譯RNN和各種其他類型模型的編碼器-解碼器概念

信息論簡史

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

克勞德香農(nóng)，信息時代之父

在20世紀初期，科學(xué)家和工程師們努力解決這樣的問題：“如何量化信息？有沒有一種分析方法或數(shù)學(xué)方法可以告訴我們信息的內(nèi)容？”

例如，考慮以下兩句話：

布魯諾是一條狗。
布魯諾是一條大棕狗。

第二句話給了我們更多的信息，因為它還告訴布魯諾除了是“狗”之外還是“大的”和“棕色的”。我們?nèi)绾瘟炕瘍蓚€句子之間的差異？我們能否有一個數(shù)學(xué)測量方法告訴我們第二句話與第一句話相比多了多少信息？

科學(xué)家們一直在努力解決這些問題。語義，域和數(shù)據(jù)形式只會增加問題的復(fù)雜性。數(shù)學(xué)家和工程師克勞德·香農(nóng)提出了“熵”的概念，它永遠改變了我們的世界，這標志著數(shù)字信息時代的開始。

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

克勞德·香農(nóng)在1948年引入了“bit”這個詞

克勞德·香農(nóng)提出“數(shù)據(jù)的語義方面是無關(guān)緊要的”，數(shù)據(jù)的性質(zhì)和含義在信息內(nèi)容方面并不重要。相反，他根據(jù)概率分布和"不確定性"來量化信息。香農(nóng)還引入了“bit”這個詞，這一革命性的想法不僅奠定了信息論的基礎(chǔ)，而且為人工智能等領(lǐng)域的進步開辟了新的途徑。

下面將討論深度學(xué)習(xí)和數(shù)據(jù)科學(xué)中四種流行的，廣泛使用的和必須已知的信息論概念：

熵

也可以稱為信息熵或香農(nóng)熵。

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

熵是實驗中隨機性或不確定性的度量

熵給出了實驗中不確定性的度量。讓我們考慮兩個實驗：

拋出一枚無偏硬幣（P(H)= 0.5）并觀察它的輸出，假設(shè)H
拋出一枚有偏硬幣（P(H)= 0.99）并觀察其輸出，假設(shè)H

如果我們比較兩個實驗，與實驗1相比，實驗2更容易預(yù)測結(jié)果。因此，我們可以說實驗1本質(zhì)上比實驗2更不確定或不可預(yù)測。實驗中的這種不確定性是使用熵度量的。

因此，如果實驗中存在更多固有的不確定性，那么它的熵更大?；蛘哒f實驗越不可預(yù)測熵越大。實驗的概率分布用于計算熵。

一個完全可預(yù)測的確定性實驗，即投擲P（H）= 1的硬幣的熵為零。一個完全隨機的實驗，比如滾動無偏骰子，是最不可預(yù)測的，具有最大的不確定性，在這些實驗中熵最大。

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

拋擲一枚無偏硬幣的實驗比拋擲有偏硬幣具有更多的熵

另一種觀察熵的方法是我們觀察隨機實驗結(jié)果時獲得的平均信息。將實驗結(jié)果獲得的信息定義為該結(jié)果發(fā)生概率的函數(shù)。結(jié)果越罕見，從觀察中獲得的信息就越多。

例如，在確定性實驗中，我們總是知道結(jié)果，因此通過觀察結(jié)果沒有獲得新信息，因此熵為零。

數(shù)學(xué)定義

對于離散隨機變量X，可能的結(jié)果（狀態(tài)）x_1，...，x_n，熵（以位為單位）定義為：

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

其中p(x_i)是X的第i個結(jié)果的概率。

應(yīng)用

熵用于自動決策樹構(gòu)造。在樹構(gòu)建的每個步驟中，使用熵標準來完成特征選擇。
基于最大熵原理選擇模型，從對比的模型中選出熵最大的模型為最佳模型。

交叉熵

交叉熵用于比較兩個概率分布。它告訴我們兩個分布有多相似。

數(shù)學(xué)定義

在相同的結(jié)果集上定義的兩個概率分布p和q之間的交叉熵由下式給出：

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

應(yīng)用

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

基于卷積神經(jīng)網(wǎng)絡(luò)的分類器通常使用softmax層作為最后一層，并使用交叉熵損失函數(shù)進行訓(xùn)練

交叉熵損失函數(shù)廣泛用于邏輯回歸等分類模型，隨著預(yù)測偏離真實輸出，交叉熵損失函數(shù)會增大。
在諸如卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)架構(gòu)中，最終輸出的softmax層經(jīng)常使用交叉熵作為損失函數(shù)。

交互信息

交互信息是兩種概率分布或隨機變量之間相互依賴性的度量。它告訴我們另一個變量有多少關(guān)于該變量的信息。

交互信息獲取隨機變量之間的依賴性，比一般的相關(guān)系數(shù)更具廣義性，后者只表現(xiàn)線性關(guān)系。

數(shù)學(xué)定義

兩個離散隨機變量X和Y的交互信息定義為：

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

其中p(x,y)是X和Y的聯(lián)合概率分布，p(x)和p(y)分別是X和Y的邊緣概率分布。

應(yīng)用

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

在貝葉斯網(wǎng)絡(luò)中，可以使用交互信息來確定變量之間的關(guān)系結(jié)構(gòu)

特征選擇：使用交互信息，而不是使用相關(guān)性。相關(guān)性僅表現(xiàn)線性依賴性而忽略非線性依賴性，但交互信息不會。零的交互獨立性保證隨機變量是獨立的，但零相關(guān)不是。
在貝葉斯網(wǎng)絡(luò)中，交互信息用于學(xué)習(xí)隨機變量之間的關(guān)系結(jié)構(gòu)，并定義這些關(guān)系的強度。

Kullback Leibler（KL）散度

也稱為相對熵。

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

KL散度用于比較兩個概率分布

KL散度是另一種表示兩個概率分布之間相似性的方法。它衡量一個分布與另一個分布的差異。

假設(shè)我們有一些數(shù)據(jù)，它的真實分布是P。但是我們不知道P，所以我們選擇一個新的分布Q來近似這個數(shù)據(jù)。由于Q只是一個近似值，它無法像P那樣準確地逼近數(shù)據(jù)，會造成一些信息的丟失。這個信息損失由KL散度給出。

P和Q之間的KL散度告訴我們，當(dāng)我們試圖用P和Q來近似數(shù)據(jù)時，我們損失了多少信息。

數(shù)學(xué)定義

一個概率分布Q與另一個概率分布P的KL散度定義為：

關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念

應(yīng)用

KL散度通常用于無監(jiān)督機器學(xué)習(xí)技術(shù)中的變分自編碼器。

信息論最初是由數(shù)學(xué)家和電氣工程師克勞德·香農(nóng)，在1948年的開創(chuàng)性論文“通信的數(shù)學(xué)理論”中提出的。

注意：隨機變量和AI，機器學(xué)習(xí)，深度學(xué)習(xí)，數(shù)據(jù)科學(xué)等專業(yè)術(shù)語已被廣泛使用，但在不同的領(lǐng)域中會有不同的物理含義。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻？

點擊【關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念】即可訪問：

今日資源推薦：CMU 2018 秋季《深度學(xué)習(xí)》課程

以深度神經(jīng)網(wǎng)絡(luò)為代表的“深度學(xué)習(xí)”系統(tǒng)正開始逐漸地接手人工智能的各種任務(wù)，從語言理解、語音和圖像識別，到機器翻譯、規(guī)劃，甚至是游戲和自動駕駛。因此，在許多先進的學(xué)術(shù)環(huán)境中，深度學(xué)習(xí)的專業(yè)知識正迅速從深奧的需要轉(zhuǎn)變?yōu)閺娭菩缘南葲Q條件，并在工業(yè)就業(yè)市場上具有很大優(yōu)勢。

在本課程中，我們將學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識，以及它們在各種人工智能任務(wù)中的應(yīng)用。在課程結(jié)束時，學(xué)生應(yīng)該對該學(xué)科有一定的了解，并能夠?qū)⑸疃葘W(xué)習(xí)應(yīng)用到各種任務(wù)中。

課程鏈接：https://ai.yanxishe.com/page/groupDetail/18

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

AI研習(xí)社-譯站

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學(xué)習(xí)知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章