0
本文作者: AI研習(xí)社-譯站 | 2019-07-03 15:42 |
原標題 | Must know Information Theory concepts in Deep Learning (AI)
作者 | Abhishek Parbhakar
譯者 | 敬愛的勇哥(算法工程師)
編輯:王立魚
原文鏈接:
信息論是一個重要的領(lǐng)域,它對深度學(xué)習(xí)和人工智能作出了重大貢獻,但很多人對它卻并不了解。信息論可以看作是微積分、概率論和統(tǒng)計學(xué)這些深度學(xué)習(xí)基本組成部分的復(fù)雜融合。人工智能中的很多概念來自信息論或相關(guān)領(lǐng)域:
常用的交叉熵損失函數(shù)
根據(jù)最大信息增益構(gòu)建決策樹
廣泛應(yīng)用于NLP和語音領(lǐng)域的維特比算法
廣泛用于機器翻譯RNN和各種其他類型模型的編碼器-解碼器概念
克勞德香農(nóng),信息時代之父
在20世紀初期,科學(xué)家和工程師們努力解決這樣的問題:“如何量化信息?有沒有一種分析方法或數(shù)學(xué)方法可以告訴我們信息的內(nèi)容?”
例如,考慮以下兩句話:
布魯諾是一條狗。
布魯諾是一條大棕狗。
第二句話給了我們更多的信息,因為它還告訴布魯諾除了是“狗”之外還是“大的”和“棕色的”。我們?nèi)绾瘟炕瘍蓚€句子之間的差異?我們能否有一個數(shù)學(xué)測量方法告訴我們第二句話與第一句話相比多了多少信息?
科學(xué)家們一直在努力解決這些問題。語義,域和數(shù)據(jù)形式只會增加問題的復(fù)雜性。數(shù)學(xué)家和工程師克勞德·香農(nóng)提出了“熵”的概念,它永遠改變了我們的世界,這標志著數(shù)字信息時代的開始。
克勞德·香農(nóng)在1948年引入了“bit”這個詞
克勞德·香農(nóng)提出“數(shù)據(jù)的語義方面是無關(guān)緊要的”,數(shù)據(jù)的性質(zhì)和含義在信息內(nèi)容方面并不重要。相反,他根據(jù)概率分布和"不確定性"來量化信息。香農(nóng)還引入了“bit”這個詞,這一革命性的想法不僅奠定了信息論的基礎(chǔ),而且為人工智能等領(lǐng)域的進步開辟了新的途徑。
下面將討論深度學(xué)習(xí)和數(shù)據(jù)科學(xué)中四種流行的,廣泛使用的和必須已知的信息論概念:
也可以稱為信息熵或香農(nóng)熵。
熵是實驗中隨機性或不確定性的度量
熵給出了實驗中不確定性的度量。讓我們考慮兩個實驗:
拋出一枚無偏硬幣(P(H)= 0.5)并觀察它的輸出,假設(shè)H
拋出一枚有偏硬幣(P(H)= 0.99)并觀察其輸出,假設(shè)H
如果我們比較兩個實驗,與實驗1相比,實驗2更容易預(yù)測結(jié)果。因此,我們可以說實驗1本質(zhì)上比實驗2更不確定或不可預(yù)測。實驗中的這種不確定性是使用熵度量的。
因此,如果實驗中存在更多固有的不確定性,那么它的熵更大?;蛘哒f實驗越不可預(yù)測熵越大。實驗的概率分布用于計算熵。
一個完全可預(yù)測的確定性實驗,即投擲P(H)= 1的硬幣的熵為零。一個完全隨機的實驗,比如滾動無偏骰子,是最不可預(yù)測的,具有最大的不確定性,在這些實驗中熵最大。
拋擲一枚無偏硬幣的實驗比拋擲有偏硬幣具有更多的熵
另一種觀察熵的方法是我們觀察隨機實驗結(jié)果時獲得的平均信息。將實驗結(jié)果獲得的信息定義為該結(jié)果發(fā)生概率的函數(shù)。結(jié)果越罕見,從觀察中獲得的信息就越多。
例如,在確定性實驗中,我們總是知道結(jié)果,因此通過觀察結(jié)果沒有獲得新信息,因此熵為零。
數(shù)學(xué)定義
對于離散隨機變量X,可能的結(jié)果(狀態(tài))x_1,...,x_n,熵(以位為單位)定義為:
其中p(x_i)是X的第i個結(jié)果的概率。
應(yīng)用
熵用于自動決策樹構(gòu)造。在樹構(gòu)建的每個步驟中,使用熵標準來完成特征選擇。
基于最大熵原理選擇模型,從對比的模型中選出熵最大的模型為最佳模型。
交叉熵用于比較兩個概率分布。它告訴我們兩個分布有多相似。
數(shù)學(xué)定義
在相同的結(jié)果集上定義的兩個概率分布p和q之間的交叉熵由下式給出:
應(yīng)用
基于卷積神經(jīng)網(wǎng)絡(luò)的分類器通常使用softmax層作為最后一層,并使用交叉熵損失函數(shù)進行訓(xùn)練
交叉熵損失函數(shù)廣泛用于邏輯回歸等分類模型,隨著預(yù)測偏離真實輸出,交叉熵損失函數(shù)會增大。
在諸如卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)架構(gòu)中,最終輸出的softmax層經(jīng)常使用交叉熵作為損失函數(shù)。
交互信息是兩種概率分布或隨機變量之間相互依賴性的度量。它告訴我們另一個變量有多少關(guān)于該變量的信息。
交互信息獲取隨機變量之間的依賴性,比一般的相關(guān)系數(shù)更具廣義性,后者只表現(xiàn)線性關(guān)系。
數(shù)學(xué)定義
兩個離散隨機變量X和Y的交互信息定義為:
其中p(x,y)是X和Y的聯(lián)合概率分布,p(x)和p(y)分別是X和Y的邊緣概率分布。
應(yīng)用
在貝葉斯網(wǎng)絡(luò)中,可以使用交互信息來確定變量之間的關(guān)系結(jié)構(gòu)
特征選擇:使用交互信息,而不是使用相關(guān)性。相關(guān)性僅表現(xiàn)線性依賴性而忽略非線性依賴性,但交互信息不會。零的交互獨立性保證隨機變量是獨立的,但零相關(guān)不是。
在貝葉斯網(wǎng)絡(luò)中,交互信息用于學(xué)習(xí)隨機變量之間的關(guān)系結(jié)構(gòu),并定義這些關(guān)系的強度。
也稱為相對熵。
KL散度用于比較兩個概率分布
KL散度是另一種表示兩個概率分布之間相似性的方法。它衡量一個分布與另一個分布的差異。
假設(shè)我們有一些數(shù)據(jù),它的真實分布是P。但是我們不知道P,所以我們選擇一個新的分布Q來近似這個數(shù)據(jù)。由于Q只是一個近似值,它無法像P那樣準確地逼近數(shù)據(jù),會造成一些信息的丟失。這個信息損失由KL散度給出。
P和Q之間的KL散度告訴我們,當(dāng)我們試圖用P和Q來近似數(shù)據(jù)時,我們損失了多少信息。
數(shù)學(xué)定義
一個概率分布Q與另一個概率分布P的KL散度定義為:
應(yīng)用
KL散度通常用于無監(jiān)督機器學(xué)習(xí)技術(shù)中的變分自編碼器。
信息論最初是由數(shù)學(xué)家和電氣工程師克勞德·香農(nóng),在1948年的開創(chuàng)性論文“通信的數(shù)學(xué)理論”中提出的。
注意:隨機變量和AI,機器學(xué)習(xí),深度學(xué)習(xí),數(shù)據(jù)科學(xué)等專業(yè)術(shù)語已被廣泛使用,但在不同的領(lǐng)域中會有不同的物理含義。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?
點擊【關(guān)于深度學(xué)習(xí)你必須知道的幾個信息理論概念】即可訪問:
今日資源推薦:CMU 2018 秋季《深度學(xué)習(xí)》課程
以深度神經(jīng)網(wǎng)絡(luò)為代表的“深度學(xué)習(xí)”系統(tǒng)正開始逐漸地接手人工智能的各種任務(wù),從語言理解、語音和圖像識別,到機器翻譯、規(guī)劃,甚至是游戲和自動駕駛。因此,在許多先進的學(xué)術(shù)環(huán)境中,深度學(xué)習(xí)的專業(yè)知識正迅速從深奧的需要轉(zhuǎn)變?yōu)閺娭菩缘南葲Q條件,并在工業(yè)就業(yè)市場上具有很大優(yōu)勢。
在本課程中,我們將學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,以及它們在各種人工智能任務(wù)中的應(yīng)用。在課程結(jié)束時,學(xué)生應(yīng)該對該學(xué)科有一定的了解,并能夠?qū)⑸疃葘W(xué)習(xí)應(yīng)用到各種任務(wù)中。
課程鏈接:https://ai.yanxishe.com/page/groupDetail/18
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。