丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

本文作者: 楊曉凡 2017-08-30 16:51
導(dǎo)語:讀書分享(三):第三章概率和信息論


「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

雷鋒網(wǎng) AI 科技評論按:「Deep Learning」這本書是機(jī)器學(xué)習(xí)領(lǐng)域的重磅書籍,三位作者分別是機(jī)器學(xué)習(xí)界名人、GAN的提出者、谷歌大腦研究科學(xué)家 Ian Goodfellow,神經(jīng)網(wǎng)絡(luò)領(lǐng)域創(chuàng)始三位創(chuàng)始人之一的蒙特利爾大學(xué)教授 Yoshua Bengio(也是 Ian Goodfellow的老師)、同在蒙特利爾大學(xué)的神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)挖掘教授 Aaron Courville。只看作者陣容就知道這本書肯定能夠從深度學(xué)習(xí)的基礎(chǔ)知識和原理一直講到最新的方法,而且在技術(shù)的應(yīng)用方面也有許多具體介紹。這本書面向的對象也不僅是學(xué)習(xí)相關(guān)專業(yè)的高校學(xué)生,還能夠為研究人員和業(yè)界的技術(shù)人員提供穩(wěn)妥的指導(dǎo)意見、提供解決問題的新鮮思路。

面對著這樣一本內(nèi)容精彩的好書,不管你有沒有入手開始閱讀,雷鋒網(wǎng) AI 研習(xí)社都希望借此給大家提供一個共同討論、共同提高的機(jī)會。所以我們請來了曾在百度和阿里工作過的資深算法工程師王奇文與大家一起分享他的讀書感受。

分享人:王奇文,資深算法工程師,曾在百度和阿里工作,先后做過推薦系統(tǒng)、分布式、數(shù)據(jù)挖掘、用戶建模、聊天機(jī)器人?!八惴飞?,砥礪前行”。

「Deep learning」讀書分享(三) —— 第三章 概率和信息論

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

接著第二章之后分享的是「深度學(xué)習(xí)」這本書的第三章概率和信息論。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這節(jié)課會講到一些基本概念,常用的分布,頻率學(xué)派和貝葉斯學(xué)派的差別,還有貝葉斯規(guī)則,概率圖,最后是信息論。這里第四條可能很多人可能頭一回見到,學(xué)了那么多概率,連這個都不知道,那你的概率真的白學(xué)了,真這樣,不開玩笑。不過,老實說我也是前幾年才知道這個學(xué)派的差別,因為浙大三版教材上就沒提到這些,好像就提到一點(diǎn),頻率學(xué)派就是古典概率,沒有什么其他的,這也是現(xiàn)行教材的缺陷。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

概率的概念就是描述一個事件發(fā)生的可能性,比如說今天下雨嗎?我們平時的回答里面可能有一些口語化表達(dá),比如可能、八成、好像會、天氣預(yù)報說會。這是一種可能性或者一種可信度,怎么用數(shù)學(xué)方法去衡量它呢?就是通過概率。

為什么每一個事件有一些可能性?有時候可能發(fā)生、有時候可能不發(fā)生。它是由多種原因產(chǎn)生的,因為任何事情都存在一定的不確定性和隨機(jī)性,它的來源第一個叫系統(tǒng)本身,也就是這個事件本身的隨機(jī)性;第二個,即使你了解了系統(tǒng)的一些基本特性,在觀測的時候也不一定都是準(zhǔn)的,因為觀測還會有隨機(jī)誤差,比如測量時設(shè)備因素;第三,比如你觀測的變量上有一些事件是服從正態(tài)分布的,這個正態(tài)分布真的就是對的嗎?也不一定,所以存在一個不完全建模的問題。這是不確定性和隨機(jī)性的三種因素、三種原因。

概率就是對不確定性的事件進(jìn)行表示和推理。書里面提到一點(diǎn),就是往往簡單而不確定的規(guī)則,比復(fù)雜而確定規(guī)則更實用,這個怎么理解呢?像第一句話,多數(shù)鳥兒會飛,這個好理解,但是其實第一條很不嚴(yán)謹(jǐn),因為它有很多情況,有些鳥本身就不會飛(企鵝、鴕鳥),有些幼小、生病也不會飛;如果嚴(yán)謹(jǐn)一點(diǎn),表述成下面“除了什么。。。什么。。。以外的鳥兒都會飛”,聽著都累。這就是簡單而不確定的規(guī)則比復(fù)雜而確定的規(guī)則更實用。

機(jī)器學(xué)習(xí)里面有一個類似的概念叫奧卡姆剃刀也是一樣,簡單的模型能滿足差不多的效果就可以了,比那些復(fù)雜的模型、準(zhǔn)確度高一些的要好得多。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

事件有幾種分類。必然事件,太陽從東邊升起西邊落下是必然的;不可能事件,1+1不可能不等于2(這個不要鉆牛角尖,這方面的段子很多,千萬別跟我說陳景潤證明1+1不等于2,我跟你急);買彩票中了五百萬,這個概率是非常小的,即小概率事件。小概率怎么度量呢?就是正態(tài)分布里面三倍標(biāo)準(zhǔn)差以外,跟那個μ±3δ相關(guān)。

這是事件發(fā)生可能性的度量,三種類別:必然事件,隨機(jī)事件,不可能事件

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

前人做了一些實驗——拋硬幣,觀察出現(xiàn)正面的可能性??梢钥吹?048次還是0.51,然后越來越多的時候,趨近于事務(wù)本身:拋硬幣時,正面反面應(yīng)該是1/2的概率。就是說實驗次數(shù)越多,它越趨近于事件本身發(fā)生的概率,這個也叫大數(shù)定律。(注:皮爾遜真傻,扔了3.6w次,哈哈,科學(xué)家好像都挺“傻”的)

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

隨機(jī)變量有兩種分類,按照它的取值空間分為離散和連續(xù),不同的分類有不同的概率密度函數(shù)。連續(xù)時是PDF概率密度函數(shù),離散時是概率質(zhì)量函數(shù),對應(yīng)不同的求解方法。這個在機(jī)器學(xué)習(xí)里面也會經(jīng)常區(qū)分,如果是離散的,那么就是分類問題;如果連續(xù)的就是回歸問題,這是一一對應(yīng)的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

概率會滿足一些性質(zhì),非負(fù)可加、歸一,歸一就是和是1。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是離散型的概率分布,X這個事件取得X1、X2等等情況的可能性。這是離散概率分布,如果是連續(xù)的話就變成積分的形式了。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這幾個表達(dá)式我們見得多了,均值、方差、協(xié)方差。注意一點(diǎn),方差前面的分母是N-1,因為這個地方用到的是期望,期望已經(jīng)用掉了一個自由度,所以這個地方自由度要減一;這地方要注意,要不然的你算方差的時候這里是N就糗大了。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這個是時間序列,里面檢驗一個序列的平穩(wěn)性,要知道它的期望是一個常數(shù)還是方差是一個常數(shù)。期望類似均值。圖中綠色序列的期望是固定的,紅色序列的期望是變化的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

方差是每一次的波動幅度要一樣,圖中綠色序列的方差是固定的,紅色序列的方差是變化的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

還有一個叫協(xié)方差,自己跟自己比的話,每一次變化的周期要一致。像這個紅色序列前面周期比較長,后面周期變短,然后又長了,它的周期就一直在變化,這個也是不穩(wěn)定的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

方差的形象理解,就是期望對每一個值之間的差別,取平方、求和取近似均值(除N-1)。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

協(xié)方差是衡量兩個變量,兩個隨機(jī)事件X和Y之間的關(guān)系;這個關(guān)系指的是線性關(guān)系,不是任意的關(guān)系,如果X和Y成非線性關(guān)系,這個協(xié)方差解決不了,這是要注意的地方。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這個是相關(guān)系數(shù),就是用的協(xié)方差,然后除以它的兩個方差D(X)D(Y);如果相關(guān)系數(shù)在不同的取值范圍,表示有不同的相關(guān)度。0就是完全沒有線性關(guān)系,-1是完全負(fù)相關(guān),1是完全正相關(guān);這都是指線性關(guān)系。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是一個圖形化的解釋,線性就是這樣,在二維空間里面的一條直線,有斜率;這種非線性的用協(xié)方差是度量不了的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

介紹幾個概念。邊緣概率是,如果聯(lián)合分布涉及到x、y兩個事件,那么固定x看它的平均分布,這叫邊緣概率。條件概率是在一個事件發(fā)生的時候,另外一個事件的概率分布。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這個是全概率公式,是求B事件發(fā)生時候A的發(fā)生概率;B可能有多種取值,每種取值情況下都要算一下。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

鏈?zhǔn)椒▌t是,有可能有多種依賴。像這個聯(lián)合分布里面,A、B、C三個事件,需要C發(fā)生且B發(fā)生,然后B和C同時發(fā)生的時候A發(fā)生,這就是鏈?zhǔn)椒▌t。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是概率里面的幾個重要概率。條件概率和全概率剛才已經(jīng)說了,貝葉斯是基于這兩個基礎(chǔ)上的。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是「生活大爆炸」里面Sheldon在驗算這個。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

常用的概率分布,均勻、伯努利;范疇分布里面就不再是一個值,而是多個值,實驗一次有多種結(jié)果,相當(dāng)于扔的是色子,而前面扔的是硬幣,那么硬筆只有兩種取值;還有高斯分布,也叫正態(tài)分布。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這正態(tài)分布的鐘形曲線。對于標(biāo)準(zhǔn)正態(tài)分布,均值是0,標(biāo)準(zhǔn)差為1;這個圖里覆蓋的是正負(fù)兩個標(biāo)準(zhǔn)差的范圍,這不是我們常見的畫法。一般畫圖的時候會畫到正負(fù)三個標(biāo)準(zhǔn)差,這個范圍內(nèi)曲線下的面積是總的99.7%。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是我單獨(dú)整理一張圖,幾種概率分布之間的關(guān)系;它們之間的變化是有規(guī)律的。

  • 伯努利分布相當(dāng)于是扔硬幣,扔一次;

  • 扔了很多次以后就變成二項分布;

  • 扔多次直到成功就是幾何分布,比如扔了三次,看第一次出現(xiàn)正面的概率;

  • 負(fù)二項分布,是說實驗n次,成功r次才停止;

  • 超幾何分布跟二項分布是不同的,最核心的不同在于它是不放回的抽樣,而二項分布是放回的;

  • 最核心的當(dāng)然就是正態(tài)分布了。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這張圖是碰到什么情況下該用哪種分布。先不細(xì)說了,大家等到以后用了再說。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

中心極限定律就是,多次隨機(jī)變量的和,把它看成一個新的隨機(jī)變量的話,它也是近似服從正態(tài)分布的,就這個意思。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

書里有個高斯分布分布,就是說剛才提到的分布都比較簡單,我們能不能把它們整合起來,設(shè)計我想要的分布。這就用到高斯混合模型,這個圖里面他構(gòu)造了三種概率分布:

  • 第一種的表述是“各向同性”,其中x1、x2兩個變量的分布的方差,必須一樣。那么從整個形成的幾何形狀看來,這些數(shù)據(jù)點(diǎn)就像一個球形或者是圓形。每一個方向的方差是一樣的,是規(guī)則的形狀。如果不滿足就變成二和三的情形。

  • 第二組是用一個對角陣,就是x1和x2在方陣的對角線上,其他位置是零,控制y這個維度上面的方差,把它放大了;相當(dāng)于把第一種的變化做了一下拉伸。

  • 第三種情況類似的,把X軸也做一下拉伸;當(dāng)然在Y軸方向也有拉伸,這個是說x1、x2兩個變量的方向可以做任意的控制,這就是高斯混合模型的作用,可以按照你想要的分布去設(shè)計。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這里提幾個大人物,一個是數(shù)學(xué)王子高斯,他和阿基米德、牛頓并列為世界三大數(shù)學(xué)家。德國的貨幣叫馬克,十馬克上面印的頭像就是高斯,頭像左邊就是正態(tài)分布;硬幣上也有。好像只有德國把科學(xué)家印在紙幣上面,其他的國家基本都是政治人物,這也體現(xiàn)日耳曼這個民族的可怕。(值得學(xué)習(xí))

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是標(biāo)準(zhǔn)正態(tài)分布。一倍標(biāo)準(zhǔn)差、兩倍、三倍的位置對應(yīng)的面積不同,分別覆蓋了68%、95%、99.7%。三倍標(biāo)準(zhǔn)差以外的事件就當(dāng)作小概率事件,這也是它的定義方式。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

右圖是一些相關(guān)用法,比如假設(shè)檢驗里面會驗證α,也叫分位數(shù),比如就0.05以上的概率是什么,驗證一下對點(diǎn)估計或者區(qū)間估計的可信度。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

常用函數(shù),這是一個sigmoid,它有飽和特性。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

還有一個softplus,它是softmax的一種弱化;softmax從右往左下降會直接到0,在0的位置有一個突變,然后繼續(xù)走;0這個點(diǎn)的左導(dǎo)數(shù)和右導(dǎo)數(shù)是不一樣的,左導(dǎo)數(shù)是0,右導(dǎo)數(shù)是1,所以0這個點(diǎn)上的導(dǎo)數(shù)是不存在的。怎么辦呢?為了數(shù)學(xué)上面好看,而且求導(dǎo)方便,那就把它變成softplus,在0這個點(diǎn)做變換之后就整個平滑起來,每個點(diǎn)的都是可導(dǎo)的。實際上在書里面也提到一點(diǎn),平時其實深度網(wǎng)絡(luò)DNN里面會經(jīng)常用到ReLU,ReLU里就是softmax。softmax是ReLU的一種推廣。ReLU里0點(diǎn)也是不可導(dǎo)的,就有一些規(guī)則的方法,就是如果到了這個點(diǎn)的話,他會給要么是0,要么是1,視具體情況而論。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是一些概率函數(shù)的基本性質(zhì)。sigmoid求導(dǎo)非常方便,還有其他一些特性。softplus也有一些很好的性質(zhì),(x)-(-x)起來就等于x,挺簡單。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

頻率學(xué)派和貝葉斯學(xué)派。先講講貝葉斯這個人,他剛開始只是一個牧師,就是一個神職人員,滑稽的是,他做數(shù)學(xué)研究是為了研究神的存在;這個跟牛頓有點(diǎn)像,不過牛頓前期是不怎么研究,到老了研究上帝,最后沒什么成果。貝葉斯是一個徹頭徹尾的學(xué)術(shù)屌絲,在1742年就加入了皇家學(xué)會;當(dāng)時也是有牛人給推薦了,他沒有發(fā)表過任何論文,不知道怎么的就進(jìn)去了;后來也挺凄慘,到1761年死了也沒什么消息。1763年,他的遺作被人發(fā)現(xiàn)「論機(jī)會學(xué)說中一個問題的求解」,貝葉斯理論就從此誕生。

誕生時,還是波瀾不驚,沒有什么影響。直到20世紀(jì),也就是過了幾百年(對,等黃花菜都涼了,花兒都謝了),貝葉斯理論就開始越來越有用了,成為現(xiàn)在概率里面的第二大門派,一般提到概率就會提到頻率學(xué)派和貝葉斯學(xué)派。這個人物跟梵高一樣,生前一文不值,死后價值連城。貝爺(別想多了,不是荒野求生)非常非常的低調(diào)。

還有一個更加悲劇的數(shù)學(xué)天才——迦羅瓦,他是群論的創(chuàng)始人,法國人,也是非常厲害的一個天才。十幾歲就提出五次多項式方程組的解不存在,論文先后給別人看,希望大神引薦、宣傳一下,結(jié)果被柯西、傅里葉、泊松等人各種理由錯失,有的遺失、有的拒絕,反正那些大師都不看好。然后到21歲的時候,年少氣盛,一不開心就跟情敵決斗,這個情敵是個警探,居然用槍決斗,然后光榮的掛了。

當(dāng)然,決斗前夜他知道自己會掛(明知要死,還有去送死,這是種什么精神?),所以連夜把自己的書稿整理一下,交代后事,這才有群論的誕生。后來人對他評判是“笨死的天才”,他的英年作死直接導(dǎo)致整個數(shù)學(xué)發(fā)展推遲了幾十年。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

上面圖中是貝葉斯,不一定是他本人,因為這個人太低調(diào),連張頭像可能都找不到,沒有人能夠記清楚了,所以這個不一定是。下面的就是迦羅瓦,中槍倒下ing。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是貝葉斯規(guī)則,就是條件概率。x和y是兩個隨機(jī)變量,y發(fā)生的情況下x會發(fā)生的概率是 x單獨(dú)發(fā)生的概率乘x發(fā)生的情況下y發(fā)生的概率,除以y單獨(dú)發(fā)生概率。一般拿這個做一些判別分類。機(jī)器學(xué)習(xí)里面分兩大類生成式和判別式,判別式的一個典型就是貝斯規(guī)則;生成式的方法跟判別式方法區(qū)別就是,生成式盡可能用模型去擬合它的聯(lián)合分布,而判別式擬合的是一種條件分布。

貝葉斯學(xué)派和頻率學(xué)派最大的不同、根上的不同,就是在于模型 y=wx+b 其中的w和b兩個參數(shù),頻率學(xué)派認(rèn)為參數(shù)是固定的,只要通過不停的采樣、不停的觀測訓(xùn)練,就能夠估算參數(shù)w和b,因為它們是固定不變的;而貝葉斯學(xué)派相反,他們認(rèn)為這些參數(shù)是變量,它們是服從一定的分布的,這是它最根本的差別。在這個基礎(chǔ)上演變的最大似然估計、或者M(jìn)AP等等的都不一樣。這完全是兩個不同的流派。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

由條件概率引申出來的貝葉斯規(guī)則。像這個a、b、c的聯(lián)合分布可以表示成這樣,然后它可以對應(yīng)一個圖,概率圖。像這樣。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

a發(fā)生、b發(fā)生是有一定的依賴關(guān)系的。一般如果a、b、c完全是獨(dú)立的就好說了,那p(a,b,c)就等于p(a)、p(b)、p(c)的乘積。這個圖跟TensorFlow里面的圖是一回事。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

下面介紹一下信息論。信息論是香農(nóng)這個人提出來的,在1948年他發(fā)表了一篇論文叫“通信的數(shù)學(xué)原理”,對信息通信行業(yè)的影響非常大,相當(dāng)于計算機(jī)行業(yè)的馮諾依曼這個級別。不過他的功勞一直被低估(吳軍《數(shù)學(xué)之美》)。

信息論主要解決什么問題呢?第一,概率是事件發(fā)生時的可能性,怎么度量信息量的大???第二是對于某個隨機(jī)事件,比如說今天下雨這句話,到底有多少什么信息量?如果是在南方的話,可能經(jīng)常下雨,那信息量不大;如果在北方或者在北極,這個信息量就大了去了。還有今天是晴天還是可能下冰雹,實際上這是隨機(jī)事件的概率分布,這個分布有多少信息量就用熵來衡量。上面就是自信息,有條件分布,對應(yīng)的是條件熵;還有互信息等等。

總之,信息論是建立在概率論的基礎(chǔ)上,概率論里面基本上每一種概率都能對應(yīng)到信息論里面的解釋。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是香農(nóng)和三種書里面提到的三種特性:

  • 非??赡馨l(fā)生的事件,它的信息量比較少,因為它確定性比較高;

  • 而不可能發(fā)生的,或者是很少發(fā)生的,它的信息量就比較大;

  • 獨(dú)立事件具有增量的信息,剛才說的下雨就是一個例子;另一個例子是太陽從東邊升起和從西邊升起,這兩個事件是完全獨(dú)立的,兩個事件的信息量可以累加起來。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是信息論的幾個概念,自信息、互信息、條件熵 。上面的公式是自信息的標(biāo)準(zhǔn),直接就取一個對數(shù)而已,加上負(fù)號。熵就是把多種情況累加起來再取均值。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

信息論現(xiàn)在是跟各個行業(yè)、各個領(lǐng)域都是密切相關(guān)的,像統(tǒng)計學(xué)、經(jīng)濟(jì)學(xué)、數(shù)學(xué),影響非常大。

看左邊的圖是不同的熵之間的關(guān)系。左邊整個圈是x事件的范圍,中間交叉的部分是互信息。不同熵之間的關(guān)系用韋恩圖來表示。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這里有一個交叉熵,也是重點(diǎn)提到的概念。這是衡量事件發(fā)生的概率,像左側(cè)靠近零,說明這個事件發(fā)生的可能性很小,那么它對應(yīng)的信息量較少;然后到中間0.5的地方,比如說扔硬幣有兩種結(jié)果,兩種結(jié)果0.5基本上靠猜,完全隨機(jī)了;對于這樣分不清到底結(jié)果是什么樣的,對應(yīng)的信息量最大的;類似的到另外一個極端,就是這個事件確定是可以發(fā)生的,可能性很大的,那信息量也小。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這里還有一個KL散度,基本上是衡量兩個概率分布的差異。這個公式也很復(fù)雜,你們自己去琢磨,必須要看,看一遍然后才有直觀的理解?,F(xiàn)在講也講不清楚。(注:信息論也可以形象起來,參考:colah's blog,Visual Information Theory

機(jī)器學(xué)習(xí)里面還有一個交叉熵,cross-entropy,跟熵是密切相關(guān)的,它的差別就是少了一項。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

這是KL散度,它是不對稱的,就是說概率p和概率q的順序調(diào)一下是不同的概念,兩個順序不同要用于不同的場景。它的目標(biāo)是要構(gòu)造一個概率分布 q,去近似擬合、去模擬另外一個概率分布p。這個p分布是由兩個正態(tài)分布組合起來的,兩個疊加起來。怎么用q擬合它呢,如果用左邊的散度去度量,算分布之間的誤差,這個誤差對應(yīng)的就是KL散度,然后根據(jù)KL散度去有方向地去調(diào)整。這是它的過程,類似于機(jī)器學(xué)習(xí)里面的過程。

如果用左邊的KL散度,p在前q在后,那我們會得到這樣一個結(jié)果;綠色的是擬合的概率。它的效果是保證在高概率的地方,擬合的概率要高,而不考慮低概率的部分,所以結(jié)果就會做一個平滑。概率的總和還是1,要保證歸一性嘛。右邊反過來,q在前p在后,那么低概率要優(yōu)先保證,高概率就忽略了,那么這個擬合的概率分布就盡量往一個峰靠,只能保證一個峰。這就解釋了KL散度不對稱性的應(yīng)用,可以按照不同的應(yīng)用場景取不同的方向。

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

剛才PPT里面講的大致的內(nèi)容,圖都是來自于「大嘴巴漫談數(shù)據(jù)挖掘」這本書,朱向軍的,這本書全部用圖的方式去解釋,非常好;還有「數(shù)學(xué)之美」和一些概念。

好,我這邊講完了。

雷鋒網(wǎng) AI 科技評論整理。感謝王奇文嘉賓的分享以及對本文的校對和補(bǔ)充。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

「Deep Learning」讀書系列分享第三章:概率和信息論 | 分享總結(jié)

分享:

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說