1
本文作者: 李尊 | 2016-08-17 20:37 |
貝葉斯統(tǒng)計(jì)在機(jī)器學(xué)習(xí)中占有一個(gè)什么樣的地位,它的原理以及實(shí)現(xiàn)過(guò)程又是如何的?本文對(duì)相關(guān)概念以及原理進(jìn)行了介紹。
引言:在很多分析學(xué)者看來(lái),貝葉斯統(tǒng)計(jì)仍然是難以理解的。受機(jī)器學(xué)習(xí)這股熱潮的影響,我們中很多人都對(duì)統(tǒng)計(jì)學(xué)失去了信心。我們的關(guān)注焦點(diǎn)已經(jīng)縮小到只探索機(jī)器學(xué)習(xí)了,難道不是嗎?
機(jī)器學(xué)習(xí)難道真的是解決真實(shí)問(wèn)題的唯一方法?在很多情況下,它并不能幫助我們解決問(wèn)題,即便在這些問(wèn)題中存在著大量數(shù)據(jù)。從最起碼來(lái)說(shuō),你應(yīng)該要懂得一定的統(tǒng)計(jì)學(xué)知識(shí)。這將讓你能夠著手復(fù)雜的數(shù)據(jù)分析問(wèn)題,不管數(shù)據(jù)的大小。
在18世界70年代,Thomas Bayes提出了“貝葉斯理論”,即便在幾個(gè)世紀(jì)后,貝葉斯統(tǒng)計(jì)的重要性也沒(méi)有減弱。事實(shí)上,世界上那些最優(yōu)秀的大學(xué)都在教授有關(guān)這個(gè)話題的深度課程。
在真正介紹貝葉斯統(tǒng)計(jì)之前,首先來(lái)了解下頻率統(tǒng)計(jì)這個(gè)概念。
有關(guān)頻率統(tǒng)計(jì)和貝葉斯統(tǒng)計(jì)的爭(zhēng)論以及持續(xù)了好幾個(gè)世紀(jì),因此對(duì)于初學(xué)者來(lái)說(shuō)理解這兩者的區(qū)別,以及如何劃分這兩者十分重要。
它是統(tǒng)計(jì)領(lǐng)域中應(yīng)用最為廣泛的推理技術(shù)。事實(shí)上,它是初學(xué)者進(jìn)入統(tǒng)計(jì)學(xué)世界中的第一所學(xué)校。頻率統(tǒng)計(jì)檢測(cè)一個(gè)事件(或者假設(shè))是否發(fā)生,它通過(guò)長(zhǎng)時(shí)間的試驗(yàn)計(jì)算某個(gè)事件發(fā)生的可能性(試驗(yàn)是在同等條件下進(jìn)行的)。
在此處,使用固定大小的采樣分布作為例子。然后該實(shí)驗(yàn)理論上無(wú)限次重復(fù)的,但實(shí)際上是帶著停止的意圖的。例如當(dāng)我腦海中帶著停止的意圖時(shí),它重復(fù)1000次或者在擲硬幣過(guò)程中我看到最少300詞頭在上的話,我將停止進(jìn)行實(shí)驗(yàn)?,F(xiàn)在讓我們進(jìn)一步了解:
通過(guò)擲硬幣的例子我們就會(huì)明白頻率統(tǒng)計(jì),目的是估計(jì)拋硬幣的公平性,下表是代表拋硬幣過(guò)程中頭在上的次數(shù):
我們知道在公平的擲硬幣過(guò)程中得到一個(gè)頭在上的那概率為0.5。我們使用No. of heads表示所得頭在上的實(shí)際數(shù)量。Difference表示0.5*(No. of tosses) 與 no. of heads之間的差別。
要注意的是,雖然投擲的數(shù)量增加時(shí),頭在上的實(shí)際數(shù)量和頭在上的預(yù)期數(shù)(拋擲數(shù)目的50%)之間的差異會(huì)逐漸增大。但是以拋擲的總數(shù)來(lái)說(shuō),頭在上出現(xiàn)的比例接近0.5(一個(gè)公平的硬幣)。
該實(shí)驗(yàn)中我們?cè)陬l率方法中發(fā)現(xiàn)了一個(gè)很常見(jiàn)的缺陷:實(shí)驗(yàn)結(jié)果的獨(dú)立性與實(shí)驗(yàn)次數(shù)是重復(fù)的。
到這里,我們開(kāi)始來(lái)探討頻率統(tǒng)計(jì)的缺陷:
在20世紀(jì)有大量的頻率統(tǒng)計(jì)被應(yīng)用到許多模型中來(lái)檢測(cè)樣本之間是否不同,一個(gè)參數(shù)要放在模型和假設(shè)檢驗(yàn)的多種表現(xiàn)中足夠重要。但是頻率統(tǒng)計(jì)在設(shè)計(jì)和實(shí)現(xiàn)過(guò)程存在一些重大缺陷,這些在現(xiàn)實(shí)中的問(wèn)題引起相當(dāng)大的關(guān)注。例如:
1. p-values 對(duì)固定大小的樣本進(jìn)行檢測(cè)。如果兩個(gè)人對(duì)相同的數(shù)據(jù)工作,并有不同的制動(dòng)意向,他們可能會(huì)得到兩種不同的p- values。
2. 置信區(qū)間(CI)和p-value一樣,在很大程度上取決于樣本的大小。因?yàn)闊o(wú)論多少人如何執(zhí)行相同的數(shù)據(jù)測(cè)試,其結(jié)果應(yīng)該是一致的。
3. 置信區(qū)間(CI)不是概率分布,因此它們不提供最可能的值以及其參數(shù)。
這三個(gè)理由足以讓你對(duì)于頻率統(tǒng)計(jì)的缺陷進(jìn)行思考,以及對(duì)為什么需要貝葉斯方法進(jìn)行考慮。
有關(guān)貝葉斯統(tǒng)計(jì)的基礎(chǔ)知識(shí)就先了解到這里。
“貝葉斯統(tǒng)計(jì)是將概率運(yùn)用到統(tǒng)計(jì)問(wèn)題中的數(shù)學(xué)過(guò)程。它提供給人們工具來(lái)更新數(shù)據(jù)中的證據(jù)?!币玫睦斫膺@個(gè)問(wèn)題,我們需要對(duì)于一些概念要有所認(rèn)識(shí)。此外,也需要有一定的前提:
線性代數(shù)
概率論與數(shù)基本統(tǒng)計(jì)
3.1條件概率
條件概率被定義為:事件A中給定事件B的概率等于B和A一起發(fā)生的概率再除以B的概率
例如:如下圖所示設(shè)兩部分相交集A和B
集合A代表一組事件,集合B代表了另一組。我們希望計(jì)算給定B的概率已經(jīng)發(fā)生了的概率,讓我們用紅色代表事件B的發(fā)生。
現(xiàn)在,因?yàn)锽已經(jīng)發(fā)生了,現(xiàn)在重要的A的部分是在藍(lán)色陰影部分。如此,一個(gè)給定的B的概率是:
因此,事件B的公式是:
要么
現(xiàn)在,第二方程可以改寫(xiě)為:
這就是所謂的條件概率。
假設(shè),B是James Hunt的中獎(jiǎng)事件,A是一個(gè)下雨的事件。因此,
P(A)= 1/2,由于每倆天都會(huì)下一次雨。
P(B)為1/4,因?yàn)檎材匪姑克拇伪荣愔悔A一次。
P(A | B)= 1,因?yàn)槊看蜗掠闖ames都贏。
條件概率公式中代入數(shù)值,我們得到的概率在50%左右,這幾乎是25%的兩倍(下雨的情況不考慮)。
也許,你已經(jīng)猜到了,它看起來(lái)像貝葉斯定理。
貝葉斯定理建立在條件概率的頂部,位于貝葉斯推理的心臟地區(qū)。
3.2 貝葉斯定理
下圖可以幫助理解貝葉斯定理:
現(xiàn)在,B可被寫(xiě)為
因此,B的概率可以表示為,
但
因此,我們得到
這就是貝葉斯定理方程。
讓我們從拋硬幣的例子來(lái)理解貝葉斯推理背后的過(guò)程:
貝葉斯推理中一個(gè)重要的部分是建立參數(shù)和模型。
模型觀察到的事件的數(shù)學(xué)公式,參數(shù)是在模型中影響觀察到數(shù)據(jù)的因素。例如在擲硬幣過(guò)程中,硬幣的公平性 可以被定義為θ——表示硬幣的參數(shù)。事件的結(jié)果可以用D表示
4個(gè)硬幣頭朝上的概率即給定硬幣(θ)的公平性,即P(D|θ)
讓我們用貝葉斯定理表示:
P(θ|D)=(P(D|θ) X P(θ))/P(D)
P(D|θ) 是考慮到我們給定分布θ時(shí),我們結(jié)果的可能性。如果我們知道硬幣是公平的,這就是觀測(cè)到的頭朝上的概率。
P(D)就是證據(jù),這是因?yàn)橥ㄟ^(guò)在θ的所有可能的值,是θ的那些特定值加權(quán)求和(或積分)確定的數(shù)據(jù)的概率。
如果我們的硬幣的公正性是多個(gè)視圖(但不知道是肯定的),那么這告訴我們看到翻轉(zhuǎn)的一定順序?yàn)槲覀冊(cè)谟矌诺墓叫拍钏锌赡苄缘母怕省?/p>
P(θ|D) 是觀察,即頭在上數(shù)目之后我們的參數(shù)。
4.1 伯努利近似函數(shù)
回顧讓我們了解了似然函數(shù)。所以,我們得知:
它是觀察翻轉(zhuǎn)為硬幣的一個(gè)給定的公平的特定數(shù)目的磁頭的特定數(shù)目的概率。這意味著我們的觀察頭概率/萬(wàn)尾取決于硬幣(θ)的公平性。
P(y=1|θ)= [如果硬幣是公平的θ= 0.5,觀察到頭的概率(Y = 1)為0.5]
P(y=0|θ)= [如果硬幣是公平的θ= 0.5,觀察到尾部的概率(Y = 0)為0.5]
值得注意的是,1為頭和0為尾是一個(gè)數(shù)學(xué)符號(hào)制定的典范。我們可以將上述數(shù)學(xué)定義結(jié)合成一個(gè)單一的定義來(lái)表示兩者的結(jié)果的概率。
P(Y |θ)=
這就是所謂的伯努利近似函數(shù),拋硬幣的任務(wù)被稱(chēng)為伯努利試驗(yàn)。
y={0,1},θ=(0,1)
而且,當(dāng)我們想看到一系列的頭或翻轉(zhuǎn),它的概率為:
此外,如果我們感興趣的是頭的數(shù)目的概率?在卷起?數(shù)翻轉(zhuǎn)下的情況,則概率如下所示:
4.2 前置信度分布
這個(gè)分布用于表示關(guān)于基于以往的經(jīng)驗(yàn),我們的參數(shù)分布情況。
但是,如果一個(gè)人沒(méi)有之前的經(jīng)驗(yàn)?zāi)兀?/p>
不用擔(dān)心,數(shù)學(xué)家們想出了方法來(lái)緩解這一問(wèn)題。它被認(rèn)為是uninformative priors。
那么,用來(lái)表示先驗(yàn)數(shù)學(xué)函數(shù)稱(chēng)為beta distribution, 它有一些非常漂亮的數(shù)學(xué)特性,使我們對(duì)建模有關(guān)二項(xiàng)分布有所了解。
Beta分布的概率密度函數(shù)的形式為:
在這里,我們的焦點(diǎn)停留在分子上,分母那里只是為了確保整合后的總概率密度函數(shù)的計(jì)算結(jié)果為1。
α和 β被稱(chēng)為形狀決定密度函數(shù)的參數(shù)。這里α類(lèi)似于試驗(yàn)中出現(xiàn)頭的數(shù)量,β對(duì)應(yīng)于實(shí)驗(yàn)中尾的數(shù)量。下圖將幫助您想象不同值中 α和 β的測(cè)試分布
你也可以使用R中的代碼繪制自己的Beta分布:
> library(stats)
> par(mfrow=c(3,2))
> x=seq(0,1,by=o.1)
> alpha=c(0,2,10,20,50,500)
> beta=c(0,2,8,11,27,232)
> for(i in 1:length(alpha)){
y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
plot(x,y,type="l")
}
注: α和β是直觀的理解,因?yàn)樗鼈兛梢酝ㄟ^(guò)已知的平均值(μ)和分布的標(biāo)準(zhǔn)偏差(σ)來(lái)計(jì)算。實(shí)際上,它們是相關(guān)的:
如果分發(fā)的平均值和標(biāo)準(zhǔn)偏差是已知的,那么有形狀參數(shù)可以容易地計(jì)算出來(lái)。
從上面的圖表可以推理出:
當(dāng)沒(méi)有拋擲的時(shí)候,我們認(rèn)為硬幣的公平性可以通過(guò)一條平滑的線來(lái)描繪。
當(dāng)頭比尾部出現(xiàn)的更多時(shí),圖中顯示的峰值向右一側(cè)移動(dòng),表明頭出現(xiàn)的可能性較大,以及硬幣是不公平的。
隨著越來(lái)越多的拋擲動(dòng)作完成后,頭所占比重較大的峰值變窄,增加了我們對(duì)硬幣拋擲公正性的信心。
4.3 后置信度分布
我們選擇之前所相信的原因是為了獲得一個(gè)β分布,這是因?yàn)楫?dāng)我們用一個(gè)近似函數(shù)相乘,后驗(yàn)分布產(chǎn)生類(lèi)似于現(xiàn)有分配,這是很容易涉及到和理解的形式。
使用貝葉斯定理進(jìn)行計(jì)算
之間的公式變?yōu)?/p>
只要知道的平均值和我們的參數(shù)標(biāo)準(zhǔn)發(fā)布 θ,并通過(guò)觀察頭的N翻轉(zhuǎn),可以更新我們對(duì)模型參數(shù)的(θ)。
讓我們用一個(gè)簡(jiǎn)單的例子來(lái)理解這一點(diǎn):
假設(shè),你認(rèn)為一個(gè)硬幣有失偏頗。它具有為0.1的標(biāo)準(zhǔn)偏差,約0.6的平均(μ)偏差。
然后 ,α= 13.8 , β=9.2
假設(shè)你觀察到80次頭在上(z=80在100翻轉(zhuǎn)中)( N=100)。則
prior = P(θ|α,β)=P(θ|13.8,9.2)
Posterior = P(θ|z+α,N-z+β)=P(θ|93.8,29.2)
將其圖像化:
上述圖中的R代碼實(shí)現(xiàn)過(guò)程是:
> library(stats)
> x=seq(0,1,by=0.1)
> alpha=c(13.8,93.8)
> beta=c(9.2,29.2)
> for(i in 1:length(alpha)){
y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
plot(x,y,type="l",xlab = "theta",ylab = "density")}
隨著越來(lái)越多的翻轉(zhuǎn)被執(zhí)行,以及新的數(shù)據(jù)觀察到,我們能進(jìn)一步得到更新,這是貝葉斯推理的真正力量。
無(wú)需使用到嚴(yán)格的數(shù)學(xué)結(jié)構(gòu),這部分將提供不同的頻率論和貝葉斯方法預(yù)覽。相關(guān)的簡(jiǎn)要概述,以及測(cè)試組哪種方法最可靠,和它們的顯著性和差異性。
5.1 p值
針對(duì)特定樣本的t分和固定大小樣本中的分布是計(jì)算好的,然后p值也被預(yù)測(cè)到了。我們可以這樣解釋p值:(以p值的一例0.02均值100的分布):有2%的可能性的樣品將具有等于100的平均值。
這種解釋說(shuō)明從取樣不同尺寸的分布,人們勢(shì)必會(huì)得到不同的T值,因此不同的p值的缺陷受到影響。p值小于5%并不能保證零假設(shè)是錯(cuò)誤的,也沒(méi)有p值大于5%確保零假設(shè)是正確的。
5.2 置信區(qū)間
置信區(qū)間也有同樣的缺陷,此外因CI不是一個(gè)概率分布,沒(méi)有辦法知道哪些值是最有可能的。
5.3 貝葉斯因子
貝葉斯因子是p值在貝葉斯框架等價(jià)量。
零假設(shè)在貝葉斯框架:僅在一個(gè)參數(shù)的特定值(例如θ= 0.5)和其他地方零概率假定∞概率分布。(M1)
另一種假設(shè)是θ的所有值都是可能的,因此代表分布曲線是平坦的。(M2)
現(xiàn)在,新數(shù)據(jù)的后驗(yàn)分布如下圖所示。
θ的各種值代表貝葉斯統(tǒng)計(jì)調(diào)整可信度(概率)??梢院苋菀椎乜闯觯怕史植家呀?jīng)轉(zhuǎn)向M2具有更高的值M1,即M2更可能發(fā)生。
貝葉斯因子不依賴(lài)于θ的實(shí)際分配值,但在M1和M2的值幅度間移位。
在面板A(上圖所示):左邊欄是零假設(shè)的先驗(yàn)概率。
在圖B(上圖所示),左邊欄是零假設(shè)的后驗(yàn)概率。
貝葉斯因子被定義為后驗(yàn)概率的對(duì)現(xiàn)有的進(jìn)行對(duì)比:
要拒絕零假設(shè),BF <1/10是首選。
我們可以看到使用貝葉斯因子代替p值的好處,它們具有獨(dú)立的意圖和樣本量。
5.4 高密度間隔(HDI)
HDI由后驗(yàn)分布觀察新數(shù)據(jù)形成,由于HDI是一個(gè)概率,95%的HDI給出95%的最可信的值。它也保證了95%的值將處于不同的CI區(qū)間。
請(qǐng)注意,前95%的HDI比95%后驗(yàn)分布更廣泛,這是因?yàn)槲覀冊(cè)贖DI中增加了對(duì)新數(shù)據(jù)的觀察。
總結(jié):貝葉斯統(tǒng)計(jì)作為一個(gè)基礎(chǔ)算法,在機(jī)器學(xué)習(xí)中占據(jù)重要的一席之地。特別是在數(shù)據(jù)處理方面,針對(duì)事件發(fā)生的概率以及事件可信度分析上具有良好的分類(lèi)效果。
PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
via analyticsvidhya
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。