傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

本文作者：李尊

2016-08-17 20:37

導(dǎo)語(yǔ)：貝葉斯統(tǒng)計(jì)在機(jī)器學(xué)習(xí)中占有一個(gè)什么樣的地位，它的原理以及實(shí)現(xiàn)過(guò)程又是如何的？本文對(duì)相關(guān)概念以及原理進(jìn)行了介紹。

貝葉斯統(tǒng)計(jì)在機(jī)器學(xué)習(xí)中占有一個(gè)什么樣的地位，它的原理以及實(shí)現(xiàn)過(guò)程又是如何的？本文對(duì)相關(guān)概念以及原理進(jìn)行了介紹。

引言：在很多分析學(xué)者看來(lái)，貝葉斯統(tǒng)計(jì)仍然是難以理解的。受機(jī)器學(xué)習(xí)這股熱潮的影響，我們中很多人都對(duì)統(tǒng)計(jì)學(xué)失去了信心。我們的關(guān)注焦點(diǎn)已經(jīng)縮小到只探索機(jī)器學(xué)習(xí)了，難道不是嗎？

機(jī)器學(xué)習(xí)難道真的是解決真實(shí)問(wèn)題的唯一方法？在很多情況下，它并不能幫助我們解決問(wèn)題，即便在這些問(wèn)題中存在著大量數(shù)據(jù)。從最起碼來(lái)說(shuō)，你應(yīng)該要懂得一定的統(tǒng)計(jì)學(xué)知識(shí)。這將讓你能夠著手復(fù)雜的數(shù)據(jù)分析問(wèn)題，不管數(shù)據(jù)的大小。

在18世界70年代，Thomas Bayes提出了“貝葉斯理論”，即便在幾個(gè)世紀(jì)后，貝葉斯統(tǒng)計(jì)的重要性也沒(méi)有減弱。事實(shí)上，世界上那些最優(yōu)秀的大學(xué)都在教授有關(guān)這個(gè)話題的深度課程。

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

在真正介紹貝葉斯統(tǒng)計(jì)之前，首先來(lái)了解下頻率統(tǒng)計(jì)這個(gè)概念。

1. 頻率統(tǒng)計(jì)

有關(guān)頻率統(tǒng)計(jì)和貝葉斯統(tǒng)計(jì)的爭(zhēng)論以及持續(xù)了好幾個(gè)世紀(jì)，因此對(duì)于初學(xué)者來(lái)說(shuō)理解這兩者的區(qū)別，以及如何劃分這兩者十分重要。

它是統(tǒng)計(jì)領(lǐng)域中應(yīng)用最為廣泛的推理技術(shù)。事實(shí)上，它是初學(xué)者進(jìn)入統(tǒng)計(jì)學(xué)世界中的第一所學(xué)校。頻率統(tǒng)計(jì)檢測(cè)一個(gè)事件（或者假設(shè)）是否發(fā)生，它通過(guò)長(zhǎng)時(shí)間的試驗(yàn)計(jì)算某個(gè)事件發(fā)生的可能性（試驗(yàn)是在同等條件下進(jìn)行的）。

在此處，使用固定大小的采樣分布作為例子。然后該實(shí)驗(yàn)理論上無(wú)限次重復(fù)的，但實(shí)際上是帶著停止的意圖的。例如當(dāng)我腦海中帶著停止的意圖時(shí)，它重復(fù)1000次或者在擲硬幣過(guò)程中我看到最少300詞頭在上的話，我將停止進(jìn)行實(shí)驗(yàn)?，F(xiàn)在讓我們進(jìn)一步了解：

通過(guò)擲硬幣的例子我們就會(huì)明白頻率統(tǒng)計(jì)，目的是估計(jì)拋硬幣的公平性，下表是代表拋硬幣過(guò)程中頭在上的次數(shù)：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

我們知道在公平的擲硬幣過(guò)程中得到一個(gè)頭在上的那概率為0.5。我們使用No. of heads表示所得頭在上的實(shí)際數(shù)量。Difference表示0.5*(No. of tosses) 與 no. of heads之間的差別。

要注意的是，雖然投擲的數(shù)量增加時(shí)，頭在上的實(shí)際數(shù)量和頭在上的預(yù)期數(shù)（拋擲數(shù)目的50％）之間的差異會(huì)逐漸增大。但是以拋擲的總數(shù)來(lái)說(shuō)，頭在上出現(xiàn)的比例接近0.5（一個(gè)公平的硬幣）。

該實(shí)驗(yàn)中我們?cè)陬l率方法中發(fā)現(xiàn)了一個(gè)很常見(jiàn)的缺陷：實(shí)驗(yàn)結(jié)果的獨(dú)立性與實(shí)驗(yàn)次數(shù)是重復(fù)的。

2. 頻率統(tǒng)計(jì)的內(nèi)在缺陷

到這里，我們開(kāi)始來(lái)探討頻率統(tǒng)計(jì)的缺陷：

在20世紀(jì)有大量的頻率統(tǒng)計(jì)被應(yīng)用到許多模型中來(lái)檢測(cè)樣本之間是否不同，一個(gè)參數(shù)要放在模型和假設(shè)檢驗(yàn)的多種表現(xiàn)中足夠重要。但是頻率統(tǒng)計(jì)在設(shè)計(jì)和實(shí)現(xiàn)過(guò)程存在一些重大缺陷，這些在現(xiàn)實(shí)中的問(wèn)題引起相當(dāng)大的關(guān)注。例如：

1. p-values 對(duì)固定大小的樣本進(jìn)行檢測(cè)。如果兩個(gè)人對(duì)相同的數(shù)據(jù)工作，并有不同的制動(dòng)意向，他們可能會(huì)得到兩種不同的p- values。

2. 置信區(qū)間（CI）和p-value一樣，在很大程度上取決于樣本的大小。因?yàn)闊o(wú)論多少人如何執(zhí)行相同的數(shù)據(jù)測(cè)試，其結(jié)果應(yīng)該是一致的。

3. 置信區(qū)間（CI）不是概率分布，因此它們不提供最可能的值以及其參數(shù)。

這三個(gè)理由足以讓你對(duì)于頻率統(tǒng)計(jì)的缺陷進(jìn)行思考，以及對(duì)為什么需要貝葉斯方法進(jìn)行考慮。

有關(guān)貝葉斯統(tǒng)計(jì)的基礎(chǔ)知識(shí)就先了解到這里。

3.貝葉斯統(tǒng)計(jì)

“貝葉斯統(tǒng)計(jì)是將概率運(yùn)用到統(tǒng)計(jì)問(wèn)題中的數(shù)學(xué)過(guò)程。它提供給人們工具來(lái)更新數(shù)據(jù)中的證據(jù)?！币玫睦斫膺@個(gè)問(wèn)題，我們需要對(duì)于一些概念要有所認(rèn)識(shí)。此外，也需要有一定的前提：

線性代數(shù)
概率論與數(shù)基本統(tǒng)計(jì)

3.1條件概率

條件概率被定義為：事件A中給定事件B的概率等于B和A一起發(fā)生的概率再除以B的概率

例如：如下圖所示設(shè)兩部分相交集A和B

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

集合A代表一組事件，集合B代表了另一組。我們希望計(jì)算給定B的概率已經(jīng)發(fā)生了的概率，讓我們用紅色代表事件B的發(fā)生。

現(xiàn)在，因?yàn)锽已經(jīng)發(fā)生了，現(xiàn)在重要的A的部分是在藍(lán)色陰影部分。如此，一個(gè)給定的B的概率是：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

因此，事件B的公式是：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

要么

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

現(xiàn)在，第二方程可以改寫(xiě)為：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

這就是所謂的條件概率。

假設(shè)，B是James Hunt的中獎(jiǎng)事件，A是一個(gè)下雨的事件。因此，

P（A）= 1/2，由于每倆天都會(huì)下一次雨。
P（B）為1/4，因?yàn)檎材匪姑克拇伪荣愔悔A一次。
P（A | B）= 1，因?yàn)槊看蜗掠闖ames都贏。

條件概率公式中代入數(shù)值，我們得到的概率在50％左右，這幾乎是25％的兩倍（下雨的情況不考慮）。

也許，你已經(jīng)猜到了，它看起來(lái)像貝葉斯定理。

貝葉斯定理建立在條件概率的頂部，位于貝葉斯推理的心臟地區(qū)。

3.2 貝葉斯定理

下圖可以幫助理解貝葉斯定理：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

現(xiàn)在，B可被寫(xiě)為

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

因此，B的概率可以表示為，

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

但

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

因此，我們得到

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

這就是貝葉斯定理方程。

4.貝葉斯推理

讓我們從拋硬幣的例子來(lái)理解貝葉斯推理背后的過(guò)程：

貝葉斯推理中一個(gè)重要的部分是建立參數(shù)和模型。

模型觀察到的事件的數(shù)學(xué)公式，參數(shù)是在模型中影響觀察到數(shù)據(jù)的因素。例如在擲硬幣過(guò)程中，硬幣的公平性可以被定義為θ——表示硬幣的參數(shù)。事件的結(jié)果可以用D表示

4個(gè)硬幣頭朝上的概率即給定硬幣（θ）的公平性，即P(D|θ)

讓我們用貝葉斯定理表示：

P(θ|D)=(P(D|θ) X P(θ))/P(D)

P(D|θ) 是考慮到我們給定分布θ時(shí)，我們結(jié)果的可能性。如果我們知道硬幣是公平的，這就是觀測(cè)到的頭朝上的概率。

P(D)就是證據(jù)，這是因?yàn)橥ㄟ^(guò)在θ的所有可能的值，是θ的那些特定值加權(quán)求和（或積分）確定的數(shù)據(jù)的概率。

如果我們的硬幣的公正性是多個(gè)視圖（但不知道是肯定的），那么這告訴我們看到翻轉(zhuǎn)的一定順序?yàn)槲覀冊(cè)谟矌诺墓叫拍钏锌赡苄缘母怕省?/p>

P(θ|D) 是觀察，即頭在上數(shù)目之后我們的參數(shù)。

4.1 伯努利近似函數(shù)

回顧讓我們了解了似然函數(shù)。所以，我們得知：

它是觀察翻轉(zhuǎn)為硬幣的一個(gè)給定的公平的特定數(shù)目的磁頭的特定數(shù)目的概率。這意味著我們的觀察頭概率/萬(wàn)尾取決于硬幣（θ）的公平性。

P(y=1|θ)= 傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？ [如果硬幣是公平的θ= 0.5，觀察到頭的概率（Y = 1）為0.5]

P(y=0|θ)= 傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？ [如果硬幣是公平的θ= 0.5，觀察到尾部的概率（Y = 0）為0.5]

值得注意的是，1為頭和0為尾是一個(gè)數(shù)學(xué)符號(hào)制定的典范。我們可以將上述數(shù)學(xué)定義結(jié)合成一個(gè)單一的定義來(lái)表示兩者的結(jié)果的概率。

P（Y |θ）= 傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

這就是所謂的伯努利近似函數(shù)，拋硬幣的任務(wù)被稱(chēng)為伯努利試驗(yàn)。

y={0,1},θ=(0,1)

而且，當(dāng)我們想看到一系列的頭或翻轉(zhuǎn)，它的概率為：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

此外，如果我們感興趣的是頭的數(shù)目的概率?在卷起?數(shù)翻轉(zhuǎn)下的情況，則概率如下所示：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

4.2 前置信度分布

這個(gè)分布用于表示關(guān)于基于以往的經(jīng)驗(yàn)，我們的參數(shù)分布情況。

但是，如果一個(gè)人沒(méi)有之前的經(jīng)驗(yàn)?zāi)兀?/p>

不用擔(dān)心，數(shù)學(xué)家們想出了方法來(lái)緩解這一問(wèn)題。它被認(rèn)為是uninformative priors。

那么，用來(lái)表示先驗(yàn)數(shù)學(xué)函數(shù)稱(chēng)為beta distribution，它有一些非常漂亮的數(shù)學(xué)特性，使我們對(duì)建模有關(guān)二項(xiàng)分布有所了解。

Beta分布的概率密度函數(shù)的形式為：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

在這里，我們的焦點(diǎn)停留在分子上，分母那里只是為了確保整合后的總概率密度函數(shù)的計(jì)算結(jié)果為1。

α和 β被稱(chēng)為形狀決定密度函數(shù)的參數(shù)。這里α類(lèi)似于試驗(yàn)中出現(xiàn)頭的數(shù)量，β對(duì)應(yīng)于實(shí)驗(yàn)中尾的數(shù)量。下圖將幫助您想象不同值中 α和 β的測(cè)試分布

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

你也可以使用R中的代碼繪制自己的Beta分布：

> library(stats)
> par(mfrow=c(3,2))
> x=seq(0,1,by=o.1)
> alpha=c(0,2,10,20,50,500)
> beta=c(0,2,8,11,27,232)
> for(i in 1:length(alpha)){
y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
plot(x,y,type="l")
}

注： α和β是直觀的理解，因?yàn)樗鼈兛梢酝ㄟ^(guò)已知的平均值（μ）和分布的標(biāo)準(zhǔn)偏差（σ）來(lái)計(jì)算。實(shí)際上，它們是相關(guān)的：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

如果分發(fā)的平均值和標(biāo)準(zhǔn)偏差是已知的，那么有形狀參數(shù)可以容易地計(jì)算出來(lái)。

從上面的圖表可以推理出：

當(dāng)沒(méi)有拋擲的時(shí)候，我們認(rèn)為硬幣的公平性可以通過(guò)一條平滑的線來(lái)描繪。
當(dāng)頭比尾部出現(xiàn)的更多時(shí)，圖中顯示的峰值向右一側(cè)移動(dòng)，表明頭出現(xiàn)的可能性較大，以及硬幣是不公平的。
隨著越來(lái)越多的拋擲動(dòng)作完成后，頭所占比重較大的峰值變窄，增加了我們對(duì)硬幣拋擲公正性的信心。

4.3 后置信度分布

我們選擇之前所相信的原因是為了獲得一個(gè)β分布，這是因?yàn)楫?dāng)我們用一個(gè)近似函數(shù)相乘，后驗(yàn)分布產(chǎn)生類(lèi)似于現(xiàn)有分配，這是很容易涉及到和理解的形式。

使用貝葉斯定理進(jìn)行計(jì)算

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

之間的公式變?yōu)?/p>

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

只要知道的平均值和我們的參數(shù)標(biāo)準(zhǔn)發(fā)布 θ，并通過(guò)觀察頭的N翻轉(zhuǎn)，可以更新我們對(duì)模型參數(shù)的（θ）。

讓我們用一個(gè)簡(jiǎn)單的例子來(lái)理解這一點(diǎn)：

假設(shè)，你認(rèn)為一個(gè)硬幣有失偏頗。它具有為0.1的標(biāo)準(zhǔn)偏差，約0.6的平均（μ）偏差。

然后，α= 13.8 ， β=9.2

假設(shè)你觀察到80次頭在上（z=80在100翻轉(zhuǎn)中）（ N=100）。則

prior = P(θ|α,β)=P(θ|13.8,9.2)

Posterior = P(θ|z+α,N-z+β)=P(θ|93.8,29.2)

將其圖像化：

傳說(shuō)中的貝葉斯統(tǒng)計(jì)到底有什么來(lái)頭？

上述圖中的R代碼實(shí)現(xiàn)過(guò)程是：

> library(stats)
> x=seq(0,1,by=0.1)
> alpha=c(13.8,93.8)
> beta=c(9.2,29.2)
> for(i in 1:length(alpha)){
y<-dbeta(x,shape1=alpha[i],shape2=beta[i])
plot(x,y,type="l",xlab = "theta",ylab = "density")
}

隨著越來(lái)越多的翻轉(zhuǎn)被執(zhí)行，以及新的數(shù)據(jù)觀察到，我們能進(jìn)一步得到更新，這是貝葉斯推理的真正力量。