關(guān)于貝葉斯分類問題的一些思考和實踐

本文作者： AI研習社

2017-07-05 15:11

導語：如何用貝葉斯公式處理分類問題？有哪些缺陷？

雷鋒網(wǎng)按：本文作者夏洪進，原載于作者個人博客，雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。

這幾天的時間里看了一下關(guān)于分類算法的一些知識,趁熱打鐵寫下博客來拯救下記憶力不好的自己,話不讀多說,馬上開始!

先說一下前提的題設(shè)條件.假設(shè)我們現(xiàn)在有了一封郵件,那么我們應該怎么根據(jù)這個郵件里的一些關(guān)鍵的詞語來給這個郵件進行分類呢?

首先我們先想可以用貝葉斯公式來進行處理:

關(guān)于貝葉斯分類問題的一些思考和實踐

c是一個詳細的類別,比如”朋友的郵件”,”工作郵件”等等,而d就是一些關(guān)鍵的詞語(注意:關(guān)鍵詞可能會有多個),上邊等式的左邊是指:在給出當前的關(guān)鍵詞的條件下,類型為C的概率,更多的情況就不詳細說了,有興趣的可以翻一下數(shù)理統(tǒng)計書。

接下來利用相關(guān)的統(tǒng)計學的知識對郵件進行處理(水平太菜了,就一切簡化著來)

關(guān)于貝葉斯分類問題的一些思考和實踐

上面的這個 NB 的公式,就是最簡化的參數(shù)公式了，下面給出相關(guān)參數(shù)的計算方法:

關(guān)于貝葉斯分類問題的一些思考和實踐

但是上邊的第二個公式有以下缺點:

What if we have seen no training documents with the word “fantastic” and classified in the topic positive(thumbs-up)?

關(guān)于貝葉斯分類問題的一些思考和實踐

為了避免這一種情況,我們特地的給加上一些數(shù)

關(guān)于貝葉斯分類問題的一些思考和實踐

所以上述的這個問題就解決了。

現(xiàn)在我們舉一個例子吧,這樣可以加深理解

關(guān)于貝葉斯分類問題的一些思考和實踐

這個部分我也在繼續(xù)學習，會將陸續(xù)更新！

以下是實踐部分：

現(xiàn)在用實際的代碼來實現(xiàn)這個分類的問題吧.在這里我們會使用TensorFlow來解決分類的問題,以前的時候我寫過關(guān)于線性回歸的問題.相信看過的小伙伴可能在這里就會想這個回歸的問題.那么這個回歸和分類有什么區(qū)別可以值得說道說道.分類和回歸的區(qū)別在我看來是在于輸出變量的類型上.通俗理解上定量輸出是回歸,或者是連續(xù)變量的預測.定性的輸出是一個分類,或者說是離散變量的預測,比如說是預測我們北京的放假會是一個回歸的任務(wù),但是把一堆水果分為蘋果,桃,梨子這些區(qū)別,這其實就是一個分類的任務(wù).

在這個例子中我們會使用的是MINIST數(shù)據(jù)庫,MINIST是一個手寫字體的數(shù)字庫,長得大概是下邊這個樣子

關(guān)于貝葉斯分類問題的一些思考和實踐