丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社
發(fā)送

0

關于貝葉斯分類問題的一些思考和實踐

本文作者: AI研習社 2017-07-05 15:11
導語:如何用貝葉斯公式處理分類問題?有哪些缺陷?

雷鋒網(wǎng)按:本文作者夏洪進,原載于作者個人博客,雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。

這幾天的時間里看了一下關于分類算法的一些知識,趁熱打鐵寫下博客來拯救下記憶力不好的自己,話不讀多說,馬上開始!

先說一下前提的題設條件.假設我們現(xiàn)在有了一封郵件,那么我們應該怎么根據(jù)這個郵件里的一些關鍵的詞語來給這個郵件進行分類呢?

首先我們先想可以用貝葉斯公式來進行處理:

關于貝葉斯分類問題的一些思考和實踐

c是一個詳細的類別,比如”朋友的郵件”,”工作郵件”等等,而d就是一些關鍵的詞語(注意:關鍵詞可能會有多個),上邊等式的左邊是指:在給出當前的關鍵詞的條件下,類型為C的概率,更多的情況就不詳細說了,有興趣的可以翻一下數(shù)理統(tǒng)計書。

接下來利用相關的統(tǒng)計學的知識對郵件進行處理(水平太菜了,就一切簡化著來)

關于貝葉斯分類問題的一些思考和實踐

上面的這個 NB 的公式,就是最簡化的參數(shù)公式了,下面給出相關參數(shù)的計算方法:

關于貝葉斯分類問題的一些思考和實踐

但是上邊的第二個公式有以下缺點:

What if we have seen no training documents with the word “fantastic”  and classified in the topic positive(thumbs-up)?

關于貝葉斯分類問題的一些思考和實踐

為了避免這一種情況,我們特地的給加上一些數(shù)

關于貝葉斯分類問題的一些思考和實踐

所以上述的這個問題就解決了。

現(xiàn)在我們舉一個例子吧,這樣可以加深理解

關于貝葉斯分類問題的一些思考和實踐

這個部分我也在繼續(xù)學習,會將陸續(xù)更新!

以下是實踐部分:

現(xiàn)在用實際的代碼來實現(xiàn)這個分類的問題吧.在這里我們會使用TensorFlow來解決分類的問題,以前的時候我寫過關于線性回歸的問題.相信看過的小伙伴可能在這里就會想這個回歸的問題.那么這個回歸和分類有什么區(qū)別可以值得說道說道.分類和回歸的區(qū)別在我看來是在于輸出變量的類型上.通俗理解上定量輸出是回歸,或者是連續(xù)變量的預測.定性的輸出是一個分類,或者說是離散變量的預測,比如說是預測我們北京的放假會是一個回歸的任務,但是把一堆水果分為蘋果,桃,梨子這些區(qū)別,這其實就是一個分類的任務.

在這個例子中我們會使用的是MINIST數(shù)據(jù)庫,MINIST是一個手寫字體的數(shù)字庫,長得大概是下邊這個樣子

關于貝葉斯分類問題的一些思考和實踐

現(xiàn)在我們導入MNIST數(shù)字庫:

關于貝葉斯分類問題的一些思考和實踐

這個數(shù)據(jù)中大概是包含了55000張訓練的圖片,每個圖片的分辨率大概是28*28,所以我們訓練網(wǎng)絡的輸入實際上是一個784個的像素數(shù)據(jù)。

關于貝葉斯分類問題的一些思考和實踐

每張圖片都表示一個數(shù)字,所以我們的輸出是數(shù)字0到9,共10類。

prediction = add_layer(xs,784,10,activation_function=tf.nn.softmax)

調(diào)用add_layer函數(shù)構(gòu)建一個只有輸入輸出層的簡單的訓練神經(jīng)網(wǎng)絡,其中輸入的數(shù)據(jù)是784個特征,輸出的是10個特征,激勵的是使用softmax函數(shù),大致結(jié)構(gòu)類似這樣:

關于貝葉斯分類問題的一些思考和實踐

loss函數(shù)(即最優(yōu)化目標函數(shù))選用交叉熵函數(shù)。交叉熵用來衡量預測值和真實值的相似程度,如果完全相同,它們的交叉熵等于零。

關于貝葉斯分類問題的一些思考和實踐

train方法這里使用的是梯度下降法:

關于貝葉斯分類問題的一些思考和實踐

現(xiàn)在開始train,每次只取100張圖片,免得數(shù)據(jù)太多訓練太慢。每訓練50次輸出一下預測精度

關于貝葉斯分類問題的一些思考和實踐

在經(jīng)過10000次計算后我們得到結(jié)果:

關于貝葉斯分類問題的一些思考和實踐

雷鋒網(wǎng)相關閱讀:

監(jiān)督學習最常見的五種算法,你知道幾個?

9800萬美元賣掉公司后,他用貝葉斯網(wǎng)絡分析數(shù)據(jù)中的因與果

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

關于貝葉斯分類問題的一些思考和實踐

分享:
相關文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說