丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社
發(fā)送

0

監(jiān)督學習最常見的五種算法,你知道幾個?

本文作者: AI研習社 2017-04-28 16:21
導語:這幾個監(jiān)督學習最常見的算法你知道幾個?

雷鋒網(wǎng)按:本文作者李東軒,原文載于作者個人博客,雷鋒網(wǎng)已獲授權。

在機器學習中,無監(jiān)督學習(Unsupervised learning)就是聚類,事先不知道樣本的類別,通過某種辦法,把相似的樣本放在一起歸位一類;而監(jiān)督型學習(Supervised learning)就是有訓練樣本,帶有屬性標簽,也可以理解成樣本有輸入有輸出。

所有的回歸算法和分類算法都屬于監(jiān)督學習?;貧w(Regression)和分類(Classification)的算法區(qū)別在于輸出變量的類型,定量輸出稱為回歸,或者說是連續(xù)變量預測;定性輸出稱為分類,或者說是離散變量預測。

以下是一些常用的監(jiān)督型學習方法。

  一. K-近鄰算法(k-Nearest Neighbors,KNN)

K-近鄰是一種分類算法,其思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。K通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

監(jiān)督學習最常見的五種算法,你知道幾個?

如上圖,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果K=3,由于紅色三角形所占比例為2/3,綠色圓將被賦予紅色三角形那個類,如果K=5,由于藍色四方形比例為3/5,因此綠色圓被賦予藍色四方形類。

算法的步驟為:

(1)計算測試數(shù)據(jù)與各個訓練數(shù)據(jù)之間的距離;

(2)按照距離的遞增關系進行排序;

(3)選取距離最小的K個點;

(4)確定前K個點所在類別的出現(xiàn)頻率;

(5)返回前K個點中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預測分類。

  二. 決策樹(Decision Trees)

決策樹是一種常見的分類方法,其思想和“人類逐步分析比較然后作出結論”的過程十分相似。決策過程和下圖類似。

監(jiān)督學習最常見的五種算法,你知道幾個?

決策樹是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節(jié)點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節(jié)點存放一個類別。使用決策樹進行決策的過程就是從根節(jié)點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節(jié)點,將葉子節(jié)點存放的類別作為決策結果。

不同于貝葉斯算法,決策樹的構造過程不依賴領域知識,它使用屬性選擇度量來選擇將元組最好地劃分成不同的類的屬性。所謂決策樹的構造就是進行屬性選擇度量確定各個特征屬性之間的拓撲結構。

那么如何劃分數(shù)據(jù)呢?各個特征的優(yōu)先級是怎么排的?常用的劃分數(shù)據(jù)集方法有ID3和C4.5

(1) ID3算法

劃分數(shù)據(jù)集的最大原則就是將數(shù)據(jù)變得更加有序。熵(entropy)是描述信息不確定性(雜亂程度)的一個值。設S是當前數(shù)據(jù)下的劃分,那么S的信息熵的定義如下:

監(jiān)督學習最常見的五種算法,你知道幾個?

這里,n是類別的數(shù)目,p(xi)表示選擇xi類別的概率(可用類別數(shù)量除以總數(shù)量估計)。

現(xiàn)在我們假設將S按屬性A進行劃分,則S的條件信息熵(A對S劃分的期望信息)為:

監(jiān)督學習最常見的五種算法,你知道幾個?

這里,在屬性A的條件下,數(shù)據(jù)被劃分成m個類別(例如,屬性A是體重,有輕、中、重三個選項,那么m=3),p(tj)表示類別tj(屬性A中所有具有第j個特性的所有數(shù)據(jù))的數(shù)量與S總數(shù)量的比值,H(tj)表示子類別tj的熵。

信息增益(Information gain)是指在劃分數(shù)據(jù)集之前之后信息發(fā)生的變化,其定義如下:

監(jiān)督學習最常見的五種算法,你知道幾個?

在ID3算法里,每一次迭代過程中會計算所有剩余屬性的信息增益,然后選擇具有最大增益的屬性對數(shù)據(jù)集進行劃分,如此迭代,直至結束。這里有一個ID3算法的實例過程。

(2) C4.5算法

D3算法存在一個問題,就是偏向于多值屬性,例如,如果存在唯一標識屬性ID,則ID3會選擇它作為分裂屬性,這樣雖然使得劃分充分純凈,但這種劃分對分類幾乎毫無用處。ID3的后繼算法C4.5使用增益率(gain ratio)的信息增益擴充,試圖克服這個偏倚。嚴格上說C4.5是ID3的一個改進算法。

在按照ID3的中的方法得到了信息增益后,再定義分裂信息(Split Information):

監(jiān)督學習最常見的五種算法,你知道幾個?

然后定義增益率(Gain Ratio):

監(jiān)督學習最常見的五種算法,你知道幾個?

C4.5選擇增益率為分裂屬性(連續(xù)屬性要用增益率離散化)。C4.5算法有如下優(yōu)點:產生的分類規(guī)則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合于能夠駐留于內存的數(shù)據(jù)集,當訓練集大得無法在內存容納時程序無法運行。

如果所有屬性都作為分裂屬性用光了,但有的子集還不是純凈集,即集合內的元素不屬于同一類別。在這種情況下,由于沒有更多信息可以使用了,一般對這些子集進行“多數(shù)表決”,即使用此子集中出現(xiàn)次數(shù)最多的類別作為此節(jié)點類別,然后將此節(jié)點作為葉子節(jié)點。

在實際構造決策樹時,通常要進行剪枝,這時為了處理由于數(shù)據(jù)中的噪聲和離群點導致的過分擬合問題。剪枝有兩種:先剪枝——在構造過程中,當某個節(jié)點滿足剪枝條件,則直接停止此分支的構造;后剪枝——先構造完成完整的決策樹,再通過某些條件遍歷樹進行剪枝。悲觀錯誤剪枝PEP算法是一種常見的事后剪枝策略。

  三. 樸素貝葉斯(Naive Bayesian)

貝葉斯分類是一系列分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統(tǒng)稱為貝葉斯分類。樸素貝葉斯算法(Naive Bayesian) 是其中應用最為廣泛的分類算法之一。樸素貝葉斯分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。樸素貝葉斯的基本思想是對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。

首先給出條件概率的定義,P(A∥B)表示事件A在B發(fā)生下的條件概率,其公式為:

監(jiān)督學習最常見的五種算法,你知道幾個?

貝葉斯定理用來描述兩個條件概率之間的關系,貝葉斯定理公式為:

監(jiān)督學習最常見的五種算法,你知道幾個?

樸素貝葉斯分類算法的具體步驟如下:

(1)設x={a1,a2,...,am}為一個待分類項,a1,a2,...,am為x的m個特征屬性;

(2)設有類別集合C={y1,y2,...,yn},即共有n個類別;

(3)依次計算x屬于各項分類的條件概率,即計算P(y1∥x),P(y2∥x),… ,P(yn∥x):

監(jiān)督學習最常見的五種算法,你知道幾個?

注意,算法的下一步驟是對比這些結果的大小,由于各項分母都是P(x),所以分母不用計算。分子部分中P(yn)和P(ai∥yn)都是通過樣本集統(tǒng)計而得,其中P(yn)的值為樣本集中屬于yn類的數(shù)量與樣本總數(shù)量之比,P(ai∥yn)的值為yn類中滿足屬性ai的數(shù)量與yn類下樣本總數(shù)量之比。

這樣的計算方式符合特征屬性是離散值的情況,如果特征屬性是連續(xù)值時,通常假定其值服從高斯分布(也稱正態(tài)分布),即:

監(jiān)督學習最常見的五種算法,你知道幾個?

那么P(ai∥yn)的值為:

監(jiān)督學習最常見的五種算法,你知道幾個?

其中,ηyn和σyn分別為訓練樣本yn類別中ai特征項劃分的均值和標準差。

對于P(a∥y)=0的情況,當某個類別下某個特征項劃分沒有出現(xiàn)時,就是產生這種現(xiàn)象,這會令分類器質量大大降低。因此引入Laplace校準,對沒類別下所有劃分的計數(shù)加1,這樣如果訓練樣本集數(shù)量充分大時,并不會對結果產生影響,也避免了乘積為0的情況。

(4)比較(3)中所有條件概率的大小,最大的即為預測分類結果,即:

監(jiān)督學習最常見的五種算法,你知道幾個?

這里有一個樸素貝葉斯分類實例:檢測SNS社區(qū)中不真實賬號。

  四. 邏輯回歸(Logistic Regression)

我們知道,線性回歸就是根據(jù)已知數(shù)據(jù)集求一線性函數(shù),使其盡可能擬合數(shù)據(jù),讓損失函數(shù)最小,常用的線性回歸最優(yōu)法有最小二乘法和梯度下降法。而邏輯回歸是一種非線性回歸模型,相比于線性回歸,它多了一個sigmoid函數(shù)(或稱為Logistic函數(shù))。邏輯回歸是一種分類算法,主要用于二分類問題。邏輯回歸的具體步驟如下:

(1)定義假設函數(shù)h(即hypothesis)

Sigmoid函數(shù)的圖像是一個S型,預測函數(shù)就是將sigmoid函數(shù)g(x)里的自變量x替換成了邊界函數(shù)θ(x),如下:

監(jiān)督學習最常見的五種算法,你知道幾個?

這里hθ(x)表示結果取1的概率,因此對于輸入x分類結果為類別1和類別0的概率分別為:

監(jiān)督學習最常見的五種算法,你知道幾個?

(2)定義邊界函數(shù)θ(x)

對于二維數(shù)據(jù),如果是預設線性線性邊界,那么邊界函數(shù)為:

監(jiān)督學習最常見的五種算法,你知道幾個?

如果是預設非線性線性邊界,那么邊界函數(shù)為的形式就多了,例如:

監(jiān)督學習最常見的五種算法,你知道幾個?

假設我們現(xiàn)在要解決的是識別圖片中的0或1(樣本庫只有0和1的圖片),圖片大小是20*20,那么這個時候有400個特征向量,那么邊界函數(shù)為:

監(jiān)督學習最常見的五種算法,你知道幾個?

(3)構造損失函數(shù)(cost function,loss function)

損失函數(shù)的大小可以體現(xiàn)出邊界函數(shù)的各項參數(shù)是否最優(yōu)。對于線性回歸,損失函數(shù)是歐式距離指標,但這樣的Cost Function對于邏輯回歸是不可行的,因為在邏輯回歸中平方差損失函數(shù)是非凸,我們需要其他形式的Cost Function來保證邏輯回歸的成本函數(shù)是凸函數(shù)。

我們選擇對數(shù)似然損失函數(shù):

監(jiān)督學習最常見的五種算法,你知道幾個?

那么邏輯回歸的Cost Function可以表示為:

監(jiān)督學習最常見的五種算法,你知道幾個?

這里m表示有m個樣本,y是二值型數(shù)據(jù),只能0或1,代表兩種不同的類別。

(4)求最優(yōu)θ

要想找到最合適的邊界函數(shù)參數(shù),只要使J(θ)最小即可。最優(yōu)化的表達式為:

監(jiān)督學習最常見的五種算法,你知道幾個?

與線性回歸相似,可以采用梯度下降法尋優(yōu),也可以采用其他方法,具體見下面列出的第5個參考網(wǎng)址。

參考資料:

機器學習(一)K-近鄰(KNN)算法   

地址:http://t.cn/RLj0XIZ 

算法雜貨鋪——分類算法之決策樹(Decision tree)

地址:http://t.cn/zjqquUf 

決策樹算法總結

地址:http://t.cn/zjCCJpC 

算法雜貨鋪——分類算法之樸素貝葉斯分類(Naive Bayesian classification)

地址:http://t.cn/hqMdur 

Coursera公開課筆記: 斯坦福大學機器學習第六課“邏輯回歸(Logistic Regression)”

地址:http://t.cn/zOuCqYb 

TensorFlow & 神經(jīng)網(wǎng)絡算法高級應用班” 要開課啦!

從初級到高級,理論 + 實戰(zhàn),一站式深度了解 TensorFlow!

本課程面向深度學習開發(fā)者,講授如何利用 TensorFlow 解決圖像識別、文本分析等具體問題。課程跨度為 10 周,將從 TensorFlow 的原理與基礎實戰(zhàn)技巧開始,一步步教授學員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型,并最終掌握一整套基于 TensorFlow 做深度學習開發(fā)的專業(yè)技能。

兩名授課老師佟達、白發(fā)川身為 ThoughtWorks 的資深技術專家,具有豐富的大數(shù)據(jù)平臺搭建、深度學習系統(tǒng)開發(fā)項目經(jīng)驗。

時間:每周二、四晚 20:00-21:00

開課時長:總學時 20 小時,分 10 周完成,每周 2 次,每次 1 小時

線上授課地址:http://www.mooc.ai/

雷鋒網(wǎng)相關閱讀:

機器學習十大算法都是何方神圣?看完你就懂了

最新出爐——數(shù)據(jù)科學家最常使用的十大算法

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知

監(jiān)督學習最常見的五種算法,你知道幾個?

分享:
相關文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說