1
本文作者: 小東 | 2016-12-24 08:10 |
雷鋒網(wǎng)按:機(jī)器學(xué)習(xí)與人工智能變得越來(lái)越熱。大數(shù)據(jù)原本在工業(yè)界中就已經(jīng)炙手可熱,而基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)則更加流行,因?yàn)槠渫ㄟ^(guò)對(duì)數(shù)據(jù)的計(jì)算,可以實(shí)現(xiàn)數(shù)據(jù)預(yù)測(cè)、為公司提供決策依據(jù)。跟我們生活息息相關(guān)的最常見(jiàn)機(jī)器學(xué)習(xí)算法包括電影推薦算法、圖書(shū)推薦算法。這些算法都是基于你的電影觀看記錄或圖書(shū)購(gòu)買記錄來(lái)給你做推薦的。
James Le 在 KDnuggets 上發(fā)布了一篇文章,介紹了他是如何入門機(jī)器學(xué)習(xí)的。此外,他在其中摸索出十大常用的機(jī)器學(xué)習(xí)算法,并逐一進(jìn)行介紹。雷鋒網(wǎng)編譯如下,未經(jīng)許可不得轉(zhuǎn)載。
如果你想學(xué)機(jī)器學(xué)習(xí),那怎么入門呢?對(duì)于我來(lái)說(shuō),我是這樣開(kāi)始我的機(jī)器學(xué)習(xí)的,首先,我選修了一門人工智能課程。教我課程的老師是Technical University of Denmark的大學(xué)教授,他的研究方向就是邏輯與人工智能。我們用的教材是人工智能的經(jīng)典教材: Peter Norvig's Artificial Intelligence?—?A Modern Approach。這本書(shū)主要講了智能主體、對(duì)抗搜索、概率論、多智能系統(tǒng)、AI哲學(xué)等等。這門課程我上了三個(gè)學(xué)期,最后我做了一個(gè)簡(jiǎn)單的基于搜索的智能系統(tǒng),這個(gè)系統(tǒng)可以完成虛擬環(huán)境下的傳輸任務(wù)。
通過(guò)這門課程我學(xué)到了很多知識(shí),在將來(lái)我還要繼續(xù)學(xué)習(xí)。最近幾周,我有幸在舊金山的舉辦的機(jī)器學(xué)習(xí)大會(huì)上與眾多機(jī)器學(xué)習(xí)大牛交談,我和他們聊了很多關(guān)于深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)結(jié)構(gòu)的內(nèi)容。此外,我還在網(wǎng)上選修了一門機(jī)器學(xué)習(xí)入門課程,正巧剛剛修完。在接下來(lái)內(nèi)容中,我將和大家分享我在這門課程中所學(xué)到的機(jī)器學(xué)習(xí)常用算法。
機(jī)器學(xué)習(xí)算法分為三類:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、增強(qiáng)學(xué)習(xí)。有監(jiān)督學(xué)習(xí)需要標(biāo)識(shí)數(shù)據(jù)(用于訓(xùn)練,即有正例又有負(fù)例),無(wú)監(jiān)督學(xué)習(xí)不需要標(biāo)識(shí)數(shù)據(jù),增強(qiáng)學(xué)習(xí)介于兩者之間(有部分標(biāo)識(shí)數(shù)據(jù))。下面我將向大家具體介紹機(jī)器學(xué)習(xí)中10大算法(只介紹有監(jiān)督、無(wú)監(jiān)督兩類,暫不介紹增強(qiáng)學(xué)習(xí))。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu),為人們提供決策依據(jù),決策樹(shù)可以用來(lái)回答yes和no問(wèn)題,它通過(guò)樹(shù)形結(jié)構(gòu)將各種情況組合都表示出來(lái),每個(gè)分支表示一次選擇(選擇yes還是no),直到所有選擇都進(jìn)行完畢,最終給出正確答案。
樸素貝葉斯分類器基于貝葉斯理論及其假設(shè)(即特征之間是獨(dú)立的,是不相互影響的)
P(A|B) 是后驗(yàn)概率, P(B|A) 是似然,P(A)為先驗(yàn)概率,P(B) 為我們要預(yù)測(cè)的值。
具體應(yīng)用有:垃圾郵件檢測(cè)、文章分類、情感分類、人臉識(shí)別等。
如果你對(duì)統(tǒng)計(jì)學(xué)有所了解,那么你必定聽(tīng)說(shuō)過(guò)線性回歸。最小均方就是用來(lái)求線性回歸的。如下圖所示,平面內(nèi)會(huì)有一系列點(diǎn),然后我們求取一條線,使得這條線盡可能擬合這些點(diǎn)分布,這就是線性回歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內(nèi)的所有點(diǎn)到這條線的歐式距離和最小。這條線就是我們要求取得線。
線性指的是用一條線對(duì)數(shù)據(jù)進(jìn)行擬合,距離代表的是數(shù)據(jù)誤差,最小二乘法可以看做是誤差最小化。
邏輯回歸模型是一個(gè)二分類模型,它選取不同的特征與權(quán)重來(lái)對(duì)樣本進(jìn)行概率分類,用一各log函數(shù)計(jì)算樣本屬于某一類的概率。即一個(gè)樣本會(huì)有一定的概率屬于一個(gè)類,會(huì)有一定的概率屬于另一類,概率大的類即為樣本所屬類。
具體應(yīng)用有:信用評(píng)級(jí)、營(yíng)銷活動(dòng)成功概率、產(chǎn)品銷售預(yù)測(cè)、某天是否將會(huì)地震發(fā)生。
支持向量機(jī)是一個(gè)二分類算法,它可以在N維空間找到一個(gè)(N-1)維的超平面,這個(gè)超平面可以將這些點(diǎn)分為兩類。也就是說(shuō),平面內(nèi)如果存在線性可分的兩類點(diǎn),SVM可以找到一條最優(yōu)的直線將這些點(diǎn)分開(kāi)。SVM應(yīng)用范圍很廣。
具體應(yīng)用有:廣告展示、性別檢測(cè)、大規(guī)模圖像識(shí)別等。
集成學(xué)習(xí)就是將很多分類器集成在一起,每個(gè)分類器有不同的權(quán)重,將這些分類器的分類結(jié)果合并在一起,作為最終的分類結(jié)果。最初集成方法為貝葉斯決策,現(xiàn)在多采用error-correcting output coding, bagging, and boosting等方法進(jìn)行集成。
那么為什集成分類器要比單個(gè)分類器效果好呢?
1.偏差均勻化:如果你將民主黨與共和黨的投票數(shù)算一下均值,可定會(huì)得到你原先沒(méi)有發(fā)現(xiàn)的結(jié)果,集成學(xué)習(xí)與這個(gè)也類似,它可以學(xué)到其它任何一種方式都學(xué)不到的東西。
2.減少方差:總體的結(jié)果要比單一模型的結(jié)果好,因?yàn)槠鋸亩鄠€(gè)角度考慮問(wèn)題。類似于股票市場(chǎng),綜合考慮多只股票可以要比只考慮一只股票好,這就是為什么多數(shù)據(jù)比少數(shù)據(jù)效果好原因,因?yàn)槠淇紤]的因素更多。
3.不容易過(guò)擬合。如果的一個(gè)模型不過(guò)擬合,那么綜合考慮多種因素的多模型就更不容易過(guò)擬合了。
聚類算法就是將一堆數(shù)據(jù)進(jìn)行處理,根據(jù)它們的相似性對(duì)數(shù)據(jù)進(jìn)行聚類。
聚類算法有很多種,具體如下:中心聚類、關(guān)聯(lián)聚類、密度聚類、概率聚類、降維、神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)。
主成分分析是利用正交變換將一些列可能相關(guān)數(shù)據(jù)轉(zhuǎn)換為線性無(wú)關(guān)數(shù)據(jù),從而找到主成分。
PCA主要用于簡(jiǎn)單學(xué)習(xí)與可視化中數(shù)據(jù)壓縮、簡(jiǎn)化。但是PCA有一定的局限性,它需要你擁有特定領(lǐng)域的相關(guān)知識(shí)。對(duì)噪音比較多的數(shù)據(jù)并不適用。
SVD矩陣是一個(gè)復(fù)雜的實(shí)復(fù)負(fù)數(shù)矩陣,給定一個(gè)m 行、n列的矩陣M,那么M矩陣可以分解為M = UΣV。U和V是酉矩陣,Σ為對(duì)角陣。
PCA實(shí)際上就是一個(gè)簡(jiǎn)化版本的SVD分解。在計(jì)算機(jī)視覺(jué)領(lǐng)域,第一個(gè)臉部識(shí)別算法就是基于PCA與SVD的,用特征對(duì)臉部進(jìn)行特征表示,然后降維、最后進(jìn)行面部匹配。盡管現(xiàn)在面部識(shí)別方法復(fù)雜,但是基本原理還是類似的。
ICA是一門統(tǒng)計(jì)技術(shù),用于發(fā)現(xiàn)存在于隨機(jī)變量下的隱性因素。ICA為給觀測(cè)數(shù)據(jù)定義了一個(gè)生成模型。在這個(gè)模型中,其認(rèn)為數(shù)據(jù)變量是由隱性變量,經(jīng)一個(gè)混合系統(tǒng)線性混合而成,這個(gè)混合系統(tǒng)未知。并且假設(shè)潛在因素屬于非高斯分布、并且相互獨(dú)立,稱之為可觀測(cè)數(shù)據(jù)的獨(dú)立成分。
ICA與PCA相關(guān),但它在發(fā)現(xiàn)潛在因素方面效果良好。它可以應(yīng)用在數(shù)字圖像、檔文數(shù)據(jù)庫(kù)、經(jīng)濟(jì)指標(biāo)、心里測(cè)量等。
以上就是我對(duì)機(jī)器學(xué)習(xí)算法的一些簡(jiǎn)單介紹,現(xiàn)在你可以通過(guò)我的介紹與你自己的理解,好好思考機(jī)器學(xué)還可以在我們的日常生活中有哪些應(yīng)用。
雷鋒網(wǎng)總結(jié):實(shí)際上這些機(jī)器學(xué)習(xí)算法并不是全都像想象中一樣復(fù)雜,有些還和高中數(shù)學(xué)緊密相關(guān)。不過(guò)如何學(xué)以致用舉一反三,不僅是機(jī)器學(xué)習(xí)的核心,也同樣是每個(gè)人學(xué)習(xí)的核心要義。
via The 10 Algorithms Machine Learning Engineers Need to Know
【兼職召集令!】
如果你對(duì)未來(lái)充滿憧憬,喜歡探索改變世界的科技進(jìn)展,look no further!
我們需要這樣的你:
精通英語(yǔ),對(duì)技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動(dòng)態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會(huì)收獲:
一群來(lái)自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動(dòng)態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個(gè)人介紹/簡(jiǎn)歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。