1
本文作者: 章敏 | 2016-08-15 17:09 |
導(dǎo)讀:機(jī)器學(xué)習(xí)是近20多年興起的一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門學(xué)科。機(jī)器學(xué)習(xí)理論主要是設(shè)計(jì)和分析一些讓計(jì)算機(jī)可以自動(dòng)“學(xué)習(xí)”的算法。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測的算法。因?yàn)閷W(xué)習(xí)算法中涉及了大量的統(tǒng)計(jì)學(xué)理論,機(jī)器學(xué)習(xí)與推斷統(tǒng)計(jì)學(xué)聯(lián)系尤為密切,也被稱為統(tǒng)計(jì)學(xué)習(xí)理論。算法設(shè)計(jì)方面,機(jī)器學(xué)習(xí)理論關(guān)注可以實(shí)現(xiàn)的,行之有效的學(xué)習(xí)算法。很多推論問題屬于無程序可循難度,所以部分的機(jī)器學(xué)習(xí)研究是開發(fā)容易處理的近似算法。
機(jī)器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析方法,它可以自動(dòng)分析模型的建筑。通過使用迭代學(xué)習(xí)數(shù)據(jù)的算法,機(jī)器學(xué)習(xí)可以使電腦在沒有被明確編程看哪里的情況下,發(fā)現(xiàn)隱藏的領(lǐng)域。
迭代在機(jī)器學(xué)習(xí)中是非常重要的,由于它的存在,模型在遇到新的數(shù)據(jù)時(shí),就可以獨(dú)立地適應(yīng)數(shù)據(jù)。它們可以從先前產(chǎn)生的可靠計(jì)算,重復(fù)的決定和結(jié)果中進(jìn)行學(xué)習(xí)。機(jī)器學(xué)習(xí)并不是一個(gè)全新的學(xué)科-而是獲得新動(dòng)力的學(xué)科。
由于新型計(jì)算技術(shù)的產(chǎn)生,如今的機(jī)器學(xué)習(xí)與以往大不相同。盡管很多機(jī)器學(xué)習(xí)算法已經(jīng)存在了很長時(shí)間,但自動(dòng)將復(fù)雜的數(shù)學(xué)計(jì)算應(yīng)用到大數(shù)據(jù)的能力(一個(gè)又一個(gè),越來越快)是最新的進(jìn)展。下面這些廣泛宣傳的機(jī)器學(xué)習(xí)應(yīng)用程序的例子,你可能非常熟悉:
·大量的炒作,Google自動(dòng)駕駛汽車?機(jī)器學(xué)習(xí)的本質(zhì)。
·像Amazon和Netflix的在線推薦服務(wù)?機(jī)器學(xué)習(xí)在日常生活中的應(yīng)用
·知道客戶在Twutter上說了什么關(guān)于你的事嗎?機(jī)器學(xué)習(xí)與語言規(guī)則創(chuàng)造結(jié)合。
·欺詐檢測?在我們現(xiàn)今生活中,一個(gè)更明顯的,重要的用途。
人們在機(jī)器學(xué)習(xí)方面興趣的復(fù)興,也是由于同樣的因素,即數(shù)據(jù)挖掘和貝葉斯分析比以往更受歡迎。在類似數(shù)量增長和可用數(shù)據(jù)這方面,計(jì)算處理更實(shí)惠,更強(qiáng)大,且負(fù)擔(dān)得起數(shù)據(jù)存儲(chǔ)。
以上所有的因素都暗示著:機(jī)器學(xué)習(xí)可以更快且自動(dòng)的產(chǎn)生模型,以分析更大,更復(fù)雜的數(shù)據(jù),而且傳輸更加迅速,結(jié)果更加精準(zhǔn)——甚至是在非常大的規(guī)模中。結(jié)果是?在現(xiàn)實(shí)中無人類干涉時(shí),高價(jià)值( High-value)的預(yù)測可以產(chǎn)生更好的決定,和更明智的行為。
自動(dòng)模型的建立是在現(xiàn)實(shí)中生成明智行動(dòng)的一大關(guān)鍵。分析思想領(lǐng)袖Thomas H. Davenport在華爾街日?qǐng)?bào)上寫道,日新月異,不斷增長的數(shù)據(jù),"…你需要快速移動(dòng)的建模流( fast-moving modeling streams)來保持。"而你可以通過機(jī)器學(xué)習(xí)做到這些。他還說道"人類通常一周可以創(chuàng)建一個(gè)或兩個(gè)好的模型;而機(jī)器學(xué)習(xí)一周就可以創(chuàng)造出成千上萬的模型."
你曾經(jīng)是否好奇過,一個(gè)在線零售商是如何瞬時(shí)的為您提供可能感興趣產(chǎn)品的報(bào)價(jià)嗎?或貸款人如何對(duì)你的貸款請(qǐng)求提供近實(shí)時(shí)的答復(fù)?我們的許多日?;顒?dòng)都是由機(jī)器學(xué)習(xí)算法驅(qū)動(dòng)的,包括:
被最廣泛采納的兩大機(jī)器學(xué)習(xí)方法是監(jiān)督學(xué)習(xí)( supervised learning )和無監(jiān)督學(xué)習(xí)(unsupervised learning)。大多數(shù)的機(jī)器學(xué)習(xí)(大概70%)是監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)大概占10%-20%。有時(shí)也會(huì)使用半監(jiān)督和強(qiáng)化學(xué)習(xí)這兩個(gè)技術(shù)。
·監(jiān)督學(xué)習(xí) 算法利用標(biāo)簽實(shí)例進(jìn)行訓(xùn)練,就像已知所需輸出的輸入。例如,一個(gè)設(shè)備可以有的數(shù)據(jù)點(diǎn)標(biāo)記為“F”(失?。┗颉癛”(運(yùn)行)。學(xué)習(xí)算法收到了一系列有著對(duì)應(yīng)正確輸出的輸入,且算法通過對(duì)比實(shí)際輸出和正確輸出進(jìn)行學(xué)習(xí),以找出錯(cuò)誤。然后相應(yīng)的進(jìn)行模型修改。通過分類,回歸,預(yù)測和梯度提高的方法,監(jiān)督學(xué)習(xí)使用模式來預(yù)測額外的未標(biāo)記數(shù)據(jù)的標(biāo)簽的值。監(jiān)督學(xué)習(xí)被普遍應(yīng)用于用歷史數(shù)據(jù)預(yù)測未來可能發(fā)生的事件。例如,它可以預(yù)測,什么時(shí)候信用卡交易可能是欺詐性的,或哪個(gè)保險(xiǎn)客戶可能提出索賠。
·無監(jiān)督學(xué)習(xí)使用無歷史標(biāo)簽的相反數(shù)據(jù)。系統(tǒng)不會(huì)被告知“正確答案”。算法必須搞明白被呈現(xiàn)的是什么。其目標(biāo)是探索數(shù)據(jù)并找到一些內(nèi)部結(jié)構(gòu)。無監(jiān)督學(xué)習(xí)對(duì)事務(wù)性數(shù)據(jù)的處理效果很好。例如,它可以識(shí)別有相同屬性的顧客群(可以在市場營銷中被一樣對(duì)待)?;蛘咚梢哉业街饕獙傩詫⒖蛻羧罕舜藚^(qū)分開。流行的技術(shù)包括自組織映射(self-organizing maps),最近鄰映射( nearest-neighbor mapping),k-均值聚類(k-means clustering )和奇異值分解(singular value decomposition)。這些算法也用于段文本主題,推薦項(xiàng)目,和確定數(shù)據(jù)異常值。
·半監(jiān)督學(xué)習(xí)的應(yīng)用和監(jiān)督學(xué)習(xí)相同。但它同時(shí)使用了標(biāo)簽和無標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練-通常情況下是少量的標(biāo)記的數(shù)據(jù)與大量的未標(biāo)記的數(shù)據(jù)(因?yàn)槲礃?biāo)記的數(shù)據(jù)并不昂貴,且只需要較少的努力就可獲得)。這種類型的學(xué)習(xí)可以使用的方法,如分類,回歸和預(yù)測。當(dāng)一個(gè)完全標(biāo)記的培訓(xùn)過程,其相關(guān)標(biāo)簽的成本太高時(shí),就要用到半監(jiān)督學(xué)習(xí)。其中早期的例子包括在網(wǎng)絡(luò)攝像頭上識(shí)別一個(gè)人的臉。
·強(qiáng)化學(xué)習(xí)經(jīng)常被用于機(jī)器人,游戲和導(dǎo)航。通過強(qiáng)化學(xué)習(xí),該算法通過試驗(yàn)和錯(cuò)誤發(fā)現(xiàn)行動(dòng)產(chǎn)生的最大回報(bào)。這種類型的學(xué)習(xí)有三個(gè)主要組成部分:代理(學(xué)習(xí)者或決策者),環(huán)境(一切的代理交互)和行動(dòng)(什么是代理可以做的)。其目標(biāo)是代理選擇的行動(dòng),可以在一個(gè)給定的時(shí)間內(nèi)最大化預(yù)期獎(jiǎng)勵(lì)。通過一個(gè)好的策略,代理將更快地達(dá)到目標(biāo)。因此,強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)最好的策略。
機(jī)器學(xué)習(xí)與其它統(tǒng)計(jì)和學(xué)習(xí)方法的不同之處,如數(shù)據(jù)挖掘,是辯論的另一個(gè)熱門話題。簡單來說,雖然機(jī)器學(xué)習(xí)使用了許多與數(shù)據(jù)挖掘相同的算法和技術(shù),但其中有一個(gè)區(qū)別在于這兩個(gè)學(xué)科的預(yù)測:
·數(shù)據(jù)挖掘是發(fā)現(xiàn)以前未知的模式和知識(shí)。
·機(jī)器學(xué)習(xí)是用來重現(xiàn)已知的模式和知識(shí),自動(dòng)應(yīng)用到其他數(shù)據(jù),然后自動(dòng)的將這些結(jié)果應(yīng)用到?jīng)Q策和行動(dòng)。
目前電腦的能力逐漸增強(qiáng)也刺激著數(shù)據(jù)挖掘進(jìn)化用于機(jī)器學(xué)習(xí)。例如神經(jīng)網(wǎng)絡(luò)很長一段時(shí)間內(nèi)被用于數(shù)據(jù)挖掘應(yīng)用。隨著計(jì)算能力的增加,你可以創(chuàng)建許多層神經(jīng)網(wǎng)絡(luò)。在機(jī)器學(xué)習(xí)語言中,這些被稱為“深度神經(jīng)網(wǎng)絡(luò)”。正是計(jì)算能力的提升確保了自動(dòng)學(xué)習(xí)快速的處理很多神經(jīng)網(wǎng)絡(luò)層。
進(jìn)一步說,人工神經(jīng)網(wǎng)絡(luò)(ANN)是簡單的基于我們對(duì)大腦理解的一組算法。ANNs可以-在理論上-模擬數(shù)據(jù)集中任何種類的關(guān)系,但在實(shí)踐中要從神經(jīng)網(wǎng)絡(luò)得到可靠的結(jié)果,是非常棘手的。人工智能的研究可以追溯到20世紀(jì)50年代——被神經(jīng)網(wǎng)絡(luò)的成功和失敗打上了標(biāo)簽。
如今,一個(gè)被稱為“深度學(xué)習(xí)”的新神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域,在許多過去人工智能方法失敗的領(lǐng)域,取得了巨大的成功。
深度學(xué)習(xí)結(jié)合了計(jì)算能力和特殊類型的神經(jīng)網(wǎng)絡(luò),在大量的數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式。深度學(xué)習(xí)技術(shù)目前在識(shí)別圖像中的目標(biāo)和聲音中的單詞方面效果最好。研究人員現(xiàn)在正在尋找方法,將這些成功的模式識(shí)別到更復(fù)雜的任務(wù),如自動(dòng)語言翻譯,醫(yī)療診斷和許多其他重要的社會(huì)以及商業(yè)問題。
算法
SAS的圖形用戶界面,可以幫助你建立機(jī)器學(xué)習(xí)模型,并實(shí)現(xiàn)一個(gè)迭代機(jī)器學(xué)習(xí)的過程。不要求你是一個(gè)高級(jí)的統(tǒng)計(jì)師。我們可以綜合選擇機(jī)器學(xué)習(xí)算法幫助你快速的從大數(shù)據(jù)中獲取價(jià)值,包括許多SAS產(chǎn)品。SAS的機(jī)器學(xué)習(xí)算法,包括:
工具和過程
正如我們現(xiàn)在所知道的,它不僅僅是算法。最終,從你的大數(shù)據(jù)中獲得最大價(jià)值的秘密在于,將最好的算法與手頭的任務(wù)配對(duì):
SAS不斷尋找和評(píng)估新方法。他們在實(shí)施統(tǒng)計(jì)方法,以最恰解決你面臨的問題方面有著悠久的歷史。他們將統(tǒng)計(jì)和數(shù)據(jù)挖掘方面豐富的,復(fù)雜的遺產(chǎn)與最新的,最先進(jìn)的結(jié)構(gòu)結(jié)合,以確保您的模型盡可能快的運(yùn)行(甚至是在巨大的企業(yè)環(huán)境中)。
我們明白,快速的時(shí)間值不僅意味著快速,自動(dòng)化模型的性能,還包括在平臺(tái)之間數(shù)據(jù)移動(dòng)所需要的時(shí)間——尤其針于大數(shù)據(jù)。高性能,分布式的分析技術(shù),受益于結(jié)合Hadoop,和所有主要數(shù)據(jù)基礎(chǔ)的大規(guī)模并行處理。您可以快速地循環(huán)建模過程的所有步驟——在沒有移動(dòng)數(shù)據(jù)的情況下。
via:SAS
PS : 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。