1
本文作者: 章敏 | 2016-08-15 17:09 |
導讀:機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預測的算法。因為學習算法中涉及了大量的統(tǒng)計學理論,機器學習與推斷統(tǒng)計學聯(lián)系尤為密切,也被稱為統(tǒng)計學習理論。算法設計方面,機器學習理論關注可以實現(xiàn)的,行之有效的學習算法。很多推論問題屬于無程序可循難度,所以部分的機器學習研究是開發(fā)容易處理的近似算法。
機器學習已廣泛應用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等領域。
機器學習是一種數(shù)據(jù)分析方法,它可以自動分析模型的建筑。通過使用迭代學習數(shù)據(jù)的算法,機器學習可以使電腦在沒有被明確編程看哪里的情況下,發(fā)現(xiàn)隱藏的領域。
迭代在機器學習中是非常重要的,由于它的存在,模型在遇到新的數(shù)據(jù)時,就可以獨立地適應數(shù)據(jù)。它們可以從先前產生的可靠計算,重復的決定和結果中進行學習。機器學習并不是一個全新的學科-而是獲得新動力的學科。
由于新型計算技術的產生,如今的機器學習與以往大不相同。盡管很多機器學習算法已經存在了很長時間,但自動將復雜的數(shù)學計算應用到大數(shù)據(jù)的能力(一個又一個,越來越快)是最新的進展。下面這些廣泛宣傳的機器學習應用程序的例子,你可能非常熟悉:
·大量的炒作,Google自動駕駛汽車?機器學習的本質。
·像Amazon和Netflix的在線推薦服務?機器學習在日常生活中的應用
·知道客戶在Twutter上說了什么關于你的事嗎?機器學習與語言規(guī)則創(chuàng)造結合。
·欺詐檢測?在我們現(xiàn)今生活中,一個更明顯的,重要的用途。
人們在機器學習方面興趣的復興,也是由于同樣的因素,即數(shù)據(jù)挖掘和貝葉斯分析比以往更受歡迎。在類似數(shù)量增長和可用數(shù)據(jù)這方面,計算處理更實惠,更強大,且負擔得起數(shù)據(jù)存儲。
以上所有的因素都暗示著:機器學習可以更快且自動的產生模型,以分析更大,更復雜的數(shù)據(jù),而且傳輸更加迅速,結果更加精準——甚至是在非常大的規(guī)模中。結果是?在現(xiàn)實中無人類干涉時,高價值( High-value)的預測可以產生更好的決定,和更明智的行為。
自動模型的建立是在現(xiàn)實中生成明智行動的一大關鍵。分析思想領袖Thomas H. Davenport在華爾街日報上寫道,日新月異,不斷增長的數(shù)據(jù),"…你需要快速移動的建模流( fast-moving modeling streams)來保持。"而你可以通過機器學習做到這些。他還說道"人類通常一周可以創(chuàng)建一個或兩個好的模型;而機器學習一周就可以創(chuàng)造出成千上萬的模型."
你曾經是否好奇過,一個在線零售商是如何瞬時的為您提供可能感興趣產品的報價嗎?或貸款人如何對你的貸款請求提供近實時的答復?我們的許多日常活動都是由機器學習算法驅動的,包括:
被最廣泛采納的兩大機器學習方法是監(jiān)督學習( supervised learning )和無監(jiān)督學習(unsupervised learning)。大多數(shù)的機器學習(大概70%)是監(jiān)督學習。無監(jiān)督學習大概占10%-20%。有時也會使用半監(jiān)督和強化學習這兩個技術。
·監(jiān)督學習 算法利用標簽實例進行訓練,就像已知所需輸出的輸入。例如,一個設備可以有的數(shù)據(jù)點標記為“F”(失?。┗颉癛”(運行)。學習算法收到了一系列有著對應正確輸出的輸入,且算法通過對比實際輸出和正確輸出進行學習,以找出錯誤。然后相應的進行模型修改。通過分類,回歸,預測和梯度提高的方法,監(jiān)督學習使用模式來預測額外的未標記數(shù)據(jù)的標簽的值。監(jiān)督學習被普遍應用于用歷史數(shù)據(jù)預測未來可能發(fā)生的事件。例如,它可以預測,什么時候信用卡交易可能是欺詐性的,或哪個保險客戶可能提出索賠。
·無監(jiān)督學習使用無歷史標簽的相反數(shù)據(jù)。系統(tǒng)不會被告知“正確答案”。算法必須搞明白被呈現(xiàn)的是什么。其目標是探索數(shù)據(jù)并找到一些內部結構。無監(jiān)督學習對事務性數(shù)據(jù)的處理效果很好。例如,它可以識別有相同屬性的顧客群(可以在市場營銷中被一樣對待)?;蛘咚梢哉业街饕獙傩詫⒖蛻羧罕舜藚^(qū)分開。流行的技術包括自組織映射(self-organizing maps),最近鄰映射( nearest-neighbor mapping),k-均值聚類(k-means clustering )和奇異值分解(singular value decomposition)。這些算法也用于段文本主題,推薦項目,和確定數(shù)據(jù)異常值。
·半監(jiān)督學習的應用和監(jiān)督學習相同。但它同時使用了標簽和無標簽數(shù)據(jù)進行訓練-通常情況下是少量的標記的數(shù)據(jù)與大量的未標記的數(shù)據(jù)(因為未標記的數(shù)據(jù)并不昂貴,且只需要較少的努力就可獲得)。這種類型的學習可以使用的方法,如分類,回歸和預測。當一個完全標記的培訓過程,其相關標簽的成本太高時,就要用到半監(jiān)督學習。其中早期的例子包括在網絡攝像頭上識別一個人的臉。
·強化學習經常被用于機器人,游戲和導航。通過強化學習,該算法通過試驗和錯誤發(fā)現(xiàn)行動產生的最大回報。這種類型的學習有三個主要組成部分:代理(學習者或決策者),環(huán)境(一切的代理交互)和行動(什么是代理可以做的)。其目標是代理選擇的行動,可以在一個給定的時間內最大化預期獎勵。通過一個好的策略,代理將更快地達到目標。因此,強化學習的目標是學習最好的策略。
機器學習與其它統(tǒng)計和學習方法的不同之處,如數(shù)據(jù)挖掘,是辯論的另一個熱門話題。簡單來說,雖然機器學習使用了許多與數(shù)據(jù)挖掘相同的算法和技術,但其中有一個區(qū)別在于這兩個學科的預測:
·數(shù)據(jù)挖掘是發(fā)現(xiàn)以前未知的模式和知識。
·機器學習是用來重現(xiàn)已知的模式和知識,自動應用到其他數(shù)據(jù),然后自動的將這些結果應用到決策和行動。
目前電腦的能力逐漸增強也刺激著數(shù)據(jù)挖掘進化用于機器學習。例如神經網絡很長一段時間內被用于數(shù)據(jù)挖掘應用。隨著計算能力的增加,你可以創(chuàng)建許多層神經網絡。在機器學習語言中,這些被稱為“深度神經網絡”。正是計算能力的提升確保了自動學習快速的處理很多神經網絡層。
進一步說,人工神經網絡(ANN)是簡單的基于我們對大腦理解的一組算法。ANNs可以-在理論上-模擬數(shù)據(jù)集中任何種類的關系,但在實踐中要從神經網絡得到可靠的結果,是非常棘手的。人工智能的研究可以追溯到20世紀50年代——被神經網絡的成功和失敗打上了標簽。
如今,一個被稱為“深度學習”的新神經網絡研究領域,在許多過去人工智能方法失敗的領域,取得了巨大的成功。
深度學習結合了計算能力和特殊類型的神經網絡,在大量的數(shù)據(jù)中學習復雜的模式。深度學習技術目前在識別圖像中的目標和聲音中的單詞方面效果最好。研究人員現(xiàn)在正在尋找方法,將這些成功的模式識別到更復雜的任務,如自動語言翻譯,醫(yī)療診斷和許多其他重要的社會以及商業(yè)問題。
算法
SAS的圖形用戶界面,可以幫助你建立機器學習模型,并實現(xiàn)一個迭代機器學習的過程。不要求你是一個高級的統(tǒng)計師。我們可以綜合選擇機器學習算法幫助你快速的從大數(shù)據(jù)中獲取價值,包括許多SAS產品。SAS的機器學習算法,包括:
工具和過程
正如我們現(xiàn)在所知道的,它不僅僅是算法。最終,從你的大數(shù)據(jù)中獲得最大價值的秘密在于,將最好的算法與手頭的任務配對:
SAS不斷尋找和評估新方法。他們在實施統(tǒng)計方法,以最恰解決你面臨的問題方面有著悠久的歷史。他們將統(tǒng)計和數(shù)據(jù)挖掘方面豐富的,復雜的遺產與最新的,最先進的結構結合,以確保您的模型盡可能快的運行(甚至是在巨大的企業(yè)環(huán)境中)。
我們明白,快速的時間值不僅意味著快速,自動化模型的性能,還包括在平臺之間數(shù)據(jù)移動所需要的時間——尤其針于大數(shù)據(jù)。高性能,分布式的分析技術,受益于結合Hadoop,和所有主要數(shù)據(jù)基礎的大規(guī)模并行處理。您可以快速地循環(huán)建模過程的所有步驟——在沒有移動數(shù)據(jù)的情況下。
via:SAS
PS : 本文由雷鋒網獨家編譯,未經許可拒絕轉載!
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。