什么是機器學習？為什么它如此重要？

本文作者：章敏

2016-08-15 17:09

導語：機器學習是一種數據分析方法，它可以自動分析模型的建立。使用迭代學習數據的算法，機器學習可以使電腦在沒有被明確編程看哪里時，發(fā)現隱藏的領域。

導讀：機器學習是近20多年興起的一門多領域交叉學科，涉及概率論、統(tǒng)計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規(guī)律，并利用規(guī)律對未知數據進行預測的算法。因為學習算法中涉及了大量的統(tǒng)計學理論，機器學習與推斷統(tǒng)計學聯(lián)系尤為密切，也被稱為統(tǒng)計學習理論。算法設計方面，機器學習理論關注可以實現的，行之有效的學習算法。很多推論問題屬于無程序可循難度，所以部分的機器學習研究是開發(fā)容易處理的近似算法。

機器學習已廣泛應用于數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等領域。

什么是機器學習？

機器學習是一種數據分析方法，它可以自動分析模型的建筑。通過使用迭代學習數據的算法，機器學習可以使電腦在沒有被明確編程看哪里的情況下，發(fā)現隱藏的領域。

迭代在機器學習中是非常重要的，由于它的存在，模型在遇到新的數據時，就可以獨立地適應數據。它們可以從先前產生的可靠計算，重復的決定和結果中進行學習。機器學習并不是一個全新的學科-而是獲得新動力的學科。

由于新型計算技術的產生，如今的機器學習與以往大不相同。盡管很多機器學習算法已經存在了很長時間，但自動將復雜的數學計算應用到大數據的能力（一個又一個，越來越快）是最新的進展。下面這些廣泛宣傳的機器學習應用程序的例子，你可能非常熟悉：

·大量的炒作，Google自動駕駛汽車？機器學習的本質。
·像Amazon和Netflix的在線推薦服務？機器學習在日常生活中的應用
·知道客戶在Twutter上說了什么關于你的事嗎？機器學習與語言規(guī)則創(chuàng)造結合。
·欺詐檢測？在我們現今生活中，一個更明顯的，重要的用途。

為什么越來越多人對機器學習感興趣？

人們在機器學習方面興趣的復興，也是由于同樣的因素，即數據挖掘和貝葉斯分析比以往更受歡迎。在類似數量增長和可用數據這方面，計算處理更實惠，更強大，且負擔得起數據存儲。

以上所有的因素都暗示著：機器學習可以更快且自動的產生模型，以分析更大，更復雜的數據，而且傳輸更加迅速，結果更加精準——甚至是在非常大的規(guī)模中。結果是？在現實中無人類干涉時，高價值（ High-value）的預測可以產生更好的決定，和更明智的行為。

自動模型的建立是在現實中生成明智行動的一大關鍵。分析思想領袖Thomas H. Davenport在華爾街日報上寫道，日新月異，不斷增長的數據，"…你需要快速移動的建模流（ fast-moving modeling streams）來保持。"而你可以通過機器學習做到這些。他還說道"人類通常一周可以創(chuàng)建一個或兩個好的模型；而機器學習一周就可以創(chuàng)造出成千上萬的模型."

機器學習如今的應用情況如何？

你曾經是否好奇過，一個在線零售商是如何瞬時的為您提供可能感興趣產品的報價嗎？或貸款人如何對你的貸款請求提供近實時的答復？我們的許多日?；顒佣际怯蓹C器學習算法驅動的，包括：

什么是機器學習？為什么它如此重要？

機器學習中最流行的學習方法有哪些？

被最廣泛采納的兩大機器學習方法是監(jiān)督學習（ supervised learning ）和無監(jiān)督學習（unsupervised learning）。大多數的機器學習（大概70%）是監(jiān)督學習。無監(jiān)督學習大概占10%-20%。有時也會使用半監(jiān)督和強化學習這兩個技術。

·監(jiān)督學習 算法利用標簽實例進行訓練，就像已知所需輸出的輸入。例如，一個設備可以有的數據點標記為“F”（失?。┗颉癛”（運行）。學習算法收到了一系列有著對應正確輸出的輸入，且算法通過對比實際輸出和正確輸出進行學習，以找出錯誤。然后相應的進行模型修改。通過分類，回歸，預測和梯度提高的方法，監(jiān)督學習使用模式來預測額外的未標記數據的標簽的值。監(jiān)督學習被普遍應用于用歷史數據預測未來可能發(fā)生的事件。例如，它可以預測，什么時候信用卡交易可能是欺詐性的，或哪個保險客戶可能提出索賠。
·無監(jiān)督學習使用無歷史標簽的相反數據。系統(tǒng)不會被告知“正確答案”。算法必須搞明白被呈現的是什么。其目標是探索數據并找到一些內部結構。無監(jiān)督學習對事務性數據的處理效果很好。例如，它可以識別有相同屬性的顧客群（可以在市場營銷中被一樣對待）。或者它可以找到主要屬性將客戶群彼此區(qū)分開。流行的技術包括自組織映射（self-organizing maps），最近鄰映射（ nearest-neighbor mapping），k-均值聚類（k-means clustering ）和奇異值分解（singular value decomposition）。這些算法也用于段文本主題，推薦項目，和確定數據異常值。
·半監(jiān)督學習的應用和監(jiān)督學習相同。但它同時使用了標簽和無標簽數據進行訓練-通常情況下是少量的標記的數據與大量的未標記的數據（因為未標記的數據并不昂貴，且只需要較少的努力就可獲得）。這種類型的學習可以使用的方法，如分類，回歸和預測。當一個完全標記的培訓過程，其相關標簽的成本太高時，就要用到半監(jiān)督學習。其中早期的例子包括在網絡攝像頭上識別一個人的臉。
·強化學習經常被用于機器人，游戲和導航。通過強化學習，該算法通過試驗和錯誤發(fā)現行動產生的最大回報。這種類型的學習有三個主要組成部分：代理（學習者或決策者），環(huán)境（一切的代理交互）和行動（什么是代理可以做的）。其目標是代理選擇的行動，可以在一個給定的時間內最大化預期獎勵。通過一個好的策略，代理將更快地達到目標。因此，強化學習的目標是學習最好的策略。