0
雷鋒網(wǎng)按:本文為 AI 研習社編譯的技術博客,原標題 10 Examples of How to Use Statistical Methods in a Machine Learning Project ,作者為 Jason Brownlee 。
翻譯 | 趙若伽 校對 | 陳濤 整理 | MY
統(tǒng)計學和機器學習是兩個聯(lián)系特別緊密的領域。
事實上,這兩者的界限有時候非常模糊。然而有一些明顯屬于統(tǒng)計學領域的方法,不僅可用于機器學習的項目,并且極具價值。
公平地說,需要統(tǒng)計學方法來有效地完成機器學習預測建模項目。
在這篇博客中,你會了解到一些能在預測模型問題的關鍵步驟中發(fā)揮作用的統(tǒng)計學方法的具體例子。
在閱讀完這篇博客后,你會了解:
探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構建預測模型以及更好地理解數(shù)據(jù)。
統(tǒng)計學方法可以用來清洗和準備建模要用的數(shù)據(jù)。
統(tǒng)計假設檢驗和估計統(tǒng)計可以幫助進行模型選擇,并展示最終模型的技能和預測結果。
讓我們開始吧。
(在應用機器學習項目中使用統(tǒng)計學方法的十個例子。圖片來自于 chenutis,版權歸其所有。)
概述
在這篇博客中,我們將會著重講一下如何在應用機器學習項目中使用統(tǒng)計學方法的十個例子。
這將證明統(tǒng)計學知識對于成功解決預測建模問題至關重要。
問題架構
數(shù)據(jù)理解
數(shù)據(jù)清洗
數(shù)據(jù)選擇
數(shù)據(jù)準備
模型評估
模型配置
模型選擇
模型表達
模型預測
1. 問題架構
也許預測模型問題中最困難的一點就是問題的架構。
這包括了問題類型的選擇,例如是回歸還是分類,也許還有這個問題的輸入和輸出的結構及類型。
問題的架構并不是一直都很清晰,對于某個領域的新手,可能需要對這個領域中的觀察值進行一些深入探索。
而對于這個領域的專家,他們可能會以墨守成規(guī)的角度去看問題,從而受困其中,他們也需要從多角度去思考數(shù)據(jù),才能有所收獲。
統(tǒng)計方法在問題的架構階段有助于對數(shù)據(jù)的探索,其中包括:
探索性的數(shù)據(jù)分析。為了從數(shù)據(jù)中探索到特別的觀點,從而進行的匯總和可視化。
數(shù)據(jù)挖掘。自動探索數(shù)據(jù)間的結構關系和模式。
2. 數(shù)據(jù)理解
數(shù)據(jù)理解意思是對變量的分布和變量之間的關系有一個更詳細的理解。
這些知識其中一部分來自于這個領域的專業(yè)知識,或者需要專業(yè)知識去解釋。然而,專家和新手都會從處理領域內的真實觀察值中獲益。
用在理解數(shù)據(jù)的統(tǒng)計學模型的兩類主流分支是:
匯總統(tǒng)計。使用統(tǒng)計數(shù)值來匯總變量間的分布和關系的方法。
數(shù)據(jù)可視化。總結變量間的分布和關系的方法需要用到可視化的方法,例如:圖表,繪圖和圖形。
3. 數(shù)據(jù)清洗
一個領域中的觀察值往往存在些瑕疵。
雖然數(shù)據(jù)是數(shù)字化的,但存在一些過程會降低數(shù)據(jù)的精確性,反過來,后續(xù)用到數(shù)據(jù)的過程及模型也會受其影響。
例如:
數(shù)據(jù)破壞。
數(shù)據(jù)錯誤。
數(shù)據(jù)損失。
識別和修復這些問題數(shù)據(jù)的過程也叫做數(shù)據(jù)清洗。
統(tǒng)計方法應用于數(shù)據(jù)清洗中例子有:
異常點檢測。在數(shù)據(jù)分布中識別出離期望值很遠的觀察值的方法。
數(shù)據(jù)填補。修復或填補觀察值中損壞或缺失數(shù)據(jù)的方法。
4. 數(shù)據(jù)選擇
在建模時,不是所有觀察值或所有變量都是相關的。
減小這些元素的數(shù)據(jù)范圍的操作對于做出預測值是很有用的,這個過程叫做數(shù)據(jù)選擇。
應用在數(shù)據(jù)選擇的兩種統(tǒng)計學方法:
數(shù)據(jù)采樣。從較大的數(shù)據(jù)集中系統(tǒng)化創(chuàng)建較小的代表性樣本的方法。
特征選擇。自動識別與結果變量更有相關性的變量的方法。
5. 數(shù)據(jù)準備
數(shù)據(jù)一般不會直接拿來建模。
為了改變數(shù)據(jù)的形狀或結構,使它更適用于選定的問題架構或學習算法,需要對數(shù)據(jù)進行必要的轉化。
數(shù)據(jù)準備也會用到統(tǒng)計模型,例如:
縮放。例如標準化和規(guī)范化。
編碼。例如整數(shù)編碼和獨熱編碼。
變換。例如 Box-Cox 變換那樣的次方轉換。
6. 模型評估
預測模型問題的一個重要部分是對學習方法進行評估。
對模型的能力的評估主要是對未經過訓練的數(shù)據(jù)進行預測。
通常,訓練過程和評估預測模型的規(guī)劃過程叫作實驗設計,這是統(tǒng)計方法的一個子領域。
實驗設計。設計系統(tǒng)化的實驗來比較獨立的變量對結果影響的方法,比如對比預測的精度來選擇機器學習算法。
作為實現(xiàn)實驗設計的一部分,為了對可利用的數(shù)據(jù)做最合理的利用同時也為了評估模型的能力,統(tǒng)計學方法被用來重采樣一個數(shù)據(jù)集。這兩個目的代表了統(tǒng)計模型的子領域。
重采樣方法。為了訓練和評估預測模型而將數(shù)據(jù)集系統(tǒng)化分出子集的方法。
7. 模型配置
給定的機器學習算法通常有一套使學習方法能夠適應特定問題的超參數(shù)。
超參數(shù)的配置通常是經驗性的,而不是由分析得出的。這需要大量的實驗,以評估不同超參數(shù)值對模型性能的影響。
兩種統(tǒng)計學的子領域的方法可以用于對不同超參數(shù)配置產生的結果進行解釋和比較,它們是:
統(tǒng)計假設檢驗。根據(jù)對結果的假設或期望值,對觀察到的結果出現(xiàn)概率進行量化的方法。(提出使用臨界值和 p 值)
估計統(tǒng)計。使用置信區(qū)間去量化一個結果的不確定性的方法。
8. 模型選擇
給定一個預測建模問題,在眾多機器學習算法中可能有一個算法最適合該問題。
選擇一種方法作為解決方案的過程稱為模型選擇。
這可能涉及到項目參與者的自身條件以及用于評估問題的方法的估計技能能否對其給出詳細解釋。
與模型配置一樣,可以使用兩類統(tǒng)計方法來解釋不同模型的估計技能,并用于模型選擇。他們是:
統(tǒng)計假設檢驗。根據(jù)對結果的假設或期望值,對觀察到的結果出現(xiàn)概率進行量化的方法。(提出使用臨界值和 p 值)
估計統(tǒng)計。使用置信區(qū)間去量化一個結果的不確定性的方法。
9. 模型表示
一旦最終模型訓練完成,可以在部署其對真實數(shù)據(jù)進行預測前先展示給相關人員查看。
展示最終模型的一個環(huán)節(jié)包括展示模型的估計技能。
估計統(tǒng)計領域中的方法可以通過容忍區(qū)間和置信區(qū)間對機器學習模型的評估能力的不確定性進行量化。
估計統(tǒng)計。使用置信區(qū)間去量化一個結果的不確定性的方法。
10. 模型預測
最后,我們可以使用最終的模型來對我們不知道其輸出的新數(shù)據(jù)進行預測。
作為預測的一部分,量化預測的置信度非常重要。
就像模型表示的過程一樣,我們可以使用估計統(tǒng)計領域的方法來量化這種不確定性,例如置信區(qū)間和預測區(qū)間。
估計統(tǒng)計。使用置信區(qū)間去量化一個結果的不確定性的方法。
總結
在本教程中,你已經了解了統(tǒng)計方法在整個預測建模項目過程中的重要性。
具體來講你學到了:
探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構建預測模型以及更好地理解數(shù)據(jù)。
統(tǒng)計學方法可以用來清洗和準備建模要用的數(shù)據(jù)。
統(tǒng)計假設檢驗和估計統(tǒng)計可以幫助進行模型選擇,并展示最終模型的技能和預測結果。
原文鏈接:https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/
號外號外~
一個專注于
AI技術發(fā)展和AI工程師成長的求知求職社區(qū)
誕生啦!
歡迎大家訪問以下鏈接或者掃碼體驗
https://club.leiphone.com/page/home
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。