十個(gè)例子，教你用統(tǒng)計(jì)學(xué)方法高效完成機(jī)器學(xué)習(xí)項(xiàng)目

本文作者： AI研習(xí)社-譯站

2018-07-26 14:18

導(dǎo)語(yǔ)：如何在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子

雷鋒網(wǎng)按：本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題 10 Examples of How to Use Statistical Methods in a Machine Learning Project ，作者為 Jason Brownlee 。

翻譯 | 趙若伽校對(duì) | 陳濤整理 | MY

統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是兩個(gè)聯(lián)系特別緊密的領(lǐng)域。

事實(shí)上，這兩者的界限有時(shí)候非常模糊。然而有一些明顯屬于統(tǒng)計(jì)學(xué)領(lǐng)域的方法，不僅可用于機(jī)器學(xué)習(xí)的項(xiàng)目，并且極具價(jià)值。

公平地說(shuō)，需要統(tǒng)計(jì)學(xué)方法來(lái)有效地完成機(jī)器學(xué)習(xí)預(yù)測(cè)建模項(xiàng)目。

在這篇博客中，你會(huì)了解到一些能在預(yù)測(cè)模型問(wèn)題的關(guān)鍵步驟中發(fā)揮作用的統(tǒng)計(jì)學(xué)方法的具體例子。

在閱讀完這篇博客后，你會(huì)了解：

探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構(gòu)建預(yù)測(cè)模型以及更好地理解數(shù)據(jù)。
統(tǒng)計(jì)學(xué)方法可以用來(lái)清洗和準(zhǔn)備建模要用的數(shù)據(jù)。
統(tǒng)計(jì)假設(shè)檢驗(yàn)和估計(jì)統(tǒng)計(jì)可以幫助進(jìn)行模型選擇，并展示最終模型的技能和預(yù)測(cè)結(jié)果。

讓我們開(kāi)始吧。

十個(gè)例子，教你用統(tǒng)計(jì)學(xué)方法高效完成機(jī)器學(xué)習(xí)項(xiàng)目

（在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。圖片來(lái)自于 chenutis，版權(quán)歸其所有。）

概述

在這篇博客中，我們將會(huì)著重講一下如何在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。

這將證明統(tǒng)計(jì)學(xué)知識(shí)對(duì)于成功解決預(yù)測(cè)建模問(wèn)題至關(guān)重要。

問(wèn)題架構(gòu)
數(shù)據(jù)理解
數(shù)據(jù)清洗
數(shù)據(jù)選擇
數(shù)據(jù)準(zhǔn)備
模型評(píng)估
模型配置
模型選擇
模型表達(dá)
模型預(yù)測(cè)

1. 問(wèn)題架構(gòu)

也許預(yù)測(cè)模型問(wèn)題中最困難的一點(diǎn)就是問(wèn)題的架構(gòu)。

這包括了問(wèn)題類型的選擇，例如是回歸還是分類，也許還有這個(gè)問(wèn)題的輸入和輸出的結(jié)構(gòu)及類型。

問(wèn)題的架構(gòu)并不是一直都很清晰，對(duì)于某個(gè)領(lǐng)域的新手，可能需要對(duì)這個(gè)領(lǐng)域中的觀察值進(jìn)行一些深入探索。

而對(duì)于這個(gè)領(lǐng)域的專家，他們可能會(huì)以墨守成規(guī)的角度去看問(wèn)題，從而受困其中，他們也需要從多角度去思考數(shù)據(jù)，才能有所收獲。

統(tǒng)計(jì)方法在問(wèn)題的架構(gòu)階段有助于對(duì)數(shù)據(jù)的探索，其中包括：

探索性的數(shù)據(jù)分析。為了從數(shù)據(jù)中探索到特別的觀點(diǎn)，從而進(jìn)行的匯總和可視化。
數(shù)據(jù)挖掘。自動(dòng)探索數(shù)據(jù)間的結(jié)構(gòu)關(guān)系和模式。

2. 數(shù)據(jù)理解

數(shù)據(jù)理解意思是對(duì)變量的分布和變量之間的關(guān)系有一個(gè)更詳細(xì)的理解。

這些知識(shí)其中一部分來(lái)自于這個(gè)領(lǐng)域的專業(yè)知識(shí)，或者需要專業(yè)知識(shí)去解釋。然而，專家和新手都會(huì)從處理領(lǐng)域內(nèi)的真實(shí)觀察值中獲益。

用在理解數(shù)據(jù)的統(tǒng)計(jì)學(xué)模型的兩類主流分支是：

匯總統(tǒng)計(jì)。使用統(tǒng)計(jì)數(shù)值來(lái)匯總變量間的分布和關(guān)系的方法。
數(shù)據(jù)可視化。總結(jié)變量間的分布和關(guān)系的方法需要用到可視化的方法，例如：圖表，繪圖和圖形。

3. 數(shù)據(jù)清洗

一個(gè)領(lǐng)域中的觀察值往往存在些瑕疵。

雖然數(shù)據(jù)是數(shù)字化的，但存在一些過(guò)程會(huì)降低數(shù)據(jù)的精確性，反過(guò)來(lái)，后續(xù)用到數(shù)據(jù)的過(guò)程及模型也會(huì)受其影響。

例如：

數(shù)據(jù)破壞。
數(shù)據(jù)錯(cuò)誤。
數(shù)據(jù)損失。

識(shí)別和修復(fù)這些問(wèn)題數(shù)據(jù)的過(guò)程也叫做數(shù)據(jù)清洗。

統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)清洗中例子有：

異常點(diǎn)檢測(cè)。在數(shù)據(jù)分布中識(shí)別出離期望值很遠(yuǎn)的觀察值的方法。
數(shù)據(jù)填補(bǔ)。修復(fù)或填補(bǔ)觀察值中損壞或缺失數(shù)據(jù)的方法。

4. 數(shù)據(jù)選擇

在建模時(shí)，不是所有觀察值或所有變量都是相關(guān)的。

減小這些元素的數(shù)據(jù)范圍的操作對(duì)于做出預(yù)測(cè)值是很有用的，這個(gè)過(guò)程叫做數(shù)據(jù)選擇。

應(yīng)用在數(shù)據(jù)選擇的兩種統(tǒng)計(jì)學(xué)方法：

數(shù)據(jù)采樣。從較大的數(shù)據(jù)集中系統(tǒng)化創(chuàng)建較小的代表性樣本的方法。
特征選擇。自動(dòng)識(shí)別與結(jié)果變量更有相關(guān)性的變量的方法。

5. 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)一般不會(huì)直接拿來(lái)建模。

為了改變數(shù)據(jù)的形狀或結(jié)構(gòu)，使它更適用于選定的問(wèn)題架構(gòu)或?qū)W習(xí)算法，需要對(duì)數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)化。

數(shù)據(jù)準(zhǔn)備也會(huì)用到統(tǒng)計(jì)模型，例如：

縮放。例如標(biāo)準(zhǔn)化和規(guī)范化。
編碼。例如整數(shù)編碼和獨(dú)熱編碼。
變換。例如 Box-Cox 變換那樣的次方轉(zhuǎn)換。

6. 模型評(píng)估

預(yù)測(cè)模型問(wèn)題的一個(gè)重要部分是對(duì)學(xué)習(xí)方法進(jìn)行評(píng)估。

對(duì)模型的能力的評(píng)估主要是對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

通常，訓(xùn)練過(guò)程和評(píng)估預(yù)測(cè)模型的規(guī)劃過(guò)程叫作實(shí)驗(yàn)設(shè)計(jì)，這是統(tǒng)計(jì)方法的一個(gè)子領(lǐng)域。

實(shí)驗(yàn)設(shè)計(jì)。設(shè)計(jì)系統(tǒng)化的實(shí)驗(yàn)來(lái)比較獨(dú)立的變量對(duì)結(jié)果影響的方法，比如對(duì)比預(yù)測(cè)的精度來(lái)選擇機(jī)器學(xué)習(xí)算法。

作為實(shí)現(xiàn)實(shí)驗(yàn)設(shè)計(jì)的一部分，為了對(duì)可利用的數(shù)據(jù)做最合理的利用同時(shí)也為了評(píng)估模型的能力，統(tǒng)計(jì)學(xué)方法被用來(lái)重采樣一個(gè)數(shù)據(jù)集。這兩個(gè)目的代表了統(tǒng)計(jì)模型的子領(lǐng)域。

重采樣方法。為了訓(xùn)練和評(píng)估預(yù)測(cè)模型而將數(shù)據(jù)集系統(tǒng)化分出子集的方法。

7. 模型配置

給定的機(jī)器學(xué)習(xí)算法通常有一套使學(xué)習(xí)方法能夠適應(yīng)特定問(wèn)題的超參數(shù)。

超參數(shù)的配置通常是經(jīng)驗(yàn)性的，而不是由分析得出的。這需要大量的實(shí)驗(yàn)，以評(píng)估不同超參數(shù)值對(duì)模型性能的影響。

兩種統(tǒng)計(jì)學(xué)的子領(lǐng)域的方法可以用于對(duì)不同超參數(shù)配置產(chǎn)生的結(jié)果進(jìn)行解釋和比較，它們是：

統(tǒng)計(jì)假設(shè)檢驗(yàn)。根據(jù)對(duì)結(jié)果的假設(shè)或期望值，對(duì)觀察到的結(jié)果出現(xiàn)概率進(jìn)行量化的方法。（提出使用臨界值和 p 值）
估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。

8. 模型選擇

給定一個(gè)預(yù)測(cè)建模問(wèn)題，在眾多機(jī)器學(xué)習(xí)算法中可能有一個(gè)算法最適合該問(wèn)題。

選擇一種方法作為解決方案的過(guò)程稱為模型選擇。

這可能涉及到項(xiàng)目參與者的自身?xiàng)l件以及用于評(píng)估問(wèn)題的方法的估計(jì)技能能否對(duì)其給出詳細(xì)解釋。

與模型配置一樣，可以使用兩類統(tǒng)計(jì)方法來(lái)解釋不同模型的估計(jì)技能，并用于模型選擇。他們是：

統(tǒng)計(jì)假設(shè)檢驗(yàn)。根據(jù)對(duì)結(jié)果的假設(shè)或期望值，對(duì)觀察到的結(jié)果出現(xiàn)概率進(jìn)行量化的方法。（提出使用臨界值和 p 值）
估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。

9. 模型表示

一旦最終模型訓(xùn)練完成，可以在部署其對(duì)真實(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè)前先展示給相關(guān)人員查看。

展示最終模型的一個(gè)環(huán)節(jié)包括展示模型的估計(jì)技能。

估計(jì)統(tǒng)計(jì)領(lǐng)域中的方法可以通過(guò)容忍區(qū)間和置信區(qū)間對(duì)機(jī)器學(xué)習(xí)模型的評(píng)估能力的不確定性進(jìn)行量化。

估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。

10. 模型預(yù)測(cè)

最后，我們可以使用最終的模型來(lái)對(duì)我們不知道其輸出的新數(shù)據(jù)進(jìn)行預(yù)測(cè)。

作為預(yù)測(cè)的一部分，量化預(yù)測(cè)的置信度非常重要。

就像模型表示的過(guò)程一樣，我們可以使用估計(jì)統(tǒng)計(jì)領(lǐng)域的方法來(lái)量化這種不確定性，例如置信區(qū)間和預(yù)測(cè)區(qū)間。

估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。

總結(jié)

在本教程中，你已經(jīng)了解了統(tǒng)計(jì)方法在整個(gè)預(yù)測(cè)建模項(xiàng)目過(guò)程中的重要性。

具體來(lái)講你學(xué)到了：

探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構(gòu)建預(yù)測(cè)模型以及更好地理解數(shù)據(jù)。
統(tǒng)計(jì)學(xué)方法可以用來(lái)清洗和準(zhǔn)備建模要用的數(shù)據(jù)。
統(tǒng)計(jì)假設(shè)檢驗(yàn)和估計(jì)統(tǒng)計(jì)可以幫助進(jìn)行模型選擇，并展示最終模型的技能和預(yù)測(cè)結(jié)果。

原文鏈接：https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/

十個(gè)例子，教你用統(tǒng)計(jì)學(xué)方法高效完成機(jī)器學(xué)習(xí)項(xiàng)目