隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

本文作者：光陰

2017-05-25 17:15

導(dǎo)語：許多隨機機器學(xué)習(xí)算法存在同樣的問題：相同的算法、相同的數(shù)據(jù)，得到的計算結(jié)果卻每次都不同。

雷鋒網(wǎng)按：本文作者 Jason Brownlee 為澳大利亞知名機器學(xué)習(xí)專家，對時間序列預(yù)測尤有心得。原文發(fā)布于其博客。雷鋒網(wǎng)編譯。

Jason Brownlee

許多隨機機器學(xué)習(xí)算法存在同樣的問題：相同的算法、相同的數(shù)據(jù)，得到的計算結(jié)果卻每次都不同。這意味著在進行隨機算法檢驗或者算法比較的時候，必須重復(fù)試驗很多次，然后用它們的平均值來評價模型。

那么對于給定問題，隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

一般建議重復(fù)30次以上甚至100次左右。有人甚至重復(fù)幾千次，完全無視邊際遞減效應(yīng)。

對于衡量隨機機器學(xué)習(xí)算法性能所需的重復(fù)試驗次數(shù)，在本教程中，我將教會大家如何用統(tǒng)計學(xué)方法來正確預(yù)估。

教程概述

本教程分以下4部分：

數(shù)據(jù)生成
基本分析
重復(fù)次數(shù)的影響分析
標準誤差計算

本教程使用Python語言，版本 2或者3均可，為順利運行示例代碼，請務(wù)必安裝SciPy 、NumPy、Pandas和Matplotlib庫。

下面正式開始我們的教程

1.數(shù)據(jù)生成

第一步是生成可用的數(shù)據(jù)。

假設(shè)我們將一個神經(jīng)網(wǎng)絡(luò)模型或其它隨機算法，在數(shù)據(jù)的訓(xùn)練集上重復(fù)訓(xùn)練了1000次，并且記錄了模型在測試集上的均方根誤差（RMSE）。作為本教程后續(xù)分析的前提，假設(shè)我們所用的數(shù)據(jù)呈正態(tài)分布。

務(wù)必查看一下結(jié)果的分布形態(tài)，通常結(jié)果會呈高斯分布（即正態(tài)分布）。

我們會預(yù)先生成研究用的樣本總體，這么做對后續(xù)研究非常有幫助，因為程序生成的樣本總體其均值和標準差就確定下來，而這在實際應(yīng)用中常常是無法得知的。

我們用均值=60，標準差=10作為參數(shù)生成試驗數(shù)據(jù)。

下面是生成1000個隨機數(shù)的代碼，將結(jié)果保存為results.csv文件.

代碼中我們用seed()作為隨機數(shù)生成器種子函數(shù)，來確保每次運行代碼后得到的數(shù)據(jù)都一致。使用normal()函數(shù)生成正態(tài)分布隨機數(shù)，用savetxt()函數(shù)將數(shù)據(jù)保存為ASCII格式。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

運行這段代碼后，我們得到一個名為results.csv的文件，里面保存了1000個隨機數(shù)，它們代表了隨機算法重復(fù)運行的模擬結(jié)果。

下面是該文件的最后十行數(shù)據(jù)。

6.160564991742511864e+01
5.879850024371251038e+01
6.385602292344325548e+01
6.718290735754342791e+01
7.291188902850875309e+01
5.883555851728335995e+01
3.722702003339634302e+01
5.930375460544870947e+01
6.353870426882840405e+01
5.813044983467250404e+01

現(xiàn)在咱們先把如何得到這批數(shù)據(jù)的事放一邊，繼續(xù)往下進行。

2.基本分析

得到樣本總體之后，我們先對其進行簡單的統(tǒng)計分析。

下面三種是非常簡單有效的方法：

計算統(tǒng)計信息，比如均值、標準差和百分位數(shù)。
繪制箱線圖來查看數(shù)據(jù)散布程度
繪制直方圖來查看數(shù)據(jù)分布情況

通過下面的代碼進行簡單的統(tǒng)計分析，首先加載results.csv數(shù)據(jù)文件，然后進行統(tǒng)計計算，并繪圖顯示。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

可以看出，算法的平均性能約為60.3，標準差約為9.8。

假定數(shù)據(jù)表示的是類似均方根誤差一樣的最小值，從統(tǒng)計結(jié)果看，最大值為99.5，而最小值為29.4。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

下面的箱線圖中展示了數(shù)據(jù)的散布程度，其中箱形部分是樣本中段（上下四分位之間）數(shù)據(jù)（約占樣本的50%），圓點代表異常值，綠線表示中位數(shù)。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

由圖可知，結(jié)果圍繞中值分布合理。

最后生成的是數(shù)據(jù)的直方圖，圖中顯示出了正態(tài)分布的貝爾曲線（鐘形曲線），這意味著我們在進行數(shù)據(jù)分析工作時，可以使用標準的統(tǒng)計分析工具。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

由圖可知，數(shù)據(jù)以60為對稱軸，左右?guī)缀鯖]有偏斜。

3.重復(fù)次數(shù)的影響分析

之前我們生成了1000個結(jié)果數(shù)據(jù)。對于問題的研究來說可能多了，也可能不夠。

該如何判斷呢？

第一個想法就是畫出試驗重復(fù)次數(shù)和這些試驗結(jié)果均值之間的曲線圖。我們希望隨著重復(fù)次數(shù)的增加，結(jié)果的均值能很快穩(wěn)定。繪制成曲線后，看起來起始段波動較大且短，而中后部平穩(wěn)且長。

利用下面的代碼繪制出該曲線。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

由圖可以看出，前200次數(shù)據(jù)均值波動較大， 600次后，均值趨于穩(wěn)定，曲線波動較小。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

為了更好的觀察曲線，將其放大，只顯示前500次重復(fù)試驗結(jié)果。

同時將1000次試驗結(jié)果的均值線疊加上，以便找到兩者之間的偏差關(guān)系。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

圖中橙色直線就是1000重復(fù)試驗結(jié)果的均值線。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

同時也能看到重復(fù)100次時，結(jié)果與均值較近，重復(fù)次數(shù)達到400時，結(jié)果更理想，但是提升不明顯。

是不是很棒？不過會不會還有更好的辦法呢？

4.計算標準誤差

標準誤差用來計算樣本均值偏離總體均值的多少。它和標準差不同，標準差描述了樣本觀察值的平均變化量。標準誤差能夠根據(jù)樣本均值的誤差量或者誤差散布來估計總體均值。

標準誤差可以通過下式計算：

standard_error = sample_standard_deviation / sqrt(number of repeats)

即標準誤差等于樣本的標準差除以重復(fù)次數(shù)的均方根。

我們希望標準誤差會隨著試驗次數(shù)的增加而減小。通過下面的代碼，計算每個重復(fù)試驗次數(shù)對應(yīng)的樣本均值的標準誤差，并繪制標準誤差圖。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

運行代碼后，會繪制出標準誤差與重復(fù)次數(shù)的關(guān)系曲線。

和預(yù)期的一樣，隨著重復(fù)試驗次數(shù)的增加，標準誤差快速減小。標準誤差下降到一定程度后，趨于穩(wěn)定，通常把1~2個單位內(nèi)的值，稱為可接受誤差。

標準誤差的單位和樣本數(shù)據(jù)的單位一致。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

在上圖中添加縱坐標為0.5和1的輔助線，幫助我們找到可接受的標準誤差值。代碼如下：

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？

雷鋒網(wǎng)友情提醒，圖中出現(xiàn)的兩條紅色輔助線，分別代表標準誤差等于0.5和1。

由圖可知，如果試驗重復(fù)次數(shù)等于100次左右，標誤差開始小于1，如果試驗重復(fù)次數(shù)等于300~350次左右，標準誤差小于0.5。隨著重復(fù)試驗次數(shù)的增加，標準誤差趨于穩(wěn)定，變化較小。再次提醒大家記住，標準誤差可以衡量樣本均值偏離總體均值的多少。

隨機機器學(xué)習(xí)算法需要試驗多少次，才足以客觀有效的反映模型性能？