手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

本文作者：恒亮

2017-03-30 14:11

導語：如何針對時間序列數(shù)據(jù)選擇特征值？

雷鋒網(wǎng)按：本文源自美國機器學習專家 Jason Brownlee 的博客，雷鋒網(wǎng)編譯。

要將機器學習算法應用于時間序列數(shù)據(jù)，需要特征工程的幫助。

例如，單變量的時間序列數(shù)據(jù)集由一系列觀察結果組成，它們必須被轉換成輸入和輸出特征，才能用于監(jiān)督性學習算法。

但這里有一個問題：針對每個時間序列問題，你可以處理的特征類型和數(shù)量，卻并沒有明確的限制。當然，古典的時間序列分析工具（如相關圖correlogram）可以幫助評估滯后變量（lag variables），但并不能直接幫助開發(fā)者對其他類型的特征進行選擇，例如從時間戳（年、月、日）和移動統(tǒng)計信息（如移動平均線moving average）衍生的特征。

因此，我們將在本教程中探討如何利用基于特征重要性和特征選擇的機器學習工具處理時間序列問題。

通過本教程的學習，你將了解：

● 如何創(chuàng)建和解釋滯后觀察的相關圖。
● 如何計算和解釋時間序列特征的重要性得分。
● 如何對時間序列輸入變量進行特征選擇。

本教程共分為如下六個部分：

1. 載入每月汽車銷量數(shù)據(jù)集：即載入我們將要使用的數(shù)據(jù)集。
2. 平穩(wěn)化：講述如何使數(shù)據(jù)集平穩(wěn)化，以便于后續(xù)的分析和預測。
3. 自相關圖：講述如何創(chuàng)建時間序列數(shù)據(jù)的相關圖。
4. 時間序列到監(jiān)督學習：將時間單變量的時間序列轉化為監(jiān)督性學習問題。
5. 滯后變量的特征重要性：講述如何計算和查看時間序列數(shù)據(jù)的特征重要性得分。
6. 滯后變量的特征選擇：講述如何計算和查看時間序列數(shù)據(jù)的特征選擇結果。

1. 載入數(shù)據(jù)

在本教程中，我們將基于魁北克在 1960 到 1968 年的月度汽車銷量數(shù)據(jù)進行講解。

原始數(shù)據(jù)可以在如下鏈接下載：

https://datamarket.com/data/set/22n4/monthly-car-sales-in-quebec-1960-1968

本例中，我們將下載后的數(shù)據(jù)集保存為 car-sales.csv 文件，同時刪去了文件中的腳注信息。

基于 Pandas 庫加載該數(shù)據(jù)集的代碼如下，我們將數(shù)據(jù)保存為一個 Series 對象：

# line plot of time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# display first few rows
print(series.head(5))
# line plot of dataset
series.plot()
pyplot.show()

運行以上實例后的打印情況如下（這里只列出了 5 行）：

Month
1960-01-01 6550
1960-02-01 8728
1960-03-01 12026
1960-04-01 14395
1960-05-01 14587
Name: Sales, dtype: int64

完整數(shù)據(jù)的曲線圖如下所示：

手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

2. 平穩(wěn)化

從上圖我們可以看到汽車銷量數(shù)據(jù)明顯的季節(jié)性和日益增長的變化趨勢。

這種季節(jié)性的變化和增長趨勢雖然可以作為序列預測的關鍵特征，但如果需要探索其他的有助于我們做出序列預測的系統(tǒng)信號，就必須將它們移除。

通常，我們將除去了季節(jié)性變化和增長趨勢的時間序列稱為平穩(wěn)化序列。

為了消除這種季節(jié)性變化，通常采取季節(jié)差分的辦法，即生成所謂的季節(jié)性適配時間序列（seasonally adjusted time series）。

本例中季節(jié)性變化的變化周期似乎是一年（12個月）。下面的代碼展示了如何計算季節(jié)性適配時間序列，并將結果保存到文件 seasonally-adjusted.csv。

# seasonally adjust the time series
from pandas import Series
from matplotlib import pyplot
# load dataset
series = Series.from_csv('car-sales.csv', header=0)
# seasonal difference
differenced = series.diff(12)
# trim off the first year of empty data
differenced = differenced[12:]
# save differenced dataset to file
differenced.to_csv('seasonally_adjusted.csv')
# plot differenced dataset
differenced.plot()
pyplot.show()

代碼中，由于最初的 12 個月沒有更早的數(shù)據(jù)用以差分計算，因此被丟棄。最終得到的季節(jié)差分結果如下圖所示：

手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

從圖中可以看出，我們通過差分運算成功消除了季節(jié)性變化和增長趨勢信息。

3. 自相關圖

通暢情況下，我們根據(jù)與輸出變量的相關性來選擇時間序列的特征。

這被稱為自相關（autocorrelation），并包括如何繪制自相關圖，也稱為相關圖。自相關圖展示了每個滯后觀察結果的相關性，以及這些相關性是否具有統(tǒng)計學的顯著性。

例如，下面的代碼繪制了月汽車銷量數(shù)據(jù)集中所有滯后變量的相關圖。

from pandas import Series
from statsmodels.graphics.tsaplots import plot_acf
from matplotlib import pyplot
series = Series.from_csv('seasonally_adjusted.csv', header=None)
plot_acf(series)
pyplot.show()

運行后可以得到一張相關圖，或自相關函數(shù)（ACF）圖，如下所示。

手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

圖中 x 軸表示滯后值，y 軸上 -1 和 1 之間則表現(xiàn)了這些滯后值的正負相關性。

藍色區(qū)域中的點表示統(tǒng)計學顯著性。滯后值為 0 相關性為 1 的點表示觀察值與其本身 100% 正相關。

可以看到，圖中在 1,2,12 和 17 個月顯示出了顯著的滯后性。

這個分析為后續(xù)的比較過程提供了一個很好的基準。

4. 時間序列到監(jiān)督學習

通過將滯后觀察（例如t-1）作為輸入變量，將當前觀察（t）作為輸出變量，可以將單變量的月度汽車銷量數(shù)據(jù)集轉換為監(jiān)督學習問題。

為了實現(xiàn)這一轉換，在下面的代碼中我們調(diào)用了 Pandas 庫中的 shift 函數(shù)，通過 shift 函數(shù)我們可以為轉換后的觀察值創(chuàng)建新的隊列。

在以下示例中，我們創(chuàng)建了一個包含 12 個月滯后值的新時間序列，以預測當前的觀察結果。

代碼中 12 個月的遷移表示前 12 行的數(shù)據(jù)不可用，因為它們包含 NaN 值。

from pandas import Series
from pandas import DataFrame
# load dataset
series = Series.from_csv('seasonally_adjusted.csv', header=None)
# reframe as supervised learning
dataframe = DataFrame()
for i in range(12,0,-1):
dataframe['t-'+str(i)] = series.shift(i)
dataframe['t'] = series.values
print(dataframe.head(13))
dataframe = dataframe[13:]
# save to new file
dataframe.to_csv('lags_12months_features.csv', index=False)

打印輸出如下所示，其中前 12 行的數(shù)據(jù)不可用。

手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

我們將前 12 行的數(shù)據(jù)刪除，然后將結果保存在 lags_12months_features.csv 文件中。

實際上，這個過程可以在任意的時間步長下重復進行，例如 6 或 24 個月，感興趣的朋友可以自行嘗試。

5. 滯后變量的特征重要性

各種決策樹，例如 bagged 樹和隨機森林等，都可以用來計算特征值的重要性得分。

這是一種機器學習中的常見用法，以便在開發(fā)預測模型時有效評估輸入特征的相對有效性。

這里，我們通過正要性得分，來幫助評估時間序列預測輸入特征的相對重要性。

這一點之所以重要，不僅是因為我們可以設計上述提到的滯后觀察特征，還可以設計基于觀測時間戳、滾動統(tǒng)計等其他類型的特征。因此，特征重要性是整理和選擇特征時非常有效的一種方法。

在下面的實例中，我們加載了上一節(jié)中創(chuàng)建的數(shù)據(jù)集的監(jiān)督性學習視圖，然后利用隨機森林模型（代碼中為RandomForestRegressor），總結了 12 個滯后觀察中每一個的相對特征重要性得分。

這里使用了大數(shù)量的樹來保證得分的穩(wěn)定性。此外，我們還用到了隨機種子初始化（the random number seed is initialized），用以保證每次運行代碼時都能獲得相同的結果。

from pandas import read_csv
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load data
dataframe = read_csv('lags_12months_features.csv', header=0)
array = dataframe.values
# split into input and output
X = array[:,0:-1]
y = array[:,-1]
# fit random forest model
model = RandomForestRegressor(n_estimators=500, random_state=1)
model.fit(X, y)
# show importance scores
print(model.feature_importances_)
# plot importance scores
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, model.feature_importances_)
pyplot.xticks(ticks, names)
pyplot.show()

運行示例后，首先打印了滯后觀察值的重要性得分，如下所示。

[ 0.21642244 0.06271259 0.05662302 0.05543768 0.07155573 0.08478599
0.07699371 0.05366735 0.1033234 0.04897883 0.1066669 0.06283236]

然后將得分繪制為條形圖，如圖所示。

手把手教你用 Python 實現(xiàn)針對時間序列預測的特征選擇

圖中顯示 t-12 觀測值的相對重要性最高，其次就是 t-2 和 t-4。

感興趣的朋友可以仔細研究這個結果與上述自相關圖的差異。

實際上，這里還可以用 gradient boosting，extra trees，bagged decision trees 等代替隨機森林模型，同樣可以計算特征的重要性得分。

6. 滯后變量的特征選擇

我們還可以通過特征選擇來自動識別并選擇出最具預測性的輸入特征。

目前，特征選擇最流行方法是遞歸特征選擇（Recursive Feature Selection，RFE）。

RFE 可以創(chuàng)建預測模型，對特征值賦予不同的權值，并刪掉那些權重最小的特征，通過不斷重復這一流程，最終就能得到預期數(shù)量的特征。

以下示例中我們演示了如何通過RFE與隨機森林模型進行特征選擇，注意其中輸入特征的預期數(shù)量設置的是 4。

from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestRegressor
from matplotlib import pyplot
# load dataset
dataframe = read_csv('lags_12months_features.csv', header=0)
# separate into input and output variables
array = dataframe.values
X = array[:,0:-1]
y = array[:,-1]
# perform feature selection
rfe = RFE(RandomForestRegressor(n_estimators=500, random_state=1), 4)
fit = rfe.fit(X, y)
# report selected features
print('Selected Features:')
names = dataframe.columns.values[0:-1]
for i in range(len(fit.support_)):
if fit.support_[i]:
print(names[i])
# plot feature rank
names = dataframe.columns.values[0:-1]
ticks = [i for i in range(len(names))]
pyplot.bar(ticks, fit.ranking_)
pyplot.xticks(ticks, names)
pyplot.show()