丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉肉醬
發(fā)送

0

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

本文作者: 劉肉醬 編輯:楊曉凡 2018-12-28 10:22
導(dǎo)語:在我采用了系列分解、去趨勢(shì)算法、自相關(guān)函數(shù)后發(fā)現(xiàn)……

雷鋒網(wǎng) AI 科技評(píng)論按:這篇文章來自 Automattic 的數(shù)據(jù)科學(xué)家 Carly Stambaugh,她研究了一個(gè)看似簡(jiǎn)單的問題:分析序列數(shù)據(jù)中的季節(jié)性?!讣竟?jié)性」說起來很簡(jiǎn)單,但是真的分析的時(shí)候,你要如何知道你分析出的季節(jié)性是切實(shí)存在的呢?雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

最近有人找我?guī)兔Γ唧w是要某個(gè)時(shí)間序列中的「季節(jié)性」程度如何。聽起來仿佛很輕松的樣子,對(duì)吧?要知道在 Python 的模塊包 statsmodels 中就有一個(gè)看起來很好用的 seasal_decompose 函數(shù),并且你能在谷歌上很輕易的找到它!但實(shí)際上,這事兒卻比我預(yù)期的要復(fù)雜點(diǎn)兒。在這篇文章中,我將分享我在處理這個(gè)項(xiàng)目時(shí)遇到的一些問題以及我是如何應(yīng)對(duì)的。

在試圖找到那些能夠量化時(shí)間序列受季節(jié)性因素影響程度的帖子或論文時(shí),我將遇到的所有例子分為兩大類:

? 給出了幾行代碼,可以生成時(shí)間序列分解的可視化。

? 給出了如何移除時(shí)間序列中的季節(jié)性成分,從而在構(gòu)建預(yù)測(cè)模型之前可以先擁有一個(gè)穩(wěn)定的時(shí)間序列。

此外,每個(gè)例子都以「這是一個(gè)季節(jié)性趨勢(shì)的時(shí)間序列」開頭。所以,當(dāng)你想去確定一個(gè)特定時(shí)間序列,它的季節(jié)性因素有多大時(shí),這就提供不了什么幫助。

我發(fā)現(xiàn)沒有任何人寫過如何量化時(shí)間序列受季節(jié)性因素影響的程度。甚至,我還發(fā)現(xiàn)了一些與季節(jié)指數(shù)相矛盾的信息,于是決定繼續(xù)探索下去。當(dāng)然了,如果說我繼續(xù)去尋找這樣的信息,我想我最終也能找到些什么。但我偏不繼續(xù)找,而是決定自己動(dòng)手進(jìn)行實(shí)驗(yàn)!

系列分解

首先,我將時(shí)間序列分解為趨勢(shì),季節(jié)性和噪聲成分。這些成分看起來像這個(gè)樣子。 

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

這個(gè)時(shí)間序列有多季節(jié)性?ˉ\ _(ツ)_ /ˉ (自上到下:觀測(cè)數(shù)據(jù),趨勢(shì)分量,季節(jié)性分量,殘差)

從季節(jié)分解分量的周期性來看,乍一看,數(shù)據(jù)明顯是季節(jié)性的。但是,在谷歌搜索季節(jié)性分解的幾個(gè)例子中,我遇到的每個(gè)季節(jié)性成分都顯示出周期性。

所以,我制作了一個(gè) 0 到 1000 之間隨機(jī)數(shù)據(jù)點(diǎn)組成的時(shí)間序列,并對(duì)其進(jìn)行了分解。分解以后看起來像這樣。

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

神圣的周期,蝙蝠俠!

它竟然也顯示出了周期性!不過,如果仔細(xì)查看每個(gè)成分中的 y 軸,就能注意到噪聲成分在隨機(jī)時(shí)間序列中具有最大范圍。

不過,在所討論的時(shí)間序列中,季節(jié)性成分的范圍比趨勢(shì)或噪聲顯然要小得多。

? 趨勢(shì)范圍:2000(3000至5000)

? 季節(jié)范圍:500(-250至250)

? 噪聲范圍:2000(-1000至1000)

(我注意到這里的趨勢(shì)和噪聲范圍有相同的幅度,但卻不知道這意味著什么。如果你知道的話,請(qǐng)毫不吝嗇的在評(píng)論中分享給我們吧?。?/p>

接下來,出于好玩的目的,這里還做了一個(gè)完全季節(jié)性時(shí)間序列的分解。其每年 1 月的值為 100,每月增加 100,直到 12 月達(dá)到 1200,并在 1 月再次回落到 100。

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

純季節(jié)性時(shí)間序列。也說得過去吧。

正如你在純粹由季節(jié)性趨勢(shì)驅(qū)動(dòng)的數(shù)據(jù)中所預(yù)期的那樣,趨勢(shì)和噪聲分量是一個(gè)常量值0。

考慮到我們的系列看起來更接近隨機(jī)數(shù)據(jù),而不是純粹的季節(jié)性數(shù)據(jù),季節(jié)性分解如果說會(huì)有結(jié)果的話,那它似乎將指向一個(gè)弱季節(jié)性。在此,我對(duì)這個(gè)結(jié)論持懷疑態(tài)度,于是決定尋找更多的證據(jù)。那么接下來我們就開始使用另一種方法吧!

去趨勢(shì)算法

這是一個(gè)消除趨勢(shì)依賴的過程,這種依賴可能在時(shí)間序列中出現(xiàn)。我使用差分方法來檢查數(shù)據(jù)的趨勢(shì)依賴性。

假設(shè)你有一個(gè)數(shù)據(jù)集,它具有很強(qiáng)的年度季節(jié)性趨勢(shì)。比如:如果你想預(yù)測(cè) 6 月的價(jià)值是多少,看看去年 6 月的價(jià)值,你就會(huì)得到關(guān)于你能預(yù)期的信息。

再假設(shè)你有一個(gè)趨勢(shì),它不以周期性的方式波動(dòng),而只是增加或減少。這種情況下,如果你想預(yù)測(cè)自己 6 月份的銷售額,就可以通過查看 6 月份之前的月份來獲得比只查看去年同期更多的信息。

這兩種趨勢(shì)都可以從時(shí)間序列中剔除。在差分中,你基本上是減去最相關(guān)的先前值來考慮趨勢(shì)。

例如,從時(shí)間序列中刪除一個(gè)「向右上方」的趨勢(shì),本質(zhì)上就是將圖形在平面上旋轉(zhuǎn),留下「向右走」,但消掉「向上走」。「去除季節(jié)性趨勢(shì)基本上可以消除圖表中的起伏?!箷r(shí)間序列的去趨勢(shì)通常用于生成一個(gè)固定序列,從中可以建立一個(gè)預(yù)測(cè)模型。下面就是從數(shù)據(jù)集中移除向上向右的趨勢(shì)的例子。 

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

之前和之后:穩(wěn)定時(shí)間序列

因此,我推斷,通過移除特定類型的趨勢(shì),并將結(jié)果序列與原始序列進(jìn)行比較,我們可以判斷特定序列對(duì)原始時(shí)間序列的「影響」程度。

下面是每個(gè)不同的過程如何影響序列。這其中包含了原始序列的一個(gè)圖作為參考。 

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

去趨勢(shì)結(jié)果的比較

從這些數(shù)據(jù)來看,除去每日趨勢(shì)(或者如上文所說僅僅是趨勢(shì)組成部分)對(duì)原始系列的影響比除去季節(jié)性趨勢(shì)更大。不過,去除季節(jié)性趨勢(shì)也有一些影響。這鞏固了我之前的結(jié)論;如果數(shù)據(jù)中有季節(jié)性因素,那么與整體趨勢(shì)相比就顯得很弱。

對(duì)我而言,這似乎還不足以佐證,所以我又檢查了一件事。

自相關(guān)函數(shù)

在那個(gè)周末,我正喝著每月一售的數(shù)學(xué)啤酒(是的!就是有這么個(gè)東西!),我在研究生院的一個(gè)朋友建議我研究自相關(guān)函數(shù)(ACF)。

自相關(guān)函數(shù)顯示了數(shù)據(jù)集與自身隨著時(shí)間的推移而變化的版本的關(guān)聯(lián)程度。它計(jì)算了許多可能的時(shí)間變化的相關(guān)性(稱為滯后),和表面重復(fù)的相關(guān)性模式。

回到我們制作的數(shù)據(jù)集,我們純季節(jié)性時(shí)間序列的 ACF 看起來像這樣。

 季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

ACF非常季節(jié)性的時(shí)間序列

 

注意每隔 12 秒出現(xiàn)的尖峰。這意味著,當(dāng)該變化是 12 個(gè)時(shí)間段(在我們的例子中是幾個(gè)月)的倍數(shù)時(shí),原始序列和其移位版本之間的相關(guān)性最高,表明了每年的季節(jié)性趨勢(shì)。

這些圖中的藍(lán)色區(qū)域表示這些相關(guān)度量的置信區(qū)間。因此落在這個(gè)錐體之外的尖刺不太可能是偶然的。

牢記這一點(diǎn)之后,再讓我們看看隨機(jī)級(jí)數(shù)的ACF。

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

隨機(jī)生成的時(shí)間序列的ACF

在這里,有一些尖峰,但它們都非常牢固地在錐體內(nèi),所以這個(gè)ACF不支持季節(jié)性趨勢(shì)的存在。

這是我們時(shí)間序列的 ACF。 

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

我們時(shí)間系列的ACF

這里,我們看到一些類似尖峰的區(qū)域,但是其余大多數(shù)都在圓錐體內(nèi)。圓錐體外的尖峰指的是比12小得多的間隔,也就是說,當(dāng)你把數(shù)據(jù)從它自身移得更遠(yuǎn)時(shí),相關(guān)性就會(huì)降低。在我看來,時(shí)間序列的總體趨勢(shì)比季節(jié)趨勢(shì)對(duì)時(shí)間序列的影響要大得多。

所以,長話短說,(不好意思,其實(shí)說來話長?。┪也]有找到壓倒性的證據(jù)來表明,季節(jié)性在我們的序列中扮演了很重要的角色。但盡管我什么也沒發(fā)現(xiàn)(生活可不就是這樣么?讓我們勇敢對(duì)面這個(gè)屢戰(zhàn)屢敗的事實(shí)唄~),我還是認(rèn)為這是一個(gè)非常有意思的分析。你也會(huì)常干這種類似的事情嗎?

via investigating-seasonality-in-a-time-series-a-mystery-in-three-parts,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

季節(jié)性的分析才不簡(jiǎn)單,小心不要在隨機(jī)數(shù)據(jù)中也分析出季節(jié)性

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說