iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
AI & Data

時間序列分析與預測方法大全系列 第 4

[Day4] 時間序列預測界的 OG:白話解釋 ARIMA 組成模型及步驟

(努力更新、連載中)

前一篇我們盤點、簡述了所要介紹的時間序列預測統計模型,
第四篇我們要重點認識統計模型的經典、時間序列預測界的 OG(元老)—— ARIMA (AutoRegressive Integrated Moving Average)

有鑒於網路也有很多教學,不論是理論、公式、使用套件等等,不過他們都分散在各處,可能看了一篇,還是不太知道全局;所以我的這篇的目的是用白話解釋 ARIMA 裡面用到的模型、以及它怎麼進行預測的,要怎麼做參數最佳化。

ARIMA 模型組成

ARIMA (Autoregressive integrated moving average)

  • ARMA(p, q) = AR(p) + MA(q)
  • I(d):先計算 differencing,d = 計算 d 次 differencing
    • 目的:從原始時序資料中產生穩定性高 (stationary) 的序列,平均、變異數、自相關係數隨時間仍一致

何謂確認時序的 stationarity?

  • 時序的分佈不會隨著時間變化變動,例如:平均、變異數不會隨時間變動;如果時序分佈會一直變動,就很難使用 ARIMA 這樣的統計方法做預測
  • Stationary 的種類
    • SSS (Strong-sense stationary):較少用
    • WSS (Weak-sense stationary):較常用

第一順位統計量 (mean)
第二順位統計量 (autocovariance):covariance of 2 RVs from the same time series
Covariance: unscaled correlation

  • 0:兩 RV 完全獨立、不相關
  • 0 :兩 RV 正相關

  • <0:兩 RV 負相關

當 p, q = 0; d = 1 => l(1) 則稱為 random walk,代表無法透過過去時序預測未來
實例:Log return, Holt's Winter
從原始時序資料產生訓練集: rolling window

參數選擇 p, d, q

選擇順序 d -> q -> p

  • ACF
  • PACF
    Auto ARIMA(更現代的方法自動參數選擇)

ARIMA 變形

  • SARIMA
  • SARIMAX

ARIMA 成效指標

  • AIC
  • BIC

? volidity clustering
使用 ADF Test (Augmented Dickey-Fuller Test)
給定:虛無假說 the TS is non-stationary、替代假說 the TS is stationary
Input:time series
Output: p-value
Action: 是否推翻虛無假說
如何用 ADF Test 最佳化參數 d?
概念:不斷做 differencing 直到該時序(TS) stationary (ex: p-value < 0.05)


上一篇
[Day3] 經典時間序列預測方法盤點
下一篇
[Day5] Holt's Model 介紹
系列文
時間序列分析與預測方法大全13

尚未有邦友留言

立即登入留言