[Day4] 時間序列預測界的 OG：白話解釋 ARIMA 組成模型及步驟

2021 iThome 鐵人賽

DAY 4

AI & Data

時間序列分析與預測方法大全系列第 4 篇

13th鐵人賽 2021鐵人賽時間序列資料分析 arima

Kyle

2021-09-19 20:21:02

8322 瀏覽

分享至

（努力更新、連載中）

前一篇我們盤點、簡述了所要介紹的時間序列預測統計模型，
第四篇我們要重點認識統計模型的經典、時間序列預測界的 OG（元老）—— ARIMA (AutoRegressive Integrated Moving Average)

有鑒於網路也有很多教學，不論是理論、公式、使用套件等等，不過他們都分散在各處，可能看了一篇，還是不太知道全局；所以我的這篇的目的是用白話解釋 ARIMA 裡面用到的模型、以及它怎麼進行預測的，要怎麼做參數最佳化。

ARIMA 模型組成

ARIMA (Autoregressive integrated moving average)

ARMA(p, q) = AR(p) + MA(q)
I(d)：先計算 differencing，d = 計算 d 次 differencing
- 目的：從原始時序資料中產生穩定性高 (stationary) 的序列，平均、變異數、自相關係數隨時間仍一致

何謂確認時序的 stationarity？

時序的分佈不會隨著時間變化變動，例如：平均、變異數不會隨時間變動；如果時序分佈會一直變動，就很難使用 ARIMA 這樣的統計方法做預測
Stationary 的種類
- SSS (Strong-sense stationary)：較少用
- WSS (Weak-sense stationary)：較常用

第一順位統計量 (mean)
第二順位統計量 (autocovariance)：covariance of 2 RVs from the same time series
Covariance: unscaled correlation

0：兩 RV 完全獨立、不相關
0 ：兩 RV 正相關
<0：兩 RV 負相關

當 p, q = 0; d = 1 => l(1) 則稱為 random walk，代表無法透過過去時序預測未來
實例：Log return, Holt's Winter
從原始時序資料產生訓練集： rolling window

參數選擇 p, d, q

選擇順序 d -> q -> p

ACF
PACF
Auto ARIMA（更現代的方法自動參數選擇）

ARIMA 變形

SARIMA
SARIMAX

ARIMA 成效指標

? volidity clustering
使用 ADF Test (Augmented Dickey-Fuller Test)
給定：虛無假說 the TS is non-stationary、替代假說 the TS is stationary
Input：time series
Output: p-value
Action: 是否推翻虛無假說
如何用 ADF Test 最佳化參數 d？
概念：不斷做 differencing 直到該時序(TS) stationary (ex: p-value < 0.05)