(努力更新、連載中)
前一篇我們盤點、簡述了所要介紹的時間序列預測統計模型,
第四篇我們要重點認識統計模型的經典、時間序列預測界的 OG(元老)—— ARIMA (AutoRegressive Integrated Moving Average)
有鑒於網路也有很多教學,不論是理論、公式、使用套件等等,不過他們都分散在各處,可能看了一篇,還是不太知道全局;所以我的這篇的目的是用白話解釋 ARIMA 裡面用到的模型、以及它怎麼進行預測的,要怎麼做參數最佳化。
ARIMA (Autoregressive integrated moving average)
何謂確認時序的 stationarity?
第一順位統計量 (mean)
第二順位統計量 (autocovariance):covariance of 2 RVs from the same time series
Covariance: unscaled correlation
0 :兩 RV 正相關
當 p, q = 0; d = 1 => l(1) 則稱為 random walk,代表無法透過過去時序預測未來
實例:Log return, Holt's Winter
從原始時序資料產生訓練集: rolling window
選擇順序 d -> q -> p
? volidity clustering
使用 ADF Test (Augmented Dickey-Fuller Test)
給定:虛無假說 the TS is non-stationary、替代假說 the TS is stationary
Input:time series
Output: p-value
Action: 是否推翻虛無假說
如何用 ADF Test 最佳化參數 d?
概念:不斷做 differencing 直到該時序(TS) stationary (ex: p-value < 0.05)