Day 29 : 隨機過程 -- 時間序列

第 11 屆 iThome 鐵人賽

DAY 29

AI & Data

連接數學與現實世界的橋樑 -- 數學建模系列第 29 篇

11th鐵人賽自回歸模型時間序列

spidyjames

2019-09-30 22:14:14

2522 瀏覽

分享至

今天要介紹的是時間序列，它是一個隨時間變化的隨機過程，通常是在固定的時間區間上進行分析，例如每天的溫度和降雨量，每月的失業率以及年收入都是時間序列的一種，而分析時間序列資料的工具之一就是線性回歸。讓我們用昨天的例子以時間序列的方式再分析一次，看看有甚麼相異之處。

範例

對1986年6月到1989年6月的CM1指數的資料來估計1990年5月的CM1指數

提出問題
預測 $E(X_48)$
選擇建模方法
使用時間序列模擬這個問題，並擬合一個自回歸模型，它假設在一個穩定的時間序列中加入一個趨勢，這趨勢是隨時間變化的非隨機函數。若 $E(X_t)$ 和自相關係數 $\rho (x, t)$ 在時間上是常數，則該時間序列被稱為是穩定的。
自相關係數， $https://chart.googleapis.com/chart?cht=tx&chl=%5Crho%20(X_1%2C%20X_2)%20%3D%20corr(X_1%2C%20X_2)%20%3D%20%5Cfrac%7BCov(X_1%2C%20X_2)%7D%7B%5Csigma_1%20%5Csigma_2%7D%20$ ，其中 $Cov(X_1, X_2) = E[(X_1 - \mu_1)(X_2 - \mu_2)]$ 。
因此，在此例中 $\rho (t, h) = corr(X_t, X_{t+h})$
我們使用最簡單有用的模型自回歸過程，
$X_t = a + bt + c_1 X_{t-1} + \dots + c_p X_{t-p} + \varepsilon_t$
來模擬此模型，參數 $p$ 稱為自回歸過程的階。在這邊就會產生一個問題，如何選取合的 $p$ 值 $\Rightarrow$ 關注 $R^2$ 的值，作法是將預測變項 $X_{t-1}, X_{t-2}, \dots$ 一個一個加入，直到 $R^2$ 的改善達到最小為止。
推導模型的數學表達式
考慮 $X_t = a + bt + c_1 X_{t-1} + \dots + c_p X_{t-p} + \varepsilon_t$ 對某些常數 $a, b, c_1 , c_2 , \dots , c_p$ 和某個誤差 $\varepsilon _t$ ，為了選擇適當的參數 $p$ ，可依序假設 $p = 0,1,2, \dots$ ，代到模型中，直到取得滿意的結果，使得這模型具有不相關的殘差噪音序列且包括最少個數的預測變項。

求解模型
利用 $x = (A^T A)^{-1}A^T b$ ，解得 $a, b, c_1 , c_2 , \dots , c_p$ 。在此以 $p = 1$ 的模型來求解
$X_t = a + b t + c_1 X_{t-1}$ ，對其取期望值
$\Rightarrow E(X_t) = a + b t + c_1 E(X_{t-1})$
將CM1的資料代入整理可得矩陣形式，
$\left [ \begin{array}{ccc} 1 & 0 & E(X_0) = 6.73 \\ 1 & 0 & E(X_1) = 6.27 \\ \dots \\ 1 & p-1 & E(X_{p-1}) = 8.98 \end{array}\right] \left[ \begin{array} a \\ b \\ c \end{array}\right] =$ $\left [ \begin{array} E(X_1) = 6.27 \\ E(X_2) = 5.93 \\ \dots \\ E(X_p) = 8.44 \end{array}\right]$
解得 $X_t = 1.66 + 0.33 t + 0.698 X_{t-1}$
故所求 $X_{48} = 1.66 + 0.033 * 48 + 0.698 * X_{47}(= 10.16) = 10.28$
附上程式碼

import numpy as np

CM1 = [6.73,6.27,5.93,5.77,5.72,5.8,5.87,5.78,5.96,6.03,6.5,7,6.8,6.68,7.03,7.67,7.59,6.96,7.17,6.99,6.64,6.71,7.01,
    7.40,7.49,7.75,8.17,8.09,8.11,8.48,8.99,9.05,9.25,9.57,9.36,8.98,8.44]

t = np.linspace(0, len(CM1)-1, len(CM1))

# 簡單線性回歸
A = []
for i in t:
    temp = [1, i]
    A.append(temp)

pinv_A = np.linalg.pinv(np.array(A))

coef = pinv_A.dot(np.array(CM1).reshape(len(CM1),1))
print(coef)

# 自回歸
self_A = []
for i in t:
    if i == len(t) - 1:
        break
    temp = [1, i, CM1[int(i)]]
    self_A.append(temp)

pinv_self_A = np.linalg.pinv(np.array(self_A))

CM1.pop(0)

self_coef = pinv_self_A.dot(np.array(CM1).reshape(len(CM1),1))
print(self_coef)