定量方法 - 常見機率分佈 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 4

自我挑戰組

金融資料科學系列第 4 篇

定量方法 - 常見機率分佈

16th鐵人賽

HO-HSUN

2024-08-18 20:32:38

673 瀏覽

分享至

機率分佈指定隨機變數可能結果的機率。隨機變數的範例：

股票報酬率
每股盈餘

範例：

布萊克-斯科爾斯-默頓期權定價模型
二項式選擇權定價模型（價格上漲或價格下跌）
資本資產定價模型

我們可以透過兩種方式查看機率分佈：

機率函數

$P(X = x)$ 是隨機變數 $X$ 取值 $x$ 的機率。
大寫的 X 表示隨機變量，小寫的 $x$ 表示隨機變數可能取的特定值。

對於離散隨機變量，機率函數的簡寫符號為 $p(x) = P(X = x)$。
對於連續隨機變量，機率函數表示為 $f(x)$，稱為機率密度函數 (pdf)，或簡稱為密度。

累積分佈函數 (cdf)

它給出隨機變數 X 小於或等於特定值 x 的機率，P(X ≤ x)。對於離散和連續隨機變量，簡寫形式為 $F(x) = P(X ≤ x).$

cdf 還有另外兩個特徵：

對於任何 $x$，cdf 都介於 0 和 1 之間：$0 ≤ F(x) ≤ 1$。
當我們增加 $x$ 時，cdf 要麼增加，要麼保持不變。

離散隨機變數

與求 pdf $f(x)$ 從 $a$ 到 $b$ 的曲線下面積相對應的數學運算是 $f(x)$ 從 $a$ 到 $b$ 的積分：

$$P(a\le X\le b)=\int^b_af(x)dx$$

註：對於任何連續隨機變數$X$，$P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b)$，因為端點$a$ 和$b$ 處的機率為$0$.

均勻分佈

描述同樣可能的結果的機率分佈。

離散均勻分佈

均勻隨機變數的 pdf 為：
\開始{方程式}
f(x) =
\開始{案例}
\frac{1}{b−a} & \text{對於 a<x<b}\
0 & \text{否則}
\結束{案例}
\end{方程式}

二項分佈（二項分佈）

當我們對成功和失敗的記錄或任何具有二元結果的事物進行機率陳述時，我們經常使用二項式分佈。

$X$~$B(n,p)$ 讀作「X 具有參數 n 和 p 的二項分佈。」

二項式分佈的構建塊是伯努利隨機變數。產生兩種結果之一的試驗（可能重複的事件）。這樣的試驗就是「伯努利試驗」。如果當結果成功時我們讓 $Y= 1$，當結果失敗時讓 $Y = 0$，那麼「伯努利隨機變數」$Y$ 的機率函數是
$$p(1) = P(Y = 1) = p$$
$$p(0) = P(Y = 0) = 1 – p$$
其中$p$是試驗成功的機率。

對於 $X$ 分佈的 $B(n, p)$，$x$ 在 $n$ 試驗中成功的機率由下式給出
$$p(x)=P(X=x)=\binom{n}xp^x(1−p)^{n−x}=\frac{n!}{(n−x)!x!} p^x(1−p)^{n−x}$$

在對股票價格走勢進行建模時，時間段可以變得非常小。那麼句點的數量 $n$ 可能會很大。在 $n$ 次試驗中恰好 $x$ 向上移動的機率為：

$$p(x)=P(X=x)=\binom{n}xp^x(1−p)^{n−x}=\frac{n!}{(n−x)!x!} p^x(1−p)^{n−x}$$

給定獨立試驗，任何具有 $x$ 向上移動的序列都必須以 $p^x(1 − p)^{n–x}$ 的機率發生。只有當 $p=0.50$ 時，二項式分佈才是對稱的。二項式分佈的平均值是 $np$，變異數是 $np(1−p)$。

連續隨機變數

使用案例：

現代投資組合理論
風險管理技術
回報的近似模型

連續均勻分佈

對於 a 和 b 之間的連續均勻隨機變量，
\開始{方程式}
f(x) =
\開始{案例}
\frac{1}{b−a} & \text{對於 a<x<b}\
0 & \text{否則}
\結束{案例}
\end{方程式}

和

\開始{方程式}
f(x) =
\開始{案例}
0 & \text{對於 $x\le a$}\
\frac{x-a}{b-a} & \text{對於 a<x<b}\
1 & \text{對於 $x \geqslant b$}
\結束{案例}
\end{方程式}

對於連續分佈，任何固定值的機率為零，因為結果的數量是無限的。

常態分佈

因為「中心極限定理」——大量獨立隨機變數的總和近似常態分佈。

特徵：

常態分佈可以完全由兩個參數來描述 - 平均值 ($μ$) 和變異數 ($σ^2$)。定義為 $X∼N(μ,σ^2)$ （讀作「X 遵循平均值 $μ$ 和變異數 $σ^2$ 的常態分佈」）。
它是對稱的（偏度 = 0）並且峰度為 3。
平均值、中位數和眾數都相同。
此外，兩個或多個常態隨機變數的線性組合也呈現常態分佈。

多元分佈

$n$ 股票報酬的多元常態分佈完全由三個參數清單定義：

個別證券的平均報酬清單（n 表示總計）；
證券報酬率差異清單（總共n個差異）；和
所有不同的成對回傳相關性的清單：總共 n(n − 1)/2 個不同的相關性。

**為了指定投資組合報酬的常態分佈，我們需要成分證券的平均值、變異數和不同的配對相關性。

$$f(x)=\frac{1}{σ\sqrt{2π}}exp\big(\frac{−(x−μ)^2}{2σ^2}\big)\ \ \ for−∞ <x<+∞$$

$μ = 0$ 和 $σ = 1$ 的常態密度稱為「標準常態分佈」（或「單位常態分佈」）。

常態分佈作為回報的近似模型

常態分佈用於對許多證券回報進行建模。然而，對於厚尾（即高峰度）或不對稱的分佈，擬合效果不佳。

與每日或每週報酬相比，常態分佈更適合多元化股票投資組合的季度和年度持有期回報。
常態分佈往往會低估極端報酬的機率。（因為實際報酬率分佈較為肥尾）。
期權回報有偏差。謹慎使用常態分佈對包含重要期權頭寸的投資組合的回報進行建模。
常態分佈不適合「下限」為零的資產價格，儘管它對於資產回報來說是合理的擬合。

在確定常態分佈是感興趣變數的適當模型後，我們可以使用它來做出以下機率陳述：

大約。所有觀測值的 50% 落在區間 μ ± (2/3)σ 內。
大約。所有觀測值的 68% 落在區間 μ ± σ 內。
大約。 95% 的觀測值落在 μ ± 2σ 區間。
大約。 99% 的觀測值落在 μ ± 3σ 區間。

在大多數情況下，必須根據樣本估計總體平均值和標準差。這將創建無限數量的常態分佈。

標準化隨機變數

透過減去平均值並除以標準差來標準化常態隨機變數 $X$ 通常很有用。這會產生一個「標準常態隨機變數」$Z$，它呈常態分佈，平均值為 0，標準差為 1。

如果我們有 $X$ ~ $N(μ,σ^2)$ （讀作「$X$ 遵循參數 $μ$ 和 $σ^2$ 的常態分佈」），我們使用以下公式對其進行標準化

$$Z = \frac{(X – μ)}{σ}$$

表格可用於確定 $Z$ 的「累積常態分佈」值（即，$P(Z≤x)=N(x)$）（“z-score”），N(x) 是標準常態變數的cdf（來自z 分數表）：

$$N(−x)=P(Z≥x)=1−N(x)$$
$$N(x)=P(Z≤x)=P(Z≥−x)$$

一些最常用的值是：

第 90 百分點是 1.282
第 95 個百分點是 1.650
第 99 個百分點是 2.327

我們對 $X ~ N(5,1.5)$ 觀察到小到或小於 9.5 的值的機率與我們對 $Z ~ 觀察到小到或小於 3 的值的機率完全相同N(0,1)$。
我們可以使用 Z 的標準化值和機率表來回答有關 X 的所有機率問題。

常態分佈的應用

「均值-方差分析」通常對稱地考慮風險

範例

假設投資者認為低於 $R_L$ 水準的任何回報都是不可接受的。羅伊的安全第一標準指出，最優投資組合最大限度地降低了投資組合回報 $R_P$ 低於門檻水準 $R_L$ 的機率。在符號中，投資者的目標是選擇一個最小化 $P(R_P < R_L)$ 的投資組合。

當投資組合收益呈現常態分佈時，我們可以使用 $R_L$ 低於預期投資組合收益 $E(R_P)$ 的標準差數來計算 $P(R_P < R_L)$。 $E(R_P) − R_L$ 相對於標準差最大的投資組合使 $P(R_P < R_L)$ 最小化。因此，如果回報呈常態分佈，安全優先最優投資組合會最大化安全優先比率（SFRatio）。

import pandas as pd
from scipy.stats import norm
import scipy

data = {'平均值和標準差(%)':['預期年報酬率', '報酬率標準差'],
       'A':[25, 27], 
       'B':[11, 8], 
       'C':[14, 20]}
df = pd.DataFrame(data=data)

# 本金
principal = 800000 
# 最小目標
min_goal = 30000

# RL 短缺等級
# min_goal = rl * (principal + 1)
rl = 100 * (min_goal / (principal + 1)) 

# SFR 比率
sf_a = (df['A'][0] - rl) / df['A'][1]
sf_b = (df['B'][0] - rl) / df['B'][1]
sf_c = (df['C'][0] - rl) / df['C'][1]
print(sf_a, sf_b, sf_c)

# 分配 B 的報酬率低於 RL 的機率：N(−SFRatio)
# N(−0.91) = 1 − N(0.91)
1 - norm.cdf(0.9062505859367675)

# 收盤價
data = {'Day':['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday'], 
       'Closing Price':[6.000, 7.000, 6.000, 6.000, 6.000]}
df = pd.DataFrame(data=data)

# 估計股票的波動性。
# 根據一年中 250 天的年化波動率。
# 如果連續複合每日報酬率遵循常態分佈，則決定股價的機率分佈。

蒙特卡羅模擬

蒙特卡羅模擬使用電腦根據指定的機率分佈產生許多隨機樣本。
一種估計結果機率分佈的方法，以檢查如果面臨特定風險可能會發生什麼。

它僅提供統計估計，而不提供精確結果。
從指定的一個或多個機率分佈產生大量隨機樣本，以表示風險在系統中的作用。
需要識別與問題相關的風險因素並指定它們的機率分佈。

蒙特卡羅模擬的步驟：

根據基礎變數指定感興趣的數量。
將時間範圍劃分為子週期。
指定潛在風險因子的分佈假設。
使用電腦程式抽取每個風險因素的 K 個隨機值。
根據抽取的隨機值計算基礎變數。
計算感興趣的數量。
重複步驟 4 至 6 進行 N 次試驗。蒙特卡羅估計是 N 次試驗的平均感興趣量。

範例

評估複雜證券（例如有嵌入選擇權的證券）
規劃
制定 VaR 估計

比較/替代方案

這種方法的缺點是，所選時間內未反映的任何風險（例如股市崩盤）都不會反映在模擬中。

「歷史模擬」（或「回溯模擬」）是蒙特卡羅模擬的替代方法。它假設過去適用於未來。然而，與蒙特卡羅方法不同，歷史模擬不會進行「假設」分析，因為它只反映數據中出現的趨勢。

Black-Scholes-Merton 模型等“分析方法”比蒙特卡羅方法提供更多“因果分析”，後者提供基於機率的估計而不是精確結果。

定量方法 - 機率概念

定量方法 - 抽樣

系列文

金融資料科學共 30 篇

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

金融資料科學系列 第 4 篇