iT邦幫忙

2024 iThome 鐵人賽

DAY 5
0
自我挑戰組

金融資料科學系列 第 5

定量方法 - 抽樣

  • 分享至 

  • xImage
  •  

標準常態分佈的常見值
即 85%、90%、95%、97.5% 和 99%。

簡單隨機抽樣

需要製定抽樣計劃來設定用於選擇樣本的規則。在簡單隨機樣本中,每個總體元素被選擇的機率相等。它通常也被稱為隨機樣本。

簡單隨機抽樣需要隨機性。這可以透過為群體中的每個成員分配一個隨機數字並使用電腦程式或隨機數字表來選擇成員來完成。

另一種方法是「系統抽樣」。此方法選擇每個 $k_{th}$ 成員,直到達到所需的樣本大小。

  • 「抽樣誤差」是「樣本統計量」和「總體參數」之間的差異(例如樣本平均值和總體平均值)。
  • 統計量的「抽樣分佈」是根據同一總體的相同樣本量計算出的所有統計值的分佈。

分層隨機抽樣

在「分層隨機抽樣」中,首先根據某些標準將總體分為子組(層)。簡單隨機樣本是按照子組與整個總體的相對大小的比例從每個子組中抽取的。此方法產生的變異數比簡單隨機抽樣所得的估計值要小。

分層抽樣通常用於創建旨在追蹤「債券指數」的投資組合。

  1. 首先,指數中的全部債券依期限、產業、信用品質等因素分為多個子組。
  2. 然後,經理從每個子組中選擇債券樣本。

時間序列與橫斷面資料

假設:抽樣回報來自同一總體。重要的是數據來自同一人群。對於時間序列數據,這意味著時間段不應該太長,因為可能發生根本性變化(例如經濟衰退)。

橫斷面資料是有關個人或群體在單一時間點的某些特徵的資料。
例如所有標準普爾 500 指數公司的年末本益比。
假設:我們必須確保所有數據確實來自相同的基礎人口。
例如,分析師經常按行業匯總公司級資料。

樣本平均數的分佈

「樣本平均值」是一個隨機變量,其機率分佈稱為統計樣本分佈。

中心極限定理:給定由具有平均值 $μ$ 和 有限 變異數 $σ^2$ 的任何機率分佈所描述的總體,樣本平均值 $\bar{X} 的抽樣分佈從此總體中大小為$n$ 的樣本計算得出的$ 將近似常態,平均值為$μ$(總體平均值)和變異數$\frac{σ^2}{n}$(總體變異數除以$ n$)當樣本量$n$很大時(通常大於30)。

樣本平均值的標準誤差 (SEM):對於從具有標準差 $σ$ 的總體產生的樣本計算得出的樣本平均值 $\bar{X}$,樣本平均值的標準誤差為由兩個表達式之一給出:

$$σ\bar{X}=\frac{σ}{\sqrt{n}}$$

  • 當我們知道 $σ$ 時,總體標準差,或透過

$$s\bar{X}=\frac{s}{\sqrt{n}}$$

  • 當我們不知道總體標準差並且需要使用樣本標準差 $s$ 來估計它。

在實務中,我們幾乎總是需要使用公式 2。 ^n{(Xi−\bar{X})^2}}{n−1}$

總而言之,根據中心極限定理,當我們從任何分佈中採樣時,只要樣本量很大,樣本平均值的分佈就會具有以下性質:

  • 樣本平均數 $\bar{X}$ 的分佈近似常態。
  • $\bar{X}$ 的分佈平均值將等於從中抽取樣本的總體 $\mu$ 的平均值。
  • $\bar{X}$ 分佈的變異數將等於總體變異數 $\sigma^2$ 除以樣本量。

總體平均值的點和區間估計

「統計推論」的兩個分支是「估計」和「假設檢定」。

  • 估計旨在找到參數的值。
  • 假設檢定旨在找出參數的值是否等於某個特定值。

估計量

估計量是用來計算樣本統計量的公式。估計值是從這些估計器得出的特定值。

  • 無偏估計器的期望值(其取樣分佈的平均值)等於其要估計的參數。
  • 高效率無偏估計量對於給定的樣本量具有最小的取樣分佈變異數。重複樣本將產生緊密圍繞參數分組的結果。
  • 隨著樣本量的增加,一致估計量會更接近總體參數的值。

信賴區間

由於抽樣誤差,點估計不可能完全等於總體參數。 「區間估計」通常較為合適。

“置信區間”是一個可以以給定機率 $1 − α$ 斷言的範圍(稱為“置信度”),其中 α 是“顯著性水準”,它將包含預期的參數來估計。此區間通常稱為「參數的 $100(1 − α)%$ 信賴區間」。

例如,使用 5% 的顯著水準在樣本平均值周圍建立 95% 的置信區間。我們有 95% 的信心認為總體平均值落在這個區間內。

信賴區間的構建

$100(1−α)%$ 信賴區間的計算公式為:

$$點\估計±可靠性\係數\乘以標準\誤差$$

在哪裡

點估計 = 參數的點估計值(樣本統計量的值)

「信度因子」 = 基於點估計的假設分佈與信賴區間的信度 (1 − α) 的數字

「標準誤差」 = 提供點估計的樣本統計量的標準誤差

$z_α$ 表示標準常態分配的點,使得機率的 $α$ 保持在右尾。

註:本例中的信度因子是基於標準常態分佈,平均數為 0,變異數為 1

已知總體變異數的信心區間

當我們從已知變異數 $σ^2$ 的常態分佈中取樣時,總體平均值 $μ$ 的 $100(1 − α)%$ 信賴區間由下式給出

$$\bar{X}±z_{\frac{α}{2}}\times \frac{σ}{\sqrt{n}}$$

這會產生一個具有上限和下限的置信區間,總體平均值位於置信區間之外的總機率為 $α$。使用 $z_{\frac{α}{2}}$ 是因為 $\frac{α}{2}$ 表示每個尾部的百分比。

例如,95% 信賴區間對 z_{0.025} 使用 1.96 信度因子,因為總體平均值大於上限的機率為 2.5%,小於下限的機率為 2.5%。其他常用的信度因子包括 90% 信賴區間的 z_{0.05}=1.65 和 99% 信賴區間的 z_{0.005}=2.58。

總體變異數未知的信賴區間(z 替代方案)

當從方差未知的任何分佈中採樣且樣本量較大時,總體平均值 $μ$ 的 $100(1 − α)%$ 置信區間由下式給出

$$\bar{X}±z_{\frac{α}{2}}\times \frac{s}{\sqrt{n}}$$

基於標準常態分佈的信賴區間的可靠因素。當我們基於標準常態分佈建立信賴區間時,我們使用以下可靠性因素:

  • 90% 信賴區間:使用 $z_{0.05}$ = 1.65
  • 95% 信賴區間:使用 $z_{0.025}$ = 1.96
  • 99% 信賴區間:使用 $z_{0.005}$ = 2.58

總體平均數的信賴區間(總體變異數未知)(t 分佈)

當總體變異數未知時,使用「t 分佈」作為信賴區間較為合適且保守。即使樣本量很小,這也是有效的。由於它更保守(即可靠性因子更大),因此置信區間會更寬。

t 分佈是基於「自由度 (df)」/由「自由度 (df)」定義。自由度與獨立觀察的數量有關。由於必須在計算樣本變異數之前確定樣本平均值,因此實際上只有 $n−1$ 個獨立觀測值。
如果您知道 $n−1$ 個觀測值和樣本平均值,則可以確定 $n_{th}$ 個觀測值。這就是為什麼在計算樣本變異數時必須除以 $n−1$ 而不是 $n$。

**隨著自由度的增加,t 分佈接近標準常態分佈。

# 計算並解釋所有股票總體平均值的 90% 置信區間
size = 100
s = 0.30

# 平均值夏普比率
mean = 0.45 
 
# 求 90% 信賴區間的信度因子。 
# Z0.05 = 1.65)
z_005 = 1.65

# 實現等式
lower = mean - z_005 * (s / size**0.5)
higher = mean + z_005 * (s / size**0.5)

print('總體平均值落在區間之間的置信度')
print(str(round(lower, 3)), ',',str(round(higher, 3)))
print('包括置信度為 90% 的總體平均值')

有關採樣的更多訊息

資料探勘偏差

資料探勘涉及相同或相關資料的過度使用。

  • 樣本外測試是使用策略或模型開發時間段之外的樣本對策略或模型進行測試。如果關係是真實的,則應該在其他資料集中找到它。最終,一個模型只有在未來發揮作用才算成功。
  • 資料探勘涉及使用先前研究人員使用資料集開發的資訊來指導使用相同或相關資料集的當前研究。

樣本選擇偏差

當數據可用性導致某些資產被排除在分析之外。

  • 當我們同時使用股票價格和會計數據時,有時會出現「倖存者偏差」。例如,許多研究表明,市淨率較低的公司的股票在未來一段時間內往往會跑贏大盤。這可能是因為失敗的公司被排除在研究之外。
  • 由於公司股票從交易所下市,樣本也可能有偏差。

對沖基金等較新的資產類別可能會帶來更大的樣本選擇偏差問題。

前瞻偏差

如果使用的資訊在測試資料上不可用,就會出現「前瞻偏差」。例如,帳面價值等會計資訊在期末後的一段時間內將無法取得。

時間週期偏差

如果測試設計是基於可能使結果特定於時間段的時間段,則測試設計會受到時間段偏差的影響。

理想情況下,分析師應該測試幾個商業週期的市場異常情況,以確保結果不是針對特定時期的。如果選擇的時間段有利於該策略,則這種偏差可能有利於所提議的策略。


上一篇
定量方法 - 常見機率分佈
下一篇
定量方法 - 假設檢定
系列文
金融資料科學30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言