推論統計－ｚ檢定、ｔ檢定是什麼？

2021 iThome 鐵人賽

DAY 8

AI & Data

跟著文組生學數據分析系列第 8 篇

13th鐵人賽

艾倫努力中

團隊樂天Pie

2021-09-23 00:04:12

11878 瀏覽

分享至

前面我們已經認識了假設檢定的５步驟，接下來我們要進行：選擇檢定統計量（test statistic）以及選擇顯著水準並決定決策法則。而所謂的檢定統計量是什麼？它就是用來檢定虛無假設的抽樣分配。常用的檢定統計量有：z 分配、t 分配、卡方分配、F 分配。

在這邊我們先針對自變數為定性，應變數為定量的情況下來討論，因此本文我們要來介紹的是z檢定和t檢定。

如何選定檢定統計量

我們首先先考慮到我們是否有母體資料，以及我們可以取得的樣本數大小。假如我們有母體資料，且樣本數夠大的話，我們便可以使用z檢定，而針對沒有母體資料，也無法取得太多的樣本數時，我們則要改用t檢定。

換成統計學的語言如下「針對母體平均數所進行的假設檢定中，母體標準差已知，適用於大樣本－檢定，母體標準差未知，適用於小樣本－t檢定。」

這邊需要注意的是，當樣本數越大時，z檢定和t檢定的結果趨於一致。因此，在檢定的使用上，針對大樣本其實使用z檢定和t檢定並無太大差異。

顯著水準及決策法則

上一篇當中我們有提到假設檢定有可能會犯下的錯誤，而在統計學上我們也會去評估犯下這些錯誤可能的風險。

犯型 I 錯誤的機率被表示成α（希臘字母 alpha），它也被稱為顯著水準（significance level），犯型 II 錯誤的機率被表示成β（希臘字母 beta），1-β所得的值又可以被我們稱為檢定力（Statistical Power），試圖降低其中一個將會造成另外一個的增加。

在選擇我們的檢定統計量後，接著我們要來決定顯著水準α，並規範出我們的接受域與拒絕域，而接受與拒絕域的接點，稱為臨界點（Critical Point）。臨界點的決定會根據顯著水準α的機率分配有三種形式而定：雙尾檢定（Two-tail Test）、右尾檢定（Right-tail Test）和左尾檢定（Left-tail Test）。

我們之所以要做假設檢定，也就是為了要證明所謂的統計上有顯著的差異，我們要知道資料上的差異是否是因資料變動而產生偶然的差距。而經過上述的檢定，我們可以在顯著水準%下計算出的樣本統計量，如果落於拒絕域時，我們便拒絕虛無假設H0；落在接受域，我們則不拒絕虛無假設H0。

在釐清假設檢定的概念之後，接下來我們要進入到統計的重頭戲－迴歸分析！

參考資料：

https://highscope.ch.ntu.edu.tw/wordpress/?p=70353