人機互動之推論統計簡介(5)：事後檢定與型一/型二錯誤

第 12 屆 iThome 鐵人賽

DAY 16

Software Development

在AI的時代追求人性系列第 16 篇

12th鐵人賽

愛煮飯的小72

2020-09-30 23:18:59

15935 瀏覽

分享至

前一篇簡單介紹了ANOVA和其對應的F檢定（還有F分配），
這篇我們可以來討論事後檢定(Post-hoc Analysis）。

事後檢定是做什麼的呢？
因為ANOVA可以告訴我們的是「有沒有顯著差異」，
但不能告訴我們「是哪兩組之間有顯著差異」，
因此我們在做了F檢定得到顯著的結果之後，
需要去做事後檢定。

說實話事後檢定相當複雜，
方法也很多，有些我也不是很懂。
但我可以跟大家大概解釋一下，
為什麼我們需要特殊的方法來做事後檢定。

要解釋這件事情，我們要回到前幾篇介紹的顯著水準「α」。
如果各位有機會去看看一些統計的文獻或教學，
你會看到α是指犯「型一錯誤（Type I Error)」的機率。

型一錯誤是什麼呢？

型一錯誤就是當虛無假設其實是真的，我們的檢定卻拒絕了它。
也就是一個藥實際上沒用，
我們的檢定結果卻說他和安慰劑有顯著差異，
那這就是型一錯誤。

相對應的型二錯誤（Type II Error)，就是反過來：
一個虛無假設是錯的，我們的檢定卻拒絕了它。
也就是一個藥實際上有用，
檢定的結果卻說他和安慰劑沒有顯著差異。
這就是型二錯誤。通常他的機率用 β（Beta）來表達。

這兩種錯誤哪一種比較嚴重呢？

在習慣上，我們會說型一錯誤是比較嚴重的。
上面是藥的例子，但有時候統計教科書會舉犯罪的例子。
假設一個人真的沒罪，但我們的檢定卻說他有罪，
那這樣就很嚴重了。
（不過我自己覺得用機率來判斷誰有罪誰沒罪不是很好）。

但我覺得很難說啦
假設有一個藥有用，檢定卻說他沒用，
讓本來可能有救的人變得沒救了，
這樣難道就不嚴重嗎？

我想這算是另一個倫理思辯的問題了，
在這邊就不多談。

回到α上，我們控制α=0.05的意思，
其實是希望檢定做出來的結果，
犯型一錯誤的機率要小於0.05。
也就是如果比較結果呈現一個分佈裡極端的狀況，
那麼我們說他有差但它實際上沒差的機率小於0.05。
換句話說，其實之前提到檢定裡用的那些分佈，
他在表達的其實是犯型一錯誤的機率分佈。
（這件事情不是很直覺，可能要想一下。）

型二錯誤的β則是用在所謂的統計檢定力（Power），
統計檢定力的定義是1 - β，
也就是我們正確拒絕虛無假設的機率。
（就是實際上有差，檢定結果也有差的機率）

α跟β的控制是會相沖的，也就是如果我們要用更低更嚴謹的α，
那相對應的統計檢定力也會下降。
因為我們用了更低的α，就是讓統計檢定更為保守，
這樣子要顯著的難易度就會更高。

有興趣了解更多的，可以參考以下文章：
https://sites.google.com/site/chiashulab/lecture_materials09

接下來我們回來討論事後檢定。
還記得我之前有稍微提過，
當一個操作變因的水準多於兩項的時候，
我們不能夠直接做多次的t檢定，
來比較所有的組合，看看有沒有差嗎？
（像是有三組我就把A跟B，B跟C，C跟A各比一次）

這個原因是，如果做三次的t檢定，
那麼其中有一次會出現顯著的機率，
就會變成(1-(1-α)^3)=1 - 0.95^3~=0.14，
這會遠大於0.05。
也就是當你的組數夠大的時候，
你做t檢定就一定會有機會顯著。

如果上面的數學不好懂，可以用銅板想想：
假設正反面出現的機率相同，
那丟三次銅板有出現任一次反面的機率是
(1-都出現正面)的機率，
也就是(1 - 0.5*0.5*0.5) =0.875。

總之就是不能直接做兩兩成對的t檢定，
因為這樣很容易顯著，沒有控制整體的型一錯誤。

但要得到真正有顯著差異的組別為何，
我們在事後檢定之中還是得做兩兩成對的比較。
因此事後檢定的重點其實是怎麼樣在做兩兩成對比較時，
還能夠避免型一錯誤的問題。

常見的事後比較法，這邊列舉三種：

Fisher’s LSD：
基本上還是去做兩兩成對的t檢定，
但是只有在ANOVA的結果顯著的情況才做。
等於說我們拿ANOVA的結果作為一個保障，
既然ANOVA的結果說裡面有顯著差異，
我們就不擔心他的顯著差異是假的，
放心做兩兩成對的t檢定（但還是稍微有一點變化）。
這個方法在事後比較法中有比較寬鬆的顯著標準。
Bonferroni法：
這個基本上就是兩兩成對的t檢定，
但我們把顯著水準α除以總共比較的次數。
也就是像上面那個三組的例子，α就得要除以三才算顯著標準。
如果是四組就是除以六，以此類推。
這個算是比較中間嚴格度的顯著標準。
雪費法（Scheffe's Method)：
據說是以F檢定為基準的一種事後檢定法，
標準是最嚴格的，也最不容易犯型一錯誤，
但相對的統計檢定力也比較低。