前一篇簡單介紹了ANOVA和其對應的F檢定(還有F分配),
這篇我們可以來討論事後檢定(Post-hoc Analysis)。
事後檢定是做什麼的呢?
因為ANOVA可以告訴我們的是「有沒有顯著差異」,
但不能告訴我們「是哪兩組之間有顯著差異」,
因此我們在做了F檢定得到顯著的結果之後,
需要去做事後檢定。
說實話事後檢定相當複雜,
方法也很多,有些我也不是很懂。
但我可以跟大家大概解釋一下,
為什麼我們需要特殊的方法來做事後檢定。
要解釋這件事情,我們要回到前幾篇介紹的顯著水準「α」。
如果各位有機會去看看一些統計的文獻或教學,
你會看到α是指犯「型一錯誤(Type I Error)」的機率。
型一錯誤是什麼呢?
型一錯誤就是當虛無假設其實是真的,我們的檢定卻拒絕了它。
也就是一個藥實際上沒用,
我們的檢定結果卻說他和安慰劑有顯著差異,
那這就是型一錯誤。
相對應的型二錯誤(Type II Error),就是反過來:
一個虛無假設是錯的,我們的檢定卻拒絕了它。
也就是一個藥實際上有用,
檢定的結果卻說他和安慰劑沒有顯著差異。
這就是型二錯誤。通常他的機率用 β(Beta)來表達。
這兩種錯誤哪一種比較嚴重呢?
在習慣上,我們會說型一錯誤是比較嚴重的。
上面是藥的例子,但有時候統計教科書會舉犯罪的例子。
假設一個人真的沒罪,但我們的檢定卻說他有罪,
那這樣就很嚴重了。
(不過我自己覺得用機率來判斷誰有罪誰沒罪不是很好)。
但我覺得很難說啦
假設有一個藥有用,檢定卻說他沒用,
讓本來可能有救的人變得沒救了,
這樣難道就不嚴重嗎?
我想這算是另一個倫理思辯的問題了,
在這邊就不多談。
回到α上,我們控制α=0.05的意思,
其實是希望檢定做出來的結果,
犯型一錯誤的機率要小於0.05。
也就是如果比較結果呈現一個分佈裡極端的狀況,
那麼我們說他有差但它實際上沒差的機率小於0.05。
換句話說,其實之前提到檢定裡用的那些分佈,
他在表達的其實是犯型一錯誤的機率分佈。
(這件事情不是很直覺,可能要想一下。)
型二錯誤的β則是用在所謂的統計檢定力(Power)
,
統計檢定力的定義是1 - β
,
也就是我們正確拒絕虛無假設的機率。
(就是實際上有差,檢定結果也有差的機率)
α跟β的控制是會相沖的,也就是如果我們要用更低更嚴謹的α,
那相對應的統計檢定力也會下降。
因為我們用了更低的α,就是讓統計檢定更為保守,
這樣子要顯著的難易度就會更高。
有興趣了解更多的,可以參考以下文章:
https://sites.google.com/site/chiashulab/lecture_materials09
接下來我們回來討論事後檢定。
還記得我之前有稍微提過,
當一個操作變因的水準多於兩項的時候,
我們不能夠直接做多次的t檢定,
來比較所有的組合,看看有沒有差嗎?
(像是有三組我就把A跟B,B跟C,C跟A各比一次)
這個原因是,如果做三次的t檢定,
那麼其中有一次會出現顯著的機率,
就會變成(1-(1-α)^3)
=1 - 0.95^3
~=0.14
,
這會遠大於0.05。
也就是當你的組數夠大的時候,
你做t檢定就一定會有機會顯著。
如果上面的數學不好懂,可以用銅板想想:
假設正反面出現的機率相同,
那丟三次銅板有出現任一次反面的機率是(1-都出現正面)
的機率,
也就是(1 - 0.5*0.5*0.5)
=0.875
。
總之就是不能直接做兩兩成對的t檢定,
因為這樣很容易顯著,沒有控制整體的型一錯誤。
但要得到真正有顯著差異的組別為何,
我們在事後檢定之中還是得做兩兩成對的比較。
因此事後檢定的重點其實是怎麼樣在做兩兩成對比較時,
還能夠避免型一錯誤的問題。
常見的事後比較法,這邊列舉三種:
Fisher’s LSD:
基本上還是去做兩兩成對的t檢定,
但是只有在ANOVA的結果顯著的情況才做。
等於說我們拿ANOVA的結果作為一個保障,
既然ANOVA的結果說裡面有顯著差異,
我們就不擔心他的顯著差異是假的,
放心做兩兩成對的t檢定(但還是稍微有一點變化)。
這個方法在事後比較法中有比較寬鬆的顯著標準。
Bonferroni法:
這個基本上就是兩兩成對的t檢定,
但我們把顯著水準α除以總共比較的次數。
也就是像上面那個三組的例子,α就得要除以三才算顯著標準。
如果是四組就是除以六,以此類推。
這個算是比較中間嚴格度的顯著標準。
雪費法(Scheffe's Method):
據說是以F檢定為基準的一種事後檢定法,
標準是最嚴格的,也最不容易犯型一錯誤,
但相對的統計檢定力也比較低。
如前面所說的,事後比較方法非常多,
計算也很複雜,所以同樣地在實務上我們會用軟體來輔助。
有興趣知道更多的人可以參考IBM Knowledge Center
在SPSS相關的說明有簡介了很多種事後檢定的方法:
單向變異數分析的事後檢定
還有如果F檢定的結果如果顯著,事後檢定的結果卻不顯著,
可以參考這篇的討論看看要怎麼處理:
https://dasanlin888.pixnet.net/blog/post/34468892
下一篇我想討論一下相關和回歸,
再從那邊切過去關於機器學習的基本概念,
後續會接著討論一些關於AI的人性迷思,
算是這個系列我可能最想寫的東西,
希望能成功啦~給我自己加油
也謝謝各位的收看 :)