iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 16
0
Software Development

在AI的時代追求人性系列 第 16

人機互動之推論統計簡介(5):事後檢定與型一/型二錯誤

  • 分享至 

  • xImage
  •  

前一篇簡單介紹了ANOVA和其對應的F檢定(還有F分配),
這篇我們可以來討論事後檢定(Post-hoc Analysis)。

事後檢定是做什麼的呢?
因為ANOVA可以告訴我們的是「有沒有顯著差異」,
但不能告訴我們「是哪兩組之間有顯著差異」,
因此我們在做了F檢定得到顯著的結果之後,
需要去做事後檢定。

說實話事後檢定相當複雜,
方法也很多,有些我也不是很懂。
但我可以跟大家大概解釋一下,
為什麼我們需要特殊的方法來做事後檢定。

要解釋這件事情,我們要回到前幾篇介紹的顯著水準「α」。
如果各位有機會去看看一些統計的文獻或教學,
你會看到α是指犯「型一錯誤(Type I Error)」的機率。

型一錯誤是什麼呢?

型一錯誤就是當虛無假設其實是真的,我們的檢定卻拒絕了它。
也就是一個藥實際上沒用,
我們的檢定結果卻說他和安慰劑有顯著差異,
那這就是型一錯誤。

相對應的型二錯誤(Type II Error),就是反過來:
一個虛無假設是錯的,我們的檢定卻拒絕了它。
也就是一個藥實際上有用,
檢定的結果卻說他和安慰劑沒有顯著差異。
這就是型二錯誤。通常他的機率用 β(Beta)來表達。

這兩種錯誤哪一種比較嚴重呢?

在習慣上,我們會說型一錯誤是比較嚴重的。
上面是藥的例子,但有時候統計教科書會舉犯罪的例子。
假設一個人真的沒罪,但我們的檢定卻說他有罪,
那這樣就很嚴重了。
(不過我自己覺得用機率來判斷誰有罪誰沒罪不是很好)。

但我覺得很難說啦
假設有一個藥有用,檢定卻說他沒用,
讓本來可能有救的人變得沒救了,
這樣難道就不嚴重嗎?

我想這算是另一個倫理思辯的問題了,
在這邊就不多談。

回到α上,我們控制α=0.05的意思,
其實是希望檢定做出來的結果,
犯型一錯誤的機率要小於0.05。
也就是如果比較結果呈現一個分佈裡極端的狀況,
那麼我們說他有差但它實際上沒差的機率小於0.05。
換句話說,其實之前提到檢定裡用的那些分佈,
他在表達的其實是犯型一錯誤的機率分佈。
(這件事情不是很直覺,可能要想一下。)

型二錯誤的β則是用在所謂的統計檢定力(Power)
統計檢定力的定義是1 - β
也就是我們正確拒絕虛無假設的機率。
(就是實際上有差,檢定結果也有差的機率)

α跟β的控制是會相沖的,也就是如果我們要用更低更嚴謹的α,
那相對應的統計檢定力也會下降。
因為我們用了更低的α,就是讓統計檢定更為保守,
這樣子要顯著的難易度就會更高。

有興趣了解更多的,可以參考以下文章:
https://sites.google.com/site/chiashulab/lecture_materials09

接下來我們回來討論事後檢定。
還記得我之前有稍微提過,
當一個操作變因的水準多於兩項的時候,
我們不能夠直接做多次的t檢定,
來比較所有的組合,看看有沒有差嗎?
(像是有三組我就把A跟B,B跟C,C跟A各比一次)

這個原因是,如果做三次的t檢定,
那麼其中有一次會出現顯著的機率,
就會變成(1-(1-α)^3)=1 - 0.95^3~=0.14
這會遠大於0.05。
也就是當你的組數夠大的時候,
你做t檢定就一定會有機會顯著。

如果上面的數學不好懂,可以用銅板想想:
假設正反面出現的機率相同,
那丟三次銅板有出現任一次反面的機率是
(1-都出現正面)的機率,
也就是(1 - 0.5*0.5*0.5) =0.875

總之就是不能直接做兩兩成對的t檢定,
因為這樣很容易顯著,沒有控制整體的型一錯誤。

但要得到真正有顯著差異的組別為何,
我們在事後檢定之中還是得做兩兩成對的比較。
因此事後檢定的重點其實是怎麼樣在做兩兩成對比較時,
還能夠避免型一錯誤的問題。

常見的事後比較法,這邊列舉三種:

  1. Fisher’s LSD:
    基本上還是去做兩兩成對的t檢定,
    但是只有在ANOVA的結果顯著的情況才做。
    等於說我們拿ANOVA的結果作為一個保障,
    既然ANOVA的結果說裡面有顯著差異,
    我們就不擔心他的顯著差異是假的,
    放心做兩兩成對的t檢定(但還是稍微有一點變化)。
    這個方法在事後比較法中有比較寬鬆的顯著標準。

  2. Bonferroni法:
    這個基本上就是兩兩成對的t檢定,
    但我們把顯著水準α除以總共比較的次數。
    也就是像上面那個三組的例子,α就得要除以三才算顯著標準。
    如果是四組就是除以六,以此類推。
    這個算是比較中間嚴格度的顯著標準。

  3. 雪費法(Scheffe's Method):
    據說是以F檢定為基準的一種事後檢定法,
    標準是最嚴格的,也最不容易犯型一錯誤,
    但相對的統計檢定力也比較低。

如前面所說的,事後比較方法非常多,
計算也很複雜,所以同樣地在實務上我們會用軟體來輔助。
有興趣知道更多的人可以參考IBM Knowledge Center
在SPSS相關的說明有簡介了很多種事後檢定的方法:
單向變異數分析的事後檢定

還有如果F檢定的結果如果顯著,事後檢定的結果卻不顯著,
可以參考這篇的討論看看要怎麼處理:
https://dasanlin888.pixnet.net/blog/post/34468892

下一篇我想討論一下相關和回歸,
再從那邊切過去關於機器學習的基本概念,
後續會接著討論一些關於AI的人性迷思,
算是這個系列我可能最想寫的東西,
希望能成功啦~給我自己加油
也謝謝各位的收看 :)


上一篇
人機互動之推論統計簡介(4):ANOVA與F分配和F檢定
下一篇
人機互動之推論統計簡介(6):不要再把「相關」當「因果」啦
系列文
在AI的時代追求人性30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言