在開始正式進入推論統計之前,我們需要熟悉兩個基本觀念,一個是中央極限定理,一個是假設檢定。
這些觀念之所以重要是因為我們無法把所有的母體全部抓過來一個一個去看,因此我們需要透過一小搓的樣本數來推論出母體的輪廓,這也是推論統計的強大之處。你一定很好奇這是怎麼辦到的,想要運用這個強大的工具,我們首先必須要瞭解建立在此之上的前提:中央極限定理。
我們首先來看中央極限定理的定義,依據維基百科:在適當的條件下,大量相互獨立隨機變數的均值經適當標準化後依分布收斂於常態分布。
诶...講人話?
從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈。
好!相信有一些人已經懂了,有些人可能覺得還是一樣一頭霧水。
沒關係,我一開始在學的時候也是根本沒有理解這句話到底是什麼意思。
首先來拆解這句話 「從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈。」 總共有幾個關鍵字我們需要注意:隨機抽取、獨立變數、平均值。
隨機抽取和獨立變數都好理解,為了防止樣本有人為的偏誤,但為什麼是平均值?
其實在現實生活中,原始資料並未遵循常態分布是很常見的狀況。但聰明的科學家發現,當把其中幾筆資料總和的平均值計算出來後,圖形將會逐步收斂為常態分布,而且隨著資料量的增加收斂的情況越明顯。(這邊的證明會牽扯到許多數學,想要研究的人可以找資料來看。)
因此,我們可以來看看中央極限定理的特性:
當「樣本平均數抽樣分佈」抽樣之樣本數n趨近於無限大時,依據中央極限定理其分佈具有:
你看到了什麼?對!樣本平均數抽樣分佈之平均數會等於母群體平均數!
知道這個我們可以幹嘛?
也就是透過這個概念我們可以推估母體的平均值,且標準誤差愈小,樣本統計量愈接近母群的參數。
而這裡的標準誤指的是樣本平均數抽樣分布的標準差,用以量測樣本分配的變異程度,與標準差用以量測樣本的變異程度不同。
也就是說,標準誤差即是在大量樣本自母群被取樣之後,用以代表樣本平均值分散性。它所描述的是對應樣本平均數抽樣分布的離散程度,也是衡量對應樣本平均數抽樣誤差大小的尺度。
好~終於明白中央極限定理在做什麼了,它其實就是幫我們解決非常態分布形的離散資料,協助我們了解樣本平均數與母體平均數之間的差距(機率)。
了解中央極限定理之後,讓我們來前進推論統計的核心之一假設檢定!
參考資料:
http://homepage.ntu.edu.tw/~clhsieh/biostatistic/5/5-1.htm
http://web.cjcu.edu.tw/~jdwu/stat01/lect002.pdf
https://medium.com/qiubingcheng/中央極限定理-central-limit-theorem-clt-c5e47d091865
https://medium.com/qiubingcheng/假設檢定基礎觀念-948dffc4b808
http://amebse.nchu.edu.tw/new_page_552.htm