iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 8
1
Big Data

我的資料科學之路系列 第 8

[Day 08] 頻率派的統計推論

  • 分享至 

  • xImage
  •  

最近在看Bayesian statistics,那就來講講這東西好了。
在講Bayesian之前先把傳統的統計推論講過。

Frequentist vs Bayesian

其實在遠古(才不是!),統計有兩個支派,經過歷史的演進出現、壯大。

我們現在用的經典機率的定義是來自於拉普拉斯(不是神奇寶貝!),他很直觀的定義了機率應該是出現事件的次數對上所有可能出現的事件次數
以這樣的定義發展出了機率及統計,後來俄國數學家柯爾莫哥洛夫進一步將他公理化,將統計跟現有的數學框架相容。

而我們將要介紹的貝式統計則來自於條件機率的定義,從貝式定理可以看出一些端倪,這個我們後面講。

統計推論

在談這兩者之前,有必要先讓大家好好熟悉一下這兩種統計方式的運作模式跟框架。

我們一般講的統計推論是頻率論者的統計推論,他是我們現在統計的主流。

統計推論到底在講什麼呢?給大家一張圖一目了然

當我們對於一個自然現象或是社會現象產生好奇的時候我們會去問:為什麼會這樣?
這時候我們傾向去將這樣的現象做推論跟歸因,這時候統計中的母體的概念就會出現了!
對!母體!因為當我們要研究一個現象的時候我們需要找到我們要研究的目標,所以這時候目標通常會是一群人或是可能發生的事件,這就自然而然形成了母體的概念了。

那我們會想要了解這個母體,但是我們又不可能從當中蒐集所有個體的資訊,這時候我們會做抽樣
抽出來的樣本,我們可以藉由敘述性統計來幫我們萃取出一些統計量,像是平均數、中位數、標準差等等。
我可能不只有一組樣本,通常會有很多組樣本,這時候多組樣本會萃取出多組統計量。

我們想要從我們的樣本所萃取出來的資訊去推估母體的資訊!
像是我們希望用樣本的平均數來推估母體平均,用樣本的標準差推估母體的標準差,得到這些訊息之後我們或許就能更進一步了解這個母體,了解整個現象。

那怎麼辦?

中央極限定理

這時候就要請到中央極限定理,這個在推論統計中獨挑大樑的人物出場拉!!
他告訴我們一件事!

你們算出來的這些統計量,樣本數愈多的話,抽樣分佈的平均會趨近於母體的平均
而且樣本數愈多的話,抽樣分佈會趨近於常態分佈

P.S. 抽樣分佈不等於樣本的分佈喔!抽樣分佈指的是樣本計算出的統計量形成的分佈

既然抽樣分佈是由樣本的平均值所組成,而這個分佈的平均會趨近母體的平均,這樣就可以用抽樣的平均來推估母體的平均了!

統計推論框架(統計檢定)

在推論統計的框架裏面,我們會假設正反兩面,也就是我們想要證明的假設稱為alternative hypothesis,如果證明失敗我們就回到null hypothesis。

我舉個例子,小明想知道班上同學的身高平均是不是165,所以通常會假設alternative hypothesis為平均身高不是165,那null hypothesis就會是平均身高是165

接著,我們要設定一個門檻,如果過了這個門檻機率的話,我就認為alternative hypothesis為真
這個門檻值叫作alpha,也就是顯著水準,significant level,一般來說我們會設0.05,也就是我假設如果我認為alternative hypothesis為真的話,我接受5%的機率是誤判。

然後我們做抽樣,套用統計模型,計算在null hypothesis下抽到這些樣本機率,這就是我們說的p-value。
那如果p-value < alpha,也就是null hypothesis發生的機率比我們設定的門檻值小,那這樣我們接受alternative hypothesis為真是合理的,反之則反之。

介紹完頻率論的統計推論,下篇我們會講貝式的統計推論


上一篇
[Day 07] Regularization
下一篇
[Day 09] 貝式派的統計推論
系列文
我的資料科學之路34
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言