前言:接下來幾篇會是一些使用R語言來進行數學運算的內容!主要運用的範疇是統計學,其實也是因為曾經在某堂課有學到過,但那時候沒有實際應用到,因此這幾篇當作一個複習~(不會有人認為我在水章節吧)。那首先此篇要說明的是使用R語言計算單一母體平均數信賴區間估計。如果內容哪裡有錯誤的地方,請多多包容><~
正文開始-->
首先簡述一下單一母體平均數的信賴區間估計是一種統計方法,用來估計母體平均數的範圍,並在一定的信心水準下給出一個可能包含該母體平均數的區間。這個區間的上下限稱為「信賴上下限」,對應的區間稱為「信賴區間」,信賴區間反映了樣本數據對母體平均數的估計精確度。
範例程式碼
interval_estimate <- function(x, sigma = -1, alpha = 0.05) {
n <- length(x)
x.bar <- mean(x)
if (sigma >= 0) {
tmp <- sigma / sqrt(n) * qnorm(1 - alpha / 2)
df <- n
} else {
tmp <- sd(x) / sqrt(n) * qt(1 - alpha / 2, n - 1)
df <- n - 1
}
data.frame(mean = x.bar, df = df, lower.limit = x.bar - tmp, upper.limit = x.bar + tmp)
}
ex <- c(5900, 3500, 4500, 5200, 4800, 5200, 4900, 4000, 4700, 4900)
interval_estimate(ex)
程式碼說明
interval_estimate
函數的功能是基於樣本數據來估計均值的信賴區間,會根據是否已知母體標準差(sigma)來決定使用常態分佈或 t 分佈來進行計算。
x
:樣本數據,這裡是ex中的數值。sigma
:母體標準差。默認值為 -1,表示母體標準差未知,因此使用樣本標準差來計算。alpha
:顯著性水平。默認是 0.05,表示 95% 的信賴區間。n <- length(x)
:計算樣本數據 x 中的數據點個數,即樣本大小n。x.bar <- mean(x)
:計算樣本數據 x 的平均值,描述數據集中趨勢的位置。sigma >= 0
(已知母體標準差),會使用常態分佈來計算信賴區間。公式如下:tmp <- sigma / sqrt(n) * qnorm(1 - alpha / 2)
df <- n
sigma < 0
(母體標準差未知),使用樣本標準差和 t分佈來計算信賴區間。公式如下:tmp <- sd(x) / sqrt(n) * qt(1 - alpha / 2, n - 1)
df <- n - 1
data.frame(mean = x.bar, df = df, lower.limit = x.bar - tmp, upper.limit = x.bar + tmp)
執行結果
輸出結果說明:結果將會是一個 data.frame,包含以下幾列:
mean
:樣本均值df
:自由度lower.limit
:信賴區間的下限upper.limit
:信賴區間的上限