iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 30
1
自我挑戰組

新手 R 語言學習紀錄系列 第 30

Day 30- R語言 假設檢定 (Hypothesis testing) 函數練習

Day 30- R語言 假設檢定 (Hypothesis testing) 的函數

今天是本篇鐵人賽的最後一篇了,那就來談談在R裡面執行假設檢定吧 ˊˇˋ 假設檢定在統計學中有很大的重要性,而R也提供相關功能來讓使用者進行假設檢定。

首先我們先學t.test函數,t.test函數是用來執行T檢定,例如:單一樣本的T檢定、獨立樣本T檢定、相依樣本T檢定。t.test 函數的寫法如下

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

x, y代表資料組
alternative設定對立假設,可以為 “two.sided”, “less”, “greater”三個種類
mu = 單一樣本T檢定是用來檢驗平均值是否等於該數字、獨立樣本T檢定是用來檢驗平均值的差是否等於該數字
paired = 用來設定是否需要成對樣本T檢定
var.equal = 設定變異數相等與否
conf.level = 對區間的信任程度

假設要對一個由隨機數字組成的單一樣本做T檢定,檢驗條件為「平均數是否為30」,可以用下列程式碼執行:

x <- sample(1:100, size = 10, replace = FALSE)
t.test(x, mu = 30)

輸出結果如下:

	One Sample t-test

data:  x
t = 1.3129, df = 9, p-value = 0.2217
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
 21.25089 62.94911
sample estimates:
mean of x 
     42.1

可以看到輸出了這組資料的T值、自由度、P值資料,第二行有對立假設,翻譯為:「平均值不等於30 (x的平均值為42.1)」,95%信任區間為21.25089, 62.94911

但是,由於程式本身設定的alternativetwo.sided的對立假設,如果要檢視另外兩個對立假設(“greater”, “less”)的話,只要修改參數就好。程式碼及輸出結果如下:

> t.test(x, mu = 30, alternative = "less")

	One Sample t-test

data:  x
t = 1.3129, df = 9, p-value = 0.8891
alternative hypothesis: true mean is less than 30
95 percent confidence interval:
     -Inf 58.99483
sample estimates:
mean of x 
     42.1 

> t.test(x, mu = 30, alternative = "greater")

	One Sample t-test

data:  x
t = 1.3129, df = 9, p-value = 0.1109
alternative hypothesis: true mean is greater than 30
95 percent confidence interval:
 25.20517      Inf
sample estimates:
mean of x 
     42.1

接下來學相依樣本T檢定,假設今天要檢查一個學生參加課外活動前/後的課業學習成績是否有差異,分數資料如下:
參加活動前: 90, 87, 98, 98, 96
參加活動後: 89, 86, 87, 86, 84

這時候可以用成對樣本T檢定來檢查這位學生的兩組成績:

c1 <- c(90, 87, 98, 98, 96)
c2 <- c(89, 86, 87, 86, 84)

t.test(c1, c2, paired = TRUE)

結果如下:

Paired t-test

data:  c1 and c2
t = 2.8253, df = 4, p-value = 0.04757
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  0.1280456 14.6719544
sample estimates:
mean of the differences 
                    7.4

今天的基本假設檢定的函數練習就先學到這邊吧。

鐵人賽到這邊就畫下句點啦 ˊˇˋ 但是學習永無止盡,鐵人賽後我還是會繼續學習使用R語言的 :D (當然要繼續學習,不然就放棄就太可惜了)。

那要怎麼繼續學呢,我這邊大致上有幾個想法:

  1. 學習統計學概念,畢竟R最大的功能還是做資料處理,如果沒有熟悉基礎統計學的原理,那麼R要運用起來可能還是有點難度(就像我現在這樣 :’))
  2. 探索其它套件,靈活運用R語言
  3. 學習如何運用其他R語言函數

好了,我想到這邊就結束吧,感謝我的電腦陪我撐過這30天,也感謝各位大大願意花時間點我的文章 ˊˇˋ

參考資料:

  1. Codecademy
  2. http://chenyuren.blogspot.com/2012/06/r.html

上一篇
Day 29- R語言 互動式資料視覺化 Part 2- plotly 套件
系列文
新手 R 語言學習紀錄30

1 則留言

0
阿展展展
iT邦好手 1 級 ‧ 2020-02-03 06:14:31

恭喜完賽
講的好仔細!! /images/emoticon/emoticon41.gif

我要留言

立即登入留言