了解一些資料處理的工具之後,我們要來看一下資料有哪些種類,這樣再之後的分析有更多的方向以及正確的使用工具。
此篇文是由 Joyce 所撰寫
無論是在統計或其他領域中,資料的型態百百種,但大致上可用以下四種去區分,再來我們會再依序介紹各個類別的定義與使用時機。
定類,顧名思義,就是對事物或數據進行分類,其結果不管是數值或是字串,都是各自獨立的,不能用來比較,也不能排序。常用的圖表類型:長條圖、圓餅圖。
小例子 : 現在要區分一筆資料的男女生,因為用字串分析不是很方便,因此我們將男生定義為0,女生定義為1,此時,不能說因為1>0,所以女生比男生大。這樣的比較是毫無意義的。
這是上一篇練習實作的長條圖,可以由圖看出我們將種類分為Sun、Sat、Thur、Fri,四種類別,我們不會說Sun比Sat大,或是Thur在Fri前面,其分類的結果只是用來識別,讓接下來的分析更方便、更直覺。
這個也是之前實作的圖形,我們很明顯看到分成四個種類,也可以清楚知道它們之間互相獨立。定類與其他三個不同之處,它的目的,就是在歸類。
最常見的當然就是眾數,因為當資料歸類好,可以很明顯看出哪個種類最多,也可以用於占比、與頻率的分析,不管是長條圖或是圓餅圖都可以輕鬆地獲得此資訊。
定序即是將事物依照程度排出順序。但定義出來的數值可以排序,每個數值之間的間隔不是相等的,因此只能有大小關係,不能相加減。常用的圖表類型:長條圖、圓餅圖。
小例子:定序最有名的例子便是李克特量表,也許沒有聽過這個名詞,但相信大家一定有填過類似下面這種表單,這個就是李克特量表,我們知道5分是最滿意,1分是最不滿意,因此我們知道5>4>3>2>1,但是每個分數之間的差異其實是模糊的,沒有明確的差距。
滿意度調查 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
服務人員態度 | |||||
餐廳舒適度 |
我們將利用李克特量表收集的數據進行整理,並畫成長條圖方便觀察,可以此時,12345是有大小意義的,但是圖表中的間隔不代表實際的距離。
將上面的長條圖改成圓餅圖,可以方便觀察佔比及頻率。
定類可用的佔比、頻率、眾數,因為定序也有包含其含意,因此這三種統計方式也都可以使用,而因為有了大小的意義,因此數據可以結合在一起比較,像是中位數、百分位數,都可以進行分析。
定距是定序的意義再加上等距的概念,就像一把直尺一樣,不僅能比大小,每個數值間的距離是相等的,因此可以進行相加減的計算,與前面兩種類別最大的不同就是它是連續變項,而定類與定序是間斷變項。常用的圖表:盒狀圖、直方圖。
間斷變項 : 數值不能進行分割,每個數值都有特定的意義。
連續變項 : 數值可進行無限的分割,因為數值具有連續性。
小例子 : 當我們在描述溫度時,其實使用的就是等距量尺,它的每個值都可以進行無限切割,且大小可以排序,距離也相等。
盒狀圖即四分位圖,可以表示出最大值、最小值,及四分位數。例如可以用來表示一年中每天的平均溫度分布。
直方圖可以將連續的數據進行一組一組的分類,像是0.5~1.0為一類,因為定具有連續的概念,所以資料很適合用直方圖來呈現。
前面提到的分析技巧在此都能使用,特別增加了平均值跟標準差,因為每個數值都是連續的,因此當取平均值跟標準差後得到的值都是有意義的。
定比的定義是定距的想改再加上絕對零點,而什麼是自然零點呢?簡單來說,就是有一個最小值,不一定是0,但是會有一個起始值。常用的圖表類型:盒狀圖、直方圖。
小例子 : 最有名的例子,就是身高,它不僅符合前面的定義,在量身高的時候,也會從零公分開始計算起。
舉例來說,我們將所蒐集到的身高用盒狀圖呈現,雖然圖上最低點是130公分,但它其實有零點的意涵在裡頭,因為130公分的意思是距離零點,130公分的距離。
因為定比也具有連續的意義,因此可使用直方圖繪製,這裡也舉身高的例子。
基本是基本的統計方法都可以使用了,因為此量尺已經具備完整的功能了。
介紹完四種量尺的定義了,是否完全了解了呢?還是已經頭昏眼花了?來做個小測驗,看看自己是否完全了解了,
題目:接尺實驗,當測試者看到尺掉落時,用手接住尺,依照上面的公分數,對應相對應的反應時間,例如:0.15秒、0.25秒,請問「反應時間」是哪種量尺?
A. 名義量尺
B. 次序量尺
C. 等距量尺
D. 比率量尺
答案:B
題目 : 常常我們會進行智商的測驗,會得到一個數值,例如IQ130,請問「智商」是哪種量尺呢?
A. 名義量尺
B. 次序量尺
C. 等距量尺
D. 比率量尺
答案:C
如果你都答對了,那麼恭喜你觀念十分的正確,答錯了也不要灰心,因為其實真的沒有很好分辨,有時,太講究定義會讓你頭暈轉向,在這裡就不做解釋,可以好好想想,再去其他網站找詳解。
看到這裡有沒有發現四種量尺其實是循序漸進的呢?下面整理了可分析的功能,可以看出當包含的定義越多,能分析的功能就越強大。但不是所有資料都能明確的定義出屬於哪種類別,因此有這種觀念、想法即可,不需要專牛角尖正確的歸類。
統計量 | 定類 | 定序 | 定距 | 定比 |
---|---|---|---|---|
眾數 | O | O | O | 有時行 |
中位數 | X | O | O | O |
差值 | X | O | O | O |
最大(小)值 | X | O | O | O |
平均值 | X | X | O | O |
標準差 | X | X | O | O |