iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
3
AI & Data

資幾資比系列 第 6

[Series - 5] 資料種類介紹

前言

了解一些資料處理的工具之後,我們要來看一下資料有哪些種類,這樣再之後的分析有更多的方向以及正確的使用工具。

此篇文是由 Joyce 所撰寫

資料種類

無論是在統計或其他領域中,資料的型態百百種,但大致上可用以下四種去區分,再來我們會再依序介紹各個類別的定義與使用時機。

  • 定類(名義量尺)
  • 定序(次序量尺)
  • 定距(等距量尺)
  • 定比(比率量尺)

定類(名義量尺)

定類,顧名思義,就是對事物或數據進行分類,其結果不管是數值或是字串,都是各自獨立的,不能用來比較,也不能排序。常用的圖表類型:長條圖圓餅圖

小例子 : 現在要區分一筆資料的男女生,因為用字串分析不是很方便,因此我們將男生定義為0,女生定義為1,此時,不能說因為1>0,所以女生比男生大。這樣的比較是毫無意義的。

長條圖

這是上一篇練習實作的長條圖,可以由圖看出我們將種類分為SunSatThurFri,四種類別,我們不會說Sun比Sat大,或是Thur在Fri前面,其分類的結果只是用來識別,讓接下來的分析更方便、更直覺。

圓餅圖

這個也是之前實作的圖形,我們很明顯看到分成四個種類,也可以清楚知道它們之間互相獨立。定類與其他三個不同之處,它的目的,就是在歸類

可使用的描述性統計

最常見的當然就是眾數,因為當資料歸類好,可以很明顯看出哪個種類最多,也可以用於占比、與頻率的分析,不管是長條圖或是圓餅圖都可以輕鬆地獲得此資訊。


定序(次序量尺)

定序即是將事物依照程度排出順序。但定義出來的數值可以排序,每個數值之間的間隔不是相等的,因此只能有大小關係,不能相加減。常用的圖表類型:長條圖圓餅圖

小例子:定序最有名的例子便是李克特量表,也許沒有聽過這個名詞,但相信大家一定有填過類似下面這種表單,這個就是李克特量表,我們知道5分是最滿意,1分是最不滿意,因此我們知道5>4>3>2>1,但是每個分數之間的差異其實是模糊的,沒有明確的差距。

滿意度調查 1 2 3 4 5
服務人員態度
餐廳舒適度

長條圖

我們將利用李克特量表收集的數據進行整理,並畫成長條圖方便觀察,可以此時,12345是有大小意義的,但是圖表中的間隔不代表實際的距離。

圓餅圖

將上面的長條圖改成圓餅圖,可以方便觀察佔比及頻率。

可使用的描述性統計

定類可用的佔比頻率眾數,因為定序也有包含其含意,因此這三種統計方式也都可以使用,而因為有了大小的意義,因此數據可以結合在一起比較,像是中位數百分位數,都可以進行分析。


定距(等距量尺)

定距是定序的意義再加上等距的概念,就像一把直尺一樣,不僅能比大小,每個數值間的距離是相等的,因此可以進行相加減的計算,與前面兩種類別最大的不同就是它是連續變項,而定類與定序是間斷變項。常用的圖表:盒狀圖直方圖

間斷變項 : 數值不能進行分割,每個數值都有特定的意義。
連續變項 : 數值可進行無限的分割,因為數值具有連續性。

小例子 : 當我們在描述溫度時,其實使用的就是等距量尺,它的每個值都可以進行無限切割,且大小可以排序,距離也相等。

盒狀圖

盒狀圖即四分位圖,可以表示出最大值、最小值,及四分位數。例如可以用來表示一年中每天的平均溫度分布。

直方圖

直方圖可以將連續的數據進行一組一組的分類,像是0.5~1.0為一類,因為定具有連續的概念,所以資料很適合用直方圖來呈現。

可使用的描述性統計

前面提到的分析技巧在此都能使用,特別增加了平均值標準差,因為每個數值都是連續的,因此當取平均值跟標準差後得到的值都是有意義的。


定比(比率量尺)

定比的定義是定距的想改再加上絕對零點,而什麼是自然零點呢?簡單來說,就是有一個最小值,不一定是0,但是會有一個起始值。常用的圖表類型:盒狀圖直方圖

小例子 : 最有名的例子,就是身高,它不僅符合前面的定義,在量身高的時候,也會從零公分開始計算起。

盒狀圖

舉例來說,我們將所蒐集到的身高用盒狀圖呈現,雖然圖上最低點是130公分,但它其實有零點的意涵在裡頭,因為130公分的意思是距離零點,130公分的距離。

直方圖

因為定比也具有連續的意義,因此可使用直方圖繪製,這裡也舉身高的例子。

可使用的描述性統計

基本是基本的統計方法都可以使用了,因為此量尺已經具備完整的功能了。


小測驗

介紹完四種量尺的定義了,是否完全了解了呢?還是已經頭昏眼花了?來做個小測驗,看看自己是否完全了解了,

題目:接尺實驗,當測試者看到尺掉落時,用手接住尺,依照上面的公分數,對應相對應的反應時間,例如:0.15秒、0.25秒,請問「反應時間」是哪種量尺?
A. 名義量尺
B. 次序量尺
C. 等距量尺
D. 比率量尺

答案:B

題目 : 常常我們會進行智商的測驗,會得到一個數值,例如IQ130,請問「智商」是哪種量尺呢?
A. 名義量尺
B. 次序量尺
C. 等距量尺
D. 比率量尺

答案:C

如果你都答對了,那麼恭喜你觀念十分的正確,答錯了也不要灰心,因為其實真的沒有很好分辨,有時,太講究定義會讓你頭暈轉向,在這裡就不做解釋,可以好好想想,再去其他網站找詳解。


結語

看到這裡有沒有發現四種量尺其實是循序漸進的呢?下面整理了可分析的功能,可以看出當包含的定義越多,能分析的功能就越強大。但不是所有資料都能明確的定義出屬於哪種類別,因此有這種觀念、想法即可,不需要專牛角尖正確的歸類。

統計量 定類 定序 定距 定比
眾數 O O O 有時行
中位數 X O O O
差值 X O O O
最大(小)值 X O O O
平均值 X X O O
標準差 X X O O

表格來源


上一篇
[Series - 4] Seaborn
下一篇
[Series - 6] EDA介紹
系列文
資幾資比31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言