iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 5
0
AI & Data

特徵工程 in 30 days系列 第 6

[瞭解資料特徵]Part3-資料的四個尺度-A

  • 分享至 

  • xImage
  •  

資料的尺度

我們已經知道何謂定量與定性資料,但有時候資料的類型模稜兩可,因此有統計學和定量研究中的測量尺度(scale of measure)或稱度量水平(level of measurement)幫助我們更清楚界定資料,對不同種類的數據,依據其尺度所劃分的類別,這些尺度分別為四種:

  • 名目(nominal)
  • 次序(ordinal)
  • 等距(interval)
  • 等比(ratio)

每個尺度都有不同程度的控制和數學可能性。了解資料的級別至關重要,因為它將決定資料可視化和操作的類型。

名目尺度

名目尺度有著四個尺度中最弱的結構,它由純粹按名稱描述的資料組成。例如,對一個氣球的顏色進行測量,其可能的結果為紅,黃,綠等不同的顏色類。同理,一個人的性別也是一個名目尺度,因為該變量只能在『男』或者『女』中選值。名目尺度只能用來比較相等或者不相等,而不能比較大小,更不能用來進行四則算術運算。以性別為例,兩個人的性別只能用相同與否來區分,而討論『誰的性別大』,或者『兩個人性別的和是多少』等問題是沒有意義的。

次序尺度

相較於名目尺度,次序尺度為我們提供了進一步探索資料的能力。次序尺度繼承了名目尺度的所有屬性,但具有重要的附加屬性:次序尺度有一定的順序或大小。次序尺度的資料之間除比較是否相等外,還可以比較大小。但是,加減乘除的運算仍然不能用在次序尺度中。例如,一場比賽中選手的名次(第一,第二,第三等等)就是一個次序變量。我們可以比較兩個選手的名次誰較前面,但我們不能比較第一名和第二名的差距比第二名和第三名的差距哪個更大。

次序尺度的分布可以用眾數和中位數來描述。

等距尺度

等距尺度具有次序尺度所有的特性。除了能比較大小外,等距尺度測量值之間的差別也可以比較大小。等距尺度測量值可以相加和相減,其結果仍然有意義。另一方面,由於等距尺度的零點是任意選取的,所以乘法和除法運算的結果不唯一,因而是沒有意義的。年份、攝氏溫度、華氏溫度就是等距尺度。

等距尺度可以用眾數,中位數或者算術平均值來描述。

等比尺度

也稱比率尺度。等比變量具有等距變量的所有特點,同時它也允許乘除運算。大多數物理量,如質量,長度、絕對溫度或者能量等等都是等比尺度。

等比尺度可以用眾數,中位數,算術平均數和幾何平均數來描述。

以上只有等距尺度和等比尺度有計量單位(units of measurement),換句話說,名目尺度和次序尺度是定性的,而等距尺度和等比尺度是定量的。此四種尺度資料有各自的視覺化以及數學描述方式,相較於定性與定量的文章介紹,相信這一篇的各種解釋都清晰很多,下一篇文章將進一步以Python以及Pandas分別演示此四種尺度資料的視覺化。

WIKI:https://zh.wikipedia.org/wiki/%E6%B8%AC%E9%87%8F%E5%B0%BA%E5%BA%A6


上一篇
[瞭解資料特徵]Part2-定量與定性資料B
下一篇
[瞭解資料特徵]Part3-資料的四個尺度-B
系列文
特徵工程 in 30 days23
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言