iT邦幫忙

2021 iThome 鐵人賽

DAY 2
0
AI & Data

資料三十-那些最基本的資料處理與分析技能系列 第 2

【Day02-尺度】40°C為什麼不是20°C的兩倍?

我們昨天提到了資料的類型,那今天就來講一講資料的尺度(Scale)
先釐清一下
這邊所提到的尺度不是指什麼數量級的那種
而是指要如何比較與操作一個數值的衡量尺度

什麼是尺度?

我們舉個實際的例子:

華府編號9527的下等傭人華安
因為打贏了奪命書生後取回了兵器譜第1的排名

上述例子中的

  • 9527:是一種名目尺度的資料
    • 這種資料表示只表示一個特定的身份,數字並不具備可以比較大小的意義,僅表示一個獨一無二的對應(用數學的角度來說就是對射函數)
    • (圖片來源:維基百科)
    • 其他例子:身份證號碼、手機號碼
  • 第1:是一種順序尺度的資料
    • 這種資料數字可以表示前後的順序,但不包含不同順序之間的差距。例如考試成績第2、3名之間的差距和第5、6名之間的差距在這裡是無法得知的。
    • 從數學的角度來說就是單調函數。
    • (圖片來源:維基百科)
    • 其他例子:任何名次表示的東西

接下來看第2個例子:

家裡住在大安區(郵遞區號106)的阿明
買了99朵玫瑰之後
唱著熱愛105°C的你向小美告白
但小美和他說:「我們在一起的機率是0%

上述例子中的:

  • 郵遞區號106:是一種類別尺度的資料
    • 表示的是一種類別的對應,與名目尺度的差異在於同一個類別可以有多筆資料。
  • 99朵:是一種比率尺度的資料
    • 顧名思義,比率尺度就終於是我們可以拿來比較倍數的尺度。像是3頭牛就是6頭牛的一半。
    • 其他例子:同樣單位下的重量、長度、速率....
  • 105°C:是一種間距尺度的資料
    • 比率尺度的定義是基於原點(0)而來,間距尺度則是由資料之間的差值賦予意義。例如我們知道105°C和106°C以及15°C和16°C中間那差的1°C是一樣的,但並不能直接說40°C是20°C的兩倍。但可以說40°C和20°C之間的差距是40°C和30°C之間差距的2倍。
  • 0% :是一種絕對尺度的資料
    • 本身的數字就表示了特定的意義,因此不能再做任何平移、伸縮等操作,否則都會破壞掉本身表示的意義。

在資料處理時....

在我們實際分析資料之前,很常會需要對資料進行清洗和前處理
這個時候對待不同尺度的資料所需要注意

  • 名目尺度與類別尺度的資料不能當成一般數字處理
  • 間距尺度的資料不能直接乘除一個倍數來縮放,但可以透過加減來平移
  • 絕對尺度在做任何操作之後都會失去本來的意義
  • ...

參考資料

基本觀念到這邊,明天開始就有實際操作啦~


上一篇
【Day01-資料】什麼才叫做資料?不就是資料嗎還有什麼差別?
下一篇
【Day03-表格】為什麼熊貓(pandas)是用來處理表格的工具?
系列文
資料三十-那些最基本的資料處理與分析技能30

1 則留言

0
WeiYuan
iT邦新手 4 級 ‧ 2021-09-17 23:56:33

好有趣的標題!

owo iT邦新手 5 級 ‧ 2021-09-19 21:31:36 檢舉

哇是維元大大,感謝支持XDD
我想可能大家小時候應該或多或少疑惑過這個問題,剛好就拿來當標題的例子了~

我要留言

立即登入留言