# 資料的呈現
當我們決定了我們的分析目標後,就必須找一個方式來整理資料,如果資料沒有經過整理,就會像一堆糾纏在一起的毛線一樣,根本無從去做分析跟理解。
資料有很多呈現方式,比較常見的應該屬表格式的吧,這個表示方法也被很多資料庫所採用,他長得像這樣:
每一列(row,直行橫列,中文我一直都記不好,下面都用英文好了...)代表著一個單位的資料,英文稱它為 instance,未來在說明其他的東西時,我都稱為一個資料,因為我也不太知道要怎麼用中文表達這個概念 Orz。
而每一行(column)代表著不同的屬性。
每一個資料,都會有用來辨識的屬性(attribute),我們的機器在進行分析的時候,也是把資料的屬性作為分析的主體。
屬性可以大略分成兩種,一種是數量(numeric)屬性,又被稱為連續性(continuous)屬性(注意這邊的連續跟數學上連續的概念是有差異的),其實說穿了他就是一個數字啦,例如溫度可能是 32 度這樣。
另一種屬性則是名義(nominal)屬性,他是有限數量的一種屬性,又被稱為 categorical ,這種屬性呢比較接近人類的描述吧,例如溫度可能有三種,hot, cool 跟 normal,這樣的屬性通常比較好分析(我覺得啦)。
統計學家很有趣,他們有更細的屬性數據分類,稱為 levels of measurement,分成 nominal, ordinal, interval 和 ratio。
名義尺度,跟上面的簡單分類很像,其實就是名字。
這類的屬性只能夠做相等或不相等的比較。
ex. 天氣 = sunny, rainy, overcast
又稱為 qualitative scale。
次序尺度,這一類的屬性是有順序性的,隱含了大小的概念,所以 ordinal scale 的屬性是能夠比大小的,
因此也產生了中位數的概念,然而我們並不能從大小中找出不同順序間的差距有多少。
ex. 低、中、高,或是第一第二第三這樣的順序,
區間尺度,這一類的資料比起次序多了距離的概念,我們可以透過加減來獲得數據的距離,也能夠比較距離大小。
但因為「零點」的設定並不固定,所以沒有「比率」的概念,例如我們不能說 20 度比 10 度熱了兩倍,這樣的敘述是非常不合理的。
ex. 溫度
比率尺度,這一個層級的數據就有了「比率」的概念,數據之間可以進行乘除運算,也因為精準的 0 被定義出來,所以倍數之間的比較也變得有意義,例如 20 公分是 10 公分的兩倍,許多科學上的度量單位都屬於這個尺度的。
ex. 公尺、
http://en.wikipedia.org/wiki/Level_of_measurement#Nominal_scale