DAY 6

0

Data Mining 學習路：概念、技術與工具系列第 6 篇

Data Mining：Day 6 資料處理第一步：（2）研究你的資料

data 鐵人賽 note data mining statistics

2014-09-21 18:45:25

14563 瀏覽

分享至

# 資料的呈現
當我們決定了我們的分析目標後，就必須找一個方式來整理資料，如果資料沒有經過整理，就會像一堆糾纏在一起的毛線一樣，根本無從去做分析跟理解。
資料有很多呈現方式，比較常見的應該屬表格式的吧，這個表示方法也被很多資料庫所採用，他長得像這樣：

每一列（row，直行橫列，中文我一直都記不好，下面都用英文好了...）代表著一個單位的資料，英文稱它為 instance，未來在說明其他的東西時，我都稱為一個資料，因為我也不太知道要怎麼用中文表達這個概念 Orz。

而每一行（column）代表著不同的屬性。
每一個資料，都會有用來辨識的屬性（attribute），我們的機器在進行分析的時候，也是把資料的屬性作為分析的主體。

屬性可以大略分成兩種，一種是數量（numeric）屬性，又被稱為連續性（continuous）屬性（注意這邊的連續跟數學上連續的概念是有差異的），其實說穿了他就是一個數字啦，例如溫度可能是 32 度這樣。
另一種屬性則是名義（nominal）屬性，他是有限數量的一種屬性，又被稱為 categorical ，這種屬性呢比較接近人類的描述吧，例如溫度可能有三種，hot, cool 跟 normal，這樣的屬性通常比較好分析（我覺得啦）。

統計學家很有趣，他們有更細的屬性數據分類，稱為 levels of measurement，分成 nominal, ordinal, interval 和 ratio。

Nominal Scale

名義尺度，跟上面的簡單分類很像，其實就是名字。
這類的屬性只能夠做相等或不相等的比較。
ex. 天氣 = sunny, rainy, overcast

又稱為 qualitative scale。

Ordinal Scale

次序尺度，這一類的屬性是有順序性的，隱含了大小的概念，所以 ordinal scale 的屬性是能夠比大小的，
因此也產生了中位數的概念，然而我們並不能從大小中找出不同順序間的差距有多少。
ex. 低、中、高，或是第一第二第三這樣的順序，

Interval Scale

區間尺度，這一類的資料比起次序多了距離的概念，我們可以透過加減來獲得數據的距離，也能夠比較距離大小。
但因為「零點」的設定並不固定，所以沒有「比率」的概念，例如我們不能說 20 度比 10 度熱了兩倍，這樣的敘述是非常不合理的。
ex. 溫度

Ratio Scale

比率尺度，這一個層級的數據就有了「比率」的概念，數據之間可以進行乘除運算，也因為精準的 0 被定義出來，所以倍數之間的比較也變得有意義，例如 20 公分是 10 公分的兩倍，許多科學上的度量單位都屬於這個尺度的。
ex. 公尺、

參考資料

http://en.wikipedia.org/wiki/Level_of_measurement#Nominal_scale

Data Mining：Day 5 資料處理第一步：（1）要挖什麼資料

Data Mining 學習路 - Day 7 資料處理第一步：（3）準備輸入檔案 ARFF

系列文

Data Mining 學習路：概念、技術與工具共 16 篇

目錄

RSS系列文訂閱系列文

11 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙