將資料化為資訊：Data Mining 基礎算法簡介

鐵人賽 note algorithm data mining

rickjung88

2014-09-26 20:29:43

4524 瀏覽

分享至

# 有了資料之後...
當輸入的資料都準備好之後，需要透過一些分析方法來取得我們想要的資訊。
往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。

Inferring rudimentary rules, 1R, 1-Rule

這大概是所有分析方式中最最最簡單的一種吧 :v
1R 的特色就是簡單、成本低，但是很神秘地，這個簡單到不行的分析手法在實際應用中卻有不差的精準度（當然不同的 case 有不同的可能，這裡只是個大概 :o ）。
就如同方法的名稱，1R 只使用一個資料屬性（attribute）來作為分類判斷的依據，我們可以用這個方法來對第一次得到的資料做一個簡單的了解。

Statistical Modelling : 機率, Naive Bayes

不同於 1R ，統計分析通常會使用所有的屬性來綜合出一個分類標準，其中一個最廣為人知的方式稱為 Naïve Bayes，是基於貝氏定理發展出來的一種分類方法，經過不斷訓練的 Naïve Bayes 分類器可以擁有相當不錯的精準度，很常見他應用在垃圾信件的過濾或者文件分類。

Divide and Conquer - Decision Tree

Divide and conquer 的概念就是，不斷地切割，將大問題切割成一個個小的問題來解決。
而 decision tree（中文就叫決策樹吧）即為 divide and conquer 的一種實作，用於呈現資料分佈狀態，由上到下，透過每個節點的選擇來做分類。
決策樹的特色是相當易懂且容易使用，單純地以屬性分門別類，就可以快速且精準地將一個新的資料分到他應屬的分類。