iT邦幫忙

DAY 11
0

Data Mining 學習路:概念、技術與工具系列 第 11

將資料化為資訊:Data Mining 基礎算法簡介

# 有了資料之後...
當輸入的資料都準備好之後,需要透過一些分析方法來取得我們想要的資訊。
往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。

Inferring rudimentary rules, 1R, 1-Rule

這大概是所有分析方式中最最最簡單的一種吧 :v
1R 的特色就是簡單、成本低,但是很神秘地,這個簡單到不行的分析手法在實際應用中卻有不差的精準度(當然不同的 case 有不同的可能,這裡只是個大概 :o )。
就如同方法的名稱,1R 只使用一個資料屬性(attribute)來作為分類判斷的依據,我們可以用這個方法來對第一次得到的資料做一個簡單的了解。

Statistical Modelling : 機率, Naive Bayes

不同於 1R ,統計分析通常會使用所有的屬性來綜合出一個分類標準,其中一個最廣為人知的方式稱為 Naïve Bayes,是基於貝氏定理發展出來的一種分類方法,經過不斷訓練的 Naïve Bayes 分類器可以擁有相當不錯的精準度,很常見他應用在垃圾信件的過濾或者文件分類。

Divide and Conquer - Decision Tree

Divide and conquer 的概念就是,不斷地切割,將大問題切割成一個個小的問題來解決。
而 decision tree(中文就叫決策樹吧)即為 divide and conquer 的一種實作,用於呈現資料分佈狀態,由上到下,透過每個節點的選擇來做分類。
決策樹的特色是相當易懂且容易使用,單純地以屬性分門別類,就可以快速且精準地將一個新的資料分到他應屬的分類。

Rules

Rules 有點像是 decision tree 的另一種表達方式,但 rules 的彈性會比 decision tree 大一點, decision tree 的葉節點即是分類的結果,但比較不容易表達多個分類結果的狀況(至少我是不太知道...),而 rules 則相反,能夠一次表達多個分類結果。

其他

Linear Modelling、Instance-based Learning、Clustering,這幾個就不多講了,到時候再說吧


上一篇
Data Mining 學習路: Day 10 資料如何呈現:(3)Instance-based Representation and Clusters
下一篇
將資料化為資訊:Inferring rudimentary rules
系列文
Data Mining 學習路:概念、技術與工具16
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言