iT邦幫忙

DAY 12
0

Data Mining 學習路:概念、技術與工具系列 第 12

將資料化為資訊:Inferring rudimentary rules

# 簡單至上,1-rule, 1R
就如同這個方法的名字一樣,使用一個屬性(attribute)來做分類,產生一個只有一層的決策樹。
1R 簡單、低成本,但別看它這麼簡單,據說在實際的資料分析上往往有出人意表的精准度。

另外 1R 也很常被用來做一個最初的分析,看看資料大概的分佈是什麼樣子。

1R 的實作流程如下:

  1. 選擇一個屬性
  2. 根據該屬性的不同值做出分支,以分支中出現最多次的種類為主要分類(就是未來有這個屬性的都會被分到這一類啦)
  3. 計算分支的錯誤率及該屬性的總錯誤率(error rate,就是不是主要分類的資料有多少)
  4. 重複 1~3 至所有屬性,最後比較使用不同屬性分類時的錯誤率,找最少錯誤的那個就是了

就這樣,直覺,簡單 XD

拿資料來說明,由於我有點懶得自己準備資料,就拿書上一直出現的天氣資料來用吧...(Weka 裡面也有這資料,拿來用應該沒關係吧 :o )
我們的目標是,判斷一個日子適不適合玩(play),然後我們已經神秘地取得了以下資料:


接著我們使用 1R ,可以建出以下表格:

記得,rule 中,屬性值決定的分類結果是由種類出現的數量來決定的,以數量最多的來作為主要分類,另外如果遇到數量相同時,隨機選一個吧 :v 。

經過了複雜的運算,我們可以得知以 outlook 或 humidity 來做為 1R 分類的屬性時,錯誤率最低,因此我們可以考慮用兩者其中之一來作為分類依據。

下次再說說 1R 在使用上的其他問題吧


上一篇
將資料化為資訊:Data Mining 基礎算法簡介
下一篇
將資料化為資訊:Inferring rudimentary rules (con.)
系列文
Data Mining 學習路:概念、技術與工具16

尚未有邦友留言

立即登入留言