iT邦幫忙

鐵人檔案

2014 iT 邦幫忙鐵人賽
回列表

Data Mining 學習路:概念、技術與工具 系列

「Big Data」應該是近來最紅的詞之一吧。
我想許多人應該都跟過去的我一樣,只知道是個詞,只知道他很火。
近來偶然學習了跟 big data 相關的技術 -- data mining。
我將在三十天寫寫我所學習的資料探勘的基礎,希望能給同樣對這個領域有興趣但未入門的人一點點參考。

參賽天數 16 天 | 共 16 篇文章 | 11 人訂閱 訂閱系列文 RSS系列文
DAY 11

將資料化為資訊:Data Mining 基礎算法簡介

# 有了資料之後... 當輸入的資料都準備好之後,需要透過一些分析方法來取得我們想要的資訊。 往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。...

2014-09-26 ‧ 由 rickjung88 分享
DAY 12

將資料化為資訊:Inferring rudimentary rules

# 簡單至上,1-rule, 1R 就如同這個方法的名字一樣,使用一個屬性(attribute)來做分類,產生一個只有一層的決策樹。 1R 簡單、低成本,但別看...

2014-09-27 ‧ 由 rickjung88 分享
DAY 13

將資料化為資訊:Inferring rudimentary rules (con.)

繼續說說昨天的 1R 當資料屬性值有缺少時怎麼辦 如果說某一條資料裡的某個屬性值不見時,會造成 1R 無法使用,因為我們會不知道要它是啥,也就沒辦法拿它來分類...

2014-09-28 ‧ 由 rickjung88 分享
DAY 14

將資料化為資訊:Divide and Conquer - Decision Trees (1/2)

# 建立決策樹(Decision Tree) [決策樹圖] 決策樹是一種非常直覺且容易理解的分析模型,樹上的每個節點(node)代表資料的分類依據,資料通過節點...

2014-09-29 ‧ 由 rickjung88 分享
DAY 15

將資料化為資訊:Divide and Conquer - Decision Trees(2/2)

# information entropy 要怎麼算? 基本的公式在此: ps.1 Pn 表示 個別分類結果的占總數量有多少 ps.2 通常 log 以 2...

2014-09-30 ‧ 由 rickjung88 分享
DAY 16

將資料化為資訊:Statistical Modelling - Naïve Bayes Classifier(1/3)

# 注意,本文有些與統計相關的知識,由於本人對於統計沒有很多研究,如果有寫錯的地方麻煩跟我說 Orz # 用統計分析解決問題 先前介紹的 1R 只用資料的一個屬...

2014-10-01 ‧ 由 rickjung88 分享