「Big Data」應該是近來最紅的詞之一吧。
我想許多人應該都跟過去的我一樣,只知道是個詞,只知道他很火。
近來偶然學習了跟 big data 相關的技術 -- data mining。
我將在三十天寫寫我所學習的資料探勘的基礎,希望能給同樣對這個領域有興趣但未入門的人一點點參考。
# 有了資料之後... 當輸入的資料都準備好之後,需要透過一些分析方法來取得我們想要的資訊。 往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。...
# 簡單至上,1-rule, 1R 就如同這個方法的名字一樣,使用一個屬性(attribute)來做分類,產生一個只有一層的決策樹。 1R 簡單、低成本,但別看...
繼續說說昨天的 1R 當資料屬性值有缺少時怎麼辦 如果說某一條資料裡的某個屬性值不見時,會造成 1R 無法使用,因為我們會不知道要它是啥,也就沒辦法拿它來分類...
# 建立決策樹(Decision Tree) [決策樹圖] 決策樹是一種非常直覺且容易理解的分析模型,樹上的每個節點(node)代表資料的分類依據,資料通過節點...
# information entropy 要怎麼算? 基本的公式在此: ps.1 Pn 表示 個別分類結果的占總數量有多少 ps.2 通常 log 以 2...
# 注意,本文有些與統計相關的知識,由於本人對於統計沒有很多研究,如果有寫錯的地方麻煩跟我說 Orz # 用統計分析解決問題 先前介紹的 1R 只用資料的一個屬...