iT邦幫忙

DAY 16
0

Data Mining 學習路:概念、技術與工具系列 第 16

將資料化為資訊:Statistical Modelling - Naïve Bayes Classifier(1/3)

# 注意,本文有些與統計相關的知識,由於本人對於統計沒有很多研究,如果有寫錯的地方麻煩跟我說 Orz

# 用統計分析解決問題

先前介紹的 1R 只用資料的一個屬性來作處理,而運用統計的方式來分析則是使用所有的屬性來做分析。

那我們要如何讓所有的屬性都能有所貢獻勒?這時候就要用到機率的概念了。

首先我們把先前用過的天氣資料重新再拿出來用,整裡一下每個屬性及他們各自的值所得到的 yes, no 數量,並算出每個屬性之中,yes 與 no 在不同的值裡占有的比例如何:
(yes no 的數量用 (yes數量, no數量) 來表示)

當我們有了表格下方那些機率的資料後,我們就可以用它們來對新的資料做分析,假設有一個新的日子的屬性長這樣:

[outlook=sunny, temp=cool, humidity=high, windy=true, play=?]

很直覺地,拿上面對應的機率來做運算:
likelihood of yes : 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053
likelihood of no : 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206

再來我們做一個 normalize 的動作:
yes 的機率 : 0.0053 / (0.0053+0.0206) = 20.5 %
no 的機率 : 0.0206 / (0.0053 + 0.0206) = 79.5 %

如此我們就可以得到這個新日子可能是 yes 或 no 個別的機率有多少。

明天再說說 Bayes 的故事...


上一篇
將資料化為資訊:Divide and Conquer - Decision Trees(2/2)
系列文
Data Mining 學習路:概念、技術與工具16

尚未有邦友留言

立即登入留言