先前介紹的 1R 只用資料的一個屬性來作處理,而運用統計的方式來分析則是使用所有的屬性來做分析。
那我們要如何讓所有的屬性都能有所貢獻勒?這時候就要用到機率的概念了。
首先我們把先前用過的天氣資料重新再拿出來用,整裡一下每個屬性及他們各自的值所得到的 yes, no 數量,並算出每個屬性之中,yes 與 no 在不同的值裡占有的比例如何:
(yes no 的數量用 (yes數量, no數量) 來表示)
當我們有了表格下方那些機率的資料後,我們就可以用它們來對新的資料做分析,假設有一個新的日子的屬性長這樣:
[outlook=sunny, temp=cool, humidity=high, windy=true, play=?]
很直覺地,拿上面對應的機率來做運算:
likelihood of yes : 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053
likelihood of no : 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206
再來我們做一個 normalize 的動作:
yes 的機率 : 0.0053 / (0.0053+0.0206) = 20.5 %
no 的機率 : 0.0206 / (0.0053 + 0.0206) = 79.5 %
如此我們就可以得到這個新日子可能是 yes 或 no 個別的機率有多少。
明天再說說 Bayes 的故事...