單純貝氏分類其實是基於機率條件的基礎,與KNN計算點跟點之間的距離造成計算量大的缺點、決策樹計算每個feature的entropy或是gini係數不適用數據量較小的情況,單純貝式分類器在這些情況下相對適合。
照理來說,在B情況下發生A,與在A情況下發生B的機率是不一樣的,但單純貝式分類之所以有「單純」這兩個字夾在前面,是因為他有兩個假設,分別為feature跟feature之間都不相關,即為這些feature在機率的分佈上是獨立的;每個feature同樣重要。常見的應用為文檔分類,例如垃圾信件清理,假設每個詞是獨立的,去計算詞出現在垃圾郵件與非垃圾郵件的關聯,進而可以去算出這封郵件屬於垃圾郵件的機率。
P(A,B)=P(A∣B)×P(B)=P(B∣A)×P(A)
其中由於A, B相互獨立(單純貝氏定理的假設),則P(A,B)其實等於P(A)×P(B)。
讀到這裡發現之前我論文做的判斷Facebook候選人留言為支持/不支持/中立/無法判斷的分析,原來用這個就可以做到XD那個時候其實是產出支持/不支持的word list,然後計算留言中有出現過幾次支持/不支持的詞,然後再比大小看支持還是不支持多XD
現在想想覺得可惜呀XD為了趕畢業然後那個時候也在學一堆web+data base+python合在一起用的技術,所以就沒有實現這個做法看看。