iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 7
0
自我挑戰組

資料工程師的Machine Learning/工作學習歷程系列 第 7

[第7天]單純貝氏分類器(Naive Bayes)

  • 分享至 

  • xImage
  •  

單純貝氏分類其實是基於機率條件的基礎,與KNN計算點跟點之間的距離造成計算量大的缺點、決策樹計算每個feature的entropy或是gini係數不適用數據量較小的情況,單純貝式分類器在這些情況下相對適合。

照理來說,在B情況下發生A,與在A情況下發生B的機率是不一樣的,但單純貝式分類之所以有「單純」這兩個字夾在前面,是因為他有兩個假設,分別為feature跟feature之間都不相關,即為這些feature在機率的分佈上是獨立的;每個feature同樣重要。常見的應用為文檔分類,例如垃圾信件清理,假設每個詞是獨立的,去計算詞出現在垃圾郵件與非垃圾郵件的關聯,進而可以去算出這封郵件屬於垃圾郵件的機率。


                        P(A,B)=P(A∣B)×P(B)=P(B∣A)×P(A)

其中由於A, B相互獨立(單純貝氏定理的假設),則P(A,B)其實等於P(A)×P(B)。

讀到這裡發現之前我論文做的判斷Facebook候選人留言為支持/不支持/中立/無法判斷的分析,原來用這個就可以做到XD那個時候其實是產出支持/不支持的word list,然後計算留言中有出現過幾次支持/不支持的詞,然後再比大小看支持還是不支持多XD

現在想想覺得可惜呀XD為了趕畢業然後那個時候也在學一堆web+data base+python合在一起用的技術,所以就沒有實現這個做法看看。


上一篇
[第6天]決策樹-2
下一篇
[第8天]單純貝式分類器-2
系列文
資料工程師的Machine Learning/工作學習歷程20
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言