[第7天]單純貝氏分類器(Naive Bayes)

2019 iT 邦幫忙鐵人賽

DAY 7

自我挑戰組

資料工程師的Machine Learning/工作學習歷程系列第 7 篇

2019鐵人賽

nora1171

2018-10-07 23:41:11

5407 瀏覽

分享至

單純貝氏分類其實是基於機率條件的基礎，與KNN計算點跟點之間的距離造成計算量大的缺點、決策樹計算每個feature的entropy或是gini係數不適用數據量較小的情況，單純貝式分類器在這些情況下相對適合。

照理來說，在B情況下發生A，與在A情況下發生B的機率是不一樣的，但單純貝式分類之所以有「單純」這兩個字夾在前面，是因為他有兩個假設，分別為feature跟feature之間都不相關，即為這些feature在機率的分佈上是獨立的；每個feature同樣重要。常見的應用為文檔分類，例如垃圾信件清理，假設每個詞是獨立的，去計算詞出現在垃圾郵件與非垃圾郵件的關聯，進而可以去算出這封郵件屬於垃圾郵件的機率。

                        P(A,B)=P(A∣B)×P(B)=P(B∣A)×P(A)

其中由於A, B相互獨立（單純貝氏定理的假設），則P(A,B)其實等於P(A)×P(B)。

讀到這裡發現之前我論文做的判斷Facebook候選人留言為支持/不支持/中立/無法判斷的分析，原來用這個就可以做到ＸＤ那個時候其實是產出支持/不支持的word list，然後計算留言中有出現過幾次支持/不支持的詞，然後再比大小看支持還是不支持多ＸＤ

現在想想覺得可惜呀ＸＤ為了趕畢業然後那個時候也在學一堆web+data base+python合在一起用的技術，所以就沒有實現這個做法看看。

[第6天]決策樹-2

[第8天]單純貝式分類器-2

系列文

資料工程師的Machine Learning/工作學習歷程共 20 篇

RSS系列文訂閱系列文

27 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22205 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

資料工程師的Machine Learning/工作學習歷程系列 第 7 篇