昨天介紹完SKlearn中的Feature Engineer,今天要來介紹貝氏分類器(Naive Bayes Classification),該分類器模型在20世紀60年代初引入文本資料信息檢索中,文本資料分類的做法式將詞語出現的頻率用特徵值表示:
如果試圖在兩個標籤之間做出決策,可以利用類別1(L1)與類別2(L2)的方式計算出,並且可以計算出每個類別的都可以用此方式計算出比率:
貝氏分類器中的"naive"指的是,我們對每個標籤的生成模型做原是的假設,然後對模型中的每個類別做大約估計,不同類型的數據假設依賴於不同類型的貝氏分類器,首先匯入需要的函式庫和資料集。
Naive Bayes Classification
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
在貝氏分類器中,假設來自每個標籤的數據是從簡單的高斯分佈中提取的。