問題描述
手寫體數字識別
一樣透過機器學習的步驟
Step 1:數據準備
Scikit-learn自帶數據集
通過sklearn.datasets.load_digits()來加載
包含1797個樣本,每個樣本包括88像素的圖片和一個[0,9]整數的標籤
Step 2:算法選擇
K-近鄰算法(K-Nearest Neighbors)
K近鄰算法假設給定一個訓練數據集,其中的實例類別已定。分類時,對新的實例,根據其k個最近的訓練實例的類別,通過多數表決等方式進行預測
簡單說明就是近朱者赤,近墨者黑
下圖為圖例說明KNN
現有的三類訓練集數據,有一個新的樣本Xu,選取了距離最近的(預設參數設定k=5)個點