KNN 的英文全稱為 K-Nearest Neighbors,顧名思義此方法是想找 K 個最鄰近的鄰居當作分群的關鍵點。KNN 從機率的角度出發,以後驗期望值評斷分群的關鍵點。
KNN 的原理跟使用小小萍方法的回歸模型很像。最小名方法為求取一條與資料點與預測值相差的平方合最小的線,即求使殘差平方合 $\Sigma_i (y_i - {\hat y})$ 最小。
而 KNN 式想要求使期望值與預測值的誤差平方合最小,此時的函數 $f(X)$ ,如下式
\
$\min\limits_{f(X)} \mathbb{E}_{XY}[Y - f(X)]^2$
\
其中 $Y$ 與 $X$ 分別為輸出變數與輸出期望值,此方法稱作最小均方誤差法。
\
但是因不知道期望值的機率密度函數 $P(Y \mid X)$, 在現實中難以計算 $\mathbb{E}_{XY}[Y - f(X)]^2$。如果要求取此期望值,可以使用平均數估計之,如下式,
$
{\hat y} = {\mathop Avg}(y_i \mid X = {\bf x})
$
其中 ${\mathop Avg}(.)$ 為求平均值。此估計式的涵義為:將輸入資料 ${\bf x}$ 所對應的所有輸出值 $y_i$ 取平均。