k-近鄰算法(k-nearest neighbors, KNN)
這個算法其實是利用距離去做分類
日常生活常見的應用有各種推薦系統,在Amazon上搜尋了一本書,在下方,會根據這本書的特徵去推薦類似的書
- 無母數統計方法,適用於母體未知或母體分配不均之資料
- 用已知的資料集(dataset),去計算新的項目與這些資料集上點的距離,去看新的項目跟哪一些點較為接近(可選前k個較為接近的點),並藉此找出新項目的分類
- 關於距離,有兩種計算方法
- 歐幾里德距離:兩點間最短的距離
- 曼哈頓距離,又名出租車距離(cab driver distance):現實世界中點跟點的最短距離不一定是可以被實際執行的點跟點之間先計算水平距離再計算垂直距離
- K值的選定,K值越大,對於異常值月不敏感,所劃分的界線較大
- 優點:精確度高、對異常值不敏感
- 缺點:計算複雜度高、空間複雜度高