iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 2
0
自我挑戰組

資料工程師的Machine Learning/工作學習歷程系列 第 2

[第3天]k-近鄰算法(KNN)

k-近鄰算法(k-nearest neighbors, KNN)

這個算法其實是利用距離去做分類
日常生活常見的應用有各種推薦系統,在Amazon上搜尋了一本書,在下方,會根據這本書的特徵去推薦類似的書
https://ithelp.ithome.com.tw/upload/images/20181002/201117855SwBUOuMP1.png

  • 無母數統計方法,適用於母體未知或母體分配不均之資料
  • 用已知的資料集(dataset),去計算新的項目與這些資料集上點的距離,去看新的項目跟哪一些點較為接近(可選前k個較為接近的點),並藉此找出新項目的分類
  • 關於距離,有兩種計算方法
    • 歐幾里德距離:兩點間最短的距離
    • 曼哈頓距離,又名出租車距離(cab driver distance):現實世界中點跟點的最短距離不一定是可以被實際執行的點跟點之間先計算水平距離再計算垂直距離
  • K值的選定,K值越大,對於異常值月不敏感,所劃分的界線較大
  • 優點:精確度高、對異常值不敏感
  • 缺點:計算複雜度高、空間複雜度高

上一篇
[第1天]Outline
下一篇
[第2天]機器學習基礎概念
系列文
資料工程師的Machine Learning/工作學習歷程20
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言