iT邦幫忙

2023 iThome 鐵人賽

DAY 7
0
AI & Data

嘗試在AI世界闖蕩系列 第 7

Day 7 AI的主要演算法(非監督演算法-K-Means、PCA)

  • 分享至 

  • xImage
  •  

Pedro Domingos的演算法分類:
https://ithelp.ithome.com.tw/upload/images/20230917/201631022fyoRhck9i.jpg


非監督演算法 Unsupervised Learning Algorithm

精簡樣本去執行分群:K平均演算法K-Means➞樣本的Clustering
精簡特徵值去執行降低維度:主成分分析法Principle Component Analysis,簡稱PCA➞特徵的Cluster


K平均演算法K-Means

  • 概念:透過K個集群中心點,不斷更新位置與重新分群的方式,來區分不同集群。

  • 步驟:
    ➊隨機將樣本分為K群(ex.K=4)
    ➋隨機選擇2個中心點(a1,b1) (質心)
    ➌重新計算兩群質心的正確位置(a2,b2)
    ➍各自移動a1➝a2、b1➝b2
    ➎重新計算所有樣本與a1,a2距離並同時重新分配樣本到所屬的集群

  • 優點:速度快、易收斂,參數設計只需考慮K值

  • 缺點:比較適和數值型、噪音敏感的問題、質心設立的問題、K值設立的問題

  • 應用:分群(ex.消費者採購行為分群)、推薦系統、異常值偵測

集群Cluster:一種不需人為干涉的非監督學習法,精簡資料的方法,依據其屬性相似性,機器將相似度高的聚集。


K-Means與KNN比較

https://ithelp.ithome.com.tw/upload/images/20230921/20163102GVtbUrh0JC.png


主成分分析法(Principal Component Analysis,PCA)

  • 將原本多個具有相關性的變數Composite Index,透過線性組合Linear Combination重新組成新、獨立、更高抽象層次與解釋令更強的綜合指標(Composite Index)代替原本的原始指標(Raw Index)的一種降維統計方法。
  • 背景說明:
    1.變數太多的問題
    2.變數重疊的問題
    3.容易瞭解的問題
  • 主要利用:產品推薦
  • 優點:消除變數間共線性重疊問題、降低選擇特徵的工作負擔、可減少計算量
  • 缺點:解釋較困難(不容易瞭解代表意思)、累積的貢獻利水準不能太低

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 6 AI的主要演算法-3(符號學派)
下一篇
Day 8 演算法選擇標準-1
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言