iT邦幫忙

2023 iThome 鐵人賽

DAY 19
0
AI & Data

進入AI的世界系列 第 19

➤D-19 主要演算法-6(非監督演算法)

  • 分享至 

  • xImage
  •  

非監督演算法的主要演算法

K平均演算法(K-Means)

集群(Cluster):一種精簡資料方法,依據資料間樣本屬性的相似性,由機器自行將各種屬性相似度都高的樣本聚集在一起,形成集群的一種不需人為干涉的非監督式學習法。

K-Means:透過K個集群中心點,不斷更新位置,不斷重新分群的方式,來劃分不同集群的一種非監督式演算法。


優點

  • 參數的設計只考慮K值。
  • 速度快容易收斂。

缺點

  • 數據形式的問題:比較適合數值型的數據分析。
  • 質心設立問題:每次初始質心(Centroid)皆為隨機選擇,其設計敏感,不同的初始化會有不同的集群。
  • K值設立問題:沒有理論基礎只能用試誤法。

主要應用

  1. 分群:對消費者不同的採購行為分群,進行不同的目標行銷。
  2. 推薦系統。
  3. 異常值檢測。

K-Means vs. KNN比較

  1. KNN是監督式學習:訓練樣本內的物件都已經標註好,知道其類別為何;K-Means是非監督式學習:樣本並沒有標註,是由K-Means自己根據樣本內各個屬性差異大小與距離來進行區分的集群。
  2. KNN的目的在 分類 ,K-Means目的在 集群
  3. KNN由最鄰近的數量來投票決定新樣本的類別,K-Means由集群中質心距離的遠近來決定歸屬於哪一集群。

主成分分析法(Principal Component Analysis, PCA)

  1. PCA基本概念:一種降維統計方法,例如將100個變數利用線性轉換,找出解釋變異數最大的5個綜合指標(這些指標可以解釋例如85%以上的變異數)。
    降維☞資料維度數(變數)很多時,有沒有辦法使維度數(變數)少一點,但資料特性不會差太多。

PCA背景說明
* 變數太多問題:容易過度擬合
* 變數重量問題:變數之間常有很多重疊性或冗餘、不相關、沒有解釋能力的
* 容易瞭解問題:能將多數的原始變數整合成少數又能保留主要訊息且具有更高層次的解釋能力,當然有助於對問題的分析與瞭解。

  1. 主要利用:產品推薦
    描述其產品特徵的原始變數太多,會產生爆炸式組合分類,故常會利用PCA將其整合成少數的幾個「綜合特徵」(Composite Feature),並利用這些綜合特徵來描述產品的「風格Style」。

優點

  • 消除變數間共線性重疊問題:不同的PCA彼此獨立,不會有共線性重疊的問題。
  • 降低選擇特徵的工作負擔:PCA本身就能自動挑選解釋變異量最大的重要變數。
  • 可減少計算量:可只選擇前面幾組貢獻大的來進行演算即可。

缺點

  • 解釋性問題:經過線性整合以後,許多綜合指標意義,常會模糊不清,不容易瞭解。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-18 主要演算法-5(符號學派)
下一篇
➤D-20 主要演算法-7【完】(演算法選擇與評價)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言