iT邦幫忙

2022 iThome 鐵人賽

DAY 17
0
AI & Data

一同來挖掘 0 程式的Orange!系列 第 17

〔Day17〕聊聊另一個經典降維演算法-PCA

  • 分享至 

  • xImage
  •  

過了一個假日,我們要在來繼續科普各位啦~但!今天是個特別的日子,因為是最後一篇科普篇惹,希望這天大家都能好好吸收,為往後實作篇打好基礎!(不過齁,若你是喜歡被科普的你也不要太難過,因為之後實作應該還是會有補充說明的小知識XD)
好啦~前言說了有點多齁,我們快開始吧!/images/emoticon/emoticon42.gif

主成分分析(Principal Component Analysis / PCA)

為一種一個非監督的機器學習算法,它透過易於可視化與分析的較小「摘要屬性」集合來統合大型數據表中的訊息內容。而它被歸類為降低維度、特徵擷取的一種方法,降維的目的是希望資料的維度數減少,但整體的效能不差異太大甚至更優。

基本步驟

於做法上,對多個變數(或稱屬性、類別)決定各個變數的權重,進而成加權平均,依循這個方法來訂出總指標(也就是上面所說的「摘要屬性」)。

三個主要步驟:

1.對數據歸一化處理
2.運算數據集的協方差矩陣(方差越大,表示樣本分佈越稀疏,方差越小,表示樣本分佈越密集)
3.計算第一步驟的協方差矩陣,其特徵值和向量
4.透過特徵值與向量來選出最為重要的特徵向量,然後將數據轉換成這些向量,來達成降維

補充說明 協方差矩陣
協方差,為兩個變數的總體誤差。
協方差矩陣,由資料集中兩兩變數的協方差組成。

應用範例

  • 幫助識別數據間的相關性
    e.g. 北歐國家冷凍魚和脆麵包等食品,兩者間的消費是否存在相關性。
  • 模式識別
  • 信號處理
  • 可視化高維數據集
  • 數據壓縮
  • 數據預處理

PCA的優缺點

  • 優點
    1.數據集變得易使用
    2.降低算法的計算花費
    3.去掉噪聲
    4.結果易理解
    5.無參數限制
  • 缺點
    1.特徵值的分解有些限制。 e.g. 變換的矩陣須為方陣
    2.於非高斯的分佈下,得出的主要元素可能並不是最優的
    3.無法透過參數化等方法對處理的過程進行干涉

經過今天後,大家可以先準備好之後皆是實作的心理準備囉~加油哇/images/emoticon/emoticon08.gif

https://ithelp.ithome.com.tw/upload/images/20221002/20151063GhBc2ADaPs.png

參考資料:
什麼是主成分分析 (PCA) 以及如何使用它?
協方差、協方差矩陣的數學概念及演算法計算
機器學習--主成分分析(PCA)算法的原理及優缺點
【機器學習】最經典的降維方法:PCA主成分分析
機器/統計學習:主成分分析(Principal Component Analysis, PCA)


上一篇
〔Day16〕探索新插件-Bioinformatics
下一篇
〔Day18〕將數據化繁為簡-PCA
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言