過了一個假日,我們要在來繼續科普各位啦~但!今天是個特別的日子,因為是最後一篇科普篇惹,希望這天大家都能好好吸收,為往後實作篇打好基礎!(不過齁,若你是喜歡被科普的你也不要太難過,因為之後實作應該還是會有補充說明的小知識XD)
好啦~前言說了有點多齁,我們快開始吧!
為一種一個非監督的機器學習算法,它透過易於可視化與分析的較小「摘要屬性」集合來統合大型數據表中的訊息內容。而它被歸類為降低維度、特徵擷取的一種方法,降維的目的是希望資料的維度數減少,但整體的效能不差異太大甚至更優。
於做法上,對多個變數(或稱屬性、類別)決定各個變數的權重,進而成加權平均,依循這個方法來訂出總指標(也就是上面所說的「摘要屬性」)。
三個主要步驟:
1.對數據歸一化處理
2.運算數據集的協方差矩陣(方差越大,表示樣本分佈越稀疏,方差越小,表示樣本分佈越密集)
3.計算第一步驟的協方差矩陣,其特徵值和向量
4.透過特徵值與向量來選出最為重要的特徵向量,然後將數據轉換成這些向量,來達成降維
補充說明
協方差矩陣
協方差,為兩個變數的總體誤差。
協方差矩陣,由資料集中兩兩變數的協方差組成。
經過今天後,大家可以先準備好之後皆是實作的心理準備囉~加油哇
參考資料:
什麼是主成分分析 (PCA) 以及如何使用它?
協方差、協方差矩陣的數學概念及演算法計算
機器學習--主成分分析(PCA)算法的原理及優缺點
【機器學習】最經典的降維方法:PCA主成分分析
機器/統計學習:主成分分析(Principal Component Analysis, PCA)