主成分分析法(Principal Component Analysis,PCA)
所謂PCA是指將原來眾多具有一定相關性的變數,重新再透過線性組合成一組新的、各自獨立、更高抽象層次、解釋能力更大的綜合指標來代替原來眾多的原始指標。例:200個變數透過線性轉換,解釋最大的五個指標。
PCA背景說明
- 變數問題太多:PCA背景是因為太多的特徵變數會使得模式變的複雜、容易產生過度擬合、計算量要更大。
- 變數重疊:雖然每個變數會貢獻某些有用訊息,但變數之間常常會產生重疊性。
- 容易了解:縮減為綜合指標後,會降低可讀性。
PCA主要利用
PCA主要利用於產品推薦,包括電影、音樂、文學等等,這種用於描述其特徵的原始變數太多,因此常會利用PCA將其整合成少數的幾個綜合特徵,並利用這些特徵來描述產品的風格,例如2000部電影,各有200個特徵,我們變用PCA將電影分為五大類,並可利用這些風格來分類電影或根據五種特徵喜好程度來對消費者分類,如此則更容易對消費者推薦產品。
PCA優點
- 消除變數間共線性重疊問題:不同的PCA彼此獨立,不會有共線性重疊問題。
- 降低選擇特徵的工作負擔:PCA本身就能自動地挑選解釋變異量最大的重要變數,不需要在經過特徵選擇的處理過程。
- 可減少計算量:可以只選擇前面幾組貢獻大(例:累積解釋變異量大於85%的少數幾條PCA)的來進行演算即可。
PCA缺點
- 解釋性問題:經過線性整合後,許多的綜合指標意義,常常模糊不清,不見得很容易了解所代表之意義。
- 累積的貢獻力水準要能夠保證不能太低,否則會降低算式的解釋能力
人工智慧-概念應用與管理 林東清 著