iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 22
1
AI & Data

飛哥與小博的30天-統計與機器學習成長日記系列 第 22

[DAY 22] 章節3-2: 維度炸裂的空間-主成分分析PCA (1/2)

  • 分享至 

  • xImage
  •  

3-2 維度炸裂的空間

飛哥跟小博走進攤位一看,看到攤位人員賣力的叫喊著:「來喔來喔!覺得資料很多、變數很多、要因很複雜到頭痛嗎?
我們可以解決各位的超大數據的欄位計算,並且選出有意義的要因組合喔!不要讓『維度災難』影響到你的工作好心情,降維的事情就交給我們吧!」

小博問道:「飛哥,降維是甚麼東西啊?」

降維 指的是 降低資料維度 ,比如說我們去做身體健康檢查時,可能會去紀錄性別、年紀,測量身高、體重、血壓、脈搏這些數值, 我們每填寫一個項目後,對紙本資料而言就是增加一個紀錄欄位,以數據的角度來看就是增加一個維度的資料 ,所以我們檢查20個項目時,就會有20個維度的資料。當然,之前也有提到過資料的筆數也需要足夠的量,所以只有一個人的檢查資料是不夠的,因為各個項目都只有一筆資料,如果能收集到愈多人的資料,降維過後的可信度也愈高。」飛哥解釋著維度的概念。

「可是20個資料變數聽起來還好啊!應該不太需要用到降維吧?」小博緊接著提出另一個疑問。

「怎麼說呢,每個變數可能會跟其他變數有不同程度的關聯性,像是血脂可能跟體重有較高的關聯,年紀可能會影響一部分的血壓, 降維最主要的目的是將多個維度的資訊濃縮,它甚至可以將同類型的資訊濃縮在一起,用以區別各個變數的重要程度 ,最常見的降維方法就屬 PCA(Principle Component Analysis) 啦!這個方法會在每個PC中『以線性組合』給出各個項目的權重值,每個PC間在空間上是相互獨立的,而每個PC代表著一種特徵,假設某個PC在「血糖、血脂、體重」的權重值特別高,那我們可以判斷這個特徵是「肥胖」,但 每個PC代表的特徵必須根據人為判斷,PCA只能跟你說哪些類別在一起是具有意義的 。」飛哥對著小博解釋PCA的作用原理。

小博認真聽的同時,一位滿臉熱情的攤商走了過來。


資料參考:
https://builtin.com/data-science/step-step-explanation-principal-component-analysis


上一篇
[DAY 21] 章節3-1: 黑盒子的秘密-機器學習與統計的不同?
下一篇
[DAY 23] 章節3-3: 意外熱情的大哥-主成分分析PCA (2/2)
系列文
飛哥與小博的30天-統計與機器學習成長日記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言