iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 4
2

Yes

資料視覺化

今日學習目標

  • 探索式分析 (EDA)
    • 聊聊何謂 EDA,為何要做數據分析?
  • 撰寫第一支 EDA 程式
    • 透過鳶尾花 (iris) 資料集,來查看資料的分佈狀態

直方圖

直方圖是一種對數據分布情況的圖形表示,是一種二維統計圖表。

核密度估計

核密度估計分爲兩部分,分別有對角線部分和非對角線部分。在對角線部分是以核密度估計圖(Kernel Density Estimation)的方式呈現,也就是用來看某一個特徵的分佈情況,x軸對應著該特徵的數值,y軸對應著該特徵的密度也就是特徵出現的頻率。在非對角線的部分為兩個特徵之間分佈的關聯散點圖。將任意兩個特徵進行配對,以其中一個爲橫座標,另一個爲縱座標,將所有的數據點繪製在圖上,用來衡量兩個變量的關聯程度。

關聯分析

透過 pandas 的 corr() 函式可以快速的計算每個特徵間的彼此關聯程度。其區間值為-1~1之間,數字越大代表關聯程度越高。

散佈圖

透過散佈圖我們可以從二維的平面上觀察兩兩特徵間彼此的分佈狀況。如果該特徵重要程度越高,群聚的效果會更加顯著。

箱形圖

透過箱形圖可以分析每個特徵的分布狀況以及是否有離群值。我們利用箱形圖來表示四分位數來觀察數據分散情況。箱形的兩端為第一個四分位數涵蓋25%之資料(Q1)與第三個四分位數涵蓋75%之資料(Q3),而箱形圖的中間線為中位數顯示涵蓋前50%資料之位置。箱形上虛線的端點為極大值,箱型下虛線的點為極小值。

本系列教學簡報 PDF & Code 都可以從我的 GitHub 取得!


上一篇
[Day 3] 機器學習大補帖
下一篇
[Day 5] 資料清理&前處理
系列文
全民瘋AI系列31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言