【Day22-圖表】文不如表，表不如圖——使用seaborn一行透過圖表觀察資料！

2021 iThome 鐵人賽

DAY 22

AI & Data

資料三十-那些最基本的資料處理與分析技能系列第 22 篇

13th鐵人賽 python 資料視覺化繪圖資料分析

owo

2021-10-07 22:45:07

3996 瀏覽

分享至

我們人類是視覺的動物，因此在面對非常大量的資料的時候有一個合適、快速、有效的視覺化方法絕對是非常有必要的。所以今天就來簡單介紹幾個在做資料分析的時候最基礎的幾個圖表吧

繪圖神器seaborn

雖然它其實也是基於mathplotlib核心開發的，而且一般python在學習的過程中也幾乎都是先學到mathpoltlib，不過我還是強烈建議在可以的情況下儘量優先用seaborn，因為它

就很好看。

ggplot2對於R來說讓資料視覺化提升到了一個新的境界，python也不能每次都畫太醜的圖你說是吧？

範例資料——某校109年GPA成績

df = pd.read_excel("GPA.xlsx")
df["Department"] = df["科號"].apply(lambda x: re.search("[A-Z]+", x)[0]) # 取出系所為連續字母
df["GPA"] = df["平均值"].apply(lambda x: re.search("[\d\.]+", x)[0]).apply(float) # 取出數字並轉換型態
df["var"] = df["標準差"].apply(lambda x: re.search("[\d\.]+", x)[0]).apply(float)
df

df2 = df[df["Department"].isin(["EE", "PHYS", "MATH", "ECON"])] # 篩選一下資料好做舉例

觀察一變數的分佈情況——盒裝圖、小提琴圖

盒狀圖

盒裝圖會顯示的資訊有

全值範圍：最大值、最小值
中位數
中間半數資料範圍：第一、第三四分位數

因此很適合讓我們檢視看看是否有離群值，或是資料分佈是否過於集中/分散

# 盒狀圖
sns.boxplot(x=df2["Department"], y=df2["GPA"])

小提琴圖

小提琴圖和盒狀圖很類似，只是比起離散的幾個數據點資料，更多了資料在不通過值時候的密度(即那個值的時候有多少資料)

sns.violinplot(x=df2["Department"], y=df2["GPA"])

觀察二變數的相關趨勢——散佈圖、趨勢線

當我們要同時觀察兩個以上的變數的時候，我們所能詳細觀察的資料就通常不會像一維資料一樣細，但這個時候我們反而是會比較重視兩個變數之間的關係，因此散佈圖就是一個很好的工具，而同時我們可以加上趨勢線來輔助我們判斷

# 分佈圖
sns.regplot(x=df2["GPA"], y=df2["var"],ci=10)

觀察多變數之間的潛在關係——平行座標圖

有的時候我們的資料會有很多組的變數，你需要大概的看一下這些變數之間的關係，但又不需要到去畫出Correlation那麼細，這個時候平行座標圖絕對是你的好選擇

from pandas.plotting import parallel_coordinates
iris = sns.load_dataset('iris') # 換個資料範例用iris
parallel_coordinates(iris, 'species')
plt.show()

最後放張梗圖打完收工

在最初看到這種圖的時候真的挺震驚的，有一種「啊原來還能這樣玩啊」的感覺XD

【Day21-濾波】圖片也有頻率？影像資料如何做濾波？

【Day23-降維】相信你的眼睛，在訓練模型之前一定要做的事情——利用降維技巧檢視資料分群狀態：PCA, tSNE, SVD, SOM

系列文

資料三十-那些最基本的資料處理與分析技能共 30 篇

RSS系列文訂閱系列文

23 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

資料三十-那些最基本的資料處理與分析技能系列 第 22 篇