盒鬍圖
可用來觀察資料的分布情形
最大值、最小值、中位數、四分位數
一樣使用Titanic資料集做示範
使用seaborn的boxplot繪製長條圖
長方形最上面那條線為第三四分位數,資料從小到大的第75%資料
長方形中間那條線為第二四分位數,資料從小到大的第50%資料,也就是中位數
長方形最下面那條線為第一四分位數,料從小到大的第25%資料
最上面以及最下面分別為最大值、最小值,其他點則為離群值
熱力圖
可用來觀察數值間的係數關係
通常會配合pandas的corr方法使用
corr會算出各值之間的係數關係,會自動過濾掉遺失值或不是數字型態的值
會介於-1~1之間,越靠近1就表示愈成正比,越靠近-1就表示愈成反比,越靠近0表示愈沒有關係
使用seaborn的heatmap繪製熱力圖
可將參數annot設位Ture,可直接觀察數字
使用seaborn的pairplot可直接觀察各數值之間的關係
sns.pairplot(data_set,hue='Survived')
我將Survived放入hue做分類來觀察
送上colab連結,可自行在上面多做點練習更加熟悉seaborn
https://colab.research.google.com/drive/1cEqnvujTRBvO7AvljWl021mgs7zL8yMv?usp=sharing
Titanic資料下載
https://www.kaggle.com/c/titanic/overview