接續上次的EDA,我們接著觀察每個特徵的分布狀況,使用seaborn可以快速的將數據的分布圖繪製出來
from scipy.stats import norm
sns.distplot(df.loc[:,"s3"],fit = norm) # 加入常態分布曲線
蜂巢圖可以觀察雙變量的分布狀況,藉由兩個變量的分布狀況可以調整自己想預測的結果,更多圖形以及使用方法可以參考seaborn的官方文件
![EDA3]https://1.bp.blogspot.com/-XMkTLH8O5Tk/XasdFotU7pI/AAAAAAAAAjo/MEcKcIenQYol91NirGGinLwtDclPohO3ACKgBGAsYHg/s1600/08-EDA3.PNG)
究竟EDA看這些資料要做什麼呢?假如觀察到的資料是呈現以下的分布。
sns.distplot(df.loc[:,"age"])
在某些條件下,你可能希望這些值較偏向特定的統計分布,這時候將圖表視覺化就可以很輕易地調整資料,例如下圖。
下篇文章將講解特徵的新增與調整~