iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 8
0

接續上次的EDA,我們接著觀察每個特徵的分布狀況,使用seaborn可以快速的將數據的分布圖繪製出來

from scipy.stats import norm
sns.distplot(df.loc[:,"s3"],fit = norm) # 加入常態分布曲線

EDA2

特殊圖形

蜂巢圖可以觀察雙變量的分布狀況,藉由兩個變量的分布狀況可以調整自己想預測的結果,更多圖形以及使用方法可以參考seaborn的官方文件

![EDA3]https://1.bp.blogspot.com/-XMkTLH8O5Tk/XasdFotU7pI/AAAAAAAAAjo/MEcKcIenQYol91NirGGinLwtDclPohO3ACKgBGAsYHg/s1600/08-EDA3.PNG)

究竟EDA看這些資料要做什麼呢?假如觀察到的資料是呈現以下的分布。

sns.distplot(df.loc[:,"age"])

EDA1

在某些條件下,你可能希望這些值較偏向特定的統計分布,這時候將圖表視覺化就可以很輕易地調整資料,例如下圖。

下篇文章將講解特徵的新增與調整~


上一篇
DAY[7]-數據前處理(2) 補值與EDA(1)
下一篇
DAY[9]-數據前處理(3) 特徵新增與調整
系列文
Python機器學習介紹與實戰30

尚未有邦友留言

立即登入留言