DAY[8]-數據前處理(2) 補值與EDA(2)

第 11 屆 iThome 鐵人賽

DAY 8

AI & Data

11th鐵人賽 python3 machine learning

3233 瀏覽

接續上次的EDA，我們接著觀察每個特徵的分布狀況，使用seaborn可以快速的將數據的分布圖繪製出來

from scipy.stats import norm
sns.distplot(df.loc[:,"s3"],fit = norm) # 加入常態分布曲線

EDA2

特殊圖形

蜂巢圖可以觀察雙變量的分布狀況，藉由兩個變量的分布狀況可以調整自己想預測的結果，更多圖形以及使用方法可以參考seaborn的官方文件

![EDA3]https://1.bp.blogspot.com/-XMkTLH8O5Tk/XasdFotU7pI/AAAAAAAAAjo/MEcKcIenQYol91NirGGinLwtDclPohO3ACKgBGAsYHg/s1600/08-EDA3.PNG)

究竟EDA看這些資料要做什麼呢?假如觀察到的資料是呈現以下的分布。

sns.distplot(df.loc[:,"age"])

EDA1

在某些條件下，你可能希望這些值較偏向特定的統計分布，這時候將圖表視覺化就可以很輕易地調整資料，例如下圖。

下篇文章將講解特徵的新增與調整~

系列文

Python機器學習介紹與實戰共 30 篇

52 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言