先說點時事, 今天凌晨有 iPhone 11 發表會, 為了 AI 有新增一個 Core ML 庫可讓開發者調用. 回到 kaggle 比賽的準備.
EDA 是工具知識的基礎, 視覺化可以幫助我們理出資料中有趣的線索, 視覺化工具有兩類
截圖自coursera
plt.hist(x)
截圖自coursera
plt.plot(x,'.')
截圖自coursera
plt.scatter(range(len(x)), x, c=y)
散布圖 Scatter plots進階版 -1
截圖自coursera
plt.scatter_matrix(df)
散布圖 Scatter plots進階版 -2 (加相關性)
2-1 配對 (還是很亂.., 請看2-2)
2-2 配對/群組
截圖自coursera
df.corr(), plt.matshow(...)
群組
截圖自coursera
df.mean(). plot(style='.')
改良版群組
截圖自coursera
df.mean(). sort_value().plot(style='.')
截圖自coursera
df.describe()
x.mean
x.var
截圖自coursera
x.value_counts()
x.isnull()
配對 / pairs
1. 散布圖 Scatter plots
2. 散布矩陣 Scatter matrix
3. 相關圖 Corrplot
群組 / group
1. 相關圖+集群 Correlation plots + clustering
2. 圖表 plot (index vs feature statisics)
3. 還有很多
灰色是 test set, 若彩色(class 0, class 1)與灰色交雜是ok的, 但是右上角一大片只有灰點, 表示 test set 不妙.
截圖自coursera
plt.scatter(x1, x2)