這個章節要介紹相關係數,相關係數是很常使用在特徵處理的部分,可以使我們了解特徵與目標之間的關係。相關係數衡量兩個隨機變量之間線性關係的強度和⽅向。雖然不是表⽰變數之間關係的最好⽅法,但可以提供我們很直觀的了解。以下是我參加機器學習百日馬拉松所練習的題目,因為簡單易懂,所以提供給想從入門的朋友參考。
相關係數是⼀個介於 -1~1 之間的值,負值代表負相關,正值代表正相關,數值的⼤⼩代表相關性的強度
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
np.random.seed(1)
x = np.random.randint(0, 50, 1000)
y = np.random.randint(0, 50, 1000)
np.corrcoef(x, y)
plt.scatter(x, y)
可以得到相關係數為array([[1., 0.00404702], [0.00404702, 1.]])
x = np.random.randint(0, 50, 1000)
y = x + np.random.normal(0, 10, 1000)
np.corrcoef(x, y)
plt.scatter(x, y)
可以得到相關係數為array([[1., 0.8218465], [0.8218465, 1.]])