或許對於一般人來說,比起散布圖,直條圖跟折線圖是更熟悉的圖表型態。不過,散布圖是在資料科學領域中很常見的圖表型態,常用於銷售報告、地區病毒感染數統計與需要反映相關係數的圖表。散布圖可用Excel來完成,也可使用Python中的Matplotlib,且執行出來的效果簡潔美觀。
在開始使用Matplotlib繪製散布圖之前,我們需了解幾個與Matplotlib相關的變數型態。
什麼是變數呢?
在《精通Python》此書中,作者將Python中的變數,認定為「名稱」,所以像是Python 中常見的 x、y都是變數。例如:
x = 12
y = 9 + x
print (y)
21
(見圖一)
圖一 : 於Jupyter中印出y值結果。
而在Matplotlib中,x、y本身除了是變數外,在輸入上,我們需輸入圖像中x陣列與y陣列的數據。當然,x軸與y軸本身可以是任何使用者想定義的名稱,比如說x 軸為書籍的單價(TWD),y軸為單日銷量。之後,我們在scatter函數中輸入數值。數值可依實際狀況來做更換,這邊先以假定的資料處理:
import matplotlib.pyplot as plt
書籍價格 = [450, 380, 900, 1200, 600, 750]
單日銷量 = [80, 60, 12, 33, 51, 20]
plt.scatter(書籍價格, 單日銷量)
plt.show()
結果如下:
圖二: 以Jupyter中繪出之散布圖 (筆者親繪)
如此我們便可透過Matplotlib所繪製出的散布圖,了解不同單價書籍的大略銷售狀況,並完成簡易的資料視覺化圖表。
【備註】本篇文章所參考與使用的學習資源如下: