在進行資料分析之前,掌握 Numpy 的基本運算是非常重要的。Numpy 是 Python 中最受歡迎的數值計算庫,專門用來處理大量數據並進行高效的數學運算。今天我們將介紹 Numpy 的基本運算,這些技巧將在後續 Iris 資料集的分析中大量使用。
在同一個資料夾中開啟一個新的 Google Colab 筆記本,並將名稱命名為 numpy
。
首先,我們需要匯入 Numpy。如果你使用的是 Google Colab 或 Anaconda,Numpy 已經預先安裝好,可以直接使用。
import numpy as np
Numpy 的核心是 ndarray
,它是一種專門用來進行數值運算的多維陣列。它的運算速度比 Python 的內建列表(list)快得多,特別適合處理大量數據。
# 建立一維陣列
array_1d = np.array([1, 2, 3, 4, 5])
print("一維陣列:", array_1d)
# 建立二維陣列
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("二維陣列:")
print(array_2d)
你可以對 Numpy 陣列進行加法、減法、乘法等基本運算,這些運算會自動應用到陣列的每個元素上。你還可以對多個陣列進行運算,例如相加或相乘。
# 陣列的加法運算
array_sum = array_1d + 2
print("陣列加法運算:", array_sum)
# 陣列的乘法運算
array_mul = array_1d * 2
print("陣列乘法運算:", array_mul)
# 二維陣列相加
array_add = array_2d + array_2d
print("二維陣列相加:")
print(array_add)
Numpy 提供了許多常用的統計函數,幫助你快速地對資料進行分析和處理:
array = np.array([1, 2, 3, 4, 5])
# 總和
print("總和:", np.sum(array))
# 平均值
print("平均值:", np.mean(array))
# 最大值和最小值
print("最大值:", np.max(array))
print("最小值:", np.min(array))
# 標準差
print("標準差:", np.std(array))
這些統計函數能幫助我們快速了解資料的基本分佈情況,這在資料分析中非常實用。
你可以使用 Numpy 來進行陣列的切片、重塑等操作,這些操作能幫助你靈活處理資料集。
# 陣列的切片
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 取出第一行
print("第一行:", array_2d[:, 0])
# 取出第二列
print("第二列:", array_2d[1, :])
你還可以改變陣列的形狀:
# 改變陣列形狀 (reshape)
reshaped_array = np.reshape(array_2d, (1, 9))
print("重塑後的陣列:")
print(reshaped_array)
在進行高階資料分析時,矩陣運算是非常常見的操作。Numpy 提供了高效的矩陣運算方法,例如矩陣相乘:
matrix_a = np.array([[1, 2], [3, 4]])
matrix_b = np.array([[5, 6], [7, 8]])
# 矩陣乘法
result = np.dot(matrix_a, matrix_b)
print("矩陣乘法結果:")
print(result)
矩陣運算是進階資料科學和機器學習中不可或缺的一部分。
今天我們介紹了 Numpy 的基本運算,這是進行高效資料處理的基礎。Numpy 能夠處理大量數據,進行快速的數值運算。透過今天的學習,你應該已經能夠建立 Numpy 陣列,進行基本的數學運算和統計分析。
明天,我們將學習如何將這些 Numpy 的技巧應用到 Iris 資料集的分析中,進行進一步的數據處理。