上次介紹完了 Series,這次來說說 DataFrame。
DataFrame 是一個二維的資料結構,類似於表格或數據表,由多個 Series 組成,每個 Series 代表一列數據,每列數據可以有不同的數據類型,並且 DataFrame 具有行和列的標籤,這使得數據處理更加靈活和方便。
透過列表創建 DataFrame。
data = [
['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']
]
df1 = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df1)
透過字典創建 DataFrame。
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df2 = pd.DataFrame(data)
print(df2)
透過 NumPy 陣列創建 DataFrame。
import numpy as np
data = np.array([
['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']
])
df3 = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df3)
知道要怎麼創建 DataFrame 後,現在來說說要怎麼操作它。
查看資料
使用 df.head() 可以查看前幾行,df.tail() 可以查看後幾行。
print(df1.head(2))
print(df1.tail(2))
這樣可以查看前兩行和後兩行。
獲取資訊
使用 df.info() 可以查看 DataFrame 的結構資訊。print(df1.info())
統計摘要
使用 df.describe() 可以快速獲取數值型資料的統計資訊,例如平均值、標準差、最小值、最大值等...print(df1.describe())
選擇列
可以透過列名稱選擇 DataFrame 中的一列或多列。print(df1['Name'])
可以增加名稱選擇多列。print(df1[['Name', 'Age']])
選擇行
可以根據條件選擇行。print(df1[df1['Age'] > 30])