安裝Pandas
pip install pandas
import pandas as pd
# 從CSV文件讀取數據到Pandas DataFrame中
df = pd.read_csv('ptt_articles.csv')
# 顯示前幾行數據
print("前5行數據:")
print(df.head())
# 檢查數據概況
print("\n數據概況:")
print(df.info())
# 處理缺失值 (如果有)
# 這裡我們假設如果缺少某些列的數據,可以用空字符串替換
df.fillna('', inplace=True)
# 將圖片URL列表和表格數據從字符串轉換回列表
df['images'] = df['images'].apply(lambda x: eval(x) if x else [])
df['tables'] = df['tables'].apply(lambda x: eval(x) if x else [])
# 基本分析操作
# 1. 計算每篇文章中的圖片數量
df['image_count'] = df['images'].apply(len)
# 2. 計算每篇文章中的表格數量
df['table_count'] = df['tables'].apply(len)
# 3. 找出包含最多圖片的文章
max_images_article = df.loc[df['image_count'].idxmax()]
print("\n包含最多圖片的文章:")
print(max_images_article[['title', 'image_count']])
# 4. 找出包含最多表格的文章
max_tables_article = df.loc[df['table_count'].idxmax()]
print("\n包含最多表格的文章:")
print(max_tables_article[['title', 'table_count']])