iT邦幫忙

2025 iThome 鐵人賽

DAY 9
0
AI & Data

30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶系列 第 9

【Day 8】App 評論爬蟲設計與實作(5/5)

  • 分享至 

  • xImage
  •  

前言

在上一篇文章中,我們已經完成了資料欄位的統一。今天的任務,就是把 App StoreGoogle Play 的資料合併成一份完整的 DataFrame。


為什麼要合併?

  • 統一分析視角:讓我們可以同時比較兩個平台的評論表現。
  • 更大樣本數:結合後的資料更完整,有利於進行情感分析、評分趨勢分析等。
  • 後續應用更方便:像是做情感分類模型、關鍵字提取,就不需要額外再區分來源資料。

資料合併

# 假設我們已經有 df_app_store 和 df_google_play

# 合併兩個資料集
combined_df = pd.concat([df_app_store, df_google_play], ignore_index=True)

# print(combined_df.head())
combined_df

平衡抽樣(各平台取前 500 筆)

假設我們只需要針對每個平台(App Store & Google Play)各抽取前 300 筆評論,
這樣可以確保資料在數量上平衡,可以參考下面範例的寫法。

import pandas as pd

# 假設我們已經有合併好的 combined_df
# 欄位包含:["title", "review", "rating", "date", "platform"]

# 依平台分組,取前 500 筆
limited_df = (
    combined_df.groupby("platform", group_keys=False)
    .apply(lambda x: x.head(500))
    .reset_index(drop=True)
)

print(limited_df.shape)
print(limited_df["platform"].value_counts())

limited_df

https://ithelp.ithome.com.tw/upload/images/20250829/20169646vhWHoRsED8.png

👉 在下一篇文章中,我將示範如何進行 評論前處理,例如:移除 emoji、轉換時間格式、只保留特定欄位,讓資料更適合分析。


上一篇
【Day 7】App 評論爬蟲設計與實作(4/5)
下一篇
【Day 9】原始資料格式解析與初步檢查
系列文
30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言