在前面幾篇文章中,我們已經了解了專案的目的與開發環境的設置。接下來,若你已經完成帳號註冊並準備好 Colab 環境,這篇文章將一步步帶你實作如何將 App 評論資料爬取下來。
下圖展示了我們將會設計的兩種類型爬蟲:
這樣的設計可以確保我們能同時收集 iOS 與 Android 的使用者回饋,進一步比較跨平台的評論差異。
首先,請在 Google Colab 中安裝所需的套件。需要注意的是,Colab 內建的套件版本常常會更新,但這些更新版本不一定與我們使用的爬蟲套件相容,可能會導致程式執行失敗。因此,我們需要先指定版本進行安裝,避免相容性問題。
以下是安裝流程:
!pip uninstall -y urllib3 requests
!pip install urllib3==1.26.15 requests==2.28.2
!pip install google-play-scraper pandas numpy emoji
import importlib
import sys
if 'urllib3' in sys.modules:
importlib.reload(sys.modules['urllib3'])
if 'requests' in sys.modules:
importlib.reload(sys.modules['requests'])
💡 補充說明:
google-play-scraper:用於爬取 Google Play 商店的評論與應用程式資訊。
pandas:方便整理與分析爬取到的評論資料。
numpy:數據運算工具,後續做基礎處理時會用到。
emoji:能將評論中出現的 emoji 做解析與處理,避免存入資料庫時出現亂碼。
在安裝完成後,我們需要先取得要爬取的 應用程式 ID。
進入 App Store 網頁並搜尋應用程式,例如「PChome 24h購物」。接著查看網址中的數字部分,那就是該 App 的 ID。
進入 Google Play 商店並搜尋「PChome 24h購物」。網址中 id= 後的字串,就是應用程式的 ID。
完成以上步驟後,我們就已經準備好基礎環境與應用程式資訊。
在下一篇文章中,我將示範如何撰寫程式碼,開始實際爬取 App 評論資料 🚀