DAY1、前言

2022 iThome 鐵人賽

DAY 1

Software Development

爬蟲基礎入門與實際應用系列第 1 篇

14th鐵人賽

navoni1024

2022-09-16 23:59:29

875 瀏覽

分享至

本文有整理在部落格裡。
部落格裡面還有其他奇怪的文章，有空可以來看看喔。

爬蟲是什麼?

英文叫crawler，也有人叫他spider。是指可以自動抓下網站上所需數據的程式。
本文如果活的下去的話會教到兩種常見的爬蟲方法:靜態爬蟲的requests和動態爬蟲的selenium。

靜態爬蟲和動態爬蟲?

靜態爬蟲是指將網站直接抓下來並擷取裡面的內容，但要是網站有使用javascript等東西來生成網頁內容時可能會導致讀不到東西的狀況。這時候就必須要用到動態爬蟲來模擬平常使用遊覽器的狀況了。

那爬蟲能幹嘛?

能夠方便的爬下大量圖片和數據，也可以讓你定時關心有沒有新的資訊。
舉例而言，我們可以在各大房仲網站爬下個物件資料，
並且加以統整後結合google地圖的api，做出專屬於我們的房仲地圖。
亦或者是，在升學時，我們可以爬下各大學的國際排名、企業排名、網路討論度等資料，
以自己的權重作為計算，得出各大學的綜合排名表，最後發佈到地圖上，對升學也是一個不小的助力。