本文有整理在部落格裡。
部落格裡面還有其他奇怪的文章,有空可以來看看喔。
英文叫crawler,也有人叫他spider。是指可以自動抓下網站上所需數據的程式。
本文如果活的下去的話會教到兩種常見的爬蟲方法:靜態爬蟲的requests和動態爬蟲的selenium。
靜態爬蟲是指將網站直接抓下來並擷取裡面的內容,但要是網站有使用javascript等東西來生成網頁內容時可能會導致讀不到東西的狀況。這時候就必須要用到動態爬蟲來模擬平常使用遊覽器的狀況了。
能夠方便的爬下大量圖片和數據,也可以讓你定時關心有沒有新的資訊。
舉例而言,我們可以在各大房仲網站爬下個物件資料,
並且加以統整後結合google地圖的api,做出專屬於我們的房仲地圖。
亦或者是,在升學時,我們可以爬下各大學的國際排名、企業排名、網路討論度等資料,
以自己的權重作為計算,得出各大學的綜合排名表,最後發佈到地圖上,對升學也是一個不小的助力。
暫且打算之後會教這些