iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
Python

Python大戰之網頁爬蟲 系列

「爬蟲」是現今很廣泛的技術之一,且目前已經應用在許多的領域上,像是金融、貿易、科技等,且爬蟲技術的門檻相對其他技術來說並不高,相較起來也比較適合初學者學習。於是我想透過這次鐵人賽的機會,來學習有關爬蟲的相關知識,並嘗試著實做相關的技術。

在此次的實作主題中,我主要會將我的學習分為幾個階段,分別為: 爬蟲研究、Python程式碼學習、以及實際應用。每個階段都有不同的學習目標,讓我可以按部就班地學習各個知識點,並能夠夯實基礎,逐步提升自己的能力。

參賽天數 30 天 | 共 29 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day 11] 頻繁請求限制

在昨天學習如何有效地限制特定IP來訪,以避免大量的惡意攻擊後,今天我們要來學習另外的反爬蟲的相關技術,也就是昨天有說到的「頻繁請求限制」,那接下來就是今天的學習...

2024-09-25 ‧ 由 liao07211270 分享
DAY 12

[Day 12] 爬蟲環境設置-Python

其實我以為我在很久以前就已經設置完關於Python的所有內容了,但沒想到我在換電腦後,竟然完全沒有裝過python相關的程式...,也好,剛好可以讓我裝新一點的...

2024-09-26 ‧ 由 liao07211270 分享
DAY 13

[Day 13] 設置請求頭模擬瀏覽器行為

在前幾天瞭解完有關反爬蟲的大致概念,包括IP封鎖、頻繁請求限制後,我們就要來聊聊要如何「繞過反爬蟲」,換句話說,就是要怎麼樣才可以讓我們順利的爬蟲,不受到反爬蟲...

2024-09-27 ‧ 由 liao07211270 分享
DAY 14

[Day 14] 代理IP

前面有提到過,若是你大量使用同一個IP來進行爬蟲,可能會導致目標發現你是在使用特定程式進行爬取,那如此就可能會被封鎖,就像我們前幾天提過的IP封鎖,會禁止你使用...

2024-09-28 ‧ 由 liao07211270 分享
DAY 15

[Day 15] 爬蟲工具 – Selenium模組

在第二天的計畫排程中,今天應該是安排閱覽已經有的爬蟲實際範例,並從中學習相關的概念做為參考。但在經過思考後,我想要更改一下我的學習計畫:我目前打算先學習不同類型...

2024-09-29 ‧ 由 liao07211270 分享
DAY 16

[Day 16] 爬蟲工具 – Selenium實作

在昨天進行完完整的環境設置以及第一支Selenium的程式後,我們今天就要嘗試撰寫一些更進階的實作,並試試看我們能不能達成。 目標: 我會瀏覽網路上的一些現有資...

2024-09-30 ‧ 由 liao07211270 分享
DAY 17

[Day 17] 爬蟲工具 – Selenium實作-2

在今天我會針對Selenium做第二個相關的實作: 我會將FB作為我的範例app,並試著透過Selenium的自動輸入方式進行自動登入。(範例程式碼部分參考ht...

2024-10-01 ‧ 由 liao07211270 分享
DAY 18

[Day 18] BeautifulSoup

在今天的學習中,我們就要來學習另外一個爬蟲庫–BeautifulSoup。 什麼是BeautifulSoup? 在探討它要怎麼使用之前,我們理所當然的要先了解它...

2024-10-02 ‧ 由 liao07211270 分享
DAY 19

[Day 19] Scrapy爬蟲框架-1

那在今天,我們就要學習我們的最後一個常見的爬蟲庫 – Scrapy,那廢話不多說,直接進入正題: 什麼是Scrapy: 同樣的,在學習一個東西之前,我們應該先了...

2024-10-03 ‧ 由 liao07211270 分享
DAY 20

[Day 20] Scrapy爬蟲框架-2

接續先前的內容,我們要開始爬取我們要索取的爬蟲了。 首先,我們先把將start_urls的值修改為需要爬取的第一個URL: 所要爬取的網頁為: http://...

2024-10-04 ‧ 由 liao07211270 分享