Python大戰之網頁爬蟲 :: 2024 iThome 鐵人賽

liao07211270 (liao07211270)

iT邦見習生 ‧ 點數 248

4268

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

Python

Python大戰之網頁爬蟲系列

「爬蟲」是現今很廣泛的技術之一，且目前已經應用在許多的領域上，像是金融、貿易、科技等，且爬蟲技術的門檻相對其他技術來說並不高，相較起來也比較適合初學者學習。於是我想透過這次鐵人賽的機會，來學習有關爬蟲的相關知識，並嘗試著實做相關的技術。

在此次的實作主題中，我主要會將我的學習分為幾個階段，分別為: 爬蟲研究、Python程式碼學習、以及實際應用。每個階段都有不同的學習目標，讓我可以按部就班地學習各個知識點，並能夠夯實基礎，逐步提升自己的能力。

參賽天數 30 天｜共 29 篇文章｜ 6 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 781 瀏覽

DAY 11

[Day 11] 頻繁請求限制

在昨天學習如何有效地限制特定IP來訪，以避免大量的惡意攻擊後，今天我們要來學習另外的反爬蟲的相關技術，也就是昨天有說到的「頻繁請求限制」，那接下來就是今天的學習...

2024-09-25 ‧ 由 liao07211270 分享

0 Like 1 留言 904 瀏覽

DAY 12

[Day 12] 爬蟲環境設置-Python

其實我以為我在很久以前就已經設置完關於Python的所有內容了，但沒想到我在換電腦後，竟然完全沒有裝過python相關的程式...，也好，剛好可以讓我裝新一點的...

2024-09-26 ‧ 由 liao07211270 分享

0 Like 1 留言 1452 瀏覽

DAY 13

[Day 13] 設置請求頭模擬瀏覽器行為

在前幾天瞭解完有關反爬蟲的大致概念，包括IP封鎖、頻繁請求限制後，我們就要來聊聊要如何「繞過反爬蟲」，換句話說，就是要怎麼樣才可以讓我們順利的爬蟲，不受到反爬蟲...

2024-09-27 ‧ 由 liao07211270 分享

0 Like 0 留言 648 瀏覽

DAY 14

[Day 14] 代理IP

前面有提到過，若是你大量使用同一個IP來進行爬蟲，可能會導致目標發現你是在使用特定程式進行爬取，那如此就可能會被封鎖，就像我們前幾天提過的IP封鎖，會禁止你使用...

2024-09-28 ‧ 由 liao07211270 分享

0 Like 0 留言 507 瀏覽

DAY 15

[Day 15] 爬蟲工具 – Selenium模組

在第二天的計畫排程中，今天應該是安排閱覽已經有的爬蟲實際範例，並從中學習相關的概念做為參考。但在經過思考後，我想要更改一下我的學習計畫:我目前打算先學習不同類型...

2024-09-29 ‧ 由 liao07211270 分享

0 Like 0 留言 689 瀏覽

DAY 16

[Day 16] 爬蟲工具 – Selenium實作

在昨天進行完完整的環境設置以及第一支Selenium的程式後，我們今天就要嘗試撰寫一些更進階的實作，並試試看我們能不能達成。目標: 我會瀏覽網路上的一些現有資...

2024-09-30 ‧ 由 liao07211270 分享

0 Like 0 留言 542 瀏覽

DAY 17

[Day 17] 爬蟲工具 – Selenium實作-2

在今天我會針對Selenium做第二個相關的實作: 我會將FB作為我的範例app，並試著透過Selenium的自動輸入方式進行自動登入。(範例程式碼部分參考ht...

2024-10-01 ‧ 由 liao07211270 分享

0 Like 0 留言 388 瀏覽

DAY 18

[Day 18] BeautifulSoup

在今天的學習中，我們就要來學習另外一個爬蟲庫–BeautifulSoup。什麼是BeautifulSoup? 在探討它要怎麼使用之前，我們理所當然的要先了解它...

2024-10-02 ‧ 由 liao07211270 分享

0 Like 0 留言 771 瀏覽

DAY 19

[Day 19] Scrapy爬蟲框架-1

那在今天，我們就要學習我們的最後一個常見的爬蟲庫 – Scrapy，那廢話不多說，直接進入正題: 什麼是Scrapy: 同樣的，在學習一個東西之前，我們應該先了...

2024-10-03 ‧ 由 liao07211270 分享

0 Like 0 留言 432 瀏覽

DAY 20

[Day 20] Scrapy爬蟲框架-2

接續先前的內容，我們要開始爬取我們要索取的爬蟲了。首先，我們先把將start_urls的值修改為需要爬取的第一個URL: 所要爬取的網頁為: http://...

2024-10-04 ‧ 由 liao07211270 分享

liao07211270的鐵人檔案

liao07211270的收藏

liao07211270的追蹤

liao07211270的Like

liao07211270的紀錄

liao07211270的訂閱列表

鐵人檔案

Python大戰之網頁爬蟲 系列

標記使用者

Python大戰之網頁爬蟲系列