iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

網路爬蟲,萬物皆爬 - 30 天搞懂並實戰網路爬蟲及應對反爬蟲技術 系列

你身為學生常在網路上或同學說網路爬蟲現在很流行,想知道這到底是甚麼?學習了 requests + beautifulsoup 爬蟲,想了解更多網路爬蟲技巧但缺乏實戰?或是辛辛苦苦寫了一隻網路爬蟲,但被網頁的反爬蟲技術擋下?
30 天簡述多種類型網路爬蟲與原理,並佐以基礎知識及實戰演練。常見反爬蟲技術及可行應對方案。

鐵人鍊成 | 共 30 篇文章 | 18 人訂閱 訂閱系列文 RSS系列文 團隊肝已經,死了
DAY 11

【Day 11】- 還在 PTT 點擊已滿 18 歲? 帶上 cookies 吧!(實戰 PTT 爬蟲 1/3)

前情提要 前一篇文章帶大家看了網路爬蟲的種類,下次看到類似的名詞時能想到那一類的爬蟲的特性。 開始之前 本篇將帶各位實作爬取 PTT 的爬蟲,在開始之前請各位準...

2021-09-26 ‧ 由 Vincent55 分享
DAY 12

【Day 12】- 這頁爬完了,爬下一頁。PTT 爬好爬滿!(實戰 PTT 爬蟲 2/3)

前情提要 前一篇文章帶大家寫了能爬取 PTT 當前頁面文章的爬蟲,且透過攜帶已滿 18 歲的 cookies 避免驗證 18 歲。 開始之前 本篇將繼續帶各位寫...

2021-09-27 ‧ 由 Vincent55 分享
DAY 13

【Day 13】- 用 JSON 儲存爬來的 PTT 文章。(實戰 PTT 爬蟲 3/3)

前情提要 前一篇文章帶大家寫了能爬取持續爬取 PTT 文章的爬蟲。 開始之前 本篇將繼續帶各位寫 PTT 爬蟲,今天會將爬取到的文章內容用 JSON 檔案儲存起...

2021-09-28 ‧ 由 Vincent55 分享
DAY 14

【Day 14】- 實戰爬取 Ubuntu ISO 映像檔下載網址

前情提要 前三篇文章帶各位開發了一隻 PTT 爬蟲,具備持續爬取,並將爬取到的文隻內容儲存於 JSON 檔案中。 開始之前 本篇將帶各位寫 ISO 映像檔下載連...

2021-09-29 ‧ 由 Vincent55 分享
DAY 15

【Day 15】- 匯率什麼的。爬! (實戰匯率爬蟲 on chrome)

前情提要 前一篇帶各位實作了爬取 Ubuntu ISO 映像檔的爬蟲,並存在 JSON 檔。 開始之前 本篇將帶各位爬取 google 上的匯率,各位應該都有試...

2021-09-30 ‧ 由 Vincent55 分享
DAY 16

【Day 16】- 做 Excel 輸入數據到心累?消警告的服學輸入很繁瑣? 使用 openpyxl 來操作 Excel

前情提要 前一篇帶各位實作了爬取幣種匯率的爬蟲。 開始之前 本篇將帶各位在 Python 中操作 Excel ,本次會使用 openpyxl,主要會以操作來介紹...

2021-10-01 ‧ 由 Vincent55 分享
DAY 17

【Day 17】- 手動更新匯率太麻煩了! 匯率爬蟲搭配 OpenPyXL 做到自動讀取&更新匯率!

前情提要 前一篇介紹了 openpyxl 這項可以操作 excel 的工具。 開始之前 本篇實戰 【Day 15】- 匯率什麼的。爬! (實戰匯率爬蟲 on c...

2021-10-02 ‧ 由 Vincent55 分享
DAY 18

【Day 18】- 像個使用者的爬蟲 Selenium

前情提要 前一篇帶各位實際使用了匯率爬蟲並搭配 openpyxl 這個套件做到執行程式便可讀取在 excel 撰寫的幣種,爬取該幣種的匯率並更新至 excel。...

2021-10-03 ‧ 由 Vincent55 分享
DAY 19

【Day 19】- 讓 Selenium 去 Dcard 上爬文! (實戰 Selenium 模擬使用者划手機 1/2)

前情提要 前一篇與大家介紹了 Selenium 的基本運用,並在補充資料中給予了語法的資源。 開始之前 今天要帶各位寫一隻能夠爬取 Dcard 上文章的爬蟲,是...

2021-10-04 ‧ 由 Vincent55 分享
DAY 20

【Day 20】- 讓 Selenium 去 Dcard 上自動向下捲動 (實戰 Selenium 模擬使用者划手機 2/2)

前情提要 前一篇實作了 Selenium 爬取 Dcard 文章的爬蟲,可以看到會出現一個瀏覽器視窗模擬使用者,並使用內建的選擇器鎖定文章資訊。 開始之前 首先...

2021-10-05 ‧ 由 Vincent55 分享