iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
AI & Data

網路爬蟲,萬物皆爬 - 30 天搞懂並實戰網路爬蟲及應對反爬蟲技術 系列

你身為學生常在網路上或同學說網路爬蟲現在很流行,想知道這到底是甚麼?學習了 requests + beautifulsoup 爬蟲,想了解更多網路爬蟲技巧但缺乏實戰?或是辛辛苦苦寫了一隻網路爬蟲,但被網頁的反爬蟲技術擋下?
30 天簡述多種類型網路爬蟲與原理,並佐以基礎知識及實戰演練。常見反爬蟲技術及可行應對方案。

鐵人鍊成 | 共 30 篇文章 | 54 人訂閱 訂閱系列文 RSS系列文 團隊肝已經,死了
DAY 21

【Day 21】- 你的爬蟲還在用帳號密碼進行登入? 帶上 Session 吧!(實戰 Selenium 自動點擊 Instagram 好友貼文贊 1/2)

前情提要 前一篇帶各位在 Selenium 中透過執行 JavaScript 語句達到向下捲動的效果。在每次爬取完成後都進行捲動更新載入的文章,並不重複爬取。...

2021-10-06 ‧ 由 Vincent55 分享
DAY 22

【Day 22】- 將朋朋的 Instagram 貼文全部按讚owo(實戰 Selenium 自動點擊 Instagram 好友貼文贊 2/2)

前情提要 前一篇帶各位透過匯入 Session 達到不必輸入帳號密碼便可登入的目的。 開始之前 今天要開始撰寫 Instagram 點擊好友貼文讚的功能。將會帶...

2021-10-07 ‧ 由 Vincent55 分享
DAY 23

【Day 23】- 想用個人的帳號在 Discord 自動留言? 爬蟲能做到!(實戰 Selenium 在 Discord 文字頻道內留言)

前情提要 前一篇帶各位實作了 Instagram 點選朋友的所有文章,並按讚,再鎖定並點擊關閉按鈕。 開始之前 今天要來實戰 Discord 的自動留言機器人,...

2021-10-08 ‧ 由 Vincent55 分享
DAY 24

【Day 24】- 用方便的 Postman 儲存或測試 API

前情提要 昨天帶各位用 Selenium 寫了自動發留言的 Discord 機器人,可以在指定的文字頻道發言。 開始之前 今天跟大家介紹 Postman 這個很...

2021-10-09 ‧ 由 Vincent55 分享
DAY 25

【Day 25】- 什麼幾百張幾千張的貓貓圖片,戳一戳就結束了(實戰 requests 向 API 請求獲得回應)

前情提要 昨天介紹了 Postman 這款 API 管理、測試工具,也在上面測試了貓貓圖片的 API 發送請求。 開始之前 今天要帶各位實戰的是,利用 Pyth...

2021-10-10 ‧ 由 Vincent55 分享
DAY 26

【Day 26】- 分析衛生福利部疾病管制署(CDC)官網並取得確診者 API,並用小程式及時取得官方確診者數量(實戰分析網站向外請求 API 加快爬蟲節奏)

前情提要 昨天實戰了用 Python 向貓咪圖片的 API 請求。使用者可以輸入一個數字,讓程式可以爬取多張貓咪照片。 開始之前 今天要實戰的是分析 CDC 網...

2021-10-11 ‧ 由 Vincent55 分享
DAY 27

【Day 27】- 再爬一次 Dcard ?(實戰向 Dcard API 發出請求)

前情提要 昨天實戰了分析了 CDC 官網,並找到了一個 API 能夠查看確診人數,並寫個小程式向其發出請求。 開始之前 今天要實戰的是 Dcard 的網路爬蟲,...

2021-10-12 ‧ 由 Vincent55 分享
DAY 28

【Day 28】- 這個驗證碼有點難破解(應對反爬蟲技術-驗證碼篇)

前情提要 昨天使用了 Dcard 的 API 來爬取 Dcard 上面的文章。 開始之前 各位開始在撰寫爬蟲後,常常會遇到一些網站刻意的擋掉爬蟲,這種擋掉爬蟲的...

2021-10-13 ‧ 由 Vincent55 分享
DAY 29

【Day 29】- 應對反爬蟲技術-綜合篇

前情提要 昨天跟各位讀者簡介了反爬蟲技術中,較常出現的驗證碼之應對方法。 開始之前 今天要跟各位介紹的是其它也是常出現的一些反爬蟲技術。 以下列舉出今天會跟各位...

2021-10-14 ‧ 由 Vincent55 分享
DAY 30

【Day 30】- 結語 : 從 0 開始的網路爬蟲

結語   完成了連續一個月的鐵人賽了!當初覺得每天發一篇應該不會太難,甚至還在開賽前屯了四篇,結果事實上屯四篇也撐不了幾天。這次的鐵人賽定位在讓初學者也能看懂,...

2021-10-15 ‧ 由 Vincent55 分享