iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

30天認識爬蟲 系列

這30天內我會從零開始學習爬蟲,詳細的記錄從一開始認識爬蟲是什麼到實際操作例子,藉由IT鐵人這項比賽來擴展程式新知識。

參賽天數 2 天 | 共 30 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文
DAY 2

[Day21] 實作:抓取商品價格變化

今天是第二十一天,我的目標是抓取指定網站上商品的價格資訊並記錄變化。需用到的工具: Python 3 BeautifulSoup4 Requests Pand...

2024-10-07 ‧ 由 eyeyeyeye 分享
DAY 2

[Day22] 應用代理IP

今天是第二十二天,我的目標是使用代理 IP 抓取網頁,增強爬蟲的穩定性和隱私性。需要用到的工具: Python 3 Requests1.安裝 Requests...

2024-10-08 ‧ 由 eyeyeyeye 分享
DAY 2

[Day23] Captcha識別技術

今天是第二十三天,我的目標理解CAPTCHA的工作原理並學會如何使用Python進行識別。需要用到的工具: python 3 pytesseract(用於 O...

2024-10-09 ‧ 由 eyeyeyeye 分享
DAY 2

[Day24] 抓取API數據

今天是第二十四天,我的目標是學會如何使用Python抓取公共API的數據並進行解析。需用到的工具: Python 3 requests 1.選擇公共 API...

2024-10-11 ‧ 由 eyeyeyeye 分享

[Day25] 實作:抓取社群媒體資料

今天是第二十五天,我的目標是學會如何使用Twitter API抓取推文和用戶資料。 需要用到的工具: Python 3 tweepy庫(用於與 Twitter...

2024-10-16 ‧ 由 eyeyeyeye 分享

[Day26] MySQL與MongoDB

今天是第二十六天,我們來認識一下MySQL與MongoDB是什麼吧!在數據儲存方面,MySQL和MongoDB是兩種流行的數據庫選擇,各自擁有獨特的優勢。今天我...

2024-10-16 ‧ 由 eyeyeyeye 分享

[Day27] 部署爬蟲到伺服器

今天是第二十七天,將爬蟲部署到伺服器上,可以實現長期運行和定期抓取數據的目的,以便能夠隨時運行它。 選擇伺服器首先需要選擇一個適合的伺服器。常見的選擇包括:...

2024-10-16 ‧ 由 eyeyeyeye 分享

[Day28] 分布式爬蟲實作

今天是第二十八天,之前有介紹到分布式爬蟲能夠提高數據抓取的速度和效率,特別是當需要抓取大量數據時。今天我們將實作一個簡單的分布式爬蟲,並使用Scrapy和Red...

2024-10-16 ‧ 由 eyeyeyeye 分享

[Day29]實作:電商數據分析

今天是第二十九天,今天的實作中將進行電商數據分析。通過抓取電商網站的數據,並進行基本的數據分析,有效地了解產品的表現和市場趨勢。 數據抓取我們將使用Scrap...

2024-10-16 ‧ 由 eyeyeyeye 分享

[Day30]心得&總結

今天是第三十天,也就是最後一天啦!三十天的鐵人之旅終於在今天進入尾聲,讓我們來回顧一下這段時間我學習到了哪些、思考了什麼,並畫下完美的句點吧! 第一天~第三天...

2024-10-16 ‧ 由 eyeyeyeye 分享