iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

30天認識爬蟲 系列

這30天內我會從零開始學習爬蟲,詳細的記錄從一開始認識爬蟲是什麼到實際操作例子,藉由IT鐵人這項比賽來擴展程式新知識。

參賽天數 2 天 | 共 30 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文
DAY 2

[Day11] 爬蟲中的錯誤處理與排除故障

今天是第十一天,在爬蟲的開發過程中,錯誤處理和故障排除是非常重要的技能。即使爬蟲在開發時運行得很好,也可能會在實際執行過程中遇到各種問題。今天我們將探討一些常見...

2024-09-26 ‧ 由 eyeyeyeye 分享
DAY 2

[Day12] 設置請求標頭和Session

今天是第十二天,在網路爬蟲中,請求標頭(headers)和Session的管理對於模擬正常的用戶行為至關重要。這不僅能提高請求的成功率,還能繞過某些反爬蟲措施。...

2024-09-27 ‧ 由 eyeyeyeye 分享
DAY 2

[Day13] 抓取JavaScript渲染內容

今天是第十三天,許多現代網站使用JavaScript來動態生成內容,這讓傳統的爬蟲方法變得困難。當發送簡單的HTTP請求時,可能只會得到空白的HTML頁面,因為...

2024-09-28 ‧ 由 eyeyeyeye 分享
DAY 2

[Day14] 更高效抓取

今天是第十四天,在爬蟲的過程中,獲取數據只是第一步,如何有效地儲存這些數據同樣重要。根據不同需求,我們可以選擇不同的數據儲存方式!`` 儲存為CSV檔案CSV...

2024-09-29 ‧ 由 eyeyeyeye 分享
DAY 2

[Day15] 數據清洗與結構化

今天是第十五天,抓取到的數據往往不是完美的,可能包含重複、缺失或不一致的值。因此,數據清洗和結構化是確保數據質量的重要步驟。今天,我們將探討如何有效地清洗和結構...

2024-09-30 ‧ 由 eyeyeyeye 分享
DAY 2

[Day16] 設置Python開發環境

今天是第十六天,在開始進行Python爬蟲開發之前,設置一個合適的開發環境是非常重要的。良好的開發環境不僅能提高開發效率,還能避免很多潛在的問題。今天,我們將介...

2024-10-01 ‧ 由 eyeyeyeye 分享
DAY 2

[Day17] Beautiful Soup入門

今天是第十七天,來學習Beautiful Soup吧!Beautiful Soup是Python中一個強大的函數庫,用於解析和提取HTML和XML中的數據。今天...

2024-10-02 ‧ 由 eyeyeyeye 分享
DAY 2

[Day18] Scrapy快速上手

今天是第十八天,來學習Scrapy吧!Scrapy是一個功能強大的爬蟲框架,可以讓你快速構建和管理爬蟲項目。今天,我們將學習如何使用Scrapy進行簡單的網頁抓...

2024-10-03 ‧ 由 eyeyeyeye 分享
DAY 2

[Day19] 實作:抓取新聞網站標題

今天是第十九天,我們來使用Scrapy來抓取一個新聞網站的標題。這將幫助我們了解如何應用Scrapy的基本功能來提取特定數據。 創建Scrapy項目首先確保已...

2024-10-04 ‧ 由 eyeyeyeye 分享
DAY 2

[Day20] Selenium入門

今天是第二十天,來學習 Selenium吧!Selenium是一個廣泛使用的自動化測試框架,但它也非常適合用來進行網頁爬蟲,特別是處理需要JavaScript渲...

2024-10-06 ‧ 由 eyeyeyeye 分享