30天認識爬蟲 :: 2024 iThome 鐵人賽

eyeyeyeye (eyeyeyeye)

iT邦新手 5 級 ‧ 點數 229

無輔仁大學醫學資訊

5039

累計瀏覽數

3人

在追蹤

站內簡訊追蹤

鐵人檔案

2024 iThome 鐵人賽

回列表

自我挑戰組

30天認識爬蟲系列

這30天內我會從零開始學習爬蟲，詳細的記錄從一開始認識爬蟲是什麼到實際操作例子，藉由IT鐵人這項比賽來擴展程式新知識。

參賽天數 2 天｜共 30 篇文章｜ 6 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 1180 瀏覽

DAY 2

[Day11] 爬蟲中的錯誤處理與排除故障

今天是第十一天，在爬蟲的開發過程中，錯誤處理和故障排除是非常重要的技能。即使爬蟲在開發時運行得很好，也可能會在實際執行過程中遇到各種問題。今天我們將探討一些常見...

2024-09-26 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 409 瀏覽

DAY 2

[Day12] 設置請求標頭和Session

今天是第十二天，在網路爬蟲中，請求標頭（headers）和Session的管理對於模擬正常的用戶行為至關重要。這不僅能提高請求的成功率，還能繞過某些反爬蟲措施。...

2024-09-27 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 838 瀏覽

DAY 2

[Day13] 抓取JavaScript渲染內容

今天是第十三天，許多現代網站使用JavaScript來動態生成內容，這讓傳統的爬蟲方法變得困難。當發送簡單的HTTP請求時，可能只會得到空白的HTML頁面，因為...

2024-09-28 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 333 瀏覽

DAY 2

[Day14] 更高效抓取

今天是第十四天，在爬蟲的過程中，獲取數據只是第一步，如何有效地儲存這些數據同樣重要。根據不同需求，我們可以選擇不同的數據儲存方式!`` 儲存為CSV檔案CSV...

2024-09-29 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 519 瀏覽

DAY 2

[Day15] 數據清洗與結構化

今天是第十五天，抓取到的數據往往不是完美的，可能包含重複、缺失或不一致的值。因此，數據清洗和結構化是確保數據質量的重要步驟。今天，我們將探討如何有效地清洗和結構...

2024-09-30 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 365 瀏覽

DAY 2

[Day16] 設置Python開發環境

今天是第十六天，在開始進行Python爬蟲開發之前，設置一個合適的開發環境是非常重要的。良好的開發環境不僅能提高開發效率，還能避免很多潛在的問題。今天，我們將介...

2024-10-01 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 355 瀏覽

DAY 2

[Day17] Beautiful Soup入門

今天是第十七天，來學習Beautiful Soup吧!Beautiful Soup是Python中一個強大的函數庫，用於解析和提取HTML和XML中的數據。今天...

2024-10-02 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 323 瀏覽

DAY 2

[Day18] Scrapy快速上手

今天是第十八天，來學習Scrapy吧！Scrapy是一個功能強大的爬蟲框架，可以讓你快速構建和管理爬蟲項目。今天，我們將學習如何使用Scrapy進行簡單的網頁抓...

2024-10-03 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 420 瀏覽

DAY 2

[Day19] 實作:抓取新聞網站標題

今天是第十九天，我們來使用Scrapy來抓取一個新聞網站的標題。這將幫助我們了解如何應用Scrapy的基本功能來提取特定數據。創建Scrapy項目首先確保已...

2024-10-04 ‧ 由 eyeyeyeye 分享

0 Like 0 留言 585 瀏覽

DAY 2

[Day20] Selenium入門

今天是第二十天，來學習 Selenium吧！Selenium是一個廣泛使用的自動化測試框架，但它也非常適合用來進行網頁爬蟲，特別是處理需要JavaScript渲...

2024-10-06 ‧ 由 eyeyeyeye 分享

eyeyeyeye的鐵人檔案

eyeyeyeye的收藏

eyeyeyeye的追蹤

eyeyeyeye的Like

eyeyeyeye的紀錄

eyeyeyeye的訂閱列表

鐵人檔案

30天認識爬蟲 系列

標記使用者

30天認識爬蟲系列