iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
自我挑戰組

30天認識爬蟲 系列

這30天內我會從零開始學習爬蟲,詳細的記錄從一開始認識爬蟲是什麼到實際操作例子,藉由IT鐵人這項比賽來擴展程式新知識。

參賽天數 2 天 | 共 30 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day1]前言

大家好,今天是開賽第一天,先幫自己加油打氣!來聊聊為什麼我會選擇學習爬蟲呢?在選主題的時候,一直很猶豫要選哪一個,到底要選自己熟悉的,還是選聽都沒聽過的來自我挑...

2024-09-15 ‧ 由 eyeyeyeye 分享
DAY 2

[Day2] 原來爬蟲這麼方便

今天是第二天,昨天簡略查詢了一下爬蟲是甚麼,現在讓我們正式開始攻略它吧!網路爬蟲具體來說就是向網站傳送GET請求或其他方式請求網址內容,伺服器就會將網頁的原始碼...

2024-09-16 ‧ 由 eyeyeyeye 分享
DAY 2

[Day3]靜態網頁與動態網頁爬蟲

今天是第三天,來認識一下靜態網頁與動態網頁爬蟲有什麼不一樣吧! 首先分別介紹這兩者的操作原理,靜態網站是指當網站完成一次請求與回應的動作之後,用戶端便不再與伺服...

2024-09-18 ‧ 由 eyeyeyeye 分享
DAY 2

[Day4]爬蟲禮儀

今天是第四天,你知道爬蟲也有禮儀嗎?在使用爬蟲時,還是有很多「禮儀」要遵守,這樣才能確保網站、資料和你的名譽。 首先,尊重網站的 robots.txt,這是一個...

2024-09-19 ‧ 由 eyeyeyeye 分享
DAY 2

[Day5]反爬蟲

今天是第五天,既然有爬蟲,那有反爬蟲嗎? 答案是有的!反爬蟲是針對某些惡意的爬蟲程式所設計的防堵技術,用來防止網路爬蟲自動訪問和獲取數據的手段,目的是為了幫助保...

2024-09-20 ‧ 由 eyeyeyeye 分享
DAY 2

[Day6]分布式爬蟲

今天是第六天,來認識一下分布式爬蟲吧!分布式爬蟲是什麼呢?這是一種利用多台機器協同工作來抓取互聯網數據的技術,相較單機爬蟲,分布式爬蟲可以提高抓取效率、擴展抓取...

2024-09-21 ‧ 由 eyeyeyeye 分享
DAY 2

[Day7]爬蟲的常用工具與框架

今天是第七天,來介紹一下爬蟲的時候經常會使用到哪些工具吧! 我們在爬蟲的時候不外乎會常常用到Beautiful Soup、Scrapy及Selenium等工具,...

2024-09-22 ‧ 由 eyeyeyeye 分享
DAY 2

[Day8]爬蟲的應用場景

今天是第八天,其實爬蟲的應用場景非常廣泛,從學術研究到商業領域,都能發揮作用。 首先,數據分析是爬蟲最常見的用途之一。無論是市場趨勢分析還是社群媒體趨勢觀察,很...

2024-09-23 ‧ 由 eyeyeyeye 分享
DAY 2

[Day9] 網路請求與伺服器回應原理

今天是第九天,在使用爬蟲之前,理解網路請求和伺服器回應的原理非常重要。其實這就是爬蟲運作的核心機制。每當我們打開一個網頁,都是在向伺服器發送一個請求,而伺服器則...

2024-09-24 ‧ 由 eyeyeyeye 分享
DAY 2

[Day10] 解析HTML結構

今天是第十天,在前幾天的學習中,我們提到了爬蟲的基本原理,而今天要深入探討如何解析HTML結構,這是爬蟲抓取網頁資料的核心技術之一 HTML的基本結構一個典型的...

2024-09-25 ‧ 由 eyeyeyeye 分享