iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天網路爬蟲學習 系列

網路爬蟲是透過程式自動抓取網站資料的過程,能夠自動化協助蒐集網頁上的資訊。
希望透過這三十天的時間,對於網路爬蟲的知識以及運作原理有更深入的了解!

鐵人鍊成 | 共 30 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 11

DAY11-標題文字標籤爬取練習(下)

完成網站地圖後,我們可以使用樹狀結構圖形來掩飾CSS選擇器節點的地圖,執行Sitemap title_tag → Selector graph 最初只有顯示_r...

2023-09-26 ‧ 由 yichenpan 分享
DAY 12

DAY12-匯出爬取資料成為CSV檔案

在成功擷取HTML網頁資料後,Web Scraper也支援了匯出CSV檔案的功能,轉換Web網站的特定內容成為結構化資料。今天我們就來操作看看此項功能吧! 我...

2023-09-27 ‧ 由 yichenpan 分享
DAY 13

DAY13-爬取清單項目練習(前)

在練習爬取清單項目之前,我們先來聊聊HTML清單標籤吧~ 什麼是HTML清單標籤? HTML支援多種清單標籤,可以一一列出文字內容的重點綱要,而項目符號,項目...

2023-09-28 ‧ 由 yichenpan 分享
DAY 14

DAY14-爬取清單項目練習(後)

今天我們就來使用Web Scraper練習爬取<ol>和<ul>兩種標籤吧~ 本次練習網址為:https://fchart.githu...

2023-09-29 ‧ 由 yichenpan 分享
DAY 15

DAY15-爬取HTML表格標籤練習(上)

在進行爬取前,我們先來了解一下什麼是HTML表格標籤吧! 什麼是HTML表格標籤? HTML表格是一組標籤的集合,由大到小依序是表格→列→儲存格,以下是相關標...

2023-09-30 ‧ 由 yichenpan 分享
DAY 16

DAY16-爬取HTML表格標籤練習(下)

今天我們就來使用Web Scraper爬取<table>標籤吧! 本次練習網址為:https://fchart.github.io/test/ex...

2023-10-01 ‧ 由 yichenpan 分享
DAY 17

DAY17-認識HTML超連結標籤

今天我們就來聊聊什麼是HTML超連結標籤 HTML超連結標籤 HTML超連結標籤<a>的主要目的就是建立網站尋覽結構,簡單來說就是從一個網頁透過連...

2023-10-02 ‧ 由 yichenpan 分享
DAY 18

DAY18-爬取清單和詳細內容的網頁

Web Scraper爬取超連結<a>標籤是使用Link類型選擇器,今天我們就來進行爬取清單和詳細內容的演練吧~ 本次練習網址為:https://...

2023-10-03 ‧ 由 yichenpan 分享
DAY 19

DAY19-認識HTML容器標籤

HTML的<div>和<span>標籤是一個容器用來群組元素,建立網頁的版面配置。這兩個標籤本身沒有預設樣式,就像是一個透明的方框,需要...

2023-10-04 ‧ 由 yichenpan 分享
DAY 20

DAY20-爬取HTML容器標籤

由於<div>標籤是用來群組其他元素來建立紀錄和欄位,所以爬取群組的<div>標籤就如同是在爬取多筆紀錄,今天我們就來使用Web Scr...

2023-10-05 ‧ 由 yichenpan 分享