2025 iThome 鐵人賽

DAY 1

【Day 0】前言

動機從簡單的商品到價提醒，到複雜的輿情警示、圖形辨識，「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快，總不可能都靠人工來蒐集資料。這時候就是爬蟲...

6 Like 0 留言 4095 瀏覽

DAY 2

【Day 1】環境準備

開發環境 python3 下載並安裝 python 執行環境，這個系列文用的是 3.7.3 版本。安裝後在命令列執行 python --veresion 確認是...

3 Like 0 留言 14887 瀏覽

DAY 3

【Day 2】常見的資料格式 (1/3) - CSV

在開始爬資料前，先來認識一下網路上常見的資料格式吧！ CSV 的全名是 Comma Separated Values，顧名思義就是用**逗點（,）**分隔的資料...

3 Like 0 留言 22616 瀏覽

DAY 4

【Day 3】常見的資料格式 (2/3) - JSON

另一個常見的格式是 JSON (JavaScript Object Notation)，可以想成是 Python 的 dict 或 list。Python 也有...

4 Like 0 留言 71754 瀏覽

DAY 5

【Day 4】常見的資料格式 (3/3) - HTML

我們在瀏覽器上實際看到的畫面，其實是瀏覽器在收到 HTML 後渲染出來的結果，之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標，所以必須對 HTM...

2 Like 0 留言 3934 瀏覽

DAY 6

【Day 5】剖析網頁原始內容 (1/2) - HTML

在昨天的內容中，我們已經了解了基本的 HTML 結構，今天我們來試著剖析網頁原始碼並找出我們需要的資料。常見剖析 HTML 原始碼的方式有三種：正則表示式...

1 Like 0 留言 7088 瀏覽

DAY 7

【Day 6】剖析網頁原始內容 (2/2) - XML

昨天有提到，Beautiful Soup 也可以用 lxml 來作為剖析器，但在某些特殊情況還是得回頭以 lxml 來使用 XPath 定位資料。安裝 lxm...

1 Like 0 留言 18983 瀏覽

DAY 8

【Day 7】請求和回應

開始蒐集資料前，需要拿到可以用來「剖析」的原始資料。但平常我們都是打開瀏覽器，輸入網址（甚至常常跳過這步）、可能會輸入一些關鍵字來搜尋、再點選幾個有興趣的連結。...

1 Like 0 留言 6809 瀏覽

DAY 9

【Day 8】蒐集 iT 邦幫忙的技術文章 (1/6) - 列表頁

終於進入最令人期待的環節了！（有人期待嗎QQ）接著四天會試著蒐集 iT 邦幫忙的技術文章，從列表頁開始，把每篇文章的標題、內文、回應和留言都蒐集起來。接下來...

2 Like 0 留言 7120 瀏覽

DAY 10

【Day 9】蒐集 iT 邦幫忙的技術文章 (2/6) - 使用好維護的選擇器

大家還記得昨天的落落長選擇器嗎？ html > body > div > div.row > div.col-md-12.clearfi...

1 Like 1 留言 3323 瀏覽

第十一屆優選

系列文章