iT邦幫忙

鐵人檔案

第 11 屆 iThome 鐵人賽
回列表
AI & Data

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰 系列

介紹如何用 Python 的 Scrapy 框架來有效率的建立網路爬蟲

鐵人鍊成 | 共 33 篇文章 | 128 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 【Day 0】前言

動機 從簡單的商品到價提醒,到複雜的輿情警示、圖形辨識,「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快,總不可能都靠人工來蒐集資料。這時候就是爬蟲...

2019-09-15 ‧ 由 Rex Chien 分享
DAY 2

【Day 1】環境準備

開發環境 python3 下載並安裝 python 執行環境,這個系列文用的是 3.7.3 版本。安裝後在命令列執行 python --veresion 確認是...

2019-09-16 ‧ 由 Rex Chien 分享
DAY 3

【Day 2】常見的資料格式 (1/3) - CSV

在開始爬資料前,先來認識一下網路上常見的資料格式吧! CSV 的全名是 Comma Separated Values,顧名思義就是用**逗點(,)**分隔的資料...

2019-09-17 ‧ 由 Rex Chien 分享
DAY 4

【Day 3】常見的資料格式 (2/3) - JSON

另一個常見的格式是 JSON (JavaScript Object Notation),可以想成是 Python 的 dict 或 list。Python 也有...

2019-09-18 ‧ 由 Rex Chien 分享
DAY 5

【Day 4】常見的資料格式 (3/3) - HTML

我們在瀏覽器上實際看到的畫面,其實是瀏覽器在收到 HTML 後渲染出來的結果,之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標,所以必須對 HTM...

2019-09-19 ‧ 由 Rex Chien 分享
DAY 6

【Day 5】剖析網頁原始內容 (1/2) - HTML

在昨天的內容中,我們已經了解了基本的 HTML 結構,今天我們來試著剖析網頁原始碼並找出我們需要的資料。 常見剖析 HTML 原始碼的方式有三種: 正則表示式...

2019-09-20 ‧ 由 Rex Chien 分享
DAY 7

【Day 6】剖析網頁原始內容 (2/2) - XML

昨天有提到,Beautiful Soup 也可以用 lxml 來作為剖析器,但在某些特殊情況還是得回頭以 lxml 來使用 XPath 定位資料。 安裝 lxm...

2019-09-21 ‧ 由 Rex Chien 分享
DAY 8

【Day 7】請求和回應

開始蒐集資料前,需要拿到可以用來「剖析」的原始資料。但平常我們都是打開瀏覽器,輸入網址(甚至常常跳過這步)、可能會輸入一些關鍵字來搜尋、再點選幾個有興趣的連結。...

2019-09-22 ‧ 由 Rex Chien 分享
DAY 9

【Day 8】蒐集 iT 邦幫忙的技術文章 (1/6) - 列表頁

終於進入最令人期待的環節了!(有人期待嗎QQ)接著四天會試著蒐集 iT 邦幫忙的技術文章,從列表頁開始,把每篇文章的標題、內文、回應和留言都蒐集起來。 接下來...

2019-09-23 ‧ 由 Rex Chien 分享
DAY 10

【Day 9】蒐集 iT 邦幫忙的技術文章 (2/6) - 使用好維護的選擇器

大家還記得昨天的落落長選擇器嗎? html > body > div > div.row > div.col-md-12.clearfi...

2019-09-24 ‧ 由 Rex Chien 分享