爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰

Rex Chien (lovestar5317)

iT邦新手 4 級 ‧ 點數 444

中興大學資訊管理

42410

累計瀏覽數

55人

在追蹤

站內簡訊追蹤

鐵人檔案

第 11 屆 iThome 鐵人賽

回列表

AI & Data

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列

介紹如何用 Python 的 Scrapy 框架來有效率的建立網路爬蟲

鐵人鍊成｜共 33 篇文章｜ 129 人訂閱訂閱系列文 RSS系列文

6 Like 0 留言 4301 瀏覽

DAY 1

達標好文【Day 0】前言

動機從簡單的商品到價提醒，到複雜的輿情警示、圖形辨識，「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快，總不可能都靠人工來蒐集資料。這時候就是爬蟲...

2019-09-15 ‧ 由 Rex Chien 分享

3 Like 0 留言 15322 瀏覽

DAY 2

【Day 1】環境準備

開發環境 python3 下載並安裝 python 執行環境，這個系列文用的是 3.7.3 版本。安裝後在命令列執行 python --veresion 確認是...

2019-09-16 ‧ 由 Rex Chien 分享

3 Like 0 留言 22950 瀏覽

DAY 3

【Day 2】常見的資料格式 (1/3) - CSV

在開始爬資料前，先來認識一下網路上常見的資料格式吧！ CSV 的全名是 Comma Separated Values，顧名思義就是用**逗點（,）**分隔的資料...

2019-09-17 ‧ 由 Rex Chien 分享

4 Like 0 留言 72233 瀏覽

DAY 4

【Day 3】常見的資料格式 (2/3) - JSON

另一個常見的格式是 JSON (JavaScript Object Notation)，可以想成是 Python 的 dict 或 list。Python 也有...

2019-09-18 ‧ 由 Rex Chien 分享

2 Like 0 留言 4072 瀏覽

DAY 5

【Day 4】常見的資料格式 (3/3) - HTML

我們在瀏覽器上實際看到的畫面，其實是瀏覽器在收到 HTML 後渲染出來的結果，之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標，所以必須對 HTM...

2019-09-19 ‧ 由 Rex Chien 分享

1 Like 0 留言 7359 瀏覽

DAY 6

【Day 5】剖析網頁原始內容 (1/2) - HTML

在昨天的內容中，我們已經了解了基本的 HTML 結構，今天我們來試著剖析網頁原始碼並找出我們需要的資料。常見剖析 HTML 原始碼的方式有三種：正則表示式...

2019-09-20 ‧ 由 Rex Chien 分享

1 Like 0 留言 19592 瀏覽

DAY 7

【Day 6】剖析網頁原始內容 (2/2) - XML

昨天有提到，Beautiful Soup 也可以用 lxml 來作為剖析器，但在某些特殊情況還是得回頭以 lxml 來使用 XPath 定位資料。安裝 lxm...

2019-09-21 ‧ 由 Rex Chien 分享

1 Like 0 留言 7053 瀏覽

DAY 8

【Day 7】請求和回應

開始蒐集資料前，需要拿到可以用來「剖析」的原始資料。但平常我們都是打開瀏覽器，輸入網址（甚至常常跳過這步）、可能會輸入一些關鍵字來搜尋、再點選幾個有興趣的連結。...

2019-09-22 ‧ 由 Rex Chien 分享

2 Like 0 留言 7463 瀏覽

DAY 9

【Day 8】蒐集 iT 邦幫忙的技術文章 (1/6) - 列表頁

終於進入最令人期待的環節了！（有人期待嗎QQ）接著四天會試著蒐集 iT 邦幫忙的技術文章，從列表頁開始，把每篇文章的標題、內文、回應和留言都蒐集起來。接下來...

2019-09-23 ‧ 由 Rex Chien 分享

1 Like 1 留言 3490 瀏覽

DAY 10

【Day 9】蒐集 iT 邦幫忙的技術文章 (2/6) - 使用好維護的選擇器

大家還記得昨天的落落長選擇器嗎？ html > body > div > div.row > div.col-md-12.clearfi...

2019-09-24 ‧ 由 Rex Chien 分享

Rex Chien的鐵人檔案

Rex Chien的收藏

Rex Chien的追蹤

Rex Chien的Like

Rex Chien的紀錄

Rex Chien的訂閱列表

鐵人檔案

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰 系列

達標好文 【Day 0】前言

標記使用者

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列

達標好文【Day 0】前言