iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

Scrapy爬蟲與資料處理30天筆記 系列

目的是透過30天的挑戰,督促自己學習新知並寫成文章做為教學用筆記,
從基本的資料結構說明與使用、Scrapy爬蟲的講解與實際操作,
最後也許還會包含Spark 處理數據的操作也說不定?

鐵人鍊成 | 共 30 篇文章 | 150 人訂閱 訂閱系列文 RSS系列文 團隊NUTC_imac
DAY 11

[Day 11] 建立 Scrapy 專案

嗨!今天是第11天了,之前說明爬ptt的過程,其實我們可以理解到爬蟲的流程為: 下載頁面內容:根據該網頁url下載網頁(HTML) 分析頁面中的資料:下載完該...

2018-10-26 ‧ 由 plusone 分享
DAY 12

[Day 12] 撰寫一隻Spider

嗨,今天是第12天了,我們先簡單來了解Spider怎麼寫吧? 在昨天我們有下指令:scrapy genspider example example.com所以可...

2018-10-27 ‧ 由 plusone 分享
DAY 13

[Day 13] 實戰:Scrapy爬PTT文章

早安,昨天我們介紹了spider的基本架構,今天會介紹spider實現ptt的爬蟲,透過Scrapy框架可以減少很多程式碼。因為我們對於爬蟲的流程已經有稍微地瞭...

2018-10-28 ‧ 由 plusone 分享
DAY 14

[Day 14] Scrapy Item&Field

嗨,第14天了,在昨天的文章中,我們已經建立了一個爬ptt的spider檔案了(可以到昨天的文章查看程式碼),現在要來定義我們要的資料項目! 至於為什麼需要?...

2018-10-29 ‧ 由 plusone 分享
DAY 15

[Day 15] Scrapy Item Pipeline 操作

嗨,在上一篇文章中說明了如何定義Field及資料封裝的方法,今天將會說明對爬取到的資料進行處理!這時候就會使用到Item Pipeline這個元件。透過它(依照...

2018-10-30 ‧ 由 plusone 分享
DAY 16

[Day 16] Scrapy Item Pipeline 應用

嗨,在上一篇文章中已經說明了Item Pipeline中process_item()的使用,接下來我們來看看其他的方法吧,除了process_item()為必要...

2018-10-31 ‧ 由 plusone 分享
DAY 17

[Day 17] Scrapy Item Pipeline 存入資料庫

Day 17嗨,昨天說明了Item Pipeline的操作:透過Pipeline過濾重複內容、刪除空白(不存在文章)的內容,最後輸出成csv, json檔案。但...

2018-11-01 ‧ 由 plusone 分享
DAY 18

[Day 18] 實戰:Scrapy爬旅遊新聞文章(1)

嗨,昨天說明了透過Item Pipeline將資料存到MongoDB內,今天為實戰篇!我們來爬 全球新聞網的報導吧! 天氣變冷就感冒了,全身痠痛喉嚨痛.......

2018-11-02 ‧ 由 plusone 分享
DAY 19

[Day 19] 實戰:Scrapy爬旅遊新聞文章(2)

嗨!昨天介紹了Spider爬取新聞內容,今天要說明如何透過pipeline將資料存到MySQL資料庫,也提到dotenv如何使用! 什麼是dotenv? 一般...

2018-11-03 ‧ 由 plusone 分享
DAY 20

[Day 20] Scrapy 模擬登入

嗨,昨天完成了一項實戰後,今天來看如何透過Scrapy模擬登入,有些內容是需要登入後才可以看到,這裡有一個範例的網頁: Quotes to Scrape 點進...

2018-11-04 ‧ 由 plusone 分享