iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

Scrapy爬蟲與資料處理30天筆記 系列

目的是透過30天的挑戰,督促自己學習新知並寫成文章做為教學用筆記,
從基本的資料結構說明與使用、Scrapy爬蟲的講解與實際操作,
最後也許還會包含Spark 處理數據的操作也說不定?

鐵人鍊成 | 共 30 篇文章 | 153 人訂閱 訂閱系列文 RSS系列文 團隊NUTC_imac
DAY 1

[Day 01] 動機與規劃!

嗨,今天是第一天,就來聊聊參與的動機,講講這三十天文章規劃吧? 參與動機 關於參與動機,今年之所以也報名參加鐵人競賽,主要是因為Team內部急需要教學與專案程式...

2018-10-16 ‧ 由 plusone 分享
DAY 2

[Day 02] 用Virtual Environment吧!

Day 02 嗨,今天是第二天,先來說明virtualenv這件小事好了? Why virtualenv ? 我在使用Scrapy這個套件的時候遇到它預設是使用...

2018-10-17 ‧ 由 plusone 分享
DAY 3

[Day 03] 檔案讀取/寫入

嗨,第三天,來說明一下讀取/寫入檔案,並說明不同的模式(mode)。 下面為讀取檔案的程式碼: with open('textFileName.txt', 'r...

2018-10-18 ‧ 由 plusone 分享
DAY 4

[Day 04] CSV 讀寫操作

Day 04 嗨,第四天,今天來說明csv基本的檔案的讀/寫操作吧!(應該不會太快吧?)(題外話,今天跟同學們搭車來到板橋,中北部溫差有感,要注意保暖啊~)...

2018-10-19 ‧ 由 plusone 分享
DAY 5

[Day 05] JSON編碼解碼操作

嗨,今天是第五天啦,上一次說明了csv使用,今天來說說JSON (JavaScript Object Notation) 的編碼/解碼吧。 JSON (Jav...

2018-10-20 ‧ 由 plusone 分享
DAY 6

[Day 06] requests 發送HTTP請求

Day 06 嗨,今天是1/6又多了一點點的第六天,就來說明requests吧!除了前面所介紹的JSON, CSV 資料格式,並不是需要的資料都已經整理成這些格...

2018-10-21 ‧ 由 plusone 分享
DAY 7

[Day 07] 爬蟲前要先理解的HTML架構

嗨,第7天,說明完requests之後,來說明HTML吧。 HTML 是一種標記語言(markup language),非一般的程式設計語言。它告訴瀏覽器該如何...

2018-10-22 ‧ 由 plusone 分享
DAY 8

[Day 08] Beautiful Soup 解析HTML元素

嗨,第八天了!昨天介紹了網頁HTML的架構,今天就要來說明如何用BeautifulSoup去解析裡面的內容。BeautifulSoup在上一年的鐵人賽我有簡單的...

2018-10-23 ‧ 由 plusone 分享
DAY 9

[Day 09] 實戰:用Requests&bs4 爬PTT (1)

嗨大家,今天我們要來說明如何爬ptt的文章啦!只需要用requests&beautifulSoup就行啦!(關於此內容會拆分成兩天說明哦!) 在開始爬取...

2018-10-24 ‧ 由 plusone 分享
DAY 10

[Day 10] 實戰:用Requests&bs4 爬PTT (2)

今天是第10天,接續昨天的內容繼續說明爬PTT及說明如何下載圖片到本機。 先來複習一下昨天的程式碼 註解的部分get_article_content()是我們...

2018-10-25 ‧ 由 plusone 分享