iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 1
0
AI & Data

Scrapy爬蟲與資料處理30天筆記系列 第 1

[Day 01] 動機與規劃!

嗨,今天是第一天,就來聊聊參與的動機,講講這三十天文章規劃吧?

參與動機

關於參與動機,今年之所以也報名參加鐵人競賽,主要是因為Team內部急需要教學與專案程式碼快速上手,原本都是隨便丟東西看、慢慢研究,一直沒有想好一個好的學習流程,藉由30天鐵人競賽督促自己撰寫文件,一邊做教學也一邊將過程與學習內容記錄下來變成系列文章,可以趁著這個機會把原本不熟悉的東西藉由自行消化後闡述更融會貫通。

文章規劃

其實目前尚未有完整的撰寫計畫,所以,這次的計畫就是透過這30天整理出來較完整的教學計畫(是在講什麼XD)

(因為這學期事情有點太多啦~如果不小心真的完成三十天挑戰,大概會回來修改吧 XD)

預計包含部分:

  • 事前準備
    這系列文章中不會介紹Python的基礎語法,所以大家可能需要對Python稍微有一點點理解會比較容易上手,(可以到我上一年的系列文章看?)。這裡會介紹我所使用的編輯器?(會有人想知道嗎XD)還有介紹python virtualenv來管理Python套件,避免跟本機上的Python套件衝突。像是資料庫的安裝等內容會在該主題時一並說明。

  • 資料格式
    基本上會介紹json, csv兩個主要且常用的資料格式(也許會介紹其他的?),以及如何用Python來完成檔案的讀寫。

  • 資料擷取
    資料取得為整個系列主要部分,以Python 爬蟲為主,從基本的requests, BeautifulSoup 講起,順便介紹Html格式,接著介紹 Selenium 以及 Scrapy 框架等工具爬取與解析資料。

  • 資料儲存
    擷取到資料後,當然需要做資料的儲存,會稍微提及MongoDB以及MySQL的使用操作。

  • 資料處理
    爬取到的資料格式不一定是能夠直接使用的,這個部分在上一年有參與鐵人競賽有說明可以到另一個系列去看,或是本系列中實戰說明。也許會用Spark?(也許)

  • 實戰實戰實戰
    找幾個簡單的網站來實戰。

結語

這次會參加完全是抱持著自我挑戰的態度來參賽,不過我對我的「自我要求」不是很有信心(喂!),所以希望這次也可以順利完成30天比賽不斷賽,順利完成此系列的教學文件。

總之,今年也請大家多多指教了!


下一篇
[Day 02] 用Virtual Environment吧!
系列文
Scrapy爬蟲與資料處理30天筆記30

尚未有邦友留言

立即登入留言