目的是透過30天的挑戰,督促自己學習新知並寫成文章做為教學用筆記,
從基本的資料結構說明與使用、Scrapy爬蟲的講解與實際操作,
最後也許還會包含Spark 處理數據的操作也說不定?
嗨,今天是第一天,就來聊聊參與的動機,講講這三十天文章規劃吧? 參與動機 關於參與動機,今年之所以也報名參加鐵人競賽,主要是因為Team內部急需要教學與專案程式...
Day 02 嗨,今天是第二天,先來說明virtualenv這件小事好了? Why virtualenv ? 我在使用Scrapy這個套件的時候遇到它預設是使用...
嗨,第三天,來說明一下讀取/寫入檔案,並說明不同的模式(mode)。 下面為讀取檔案的程式碼: with open('textFileName.txt', 'r...
Day 04 嗨,第四天,今天來說明csv基本的檔案的讀/寫操作吧!(應該不會太快吧?)(題外話,今天跟同學們搭車來到板橋,中北部溫差有感,要注意保暖啊~)...
嗨,今天是第五天啦,上一次說明了csv使用,今天來說說JSON (JavaScript Object Notation) 的編碼/解碼吧。 JSON (Jav...
Day 06 嗨,今天是1/6又多了一點點的第六天,就來說明requests吧!除了前面所介紹的JSON, CSV 資料格式,並不是需要的資料都已經整理成這些格...
嗨,第7天,說明完requests之後,來說明HTML吧。 HTML 是一種標記語言(markup language),非一般的程式設計語言。它告訴瀏覽器該如何...
嗨,第八天了!昨天介紹了網頁HTML的架構,今天就要來說明如何用BeautifulSoup去解析裡面的內容。BeautifulSoup在上一年的鐵人賽我有簡單的...
嗨大家,今天我們要來說明如何爬ptt的文章啦!只需要用requests&beautifulSoup就行啦!(關於此內容會拆分成兩天說明哦!) 在開始爬取...
今天是第10天,接續昨天的內容繼續說明爬PTT及說明如何下載圖片到本機。 先來複習一下昨天的程式碼 註解的部分get_article_content()是我們...