iT邦幫忙

鐵人檔案

第 12 屆 iT 邦幫忙鐵人賽
回列表
自我挑戰組

資料蒐集與分散式運算 30 天 系列

這是一個督促自己學習分散式運算的學習紀錄,30 天的時間了解基礎的分散式運算架構和 Hadoop 生態系。

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文 團隊Outcome First
DAY 1

[Day 1] 啟程

做為第一次參賽的菜鳥,不免俗的第一篇還是以原因和規劃做為開場,也是一個深呼吸準備好面對未來三十天挑戰的一個沈澱。 為什麼參賽? 什麼參賽呢?莫過是 TD 哥的鼓...

2020-09-14 ‧ 由 Walter 分享
DAY 2

[Day 2] Python 爬蟲百寶箱

關於爬蟲,大家下意識地就會想到 Python,畢竟 Python 有太多方便的模組、框架可以使用在爬蟲的過程,今天先來介紹一些必要/好用的工具。 模組(Modu...

2020-09-15 ‧ 由 Walter 分享
DAY 3

[Day 3]爬蟲小試身手

今天我們將利用 requests 和 lxml 進行簡單的爬蟲,爬蟲的目標為 IT 邦幫忙首頁中所有的新聞標題。 觀察 請求方式與內容 首先我們先打開 Chro...

2020-09-16 ‧ 由 Walter 分享
DAY 4

[Day 4] 靜態網站爬蟲 - 1

歡迎來到第四天,今天要著重在靜態網站的爬蟲,今天要進行第二層爬蟲。在昨天的小試身手中,我們嘗試了爬取 IT 邦幫忙首頁的標題,今天我們要進一步的進行第二層爬取,...

2020-09-17 ‧ 由 Walter 分享
DAY 5

[Day 5] 番外篇 - 爬蟲禮儀

歡迎來到第五天,在分享更多爬蟲內容之前,必須先來聊聊爬蟲禮儀。 什麼是爬蟲禮儀? 爬蟲禮儀是一種約定成俗的共識,他沒有制式/強制的規定。為了讓爬蟲程式不會為伺服...

2020-09-18 ‧ 由 Walter 分享
DAY 6

[Day 6] 靜態爬蟲 - 2

注意! 注意! 注意! 此篇程式碼為分享範例,請勿直接執行程式碼。若想測試爬蟲,請以其他目標網站測試,並遵守爬蟲禮儀,謝謝。 歡迎來到第六天,今天要承接第...

2020-09-19 ‧ 由 Walter 分享
DAY 7

[Day 7] 番外篇 - 工程師的生活就是這麼樸實無華

曾有位前輩分享了一篇 PO 文,內容是一張 Stack Overflow 回答後的截圖外加 Hashtag #工程師假日的浪漫,工程師的浪漫就是即便是假日都還是...

2020-09-20 ‧ 由 Walter 分享
DAY 8

[Day 8] 番外篇 - 工程師了生活就是這麼樸實無華 - 2

沒想到我成功撐過第一週,還有三週半繼續努力! 歡迎來到第八天,承接昨天,今天將要結合 Line API 完成整個推播功能。由於筆者使用的是 Python 作為主...

2020-09-21 ‧ 由 Walter 分享
DAY 9

[Day 9] 動態爬蟲 - 1

觀迎來到第九天,今天要進入動態網站爬蟲。首先要先理解什麼是動態網站?又和靜態網站之間有什麼差異? 靜態網站與動態網站的差異 靜態網站與動態網站的差異亦可以理解為...

2020-09-22 ‧ 由 Walter 分享
DAY 10

[Day 10] 動態爬蟲 - 2

歡迎來到第十天(三分之一了...),今天要用 Selenium 進行動態爬蟲,首先要先選定一個目標網站進行爬蟲。由於筆者曾經有過到聯合國工作的夢想,因此就決定爬...

2020-09-23 ‧ 由 Walter 分享