[Day 1] 啟程

第 12 屆 iThome 鐵人賽

DAY 1

自我挑戰組

資料蒐集與分散式運算 30 天系列第 1 篇

12th鐵人賽

Walter

團隊Outcome First

2020-09-14 20:30:38

1311 瀏覽

分享至

做為第一次參賽的菜鳥，不免俗的第一篇還是以原因和規劃做為開場，也是一個深呼吸準備好面對未來三十天挑戰的一個沈澱。

為什麼參賽？

什麼參賽呢？莫過是 TD 哥的鼓勵與拐騙入了坑，竟然入坑那就好好寫/學些什麼吧，因此檢視了現在工作上的範疇與過往的一直想觸及技術，選擇了分散式運算作為這次的主題。

關於我

在職場上，我的身份是一個數據分析師，主要在做一些數據洞察與探勘。在工作之餘接一些爬蟲的案子來玩玩，對 Python 有種無法自拔的熱愛，而這點也會導引著未來 30 天文章的走向。

內容的規劃

這個系列的文章如同名稱所定義的，會被分為資料收集與分散式運算兩部分。關於資料收集的部分會著重在爬蟲的相關分享，其中會包含：

文字爬蟲系列 - 靜態網站
文字爬蟲系列 - 動態網站
導入代理 IP
模擬登入
圖片爬蟲
自動化系列

至於分散式運算會被定義成學習筆記，對於整個學習過程比較像是順藤摸瓜，現階段比較明確的是會圍繞在 Hadoop 這個生態系進行學習，對於 Hadoop 目前規劃的幾個大項目會有：

Hadoop 的歷史
MapReduce
HDFS
YARN
Spark
HBase
Hive

希望能夠盡量完整的寫出有幫助的學習筆記！今天就先這樣，啤酒也差不多見底了，我們明天見！

[Day 2] Python 爬蟲百寶箱

系列文

資料蒐集與分散式運算 30 天共 30 篇

RSS系列文訂閱系列文

19 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

資料蒐集與分散式運算 30 天系列 第 1 篇

[Day 1] 啟程

為什麼參賽？

關於我

內容的規劃

尚未有邦友留言

標記使用者

資料蒐集與分散式運算 30 天系列第 1 篇