iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 1
0
自我挑戰組

資料蒐集與分散式運算 30 天系列 第 1

[Day 1] 啟程

做為第一次參賽的菜鳥,不免俗的第一篇還是以原因和規劃做為開場,也是一個深呼吸準備好面對未來三十天挑戰的一個沈澱。

為什麼參賽?

什麼參賽呢?莫過是 TD 哥的鼓勵與拐騙入了坑,竟然入坑那就好好寫/學些什麼吧,因此檢視了現在工作上的範疇與過往的一直想觸及技術,選擇了分散式運算作為這次的主題。

關於我

在職場上,我的身份是一個數據分析師,主要在做一些數據洞察與探勘。在工作之餘接一些爬蟲的案子來玩玩,對 Python 有種無法自拔的熱愛,而這點也會導引著未來 30 天文章的走向。

內容的規劃

這個系列的文章如同名稱所定義的,會被分為資料收集與分散式運算兩部分。關於資料收集的部分會著重在爬蟲的相關分享,其中會包含:

  • 文字爬蟲系列 - 靜態網站
  • 文字爬蟲系列 - 動態網站
  • 導入代理 IP
  • 模擬登入
  • 圖片爬蟲
  • 自動化系列

至於分散式運算會被定義成學習筆記,對於整個學習過程比較像是順藤摸瓜,現階段比較明確的是會圍繞在 Hadoop 這個生態系進行學習,對於 Hadoop 目前規劃的幾個大項目會有:

  • Hadoop 的歷史
  • MapReduce
  • HDFS
  • YARN
  • Spark
  • HBase
  • Hive

希望能夠盡量完整的寫出有幫助的學習筆記!今天就先這樣,啤酒也差不多見底了,我們明天見!


下一篇
[Day 2] Python 爬蟲百寶箱
系列文
資料蒐集與分散式運算 30 天30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言