[Day03] Kaggle的解題挑戰 - 資料科學家和資料工程師 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 3

自我挑戰組

Kaggle的解題挑戰系列第 3 篇

[Day03] Kaggle的解題挑戰 - 資料科學家和資料工程師

2018鐵人賽

Senior Bill

2017-12-13 21:25:30

3374 瀏覽

分享至

我想有人對於這二種角色並不了解，所以我今天先簡單介紹一下這二個角色的差別。

資料科學家

就我了解資料科學家的工作內容，和Kaggle解題的知識比較相關，需要具備有統計、Data Mining、Machine Learning相關的知識，需要學習Python和R這二個程式語言。也可能需要具備要分析Domain的知識和能力，而根據要分析的資料，要有能力處理Text Mining、語音、影像、語意分析相關的資料，也可能需要如何使用資料庫或是查詢Big Data框架上資料的能力，不過最重要的工作就是可能分析和建立分析模型的，根據需要的情況選擇和撰寫相關的演算法，可能是推薦、預測、或是分類等等，最近可能又要多學習Deep Learning相關的技術。

資料工程師

是這幾間隨著大數劇分析而起來的新職業，主要是使用Hadoop、Spark等相關技術，來處理PB等級以上資料的工作，有人也說算是一個資料黑手，主要的技術線是Java、Scala，SMACK、Hadoop等等，也可以需要了解雲端平台的操作，因為運算資料時需要使用大量的機器設備，最近技術線上還多了Docker這個技術選擇，在角色上比較像是利用資料科學家建立的演算法上，使這個演算法能實際放在線上運行的環境，和建立一個能實際處理大數據的環境。

後話

因為，我目前的工作主要是使用Java，也開始在學習SMACK的技術，因此，先離題一陣子，先學習一下這相關的技術，二種職業其實在分界上也並不是那麼的分明，在某些場景上，或許是大量的數據，但或許用現成的Machine Learning演算法，就能達到不錯的效果了，而某些場景，反而是反過來，目前學習的方法主要是朝這個方向前進，但也是需要有基本的資料分析能力，總之，我會先學習和建立一個簡單的SMACK框架。