iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 3
0
自我挑戰組

Kaggle的解題挑戰系列 第 3

[Day03] Kaggle的解題挑戰 - 資料科學家和資料工程師

我想有人對於這二種角色並不了解,所以我今天先簡單介紹一下這二個角色的差別。

資料科學家

就我了解資料科學家的工作內容,和Kaggle解題的知識比較相關,需要具備有統計、Data Mining、Machine Learning相關的知識,需要學習Python和R這二個程式語言。也可能需要具備要分析Domain的知識和能力,而根據要分析的資料,要有能力處理Text Mining、語音、影像、語意分析相關的資料,也可能需要如何使用資料庫或是查詢Big Data框架上資料的能力,不過最重要的工作就是可能分析和建立分析模型的,根據需要的情況選擇和撰寫相關的演算法,可能是推薦、預測、或是分類等等,最近可能又要多學習Deep Learning相關的技術。

資料工程師

是這幾間隨著大數劇分析而起來的新職業,主要是使用Hadoop、Spark等相關技術,來處理PB等級以上資料的工作,有人也說算是一個資料黑手,主要的技術線是Java、Scala,SMACK、Hadoop等等,也可以需要了解雲端平台的操作,因為運算資料時需要使用大量的機器設備,最近技術線上還多了Docker這個技術選擇,在角色上比較像是利用資料科學家建立的演算法上,使這個演算法能實際放在線上運行的環境,和建立一個能實際處理大數據的環境。

後話

因為,我目前的工作主要是使用Java,也開始在學習SMACK的技術,因此,先離題一陣子,先學習一下這相關的技術,二種職業其實在分界上也並不是那麼的分明,在某些場景上,或許是大量的數據,但或許用現成的Machine Learning演算法,就能達到不錯的效果了,而某些場景,反而是反過來,目前學習的方法主要是朝這個方向前進,但也是需要有基本的資料分析能力,總之,我會先學習和建立一個簡單的SMACK框架。


上一篇
[Day02] Kaggle的解題挑戰 - 申請帳號和操作說明
下一篇
[Day04] Kaggle的解題挑戰 - SMACK簡介
系列文
Kaggle的解題挑戰11
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言