我想有人對於這二種角色並不了解,所以我今天先簡單介紹一下這二個角色的差別。
就我了解資料科學家的工作內容,和Kaggle解題的知識比較相關,需要具備有統計、Data Mining、Machine Learning相關的知識,需要學習Python和R這二個程式語言。也可能需要具備要分析Domain的知識和能力,而根據要分析的資料,要有能力處理Text Mining、語音、影像、語意分析相關的資料,也可能需要如何使用資料庫或是查詢Big Data框架上資料的能力,不過最重要的工作就是可能分析和建立分析模型的,根據需要的情況選擇和撰寫相關的演算法,可能是推薦、預測、或是分類等等,最近可能又要多學習Deep Learning相關的技術。
是這幾間隨著大數劇分析而起來的新職業,主要是使用Hadoop、Spark等相關技術,來處理PB等級以上資料的工作,有人也說算是一個資料黑手,主要的技術線是Java、Scala,SMACK、Hadoop等等,也可以需要了解雲端平台的操作,因為運算資料時需要使用大量的機器設備,最近技術線上還多了Docker這個技術選擇,在角色上比較像是利用資料科學家建立的演算法上,使這個演算法能實際放在線上運行的環境,和建立一個能實際處理大數據的環境。
因為,我目前的工作主要是使用Java,也開始在學習SMACK的技術,因此,先離題一陣子,先學習一下這相關的技術,二種職業其實在分界上也並不是那麼的分明,在某些場景上,或許是大量的數據,但或許用現成的Machine Learning演算法,就能達到不錯的效果了,而某些場景,反而是反過來,目前學習的方法主要是朝這個方向前進,但也是需要有基本的資料分析能力,總之,我會先學習和建立一個簡單的SMACK框架。