iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 2
1

資料專案需要的是一支團隊

要完成一個好的資料專案,靠的不能只是一個厲害的強者,需要的是一支合作無間的資料團隊。資料思維是一種跨領域宏觀視野下的資料應用。我們可以觀察近期幾個市場熱門的議題來,都不乏 Big Data 應用的身影。其中,跨領域的整合也是另一個重要的應用關鍵。無論資料的多寡,資料專案都是建基在資訊、統計、視覺化等不同的領域專業上面。不過現實層面上來說,很難有人可以同時具備那麼多能力,因此在資料專案中更需要團隊合作。

一個完整的資料科學團隊,除了要有特定領域的專家之外,還需要以下三種角色組成:資料科學家(Data Scientist)、資料分析師(Data Analyst),及資料工程師(Data Engineer)。

資料科學家發現問題,提出問題然後設計方法,並且對可取得的資料進行分析。資料分析師配合進行統計方面的工作,如實驗設計,數據分析等。資料工程師配合程式實作方面的工作,如大數據的收集與整理,算法的部署等。下面這張圖是來自於 Swami Chandrasekaran 的 Becoming a Data Scientist – Curriculum via Metromap 一文,裡面畫上了一個資料科學家所需要具備的能力。

Becoming a Data Scientist – Curriculum via Metromap by Swami Chandrasekaran

資料科學家 Data Scientist

「2012 年,哈佛商業評論認為 Data Scientist 資料科學家將會是 21 世紀最「性感」的工作,美國知名人力資源網站 Glassdoor 日前也發表評論,認為資料科學家將會是 2016 年最棒的工作。(2016 年最棒的工作是什麼?答案是資料科學家)」

那究竟什麼是資料科學家呢?他又在團隊裡扮演什麼樣的角色?

我認為資料科學家是一個資料團隊中的核心,需要綜合統籌的能力,從觀察資料、發現問題到組織整個資料團隊。可以視為是資料應用專案中的小組長,擁有相關領域的各種技能,哪個需要就往那裡搬,能獨立承擔從數據處理,分析探索到實踐應用直到最終產生價值。簡單來說,資料科學家就是「用資料解決真實問題的人」。也正因如此,資料科學家必須要與其他角色溝通,更強調的是多元的能力。從處理資料的工程,到分析資料的建模都需要涉略,以及擁有發現 insight 的思維。聽起來好像什麼都要會,不過實際上很難有人可以樣樣精通,所以團隊才顯得更為重要。身為一個好的資料科學家,必須要能夠駕馭一支資料團隊。

不斷掌握新的技術及觀點也是很重要的,因為在這個瞬息萬變的技術世界中,唯有持續的學習才能不會淘汰。

  • 主要工作:觀察資料,從中發現有趣的/需要解決的問題,通常這個過程稱為資料驅動(Data Driven);然後和工程師商量如何從資料庫中建立分析架構。最終,與統計學家用各種統計模型/資料探勘/機器學習的技術進一步分析資料,同時產生一份資料報告。可以視為是資料分析師的進階版,解決分析師難以解決的複雜問題。終極目標是找出藏在資料背後的秘密,然後可以自動的預測未來趨勢。
  • 所需技術:需要牽涉到各種不同的領域,從基本簡單的數學理論、大量資料、程式設計到統計、機器學習與資料視覺化等等。除了要統計分析技術之外,也需要能用將理論以程式化的方式實現。

資料分析師 Data Analyst

資料分析師通常是指根據資料進行解釋的工作者,一般會通過「蒐集->整理->分析->結果」的步驟。最常見的技能是利用常見的商業統計軟體(例如: SQL,R,SAS,Excel)產出統計報告且進行解釋。資料分析師所做的一切都是為了回答問題,通常被稱為是問題驅動(Problem Driven)。資料分析師在資料工程師提供的資料基礎之上進行探索性分析,目的是找到問題的正確答案。

  • 主要工作:通常這個這個職位是有例行性任務的,定期出一個報告來分析季度數據,提供管理層決策參考。
  • 所需技術:需要具有操作統計軟體的基本技能,往往對數字及資料有一定的敏感度。

資料工程師 Data Engineer

資料工程師主要的角色,是進行資料的架構設計,專注於環境與平台的架設。其所做的一切都為了讓資料可以容易地被使用,負責建立和維持公司資料儲存的技術基準,策劃硬體和軟體的結構,確保資料儲存系統可以支持未來的資料量和分析需求。最終目標是把資料整理好,能夠達成儲存成本低,查詢效率高的結果。隨著巨量資料的需求,現在的資料通常會存在很多的雜訊及干擾,需要花更多的精力在資料清理。

  • 主要工作:收集資料,管理資料,設計一個好的架構提供資料存取,針對需求設計產出的資料集。
  • 所需技能:資料爬蟲,資料庫架構,資料前處理(資料清理、轉換),資料建模,分散式系統等等。

Reference

  1. 為什麼打造一支資料科學團隊如此重要?
  2. 資料科學團隊培訓及導入經驗分享會
  3. 資料分析師?科學家?架構師?大數據人才的工作內容及年薪比較
  4. 3 Data Careers Decoded and What It Means for You
  5. 大數據人才懂資工、統計還不夠,還要會說故事
  6. Data Scientist、Data Analyst、Data Engineer 的区别是什么?
  7. 什么是好的数据科学家?

上一篇
資料時代的來臨
下一篇
資料科學的思考流程
系列文
從學生到職場:菜鳥資料科學家的第一個月30

1 則留言

0
海綿寶寶
iT邦超人 1 級 ‧ 2016-12-02 21:45:58
「只要有原文不動照抄的情況就必須使用引號,不管是一個子句、句子或段落,否則就算是抄襲。許多學術研究者仍然會犯此錯誤,即使已經註明原作者、出版年等出處資訊,可是原文引用卻沒有加引號、沒有註明出處頁數,這樣並不符合學術撰寫的規定(畢恆達,教授為什麼沒告訴我,2005,頁38)。」

學術論文的「引用」與「抄襲」之間,到底要如何區別?

v123582 iT邦新手 5 級‧ 2016-12-02 22:37:36 檢舉

感謝提醒,重新檢查過一遍了,如果還有哪邊模糊的話再請糾正!

我要留言

立即登入留言