iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 30
1
Google Developers Machine Learning

透視Google Machine Learning的奧秘系列 第 30

[Day30] 數據分析相關工作之間的差異 & Google Machine Learning鐵人完賽心得

今天是最後一天了,終於可以完賽,回顧這三十天來分享了好多機器學習相關的東西,自己也有許多的收穫,除了分享一下完賽心得,我們今天也來探討一下數據分析相關工作之間的差異

數據分析相關工作

資料科學這門新誕生出來的學問,是過去數據應用的累積,廣義來說資料科學家也包括資料工程師、資料分析師。與資料科學相關的職缺有資料科學家、資料庫工程師、數據分析師、資料工程師等等存在於目前的就業市場。

使用對象

對象是如果目前正從事機器學習、數據分析等相關工作,或著是目前從事其他軟體工程師相關工作,想要跨進資料科學領域的人,都適合拿來參考一下。

Data Roles and Skill Sets

這張圖定義了軟體工程師、資料工程師和資料科學家所具備的技能

Data Roles and Skill Sets

可以看出說不同的職稱所需要具備的能力還是有差別,軟體工程師是這三個工作中存在最古老的,所做的活基本上是寫程式做研發,其中和資料工程師重疊到的是Javascript,通常是做一些網頁等資料視覺化的應用所需要具備的技能,資料工程師和資料科學家重疊的技能是Python、大數據、商業應用、資料分析的部分,基本上對於領域知識的了解和應用都是要知道的,資料庫的部分更是三者都要具備,可見得在資料科學領域不能沒有資料庫的幫助阿!

資料科學家(Data Scientist)

資料科學家需要會的常用工具如下:
1.Java、R、Scala、Python(Scipy、Numpy、scikit-learn、pandas)
2.Hadoop、HDFD、MapReduce、Spark
3.HBase、Pig、Hive
4.ETL、Webscrapers、DataWarehouse、OLAP
5.SQL、RDBMS、NOSQL、Mongo DB、Cassandra
6.D3.js、ggplot2、Tableau
7.SpSS、Matlab、SAS
8.Excel

資料科學家需要從各種來源探索資料,並且處理更大量和複雜的資料,應用大數據框架是要具備的,同時數學與統計觀念也不可少,所以多半資料科學家擁有資訊工程、物理、統計或是應用數學系相關學歷,同時他們也具備開發新演算解決資料問題的能力,對企業來說資料科學家能藉由他們的能力發現新的商機,或是為公司省下不少成本,是公司當中重要的資產。

資料工程師(Data Engineer)

資料工程師需要會的常用工具如下:
1.MapReduce、Hive、Pig
2.MySQL、PostgreSQL
3.MongoDB、Cassandra
4.ETL、Webscrapers、DataWarehouse、OLAP

資料工程師主要職責是建立資料清洗自動化的流程,也就是前面幾天所介紹過ETL技術與資料倉儲相關應用,過程中包含:資料清洗、資料轉換、載入資料至目的端以提供資料科學家或資料分析師使用,與資料科學家不同的是,資料工程師著重在使用不同的資料庫進行資料處理,專注於資料底層的作業,確保資料能有效率的清洗。

人才需求條件

而在業界當中對於不同職類的人才需求條件也不太一樣

人才需求條件
人才需求條件

可以看出在資料服務產業當中,軟體工程師、資料工程師和資料分析師是比較容易取得的,對於工作內容與能力要求較低,而再上一層的資料科學家就對於工作內容、學歷與年資就有一定的要求,需要累積一定的實力之後才可以挑戰。

面試

面試如何應答才能提高錄取機會?
了解完數據分析相關工作之間的差異、具備技能和工具之外,面試工作的準備也是很重要,掌握數據分析工作的相關面試技巧有助於提高錄取機會!

以面試當中會被提問的問題以及常見的問題來說,像是:
1.你覺得資料科學家的主要職責是什麼?
2.你覺得資料科學家最重要的技能是什麼?
3.在某個問題下,你會使用的機器學習演算法是什麼?
4.各個機器學習模型中的差異以及取捨
5.各種優化模型應用

可以先思考以下問題自己的答案進行模擬問答,如果面試現場也能如同模擬情境時表現良好,能間接向面試官證明說你是有備而來的,也對相關領域感興趣且有意踏入數據分析相關工作。

作品集

作品集其實是提高錄取機會的秘密武器,可分為「數據分析專案」與「部落格」兩種:

「數據分析專案」能夠展現你在面對問題時的分析邏輯,而分析邏輯也是面試官最看重的一環,因為能解決同一個問題的方法有無數個,但是最後只能挑一個,因此能針對資料分布和各種狀況提出有效論證與解決方案是非常重要的!而數據分析專案的類別則會依照你目標的產業而有所變動。

「部落格」是紀錄自己做的專案過程或是所累積相關數據分析知識,比較像是程式日誌、技術文章的形式存在,在哪邊遇到問題、遇到哪些問題、後來是運用什麼方法解決的?,部落格會比較有詳盡的步驟和思考過程會記錄在這當中。

「數據分析專案」看到的是結果,「部落格」比較能看到這中間的過程。

其實作品集也是在間接觀察你是不是真的有數據分析相關能力的部分,而且是先前就在累積實力而不是為了面試準備而臨時抱佛腳,平常有沒有在累積數據分析相關side project、相關的技能?從作品集當中就可得知,日常累積之實力自然而然就能呈現出來,作品集也間接印證了自己是不是面試官所要找的人選?實力部分是否能升任這份工作?此份工作錄取與否也就漸漸明朗。

完賽心得

第一次挑戰30天的鐵人馬拉松比賽,確實過得非常充實,每天從找資料、整理消化資料、思考架構到最後撰寫文章都需要花時間與心力,就像在做機器學習過程一樣,爬梳資料、清理消化資料、建立模型和調參數,最後獲得完整的機器學習模型,這過程中有他艱難的地方,把不懂的地方弄懂並理解他,有許多困難需要克服,但是靠著堅持與毅力以及聰明才智,一定可以把它完成,我想我當初在參賽的時候所訂定的目標都有達成,也能夠以學習金字塔的頂端——實作與教學的方式,讓自己快速成長,希望自己在機器學習方面所學未來能夠應用在工作上,也藉由這次的學習分享文章,讓大家來了解資料科學領域以及Google Machine Learning的奧秘。

參考資料與圖片來源


上一篇
[Day29] 機器學習實務——資料科學家的一天
系列文
透視Google Machine Learning的奧秘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
阿展展展
iT邦好手 1 級 ‧ 2020-03-07 10:33:30

恭喜完賽 \0.0/

我要留言

立即登入留言