iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 29
0
Google Developers Machine Learning

透視Google Machine Learning的奧秘系列 第 29

[Day29] 機器學習實務——資料科學家的一天

剩下最後的兩天,Google Machine Learning的學習之旅即將結束了,我想要分享特別一點的內容

資料科學家——21 世紀最性感的工作

隨著大數據滲透進各行各業,負責淘洗數據、從中精煉價值的資料科學家無疑是這幾年最炙手可熱的職位,《哈佛商業評論》將之譽為「21 世紀最性感工作」,因為優異的資料科學家就像獨角獸一樣珍貴難尋,而且可不是只有科技公司在搶人,傳統金融界、零售商、廣告、教育,幾乎所有產業都需要資料科學家從大量數據中萃取精華。

學完機器學習以後

剩下兩天不談技術,我們來談談學完機器學習之後的下一步,資料科學家的工作,隨著人工智慧與大數據的崛起,使得學習機器學習變成一種趨勢,大家都想要掌握這些關鍵技術,現在學習機器學習比起以往有非常高的熱度,學習教材也越來越多,入門門檻在降低,但要精通可沒那麼容易,當然相關工作像是資料工程師、資料分析師在業界也出現需求,台灣目前在各個產業也急需要透過人工智慧與大數據的技術來轉型,而學習機器學習最重要的目的是能夠應用在實務上,解決業界的問題,為商業應用帶來轉機,而機器學習又是資料科學家必備的技能,所以我想來談談資料科學家的工作。

使用對象

對象是想知道資料科學家平常在做什麼,以及想要了解需要具備哪些技能的人,都適合拿來參考一下。

資料科學家需具備的技能

要成為一名資料科學家,我們可以歸類為以下三點:
1.統計與機器學習相關知識與思考能力
在面對商業問題時要如何用統計的角度去思考?以及有什麼方法可以解釋?

2.程式能力(Python、R、Hadoop、spark、SQL、ETL、Matlab等等)
硬底子程式能力需要,透過程式可以讓資料更整潔、好分析,如果透過資料視覺化可以幫助你更好的了解資料的狀況。

3.做好機器學習模型後,如何去跟不同人解釋你的模型
比如說說明為什麼選用這個演算法,這個演算法在我們的商業模式中如何適用於這件Case?解釋我的模型為什麼能這樣使用,透過這個模型我改善了什麼,有多少比例?可以使用簡報的方式或是把模型做成應用程式的方式來呈現

也可以用這張圖說明,資料科學家需要具備什麼技能和特質,每一大項當中也有一些細項,總共分成四個大類:

  • Math & Statistics
  • Programming & Database
  • Domain Knowledge & Soft Skills
  • Communication & Visualization

資料科學家具備技能與特質

資料科學家的一天

那資料科學家一天當中都在做什麼事,花最多時間在做什麼?我們來看一下:

資料科學家的一天

所以說前面在介紹機器學習的過程中為什麼花這麼多天在介紹資料前處理的載入資料、ETL與維度模型以及視覺化圖表?因為確實資料科學家在一天的工作當中,有60%的時間都是在做清理與準備資料,再來蒐集各類資料佔了19%,將近八成的時間都在面對棘手的raw data、做這類的Dirty work,後面20%時間設計模型、選擇演算法、調整參數來進行點綴,最後才能夠完美的呈現前面辛苦付出的成果以及模型的應用,可見得資料科學家的工作使命如此的大,同時資料處理也在機器學習流程中的重要性如此的高

參考資料與圖片來源


上一篇
[Day28] 認識隨機森林與梯度提升機
下一篇
[Day30] 數據分析相關工作之間的差異 & Google Machine Learning鐵人完賽心得
系列文
透視Google Machine Learning的奧秘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言