iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 30
3

後記

這一個月來,在鐵人賽這個舞台上一天一篇技術文。我嘗試總結了自己個對於基料科學這個領域的角度。從最開始的理論談起,談了一些實作上會用到的東西。從最務實的角度開始,結合理論與實作去探索資料科學的真實世界。如何一步一步的,建構出資料時代下的思維與技術。希望可以讓每一個人能夠對「資料科學」產生簡單的認識!

回顧

大資料時代

在最一開始的主題,我先談了一下,為這個資料科學會興起以及這個趨勢下,我們需要具備什麼樣的能力。也說明了一個資料專案的流程與背後的組織結構。

常用程式語言

Python 以及 R 是我認為是一個資料新手該學習的語言,因為這些語言具有資料處理上的優勢。而 JavaScript ,則是提供了繪圖與互動,增加了資料視覺的話有趣性。當然,像是 Julia 或是 Scala 也都是因為資料科學而興起的語言。隨著更進階的應用,學習不同的語言也能讓自己變得更強。

資料在哪裡

從關聯式資料庫與非關聯式資料庫帶出來資料庫這個技術,再談談資料是透過什麼來源取得的,以及存在方法可能有 CSV、JSON、XML 這幾種常見的格式。

資料爬蟲與資料處理

除了開放取得的資料或是 API 之外,需要自己爬的資料稱為爬蟲。我也解析常見的資料爬蟲是如何實現的,分為靜態與動態兩種類型來解釋。然後,來看看該如何透過 Pandas 程式來存取資料,並進行清理過濾的資料前處理。

資料視覺化

用三種程式的語言的範例來看看分別要怎麼做到資料視覺化。在 Python 中,介紹了 Matplotlib;R 有 ggplot2;D3 則是 JavaScript 的視覺化一哥。

分析方法

最後十天,我們把焦點放在「學習」「分析」「探勘」這個核心上面。談了機率與統計扮演的角色,淺談常見的資料探勘與機器學習學習法。

展望

參加了鐵人賽給我一個不一樣的機會,逼著自己在上班之外的時間要學習、要整理、要思考、要寫文章。這是我第一次參加鐵人賽,今年也是我成為職場新鮮人的第一年。對我來說,這是一個很有趣的挑戰。

花一個月的時間,把一些過去腦中零散的知識整理起來,建構出一個系統性的框架。這是我一開始參加鐵人賽給自己的目標。讓自己對資料科學有比較全面的認識,也想讓看的人多多認識資料科學。所以我試圖用比較「廣」的角度,盡量涉略到每一個環節,而「深」的部分,就留給大家好好地挖掘。

資料科學是一個正在興起的領域,背後其實有很多知識正在發展中。絕對不是三言兩語就可以談完的,所以我想這只是一個起點,更多的資料科學未完待續。

寫在最後

如果你對類似的題目有興趣,歡迎加我 Facebook 討論交流:)
也可以到我的個人部落格: http://v123582.github.io/


上一篇
機器學習演算法 - 「學習」之外的事
系列文
從學生到職場:菜鳥資料科學家的第一個月30

1 則留言

0
杜岳華
iT邦新手 5 級 ‧ 2016-12-30 23:57:04

Spark不是語言阿~~~~~XD

v123582 iT邦新手 5 級‧ 2016-12-31 00:14:59 檢舉

@a504082002: 感謝提醒,我更正一下!

我要留言

立即登入留言