iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 1
4

開場與期望

在接下來的三十天,會從校園畢業走到職場,用自身剛畢業的新鮮人角度來看待資料科學這個技術的發展與演進。過去在學校,往往會陷入一個特定的角度解問題。然而,在面對真實的世界,有許許多多的事情需要被考慮。所以,試圖從最務實的角度開始,結合理論與實作去探索資料科學的真實世界。如何一步一步的,培養資料時代下的思維與技術。

技術驅動的演進

一個起源於十八世紀末的工業革命,以工廠取代人工生產的機器革命。由蒸汽機、煤、鐵和鋼為主要因素將傳統生產模式升級為新的機器製造過程,全面的改變人們的生活。以電力的應用為起點,十九世紀末走向了電氣時代,被稱為是第二次工業革命。第三次工業革命是在二十世紀末的電腦革命,核心技術是電子計算機技術。仰賴其運算速度快、處理數據量大的優勢代替人類的腦力或勞動,使人類社會的信息處理方式改變了現代社會的運作結構。快速的發展,帶動了一大批高新技術的演進。

過去幾次的工業革命都是站在新技術革新的轉淚點,如今,我們也站在一個新時代的浪尖上 -- 「資料時代」。

隨著計算機技術演進,資料量快速成長、儲存成本下降和雲端環境成熟等客觀條件就位。電腦計算能力大幅提升,帶來的是資料量快速的累積,也因此造就了資料科學的新時代思維。具體而言,過去科學發展使用演繹方法研究,根據推論求得規律。隨著面臨的問題變得越發復雜,透過演繹的方式面臨瓶頸。然而,透過歸納方法形成另外一種解決問題的觀點。因此,將資料科學與巨量資料推上了顯學。巨量資料分析不同於傳統統計抽樣方法,考慮的是資料母體。利用比實證研究更耗費計算成本的資料驅動的方法,透過全面地分析從資料中挖掘出資料背後的關係。

當前,我們正處於人類有史以來發展最快的時代。透過「資料」與「分析」,運用新的思維,將帶來一場新型的改變。技術驅動的演進,帶著經濟進行結構性改革,走向一個充滿變化的未來。最重要的是,我們必須要把握「創新」的機會,而且是「技術驅動創新」的機會。

巨量資料的革新

「根據研究機構 IDC(國際數據資訊公司)的分析,這個世界上的資料正在以每兩年就翻倍的驚人速度增加中。了解大數據、如何利用巨量資料,成了人人關心的重點議題。麥肯錫全球研究中心的全球巨量資料研究報告指出,全球資料量光是在2010年就增加了70億GB,相當於4千座美國國會圖書館典藏資料的總和。(7 個你不可不知的大數據定義巨量資料時代的煉金術)」

一般而言,巨量資料的定義是 Volume(容量)大、 Velocity(速度)快 和 Variety(多樣性),但也其他幾種不同的特性,像是 Veracity(真實性) 和 Value(價值) 等等。基本上來說,巨量資料和傳統資料最大的不同是,資料來源多元、種類繁多,大多是非結構化資料,而且更新速度非常快,導致資料量大增。而要用大數據創造價值,不得不注意數據的真實性。

為什麼巨量資料是一件重要的事情?在麥爾苟伯格在《大數據》一書中這樣說明:「透過更完整的資料分析,透過接近母體的資料量,可以大幅降低傳統抽樣所產生的統計誤差。」換言之,會需要付出更多更快的運算機器,所以巨量資料與計算機技術的進步是相輔相成的。不過,資料科學也不盡然要盲目地追求「巨量」這件事。大企業能享有巨量資料的規模優勢,但小團隊也有成本及創新上的優勢,因為速度夠快、靈活度高,就算維持小規模,還是能夠蓬勃發展。重要的是,能否掌握資料時代的思維與創新。

開放資料的成長

政府開放資料為近年國際間備受關注的議題,自從2009年英國和美國政府開放資料平台上線以來,各個國家陸續發展出政府開放資料平台。開放資料以提供資料的重覆利用為目的,提供民眾資料存取或應用開發上使用,免於智慧財產權的限制及資料收集不足的障礙。在資料時代下,資料即服務造成許多領域空前的進展,整合跨領域的合作與激盪,透過民間的無限創意,發揮資料加值運用的極致。

開放資料不只在法令面上要開放,在技術面上也一樣需要開放。採用機器可讀取的檔案格式。API(Application Program Interface,應用程序接口)提供程式連接的接口,程式設計師可以選擇資料中要讀取的特定部分,而不需要把整批資料事先完整下載回來。「API 一般都是直接連接到一個資料庫,而資料庫內儲存的都是即時更新最新版本的資料。這意味著,透過 API 的呼叫來釋出資料,我們可以提供最即時的新資訊。(如何將資料開放釋出)」無論在行動、大數據應用的需求下,都需要開放資料透過 API 為介接。API 將使得資料的公開更加彈性,達到更多的加值使用。

跨領域整合的契機

資料時代席捲而來的不只是資訊界,而是一場全面性的革新。巨量資料帶來的是各個領域的改變,像是 FinTech (金融+科技)、Growth Hacking (行銷+科技)、Health Care(醫學+科技)等等都是隨著資料時代下在跨領域整合下而興起的趨勢。換句話說,巨量資料/資料思維,需要的是一種跨域的宏觀視野。從幾個市場熱門的討論議題來看,都可以看到資料應用扮演的角色。

Reference

  1. 盤點世界四次科技革命的標誌性成就與人物
  2. 下一件大事:第四次工業革命
  3. 一次搞懂大數據
  4. 巨量資料時代的煉金術
  5. 7 個你不可不知的大數據定義
  6. 2016 台灣 Big Data 市場五大趨勢預測

下一篇
資料專案背後的那些人
系列文
從學生到職場:菜鳥資料科學家的第一個月30

1 則留言

0
海綿寶寶
iT邦超人 1 級 ‧ 2016-12-02 21:46:20
「只要有原文不動照抄的情況就必須使用引號,不管是一個子句、句子或段落,否則就算是抄襲。許多學術研究者仍然會犯此錯誤,即使已經註明原作者、出版年等出處資訊,可是原文引用卻沒有加引號、沒有註明出處頁數,這樣並不符合學術撰寫的規定(畢恆達,教授為什麼沒告訴我,2005,頁38)。」

學術論文的「引用」與「抄襲」之間,到底要如何區別?

v123582 iT邦新手 5 級‧ 2016-12-02 21:47:47 檢舉

感謝提醒,重新檢查過一遍了,如果還有哪邊模糊的話再請糾正!

我要留言

立即登入留言