資料工程師第 17/28 課: 資料探勘相關數學

DAY 18

成為資料工程師最初的 28 堂課系列第 18 篇

鐵人賽

食夢黑貘

2014-10-18 22:49:55

6159 瀏覽

分享至

[修讀原因]

課早就過了一半, 甚至已經快到三分之二了, 好像基礎科目都講得差不多了, 接下來似乎越來越接近重點, 也越來越專業, 但相對的也越來越較沒有獨立系統.

記得在學生時期, 某教授說, 人工智慧就是專門講正在發展的科目, 在 1950 年代講的是資料結構, 1970 在講的是演算法與數值方法, 到了 90 年代就加上基因演算法, 也包含現在的資料探勘等, 現在 2010 年人工智慧講的又是甚麼呢?

把資料探勘放在數學這個 Track 是因為資料探勘所須要的原理都是數學, 但真的實作出來的技術都是電腦相關, 而真的有效用與影響力都是人與管理相關, 所以要怎切入都可以, 只是會放在數學這邊先講是代表沒有了這些數學, 甚麼都做不出來.

雖然這些數學都是來自於:

線性代數
機率與統計
離散數學
多變量分析
.........

這些基礎大半在前面都講到了, 沒講到是因為太過於基礎就不用講了, 例如要學多變量/主成份分析若不會統計還真不知道怎麼學阿, 而在數學要排出 9 門課, 像離散數學, 機率這些只能捨棄了, 這些大家都知道很重要, 而有其他不少科目是大家的經驗較少的, 才是這主題的目的.

事實上目前業界在實用的資料探勘數學成份並不多, 大部份只要大二之前的數學, 甚至不少優秀的高中生就可以駕輕就熟, 尤其像是 Data Mining 資料探勘相關的數學, 說不定都比上面所提到的數學都還要簡單, 只是比較麻煩的是台灣教育在這部份最大的問題是: "會讓學生畢業後就怕數學或不敢碰數學", 所以即使這些數學再不困難, 會讓不少人聞之怯步, 所以還是得提一下.

[基本資訊]

課程題目: 資料探勘 Data Mining
大學學程: 資訊大四或研究所
困難度: ＊＊
必要度: ＊＊＊＊
所須時間: ＊＊
建議書輯: Data Mining: Concepts and Techniques
建議書籍: The Elements of Statistical Leaning

[基本介紹]

資料探勘會用到的技術不外乎:

分類
分群
回歸
關聯
平滑
修正
識別 (模式)
預測
Summarization (自動化重點)

當然大部份的書都會介紹上面大部份的技術的其中一項, 但事實上每一項都可以更深入的去研究, 提升其可能性, 例如 Clustering 就有下面幾種主要方式:

Representatvie-Base Clustering
Hierarchical Clustering
Density-Base Custering
Spectral and Graph Clustering

這還是主要的方式, 裏面的細節與變型更是說不完的.

就如前面所說的, 資料探勘是一個可以很電腦的, 也可以是很數學觀點切入的, 所以這邊列出來的參考書就有兩本, 而事實上大部份大家在唸的書都是 "行銷管理" 觀點的, 而千萬不要以為你唸了那些書就以為自己懂的資料探勘, 若不懂後面的數學基礎, 或者沒有自己用電腦實作一遍, 就不算是完整的學習, 而你是真的完成這三階段, 若有在其他場合跟別人聊到資料探勘, 你會發現當時的自己是相當的不足而不自知.

而在這次的實作中, 我也看到有人把 Knowledge Discovery 分成幾個階段:

Selection (選擇)
Pre-processing (處理)
Transformation (轉換)
Data Mining (探勘)
Interpretation/Evaluation. (轉譯/評估)

你就會知道大部份的人對資料都還是停留在前面 1~3 個階段, 有些是跟本還沒做到資料探勘的.

而這部份剛好在四年前的鐵人有寫不少, 有些大家就過去看吧, 這邊講再多也不會超過當時的貘的資料探勘30講.

但這幾年, 無論就語意網路, Open Data/Social Data 的進步, 讓 Data Mining 有不少有聲有色的進步, 現在已經不只說 Big Data, 還說 Data Science, 而這三十篇就是用不同的角度讓 IT 人切入, 成為資料工程師 Data Engineer 的方法與步驟.