iT邦幫忙

DAY 18
0

成為資料工程師最初的 28 堂課系列 第 18

資料工程師第 17/28 課: 資料探勘相關數學

[修讀原因]

課早就過了一半, 甚至已經快到三分之二了, 好像基礎科目都講得差不多了, 接下來似乎越來越接近重點, 也越來越專業, 但相對的也越來越較沒有獨立系統.

記得在學生時期, 某教授說, 人工智慧就是專門講正在發展的科目, 在 1950 年代講的是資料結構, 1970 在講的是演算法與數值方法, 到了 90 年代就加上基因演算法, 也包含現在的資料探勘等, 現在 2010 年人工智慧講的又是甚麼呢?

把資料探勘放在數學這個 Track 是因為資料探勘所須要的原理都是數學, 但真的實作出來的技術都是電腦相關, 而真的有效用與影響力都是人與管理相關, 所以要怎切入都可以, 只是會放在數學這邊先講是代表沒有了這些數學, 甚麼都做不出來.

雖然這些數學都是來自於:

  • 線性代數
  • 機率與統計
  • 離散數學
  • 多變量分析
  • .........

這些基礎大半在前面都講到了, 沒講到是因為太過於基礎就不用講了, 例如要學多變量/主成份分析若不會統計還真不知道怎麼學阿, 而在數學要排出 9 門課, 像離散數學, 機率這些只能捨棄了, 這些大家都知道很重要, 而有其他不少科目是大家的經驗較少的, 才是這主題的目的.

事實上目前業界在實用的資料探勘數學成份並不多, 大部份只要大二之前的數學, 甚至不少優秀的高中生就可以駕輕就熟, 尤其像是 Data Mining 資料探勘相關的數學, 說不定都比上面所提到的數學都還要簡單, 只是比較麻煩的是台灣教育在這部份最大的問題是: "會讓學生畢業後就怕數學或不敢碰數學", 所以即使這些數學再不困難, 會讓不少人聞之怯步, 所以還是得提一下.

[基本資訊]

[基本介紹]

資料探勘會用到的技術不外乎:

  • 分類
  • 分群
  • 回歸
  • 關聯
  • 平滑
  • 修正
  • 識別 (模式)
  • 預測
  • Summarization (自動化重點)

當然大部份的書都會介紹上面大部份的技術的其中一項, 但事實上每一項都可以更深入的去研究, 提升其可能性, 例如 Clustering 就有下面幾種主要方式:

  • Representatvie-Base Clustering
  • Hierarchical Clustering
  • Density-Base Custering
  • Spectral and Graph Clustering

這還是主要的方式, 裏面的細節與變型更是說不完的.

就如前面所說的, 資料探勘是一個可以很電腦的, 也可以是很數學觀點切入的, 所以這邊列出來的參考書就有兩本, 而事實上大部份大家在唸的書都是 "行銷管理" 觀點的, 而千萬不要以為你唸了那些書就以為自己懂的資料探勘, 若不懂後面的數學基礎, 或者沒有自己用電腦實作一遍, 就不算是完整的學習, 而你是真的完成這三階段, 若有在其他場合跟別人聊到資料探勘, 你會發現當時的自己是相當的不足而不自知.

而在這次的實作中, 我也看到有人把 Knowledge Discovery 分成幾個階段:

  1. Selection (選擇)
  2. Pre-processing (處理)
  3. Transformation (轉換)
  4. Data Mining (探勘)
  5. Interpretation/Evaluation. (轉譯/評估)

你就會知道大部份的人對資料都還是停留在前面 1~3 個階段, 有些是跟本還沒做到資料探勘的.

而這部份剛好在四年前的鐵人有寫不少, 有些大家就過去看吧, 這邊講再多也不會超過當時的 貘的資料探勘30講.

但這幾年, 無論就語意網路, Open Data/Social Data 的進步, 讓 Data Mining 有不少有聲有色的進步, 現在已經不只說 Big Data, 還說 Data Science, 而這三十篇就是用不同的角度讓 IT 人切入, 成為資料工程師 Data Engineer 的方法與步驟.

[修習方式]

電子書:

開放課程:

關鍵字:

  • 決策樹 decision tree
  • 貝氏分類 Naive Bayesian classification
  • KNN k-nearest neighbor
  • 資訊檢索 information retrieval

上一篇
資料工程師第 16/28 課: 程式語言/系統程式
下一篇
資料工程師第 18/28 課: 使用者行為/田野調查/社群資料/讀者服務
系列文
成為資料工程師最初的 28 堂課30

尚未有邦友留言

立即登入留言