iT邦幫忙

DAY 3
0

成為資料工程師最初的 28 堂課系列 第 3

資料工程師第 2/28 課: 數值分析/方法

在資料的處理中, 最重要的就是數值的計算, 其中包含一些求解的問題, 但大部份的問題還是在於量化, 或指數化 (Index) 等等的過程, 這些過程, 最常見的就是數值方法/分析, 所以我把這個科目列為第二堂課:

  • 課程題目: Numeric Analysis/Method 數值分析/方法
  • 大學學程: 資訊類大二必修
  • 困難度: **
  • 必要度: *****
  • 所須時間: ***
  • 建議書輯: Numerical Analysis: Mathematics of Scientific Computing

雖然說數值分析是種求解的方法, 但說 Data Mining / Big Data 說要找到答案是談何容易, 甚至應該說在任何狀況答案都是不一樣的, 但話說很多方法論都是一樣的, 例如是在做 Correcting (除錯), 或是在做呈現 (Presentaion) 都是須要一些演算法或方法才能更精確獲得被信服的答案.

其中最有趣的問題就是這個問題背後的數字到底該是怎去做:

  • 線性與非線性
  • 離散或稠冪
  • 直接或疊迨
  • 誤差或是正確化
  • 積分或是微分(差分)

這兩種問題最後導至的方法與學科是完全不一樣, 雖然說數值方法比較聚焦在稠冪的數字, 但實務上都是會用上.

在 Data 中, 最大的問題是資料太大, 大到一定會有錯誤, 且這錯誤往往也是大量, 甚至是稱為 Big Error (大誤差) 的數字與資料, 如何克服這問題, 才能夠真的建構出一個實用的系統, 這些方法論有一半取自於這些科目, 其中大家會常用的方法有:

  • 函數求值
  • 內插法、外推法、曲線擬合及回歸
  • 求解方程及方程組
  • 求解特徵值或奇異值問題
  • 最優化
  • 積分計算
  • 微分方程

這些方法都是在教科書中有的, 真的在近代, 有更多的方法可以應用:

  • 模糊運算 (Fuzzy)
  • 混頓原理 (Chaos)
  • 類神經網路 (Nural Network)

在實務的數值方法, 最後會是一種跨領域的整合, 這包含多變量, 因子分析, 或是演算法眾多的整合.

http://en.wikipedia.org/wiki/List\_of\_numerical\_analysis\_topics 中, 整理了幾百個數值分析會用到的領域與方法, 所以千萬不要小看這個學科, 尤其這科目只是放在大二的課程.

建議電子書: http://ins.sjtu.edu.cn/people/mtang/textbook.pdf

建議課程: http://ocw.mit.edu/courses/mathematics/18-03sc-differential-equations-fall-2011/unit-i-first-order-differential-equations/numerical-methods/


上一篇
資料工程師第 1/28 課: 資料結構
下一篇
資料工程師第 3/28 課: 資訊架構學與圖書資訊學
系列文
成為資料工程師最初的 28 堂課30

尚未有邦友留言

立即登入留言