前面我們講個幾個題目,像是「資料爬蟲」、「資料前處理」、以及「資料視覺化」等等。接下來我想來談談關於資料科學中「分析」這一塊。一般分析的手法,主要來自幾種不同的領域:統計學、資料探勘、機器學習、探索性分析等等。
首先,從資料探勘這個議題開始。資料探勘是從原文的 Data Mining,其主要的意涵是 Mining From Data,從資料中挖掘金礦。另外,KDD(Knowledge-Discovery in Databases) 是資料探勘的另外一個常見的同義詞。
Data Mining 是在 20 世紀 90 年從資料庫領域發展而來的,所以一開始通常是用 KDD 這個名稱。知名的學術論壇也叫做 SIGKDD 。 在第一屆 SIGKDD Conference 討論這個儀提,是要沿用 KDD 還是改名為 Data Mining? 最終決定這兩個名字都被保留,KDD 有其科學研究上的含義,而 Data Mining 的直白也適合用在產業界上。
在資料探勘的聖經本教科書採用的是這樣的定義:
從大型資料庫中抽取具有意義之資訊或模式的過程。(Data Mining: Concepts and Techniques)
一般來說,是否意義可以分為兩個角度:
一般資料探勘主要分為三種方法:
當然,隨著資料樣式的變化,也有許多進階的用法。像是,時間序列分析(Time Series Forecasting)或是順序型態分析(Sequential Pattern Analysis)。