iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 22
0

資料探勘

前面我們講個幾個題目,像是「資料爬蟲」、「資料前處理」、以及「資料視覺化」等等。接下來我想來談談關於資料科學中「分析」這一塊。一般分析的手法,主要來自幾種不同的領域:統計學、資料探勘、機器學習、探索性分析等等。

首先,從資料探勘這個議題開始。資料探勘是從原文的 Data Mining,其主要的意涵是 Mining From Data,從資料中挖掘金礦。另外,KDD(Knowledge-Discovery in Databases) 是資料探勘的另外一個常見的同義詞。

Data Mining 是在 20 世紀 90 年從資料庫領域發展而來的,所以一開始通常是用 KDD 這個名稱。知名的學術論壇也叫做 SIGKDD 。 在第一屆 SIGKDD Conference 討論這個儀提,是要沿用 KDD 還是改名為 Data Mining? 最終決定這兩個名字都被保留,KDD 有其科學研究上的含義,而 Data Mining 的直白也適合用在產業界上。

  • Data Collection (1960s)
  • Database (1970s)
  • Data Access (1980s)
  • Data Warehousing (1990s)
  • Data Mining (Today)

在資料探勘的聖經本教科書採用的是這樣的定義:

從大型資料庫中抽取具有意義之資訊或模式的過程。(Data Mining: Concepts and Techniques

一般來說,是否意義可以分為兩個角度:

  • 價值性:這個規則必須要有實務上的可用性,要能創造出效益。
  • 隱藏性:泛指找出來的資訊不是顯而易見的,不能容易從資料觀察而來。

演算法

一般資料探勘主要分為三種方法:

  • 分類分析(Classification)
  • 群集分析(Clustering)
  • 關聯分析(Association)

當然,隨著資料樣式的變化,也有許多進階的用法。像是,時間序列分析(Time Series Forecasting)或是順序型態分析(Sequential Pattern Analysis)。

Reference

  1. 什么是数据挖掘?
  2. 【硬塞科技字典】什麼是資料探勘(Data Mining)?
  3. An Introduction to Data Mining
  4. Data Mining: What is Data Mining?

上一篇
機率與統計 - Statistical Modeling
下一篇
資料探勘演算法 - 關聯規則
系列文
從學生到職場:菜鳥資料科學家的第一個月30

尚未有邦友留言

立即登入留言