iT邦幫忙

DAY 5
0

Data Mining 學習路:概念、技術與工具系列 第 5

Data Mining:Day 5 資料處理第一步:(1)要挖什麼資料

  • 分享至 

  • xImage
  •  

# 四種學習種類
在分析資料之前,我們得先決定要讓我們的機器做怎麼樣的學習、想要得到什麼樣子的結果,有四種基本的形式:

分類學習(classification learning)
關聯學習(association learning)
叢集(clustering)
數量預測(numeric prediction)

以下會分別介紹這四種學習種類。

Classification Learning

分類學習是從已經分類好的一群資料中,找出各分類的模式,了解被分到某類的可能原因,進而將這個模式套用在還沒有被分類的資料上,給予可能的分類預測。

例如我們已經有了一群顧客的購買記錄,包含了購買商品的形式、購買了哪些產品、產品價格,顧客性別、年齡等等資料,我們就可以透過分析這些資料來推測哪些還沒消費過的人會是潛在的顧客群。

另外想要檢測分類學習提供的規則是否正確,只要拿另一群同樣已經分類好的資料做測試,並計算他的正確率即可,不過準確率要多高才算是「準確」,這就要依據實際的情況來決定了。

Association Learning

關聯學習比起分類學習,通常會有更多的結果,他要學習的是資料「結構」上的問題,除了可以預測分類,還可以預測資料的其他屬性,甚至一次預測多個屬性。

拿上面的例子來說,我們用關聯學習可以做「一個人如果購買了啤酒會不會順便買洋芋片?」這樣的問題,對於商家來說如果能掌握這些資訊,那就可以適當安排商品的擺放位置來促進銷售量。

Clustering

Clustering 其實滿好懂的,就如同他的名字一樣,這個分析方法是把相似的資料給湊在一起,分成一群一群(就是 cluster),如果我們能夠把顧客分成不同的群,我們就可以分析不同顧客群的差異,或者針對不同的顧客群給予不同的促銷手段。

Numeric Prediction

這個其實是分類學習的變形,預測的不是分類而是數量,例如我們可以分析不同日子的來客數量(不知道這個例子好不好...),不過單純的數量通常沒什麼意思,通常我們會比較想要知道數量跟其他屬性之間有沒有隱藏什麼資訊。

參考資料

http://en.wikipedia.org/wiki/Cluster_analysis
http://en.wikipedia.org/wiki/Association_rule_learning


上一篇
Data Mining:Day 4 - Data Mining 工具介紹 - Weka
下一篇
Data Mining:Day 6 資料處理第一步:(2)研究你的資料
系列文
Data Mining 學習路:概念、技術與工具16
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言