iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 8
2

「資料採礦(Data Mining)」今已談到第四天,應能明顯區別出來,它並不是資料清洗,因為並沒有特別針對【不可用資料】有任何進一步的處理,甚至它【每一筆資料】都用上了!資料清洗是將不可用的資料統一分類甚至排除,資料採礦是將所有可用資料運用後,得出具分析價值的資料(但還沒開始分析)。

以下用一句非常明白的話來結論【資料清洗(Data Cleansing)】和【資料採礦(Data Mining)】兩者差異:

資料清洗(Data Cleansing)
在於將資料【處理掉顯而易見的錯誤】;

資料採礦(Data Mining)
在於將資料【處理成應用上想看到的正確】。

但請務必留意,就算直到資料採礦(Data Mining)完成,都還沒有真正開始分析資料,只是把依照蘿蔔排骨湯這個目的,所需切好的蘿蔔和排骨準備妥當,丟進鍋裡這個動作,才正要開始而已。

B-3.資料採礦(Data Mining):
處理已經清洗完畢的完整食材,視要做出什麼料理,把完整食材處理成符合該道料理的必要食材。
處理已經清洗完畢的乾淨資料,想清楚資料將被運用的方向和目標,運用所有乾淨且可用的資料,透過邏輯判斷或交集聯集等運算,整理並定義出即將被使用的資料。



資料採礦 番外篇4

糟糕,只想寫番外的企圖越來越明顯...
呃不是啦,常說【起承轉合】嘛~小時候作文老師有教過,
最後一段(第4段)字數不能太多,不然會頭重腳輕。

你給我翻譯翻譯 什麼叫...

需求單位:「我們需要所有會員的最新消費資料,只要每個會員最新的就好。」
小馬詢問:「如果這個會員同一天有兩筆消費,是兩筆資料都要?還是只要最晚的那一筆?」
需求單位:「兩筆都要。」

小馬翻譯:「需求單位想要max交易日期group by 會員,然後要該會員當天的所有交易資料明細。」
資料單位:「歷史資料很大,不設區間嗎?」
小馬詢問:「建議區間抓多久?」
資料單位:「2y+n吧。」

小馬翻譯:「IT單位說資料量很大,以現在2018年來說,如果會員的最後一次交易發生在2015年以前,要不要就當作他沒有最新資料?」
需求單位:「喔!不用,那這樣2017就可以了。」
小馬詢問:「是指如果這個會員最後一次交易發生在2016/12/31以前,都當作沒有最新資料,發生在2017/1/1之後才要看,是嗎?」
需求單位:「對對。」

小馬翻譯:「需求單位說1y+n就好。」
資料單位:「那null的還要看嗎?」

小馬翻譯:「IT問說沒有最新資料的會員要列出來給你們嗎?」
需求單位:「不用。」
小馬翻譯:「不用。」
資料單位:「這句我聽得懂……」

這真的是很有趣的場面,有不少新人初次跟著我一同會議時對這種現象瞠目結舌,明明都是同一場會議的成員,明明講的都是中文,卻需要有人在中間協助翻譯。但你看看上面的內容,這能不翻譯嗎?

讓我們回頭瞧瞧需求單位原本第一句話的需求內容...

  1. 所有會員:其實不是所有會員,只要看最後一天消費發生在2017以後的會員。
  2. 最新消費資料:其實不是最新一筆消費資料,而是該名會員最後一天的所有消費資料。

可以想像一下,如果沒有翻譯和釐清,這中間的往返對焦,甚至等到資料單位做完了,才發現不是需求單位要的內容。那是一件多麼沒有效率的事。

可能很多公司都有同樣狀況,需求單位跟IT單位一直有嚴重代溝,需求單位認為IT單位聽不懂需求內容IT單位認為需求單位講不清楚需求內容。於是中間就產生了各種溝通耗時,明明幾天可以處理完的東西,耗上大半個月。很有趣的是,儘管我有從需求單位轉成IT單位的背景,但我對這件事的看法,從未變過,縱使我身在IT部門,也還是這麼認為:

協助需求單位釐清他們的需求,是IT單位的使命和責任!


上一篇
資料採礦(Data Mining) -3.推薦商品
下一篇
資料分析(Data Analysis) -1.定義
系列文
AI無法一步登天,讓我們先從專有名詞定義開始。31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言