「資料採礦(Data Mining)」今已談到第四天,應能明顯區別出來,它並不是資料清洗,因為並沒有特別針對【不可用資料】有任何進一步的處理,甚至它【每一筆資料】都用上了!資料清洗是將不可用的資料統一分類甚至排除,資料採礦是將所有可用資料運用後,得出具分析價值的資料(但還沒開始分析)。
以下用一句非常明白的話來結論【資料清洗(Data Cleansing)】和【資料採礦(Data Mining)】兩者差異:
資料清洗(Data Cleansing)
在於將資料【處理掉顯而易見的錯誤】;
資料採礦(Data Mining)
在於將資料【處理成應用上想看到的正確】。
但請務必留意,就算直到資料採礦(Data Mining)完成,都還沒有真正開始分析資料,只是把依照蘿蔔排骨湯這個目的,所需切好的蘿蔔和排骨準備妥當,丟進鍋裡這個動作,才正要開始而已。
B-3.資料採礦(Data Mining):
處理已經清洗完畢的完整食材,視要做出什麼料理,把完整食材處理成符合該道料理的必要食材。
處理已經清洗完畢的乾淨資料,想清楚資料將被運用的方向和目標,運用所有乾淨且可用的資料,透過邏輯判斷或交集聯集等運算,整理並定義出即將被使用的資料。
糟糕,只想寫番外的企圖越來越明顯...
呃不是啦,常說【起承轉合】嘛~小時候作文老師有教過,
最後一段(第4段)字數不能太多,不然會頭重腳輕。
需求單位:「我們需要所有會員的最新消費資料,只要每個會員最新的就好。」
小馬詢問:「如果這個會員同一天有兩筆消費,是兩筆資料都要?還是只要最晚的那一筆?」
需求單位:「兩筆都要。」
小馬翻譯:「需求單位想要max交易日期group by 會員,然後要該會員當天的所有交易資料明細。」
資料單位:「歷史資料很大,不設區間嗎?」
小馬詢問:「建議區間抓多久?」
資料單位:「2y+n吧。」
小馬翻譯:「IT單位說資料量很大,以現在2018年來說,如果會員的最後一次交易發生在2015年以前,要不要就當作他沒有最新資料?」
需求單位:「喔!不用,那這樣2017就可以了。」
小馬詢問:「是指如果這個會員最後一次交易發生在2016/12/31以前,都當作沒有最新資料,發生在2017/1/1之後才要看,是嗎?」
需求單位:「對對。」
小馬翻譯:「需求單位說1y+n就好。」
資料單位:「那null的還要看嗎?」
小馬翻譯:「IT問說沒有最新資料的會員要列出來給你們嗎?」
需求單位:「不用。」
小馬翻譯:「不用。」
資料單位:「這句我聽得懂……」
這真的是很有趣的場面,有不少新人初次跟著我一同會議時對這種現象瞠目結舌,明明都是同一場會議的成員,明明講的都是中文,卻需要有人在中間協助翻譯。但你看看上面的內容,這能不翻譯嗎?
讓我們回頭瞧瞧需求單位原本第一句話的需求內容...
可以想像一下,如果沒有翻譯和釐清,這中間的往返對焦,甚至等到資料單位做完了,才發現不是需求單位要的內容。那是一件多麼沒有效率的事。
可能很多公司都有同樣狀況,需求單位跟IT單位一直有嚴重代溝,需求單位認為IT單位聽不懂需求內容;IT單位認為需求單位講不清楚需求內容。於是中間就產生了各種溝通耗時,明明幾天可以處理完的東西,耗上大半個月。很有趣的是,儘管我有從需求單位轉成IT單位的背景,但我對這件事的看法,從未變過,縱使我身在IT部門,也還是這麼認為:
協助需求單位釐清他們的需求,是IT單位的使命和責任!