iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 9
5
AI & Data

AI無法一步登天,讓我們先從專有名詞定義開始。系列 第 9

資料分析(Data Analysis) -1.定義

步驟B-4:資料分析(Data Analysis)

針對【清洗乾淨且依照料理所需準備的食材】做料理
針對【清洗乾淨且依照分析需求做出的資料】做分析

終於,我們要把辛辛苦苦準備好的蘿蔔和排骨下鍋了!
事實上,光是這個步驟,就有讓人寫上好幾本書的潛力,呼~還好小馬先畫地自限,本系列只先針對專有名詞去著墨。

食材準備好之後,能做的事情非常多,先以最簡單(姑且不論美味與否)的蘿蔔排骨湯來談,就像是針對交易資料,只需要彙整出當月業績、銷售商品類別各自佔比、當月交易人數,看看是否有成長,與上個月相比、與去年同月份相比等等,這樣簡單。這小學生程度就能做到。縱使如此,這同屬於【資料分析(Data Analysis)】領域。

分析方法由淺入深,從新手到老手,方法非常多,並不因為難易等級,而有簡單的分析不叫分析、困難的分析才叫分析這種區別。

如果想進行比較難的料理,例如蒜香蘿蔔燉排骨,嗯......這就使用了比較高級的手法,在資料分析領域,大概就是迴歸分析一類的大學統計學會教的內容。由此可知,系列文Day1提及硬塞科技(Inside)文章裡說的六種分析:

1.分類分析(Classification)
2.群集分析(Clustering)
3.迴歸分析(Regression)
4.時間序列分析(Time Series Analysis)
5.關聯分析(Associative Analysis)
6.順序型態分析(Sequential Pattern Analysis)

要我歸類,這並不單純只屬於【資料採礦(Data Mining)】、而是mining後的下一步【資料分析(Data Analysis)】才更為正確。畢竟,上面六種分析方法都冠上了「分析」二個字了不是嘛!而且透過上述分析方法能得出的結論,已經到了可以執行操作的地步了,怎還會只停留在「探勘」、「採礦」呢?

你鑽石都做出來了啊!還說自己只在採礦?
也太謙虛了吧......

當然,資料採礦的目標,視使用者下一步要做什麼而定,甚至,資料採礦完的資料,只能讓某個分析方法使用。因此在這例子上,【資料採礦(Data Mining)】和【資料分析(Data Analysis)】二者是密不可分的,這也是小馬認為目前大眾容易混淆之處,覺得好像講Mining也說得通、講Analysis也說得通,但小馬仍建議了解箇中奧秘,未來一旦自己執行操作,才會清楚自己正在處在哪個領域,及自己做這件事的目標為何?這是釐清專有名詞的重要目的。

話說回來,我們講得極端點:

跳過資料採礦,你能不能做分析?當然可以!當然可以把原始資料來做簡單直覺地分析。就像是把整隻豬和整根蘿蔔丟進女巫大鍋裡煮,只要有煮熟,能不能吃?當然可以吃!

做完資料採礦,能不能不做分析?當然也可以!還記得下面這張圖嗎?除了分析,採礦完的資料還有很多出路(第三天的資料匯入(Data EL)有出現過)。還記得我提過某種推薦商品的背後運作模式只停留在資料採礦嗎?
https://ithelp.ithome.com.tw/upload/images/20181003/20111566SqzFHurNgc.png

由此可知,【資料採礦(Data Mining)】和【資料分析(Data Analysis)】並不是非得綁在一起不可,但多數狀況下,資料分析所需要使用的資料,都必須經過資料採礦才能得到。

接著,小馬將會針對這6種分析做簡單的說明。
如果你已經是個數據分析大師,接著兩三天,看番外篇就好。(喂!!)



數據分析 番外篇1

在我們分析工作裡面,最常需要被分析的主題是【XXX有沒有成效?】

而這是一個……會得罪很多人的工作……

我們很常看到類似以下的分析結論:
「這次發的EDM(廣告Email),經追蹤有10%的人後來有購買,EDM成效不錯。」
「這次進行的週年慶促案活動,增加了兩萬個新會員,可見活動效益很高。」

如果你一眼能看出上面兩句話的問題所在,恭喜你,你完全是不折不扣的大壞蛋…呃不是…數據敏感度很高的人、或你根本就是這領域的同行;如果覺得「沒問題啊!」的也不用灰心,至少你不需要扮黑臉,也不用昧著良心講些粉飾太平的話。

關鍵在於「比較基準」。

10%購買率如何得知「有成效」?如果在三個月內會回購的會員本來就是10%,那這群人來買,也只是剛好而已,而不是因為有發EDM。縱使沒發,他們本來就也會來買,除非現在正常的回購率只有1%,結果因為EDM,而有10%回購率,哇~快發獎金給執行此案的人吧!
同理,增加兩萬新會員很多嗎?如果平常沒有周年慶,就已經會增加兩萬人了,那不僅只是更凸顯周年慶一點效果都沒有嗎?

但這很殘酷啊…人家可能一整個部門,甚至幾個部門,幾個月下來都為了這檔活動做準備,而結論你要跟他們說,「一點效果都沒有」嗎?

小馬論文是做「自願揭露理論」,意指:

透過一個人主動揭露的資訊,可能帶出背後他沒有揭露的隱藏資訊

什麼意思呢?

如果現在正常狀況是1%回購率,發了EDM有10%,那這個人做結案報告的時候,肯定會提到,「平常只有1%回購率,但經我們發了EDM,暴增到10%呢!」但是一旦他只提了10%,卻沒有提到正常狀況下是多少,那麼,你大概可以猜測,這10%和正常狀況其實相去不遠,甚至可能沒有比較高……

更進一步,你可以推敲出,實際上,報告的人想要隱瞞「無效」這件事。

有時候我在會議裡,正在報告的行銷部門同事人也很好,平常我們互動也還不錯,有好吃的大家都會分,偶爾還會一起吃飯、揪團購......。但我的角色是數據分析者,現在老闆轉頭問了句:「小馬,你覺得呢?」你要知道,那是多麼天人交戰的事。

「在平常,新增的會員數大概就是兩萬人。」這句話,要說,還是不說呢?


上一篇
資料採礦(Data Mining) -4.小結
下一篇
資料分析(Data Analysis) -2.分群(分類)
系列文
AI無法一步登天,讓我們先從專有名詞定義開始。31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言