iT邦幫忙

2024 iThome 鐵人賽

DAY 4
1

如果有人曾經在 104 上搜尋過資料分析師、資料工程師等職缺,一定會常常看到需要有處理 complex dataset (複雜數據集)或是「大數據」分析等經驗的要求。看到這些詞彙時,我常常有下面的疑惑:

所謂的複雜是多複雜,如果用到非結構化資料就算是複雜了嗎? 但很明顯這只是個商業資料分析的職位耶!?那大數據的大又是多大呢? 1T, 100T, 1000T ? 大數據分析跟數據分析真的有什麼本質上的差別嗎? 這些疑惑總是盤旋在我心中,揮之不去。

之後我在 coursera 上看到一個說法,多少算是解答了我心中的疑惑。 孔令傑老師在他的《用 Python 做商管程式設計》曾說:「如果我純粹用交易資料來做分析的話呢,我們一般不稱它為大數據分析的,因為這數據量其實很小。⋯⋯。如果我們要說我們在做大數據分析的話呢,大體上來說,我們至少要 用行為資料。什麼是行為資料呢?也就是沒有真正完成交易 之前人們做的事情,那才叫行為資料。」

除了數據量以外,這段話對我來說更大的啟發是,資料來源變得更多了,能觀察到的事情 (業務流程)也變得更多了。

舉例來說:7-11的交易量 一定比 OK 多很多,因此如果只看交易這個業務流程,7-11 的數據量肯定比 OK 多很多。但假如 OK 的數位轉型比 7-11 早得多,因此開始搜集消費者在門市內的「逛街路徑」並將其納入分析範圍。從商業分析的角度來看,說不定反而是 OK 比起 7-11 更貼近大數據。

對分析師來說 (對工程師來說就不是這樣了),大數據之所以是大數據,主要是因為在數位化的浪潮下,企業組織能收集到的不再只有交易當下的資料,更多了在交易前(以及交易後)詳盡的「使用者旅程」資料 (或是招募流程的數位化、製造業的零組件紀錄、進出貨的影音紀錄等等增料)。也因為算力越來越便宜,能夠用越來越複雜的統計模型進行分析。當能收集到資料的業務流程越來越多,單一流程可以套用的統計分析方式也越來越多時,自然讓人感到眼花撩亂,也就需要分析師將如此龐雜的資料以及資訊做出梳理。但從最單純的角度來說,分析最終還是回歸到:

  • 重要的流程有哪些,該觀察哪些指標才能確保這些業務流程正常運作。(商業智慧)
  • 流程與流程之間,是不是會交互影響呢? 有哪些因子會影響這些業務流程呢?(數據分析)

下一篇將介紹業務流程與指標之間的關係。


上一篇
Day 3 - Data-Driven 與 Data-Informed
下一篇
Day 5 - 業務流程與指標 (一)
系列文
華人市場資料打撈師求生指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言