iT邦幫忙

2023 iThome 鐵人賽

DAY 7
1

Day 1 有說明 30 天的文章,我打算分三個部分,前面 6 天講完個人,現在開始聊團隊。

建立團隊 👫

Day 3 的文章,我提供一些選擇 data stack 的想法,可以參考來挑選適合你的。

我的經驗只有在小型公司,有限的人手跟預算,所以多數選用 open source 像是 airbyte, dbt 跟 Metabase 看哪些工具團隊容易上手。所以從來沒用過 Looker 或 Tableau 💸.

來到 v3.1 版的 data stack,
v3.1

沒有打算 hire 新人,而是在公司內尋找適合的同事組成 data team. 參考我在 Day 5 提到 dbt 的 What is Analytics Engineering, 組成有一位工程師,熟悉 Python 跟 JavaScript, 以及一位 PM 我,來負責 Analytics Engineer + Data Analyst 的工作。同時有一位外部顧問,擔任 Data Engineer 協助架設環境,包含 dbt project 等。

https://ithelp.ithome.com.tw/upload/images/20230921/20160643vfjr0mFLzf.png

我們有討論過如何分工、該怎麼合作,以釐清各自的守備範圍,確保沒有人掉球,也讓工作起來更順利。一次討論是不夠的,其實會一直持續調整。

以當時的情況,不太需要請一位全職的 data engineer,因為資料源不多,串完之後的維護也不會太複雜,當然一開始串資料會比較多事情,之後就還好。

組隊的時候,考慮你需要處理的資料源有多複雜、量多大、需要多即時,以及你需要團隊成員熟悉哪些工具或知識,這個團隊的目標是什麼?這點尤其重要,不要覺得 Data 是金礦就想成立 data team, 具體這個金礦是什麼?為什麼覺得 Data 是金礦?到底想挖什麼出來? 👀 都要事先想清楚 (或者公司想繳學費也很好~ )

形塑 data 文化

基於公司多數人對於 spreadsheet 有一定的熟悉程度,我當時認為 data team 可以協助減少手工業的資料計算跟複製貼上,希望讓蒐集到的資料都能更好的被使用,因此一開始就把所有資料源都串進來。

也很感謝 founders 的支持,共同期待 data team 可以讓每個人都容易取得資料、方便使用,有這麼好的基礎跟支持,data team 希望協助團隊提升資料素養 data literacy, 讓資料可以幫助商業決策 make data-informed decisions.

分享一些成功

快速有效的起頭

外部顧問非常有經驗,這已經是第二次導入, 他有在 dbt Taipei Meetup 分享兩次導入 dbt 的經驗

還有參考 dbt 的 Best Practice Guides 來決定 data model 的架構,例如 stg 跟 mar

這導入過程,有點像是逆向工程的去對出資料源跟 data catalog. 把資料源跟 transfromed 過的資料都寫清楚文件,弄懂經年累月後的調整痕跡跟現在採用什麼,才第一次把我們的資料弄清楚。過程中,發現滿多口耳相傳的誤解跟迷思。例如,一直以為 Table A 是 users 資料,結果發現我們有多個 tables 來比對 customers 跟 users.

被早期使用者迅速採用

有兩個同事,在我們剛架好 Metabase 還沒有提供教學,自己摸一摸就組了 dashboards 出來。給我們強大的信心 想說其他同事很快就可以開始使用,然後就可以自助取用資料。 (完全是個誤解)

面臨的挑戰

完全不建議一開始就把所有資料源一次處理好 🙅‍♀️。結果光是串完源頭,開始處理主要的線上資料就花掉一大把時間,釐清商業邏輯、跟大家對齊指標的定義跟計算,還有決定、調整 data models, 希望 staging models 可以被複用… 等等,根本無暇顧及次要資料。也發現其他第三方資料,其實不用做太多處理,大家使用的很單純,有些根本從第三方後台直接下載 csv 就看完,不需要 data team 再幹嘛。所以一年後,就把沒有建 model 的資料源都斷掉了,節省資源。

大部分的人都不是早期使用者(有點廢話 😅)。我們以為可以建構 self-service 取用資料,結果完全不是這樣。6 個月後我做了一個調查,才發現雖然一開始有兩位很棒的資料使用者很快就上手,但其實就只有這兩位,他們代表了 2.5 % 的 tech enthusiasts. 大部分的資料使用者都是 pragmatists 實用主義者,希望等到乾淨、清楚且簡易的使用方式才會開始使用。

6 個月的調查結果

🗣️ 想知道整個問卷的來龍去脈?請參考我在 Coalesce 2022 的分享 “How to build data accessibility for everyone

才正要開始

我們有個不錯的開始,第一次有完整的 data catalog 跟說明,例如,對齊了大家的一週都要從週一開始,以前有些人是週日、有些人用週一,像這種很小的對齊也是一種進步。

這都只是剛開始。大家都很期待 data team 會帶來什麼、統一的資料源後會提供什麼價值?

接下來的文章,我想一一說明我遇到的挑戰,希望能夠把踩過的坑 🕳️ 給你參考,雖然有時候還是要自己踩一下才會學到。


對 dbt 或 data 有興趣 👋?歡迎加入 dbt community 到 #local-taipei 找我們,也有實體 Meetup 請到 dbt Taipei Meetup 報名參加


上一篇
享受探索資料的樂趣 💃🕺 - Day 6
下一篇
Data Team 也是 Product Team - Day 8
系列文
被 dbt 帶入門的數據工作體驗 30 想30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言