iT邦幫忙

2023 iThome 鐵人賽

DAY 1
1
AI & Data

資料分析的硬體以及軟體學習以及成長心得系列 第 1

成為數據分析師前我希望可以早一點知道的6件事

  • 分享至 

  • xImage
  •  

近年我從財務分析經理轉職成為了數據分析師。在轉職之前,我通過參加專業培訓營、學習會,以及取得數據庫管理證書作為轉行之前的準備。我想像著跳入新職業時,可以憑藉著從前的工作經驗(作為數據庫的Super User)和學校中獲得的知識,能夠充分準備好。然而,現實與理想不同調。

數據科學被譽為近期的“熱門”領域,很多人可能跟我一樣 正在考慮要不要轉行,我希望與大家分享6件在轉行之前,我可以早一點做準備的事:

  1. 你仍然需要清理數據(有時需要手動)
    在擔任財務報告經理時,我最討厭的手動任務之一就是清理所有數據,以消除所有成本編碼錯誤和輸入錯誤。現在作為數據分析師,我發現自己仍然需要識別拼寫錯誤、重複的詞語(例如: 單詞末尾的多餘“s” 或大小寫)、模糊的分類和空白欄(blank)。 其實,這是一項重要的工作,因為這樣能讓你更深入了解數據質量,甚至可已發現公司流程中更深層次的問題,比如缺乏數據完整性流程及其意識。

  2. 不斷的學習是工作的一部分
    在會計方面,你就背好一套規則,之後你就可以根據公司的業務流程和現金流量套用一樣的規則。 在數據分析中,你會遇到許多關於數據處理的細節的不同處理方法,有時候我會還是會發現我的團隊同仁在使用我從沒聽過的工具和流程。我從學校學到的所有工具和知識已經是舊知識,而新的流程和工具不斷地出現。
    雖然這可能讓人不知所措,但同時也很令人興奮,可以每天都挑戰自己多學習多吸收。

  3. Python 強大但千變萬化
    我以前學過 Python,也在私人時間裡也研究過一段時間。當我真正開始工作時,我意識到 Python 的深度和廣度,不僅是數據分析工具,還可用於 ETL 和自動化。然而,由於它是開源的且千變萬化,一些我經常使用的模塊/代碼被廢棄,有時我不得不手動返回並修改一些我依賴於自動運行的腳本,以避免錯誤信息。
    我希望我之前能更加了解Python的環境和版本控制,以避免最後一刻不得不更新腳本以刪除舊的/不可用的模塊/代碼。

  4. 數據結構和數據類型的基礎
    我希望我在數據清理過程中花更多時間了解不同的數據結構/類型,例如:
    數據結構:數組、字典、數據框(dataframes)、列表 等
    數據類型:整數、浮點數、字符串、日期、日期時間 等

  5. 星型架構 vs Multi Fact Table
    星型架構 (star schema) 這是我在 BCIT 拿數據庫設計和管理證書時學到的關鍵詞之一。我記得對將數據拆分成維度表和重新連接到一個單一事實表(交易)感到驚訝。
    然而,實際工作上,我遇到了多個Fact Tables,因此不得不重新調整我的星型架構思維,以更多地跨多個星型架構進行鑽取。我必須承認,我現在仍在努力尋找適合我的數據模型的理想架構。

  6. 數據敘事對於商業智能至關重要
    在跳入數據科學領域之前,我想像自己能夠利用商業智能工具中豐富的視覺資源,為我的公司製作一個視覺上吸引人的儀表板。
    在使用 PowerBI 開發視覺化儀表板後,我意識到數據可視化更多地關乎如何選擇最佳的可視化方式,以展示你想要向觀眾展示的“故事”。有時候,就像寫作文一樣,你要去想像如何用最簡單的圖表去說這個故事。

在數據分析上,不只是技術上需要不斷地學習,也要拉回到數據分析應該要幫助你理解所謂的Big Picture (總括的大方向).

Reference:
https://iterationinsights.com/article/star-schema-still-relevant-almost-30-years-later-2/


下一篇
數據結構和數據類型的基礎 (1)
系列文
資料分析的硬體以及軟體學習以及成長心得30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言