第十六屆 佳作

ai-ml-data
資料決策時代:從零開始打造公司數據引擎與決策文化
郭家良

系列文章

DAY 1

前言-開始的故事

在2017剛加入公司時,資料科學正在準備盛行起來,我們公司是比較少見的在一開始就具備獨立資料團隊,配置是兩位成員,一位較偏向數理統計背景,另一位則是我,資訊出身...

DAY 2

資料工程的概念與目的

資料工程的概念 資料工程的概念其實很簡單,就是儲存 → 轉換/轉移 → 再儲存,白話文就是把資料從A搬到B,所以需要A水槽、水管、B水槽以及怎麼讓水跑起來。...

DAY 3

交易與分析需求的查詢差異:OLTP 與 OLAP

開始思考的背景 剛開始到公司的時候,我們只有 MySQL 系統使用的資料庫,撈資料也是直接用 R 連線到 Production Database,憑藉著大學和...

DAY 4

Row-based 與 Columnar Database

前言 其實簡單來說,就如名稱一樣,Row-based Database 就是以列為單位儲存, Columnar Database 就是以行為單位儲存。 看圖最...

DAY 5

MySQL 關聯式資料庫(一):資料表的設計, ERD、轉換資料表與正規化

前言-為什麼要更了解 MySQL 在進入 OLAP 的設計探討之前,我想先再多聊聊 MySQL 關聯式資料庫的核心概念,你必須先掌握 OLTP 遇到了什麼問題...

DAY 6

MySQL 關聯式資料庫(二):Index、B+Tree 與 SQL 查詢優化

前言 上一篇用比較精簡的方式介紹了一個好的資料表的設計,接著來聊聊 MySQL 的系統結構以及如何做SQL 查詢的優化。 儲存結構 如果你對於電腦的執行有些...

DAY 7

OLAP: In-memory Computing vs. In-database Computing

前言 隨著近年來處理、儲存和分析數據的需求顯著增加,尤其在大數據的增長下,組織必須能快速處理並分析大量數據,以便做出明智的決策並保持競爭力。這就是OLAP計算...

DAY 8

Data Pipeline: ETL vs ELT

前言 前幾篇的基礎都是希望能幫助你在data pipeline的設計能有更多元角度的決策判斷,在做架構設計我認為最重要的是你有多少力氣去做維護、優化,不是導入...

DAY 9

Data Orchestration: 水要怎麼流-Airflow

Data Orchestration 資料處理就像是一個自來水處理系統,你有上游水的來源,有要輸送到終點的家家戶戶、工廠,中間有許多大大小小的資料轉換、要整合...

DAY 10

Data Warehouse的三層式架構

前言 資料服務的架構大致在前面幾篇都介紹完了,這篇算是來把前面的大元件的關係、服務設計做一個統整收尾,今天會先簡單介紹資料倉儲的三層式架構,然後再跟大家分享我...