iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
DevOps

被稱作Server Restart Engineer的我,也想了解如何實踐可觀測性工程 系列

從Prometheus, Grafana再到ELK stack, 把工具都摸過一輪之後,發現自己侷限於工具的使用,卻沒有好好了解可觀測性工程是什麼?它又該如何在工作現場當中實踐?本系列文將從我們熟知的三本柱metrics, traces, logs出發,深入探討它們各自的價值與局限。接著進入OpenTelemetry的世界,不只學習怎麼用,更要理解它背後想實踐的可觀測性精神。最後,我們會討論如何選擇適合的資料儲存後端,以及如何從零開始規劃一個真正符合團隊現況的可觀測性系統架構。

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文 團隊動鼠做
DAY 21

Day 21 - 查詢效能優化:索引與分區策略

在 Day 18、Day 19、Day 20的文章中,我們設計了從 OTel Collector 到 S3 Table 的 data pipeline,不過,在...

2025-10-05 ‧ 由 Sophie 分享
DAY 22

Day 22 - 從 ClickHouse Exporter 看資料匯出架構:Factory Pattern 與 exporter 生命週期管理

前面之所以會需要設計從 OpenTelemetry Collector、API Gateway、Lambda、Firehose 一直到 S3 Table 之間的...

2025-10-06 ‧ 由 Sophie 分享
DAY 23

Day 23 - 從 ClickHouse Exporter 看資料處理流程:OTLP 到 ClickHouse 的轉換

昨天我們透過 ClickHouse Exporter 了解了 Factory Pattern 如何統一管理不同 signal 的建立,以及 start() 和...

2025-10-07 ‧ 由 Sophie 分享
DAY 24

Day 24 - 從 Gauge Schema 看 OTLP 到 ClickHouse 的轉換細節

昨天我們了解了 ClickHouse Exporter 如何透過三層迴圈展開 OTLP 的巢狀結構,並將不同類型的 metrics 分流到不同的 table。我...

2025-10-08 ‧ 由 Sophie 分享
DAY 25

Day 25 - 另一種架構思維,即時監控與 data lakehouse 的取捨

前面我們花了許多篇幅介紹 Observability 2.0 的理念,以及如何透過 Data Lakehouse(Parquet + Iceberg)建立 Si...

2025-10-09 ‧ 由 Sophie 分享
DAY 26

Day 26 - 使用 Grafana 將可觀測性資料視覺化

不知不覺鐵人賽已經進入倒數完結的階段,我們花了很多篇幅討論如何建立 Data Lakehouse 的架構、如何建立 data pipeline 來將 OTLP...

2025-10-10 ‧ 由 Sophie 分享
DAY 27

Day 27 - eBPF:kernel 層級的可觀測性

目前為止,我們建立了完整的 Observability 2.0 架構:從資料收集(OTLP)、儲存(Parquet + Iceberg or S3 Table)...

2025-10-11 ‧ 由 Sophie 分享
DAY 28

Day 28 - 使用 bpftrace 實現 eBPF 追蹤

昨天我們介紹了 eBPF 的基本概念,知道它可以透過各種 hook points 來追蹤系統行為。但面對 Tracepoints、Kprobes、Uprobes...

2025-10-12 ‧ 由 Sophie 分享
DAY 29

Day 29 - 將 eBPF 資料串接到 OpenTelemetry

前面兩天我們介紹了 eBPF 的追蹤機制,以及如何使用 bpftrace 快速收集 kernel 和 user space 的可觀測性資料。今天我們要完成系列文...

2025-10-13 ‧ 由 Sophie 分享
DAY 30

Day 30 - 結語

今天是參加鐵人賽的第三十天,意味著此系列文也將告一段落了。 回顧這三十天,我們從 observability 2.0 的角度來看可觀測性工程,了解了: 1. O...

2025-10-14 ‧ 由 Sophie 分享