可觀測性宇宙的第五天 - 第四種可觀測性訊號？ Profile

15th鐵人賽 kubernetes k8s grafana observability

mikehsu0618

團隊所以隊名要叫什麼

2023-09-20 11:55:24

2805 瀏覽

分享至

概述

在雲原生架構中，找出效能問題和不良的 CPU 使用率成了一個困難且極具挑戰性的過程。

隨著雲端環境越來越多元，使用者需要一種有效觀測手段，通常我們透過可觀測性三本柱：日誌（Loggs）、指標（Metrics）、軌跡（Traces），來加強應用服務和基礎設施的穩定性及效率，雖然這三本柱能提供大量有用的資訊，但他們仍無法呈現出系統的全貌。

接下來我們將探討為何持續剖析（Continuous Profiling）成為了這兩三年間，開始在可觀測性領域被人關注的焦點。

在可觀測性三本柱下的剖析（Profiles）

可觀測性不僅用於監測，而是讓我們能夠深入了解整個應用系統，幫助開發者及維護者探索已知和未知的「為什麼」問題，通常他們需要對於系統有深度的理解以及一定的廣度知識，尤其是在未知領域的部分，這正是剖析（Profiles）的價值所在。雖然日誌、指標、軌跡都提供有價值的洞察，但剖析（Profiles）能看到更深的層面，如資料結構和代碼的能見度。如果今天視察看一個應用服務的當前狀態，他可以是 Running 或者是 Waiting 之一，此信息可能在其他可觀測性訊號中，無法看到性能瓶頸和資源使用模式，而剖析（Profiles）可以在這裡可以被視為單一主件內的Ｘ光，負責便是那些發生在非常底層的問題，例如一個函數或程式碼路徑，甚至可以檢查和棄用未使用的代碼。

什麼是持續剖析（Continuous Profiling）

2010 年，Google 發表了一篇名為“Google-Wide Profiling的研究論文：

Google-Wide Profiling (GWP), a continuous profiling infrastructure for data centers, provides performance insights for cloud applications. With negligible overhead, GWP provides stable, accurate profiles and a datacenter-scale tool for traditional performance analyses.

可以看到自 2010年 Google 發表了論文後，直到了近幾年持續剖析領域才開始有了蓬勃生氣，多半是拜容器化、雲原生生態、Kubernetes 所賜，許多持續剖析服務也隨著其他技術領域的突破，逐漸完整了它的全貌。其中除了 Opentelemetry 這個統一遙測領域的公認標準之外，還有一項名為 eBPF 的 Linux 內核技術出現，使得它們成為了目前的熱門話題，eBPF 則是提供了一種非侵入式的方式，收集系統級別的資訊。

OpenTelemetry 社群在經過 KubeCon Europe 2022 的討論後，於2022 年 6 月成立了專門針對 Profiling 的 OpenTelemetry Profiling 工作團隊，而 Grafana 也在 2023 年三月收購了知名開源持續分析項目背後的公司 Pyrscope，並且和其去年推出的 Grafana Phlare 項目合併，並命名為 Grafana Pyrscope ，以展現 Grafana 想要將持續分析作為可觀測性的第四支柱的野心。

持續剖析（Continuous Profiling）可以拆成兩個部分來解讀：