iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 10
0
Elastic Stack on Cloud

ES 新手,破門而入!!!系列 第 10

【ES新手,破門而入!】Day10 - 眼見為憑!Observability 基礎之趴特佛

  • 分享至 

  • xImage
  •  

你可以學到?

今天,我們繼續把剩下 Observability 官方教學文件讀完吧!

本篇的主題包含有:

  1. Metrics
  2. APM

那我們就開始吧!

Metrics

Logs vs Metrics

日誌(Log)和指標(Metric)間有一些相似之處,例如都是時間序列的資料、包含關鍵字,但是這兩者卻有根本上的差異。

指標著重在資訊的週期性測量,讓我們可以了解系統的狀態如硬碟空間、CPU使用率等等。

而日誌是某件事情發生在特定時間的紀錄,並沒有排程的概念在裡面。

下圖是兩種資料的例子:

時間戳記(Timestamps)

在上面的例子,我們可以看到其中已經有用到時間戳記的資料格式,在使用時間戳記的時候有幾點值得一提:

  • Elasticsearch 採用 ISO-8601 的格式
  • 時區是被包含在時間戳記中
  • Kibana 可以轉換成用戶本地的時區

在上面的兩個時間戳記例子中,第一個時間戳記格式並沒有包含時區的資訊,它有可是在地球的任一地方產生的,這樣對於後續分析很有可能會造成困擾與問題;而第二個時間戳記後面,Z-0400,這部分告訴了你時區的資訊,在這個例子就是紐約

在 Elasticsearch 中,建議時間戳記的格式需要包含有時區的資訊,才不會造成後續分析的麻煩。

指標的生命週期

指標的生命週期一般來說可分成六個階段:排程、傳送、處理與儲存、搜索與分析、封存與清除,如下圖示:

有注意到嗎?第一階段凸顯了指標和日誌的不同,日誌並沒有排程的概念,但是指標有,是週期性的測量資料。

Metricbeat

Metricbeat 是一種便於處理指標資料的工具,只要會產生指標的地方都可以使用它,它可以幫助你將指標傳送到 Elasticsearch 分析,並搭配 Kibana 做視覺化。

APM

什麼是 APM?

APM 的全名是 Application Performance Monitoring(應用程式效能監控),是用來回答下面兩個主要的問題:

  • 應用程式要花多久時間來答覆請求(request)?
  • 應用程式遇到什麼種類的錯誤?

為什麼要 APM?

APM 幫助我們找到整個應用程式服務花時間的地方,其紀錄軌跡包含有資料庫查詢、外部 HTTP 請求和其他發生在請求期間服務緩慢的操作,這樣讓我們可以更容易除錯、找到系統中的問題

APM 是如何運作的?

APM 的運作模式如下:我們會先安裝 agent 在各個應用程式中,而這些 agent 會追蹤各個應用程式收到的請求。

接著 agent 會收集資料並送到資料處理器,資料處理器就會把這些資料作轉換,變成可以儲存的文件格式,送往資料儲存的地方,當資料儲存在一個地方後,就可以透過使用者介面,來視覺化資料並加以分析。

Elastic APM 組件

Elastic APM 是由下列 4 個組件所構成:

  1. APM Agents
  2. APM Server
  3. Elasticsearch
  4. Kibana

彼此連接的架構關係如下圖:

資料模型

那麼什麼樣的資料 Elastic APM agents 會收集並送到 APM server 呢?可以分為下列四種:

  1. 跨度(spans)
  2. 交易(transactions)
  3. 錯誤(errors)
  4. 指標(metrics)

跨度(Span)

跨度含有一特定程式路徑被執行的資訊,其測量一個活動從開始到結束,且跨度可能和其他跨度有 parent/child 的關係。

一個跨度包含了:

  • 一個 transaction.id 屬性可對應到 parent transaction
  • 一個 parent.id 屬性可對應到 parent span 或 transaction
  • 開始時間和持續時長
  • 名稱
  • 種類

交易(Transaction)

交易是一種特殊的跨度,其有額外的屬性,它描述了由檢測應用程式的Elastic APM agent 所捕獲的事件。

你可以把交易想程式你在一個應用程式中測量工作的最高層級,更具體地來說,一個交易可能是一個:

  • 對伺服器的請求
  • 批次工作
  • 背景工作
  • 客製化交易種類

一個交易包含了:

  • 事件的時間戳記
  • 一個獨有的 ID 和名稱
  • 紀錄事件下環境的資料(服務、host、process、URL、user)
  • 根據 agent 的其他相關資訊

軌跡(Trace)

交易和跨度一起,構成了軌跡,軌跡並不是事件,但它將相同根源的事件分群,如下圖:

錯誤(Error)

一個錯誤事件包含了關於原始例外的發生或者當一日誌產生時發生的例外資訊,為了簡單起見,錯誤通常會用一個獨有的 ID 代表。

一個錯誤包含了:

  • 捕獲到的例外和日誌會包含一個 stack trace(除錯很有幫助)
  • culprit 代表從哪邊來
  • 可能會在交易中發生,所以會有個 transaction.id
  • 紀錄事件下環境的資料(服務、host、process、URL、user)

下面是一個捕獲例外的 stack trace 例子:

指標(Metric)

APM agent 自動挑選基本的主機層級指標,包含有系統和程序層級的 CPU 與 memory 指標。

今日心得與短結

呼~總算是結束 Observability 的篇章啦!明天可以繼續進入更深入的部分了~

今天我們詳細地了解 Metrics 和 APM 的概念,包含他們的資料格式長什麼樣,內容物會有什麼東西,明天我們就要再進入更詳細的介紹 Logs 的部分了!一起加油吧!!!


上一篇
【ES新手,破門而入!】Day9 - 我見故我在!Observability 基礎之趴特睡
下一篇
【ES新手,破門而入!】Day11 - 深入 Logs 之趴特A
系列文
ES 新手,破門而入!!!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言