Cloud Monitor
如果使用了GCP平台,要如何捕捉以及監控錯誤,我想大概多半會使用Cloud Monitor,今天就來看看如何使用Cloud Logging Cloud Monitor監控GKE,GCE機器上面的一些資訊。
Stackdriver
Stackdriver滿像是Grafana的一個工具應用,是GCP鑲嵌在Cloud Monitor中用來Metric一些硬體上面流量上面的監控,那當然如果需要使用Cloud Monitor呈現,那就是要先去安裝Agent。
-
GKE
- 如果是使用了GKE當你建立起叢集時即可選擇是否勾選Cloud Logging以及Cloud Monitor若有勾選Cloud Logging他會在建立起叢集時在kube-system上面apply Stackdriver Agent這部分就會比較直覺簡單。
-
VM執行個體
- 若要在VM執行個體安裝Agent就比較與GKE不同,他沒有使用內建當建立起執行個體時一並去安裝,而是需要額外的去安裝它:
curl -sSO https://dl.google.com/cloudagents/add-logging-agent-repo.sh
sudo bash add-logging-agent-repo.sh --also-install
- VM 執行個體上執行下列指令,重新啟動 Monitoring 代理程式。
sudo service google-fluentd restart
sudo bash add-logging-agent-repo.sh --uninstall
使用Cloud Monitor
- 當你完成以上步驟可以在Cloud Monitor上查看到你所監控的GKE,GCE機器上基本資訊CPU MEM等。
- 綁定群組
- 建立警示政策
- 建立篩選Resource type Metric(情境:GKE的CPU)
- 選擇Filter項目(情境:cluster name = "XXX")
- 設定觸發條件(情境:CPU大於多少數值)
- 通知管道設定
- Email (推薦 最容易使用且不需做額外設定~)
- Webhooks
- Slack
- PagerDuty
- SMS