iT邦幫忙

0

GKE Node 硬碟爆掉問題,及什麼情況會被輸出到 stdout

  • 分享至 

  • xImage

這一年發生兩、三次 GKE Node 硬碟爆掉,把 Pod 驅逐事件
目前 GKE 每個 Node 都是開 200G 的硬碟空間,但疑似 Pod Log 成長導致空間使用爆掉
但在 Pod 被驅逐前有檢查 Pod 僅使用 4G,驅逐時提示

Message:        The node was low on resource: ephemeral-storage. Container fluent was using 84Ki, which exceeds its request of 0. Container Pod was using 4252716Ki, which exceeds its request of 0.

符合進 Pod 查看的使用空間,但被驅逐重啟後卻釋放了 100G 空間,估計實際佔用是存在 Node 裡,詢問過一說法是 log 輸出到 stdout 會實際吃掉 Node 空間,Pod 裡看不到
想詢問要怎麼去限制或清理?謝謝(這邊也會同時縮減 Log)
另外想問什麼情況下會輸出到 stdout,即便在 Pod 內下 gcloud logging read 後做一些篩選輸出到 log.txt 裡,之後再 cat 出來做一些操作,也會佔用 Node 空間導致爆掉

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
Ray
iT邦大神 1 級 ‧ 2022-10-21 14:45:02

沒有設定之前的預設行為:

GKE container logs are removed when their host Pod is removed, when the disk on which they are stored runs out of space, or when they are replaced by newer logs. System logs are periodically removed to free up space for new logs. Cluster events are removed after one hour.

你可以透過 Cloud Operation 整合工具, 將 Log 重導到 GCP Cloud Logging 儲存區去:
https://cloud.google.com/stackdriver/docs/solutions/gke/installing#installing

vicentli iT邦研究生 4 級 ‧ 2022-10-21 15:33:10 檢舉

雷神大您好,目前都有導到 Cloud Logging,但 Node 還是爆掉。邊詢問廠商中,謝謝回覆
https://ithelp.ithome.com.tw/upload/images/20221021/20094721DlGJYjITKH.jpg

我要發表回答

立即登入回答