實現資源最大化：如何高效優化Kubernetes集群規模

lke kubernetes

Akamai 2024-09-29 17:46:18 ‧ 749 瀏覽

分享至

本文將介紹在編寫代碼之前，該如何為Kubernetes集群選擇最佳節點。

個性化IaaS服務，低至0.005 美元/GB的出站流量費！

每當我們需要創建Kubernetes集群時，肯定首先都會問自己：我該使用什麼類型的工作節點？
具體需要多少個？或者如果正在使用Linode Kubernetes引擎（LKE）等託管式Kubernetes服務，
那麼我們到底該使用8個2GB的Linode實例，還是2個8GB的Linode實例來實現您所需的計算能力？
畢竟需要明確的是：並非所有工作節點中的資源都可以用於運行工作負載。

消除複雜性、提高創新力！Akamai 雲計算服務，靈活的開放式架構，簡化開發體驗！
Kubernetes節點預留

在Kubernetes節點中，CPU和記憶體會被劃分給：

作業系統
Kubelet、CNI、CRI、CSI（和系統守護程式）
Pod
驅逐閾值

用一個例子來看看。假設有個只有一個Linode 2GB計算實例的集群，或者說有1個vCPU和2GB的記憶體。那麼以下資源會被保留給kubelet和作業系統：

500MB記憶體。
60m的CPU。

此外，還有100MB記憶體為驅逐閾值保留。

目前，我們有 30% 的記憶體和 6% 的 CPU 無法被工作負載使用。
每個雲提供商在資源限制方面各有差異，但在 CPU 使用限制上，他們似乎達成了共識：

第一個核心的6％；
下一個核心的1％（最多2個核心）；
接下來的2個核心的0.5％（最多4個）；以及
四個以上核心的0.25％。

至於記憶體方面的限制，不同提供商之間有很大的差異。但一般來說，記憶體的預留往往遵循以下限制：

前4GB記憶體的25％；
接下來4GB記憶體的20％（最多8 GB）；
接下來8GB記憶體的10％（最多16 GB）；
下一個112GB記憶體的6％（最多128 GB）；以及
超過128GB的任何記憶體的2％。

既然知道了工作節點內資源的分配方式，現在該問出一個棘手的問題了：我們應該選擇哪種實例？
由於答案因具體情況而異，我們需要根據工作負載的實際情況來選擇最佳工作節點。

剖析應用程式

在Kubernetes中，我們有兩種方法來指定容器可以使用多少記憶體和CPU：

請求：通常與正常操作時的應用程式消耗量相匹配。
限制：設置允許的最大資源數量。
Kubernetes調度程式使用請求來確定在集群中分配Pod的位置。由於調度程式不知道消耗情況（Pod尚未啟動），
因此它需要一個提示。這些“提示”就是請求；我們可以為記憶體和CPU分別設置請求。

kubelet使用限制在記憶體使用超出允許範圍時停止進程。如果使用的CPU時間超過允許的範圍，kubelet也會限制該進程。但是，該如何選擇適當的請求和限制值呢？

我們可以測量工作負載性能（例如平均值、95和99百分位數等）並將其用作請求和限制。為了簡化該過程，可以通過兩個便利的工具來加速分析：

Vertical Pod Autoscaler
Kubernetes Resource Recommender
VPA會收集記憶體和CPU利用率資料，並運行一個回歸演算法，為我們的部署建議請求和限制。這是一個官方的Kubernetes項目，也可以用於自動調整值：我們可以讓控制器直接在YAML中更新請求和限制。

KRR的工作原理類似，但它利用了我們通過Prometheus匯出的資料。作為第一步，工作負載應該被配置為將度量資料匯出到Prometheus。一旦儲存了所有度量資料，就可以使用KRR來分析資料並建議請求和限制。