iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
Kubernetes

異世界生存戰記:30天煉成GKE大師 系列

這系列文章帶領讀者深入淺出 Google Kubernetes Engine (GKE) 的世界,從基礎的網路連線與 Terraform 基礎建設建立開始,逐步建構一個穩固的容器化環境。文章涵蓋 GCP 的域名解析、身分驗證 、服務網路,以及安全性議題 。
文章更進一步探討進階工具與應用,如 API Gateway、安全遠端連線 (Teleport)、外部秘密管理 、網路儲存等。最後,文章也搭配了今年最火紅的 Ai,涵蓋 GPU 運算 ,提供讀者全方位的 GKE 實戰經驗。

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day21 資源不夠使用了,調用一些魔力給它吧! Kueue(一)

前言 Kueue 是一個基於配額共享的作業排隊系統,用於管理配額以及作業如何使用配額,尤其適用於像機器學習模型訓練這類資源密集型的工作負載。Kueue 決定何...

2024-10-05 ‧ 由 Andrew Chen 分享
DAY 22

Day22 資源不夠使用了,調用一些魔力給它吧! Kueue(二)

前言 上一章節,我們已經學會了基本的 Kueue 配置。而本章節將深入探討 Kueue 的運作機制,並闡述其如何透過配額管理來確保不同團隊或用戶之間的公平性,...

2024-10-06 ‧ 由 Andrew Chen 分享
DAY 23

Day23 在 GKE 異世界中掌控深度學習之力 - Training model

前言 前一章節,介紹了 Kueue 配置,經常在機器學習的訓練領域使用到。而本章將深入探討如何在 Google Kubernetes Engine (GKE)...

2024-10-07 ‧ 由 Andrew Chen 分享
DAY 24

Day24 GKE異世界:LLM 的 GPU 召喚儀式 x DCGM Exporter

前言 今年 AI 的蓬勃發展,特別是大型語言模型 (LLM) 的興起,對運算資源的需求大幅提升。執行像 Mixtral-8x7B 等複雜模型的推論(Infer...

2024-10-08 ‧ 由 Andrew Chen 分享
DAY 25

Day25 GPU 硬體層級切割魔法 Multi-Instance GPUs(MIG)

前言 昨天介紹了如何在 GKE 中使用 GPU 節點部署 Mixtral-8x7B-Instruct-v0.1 模型。然而讀者有沒有發現問題,部署過程中使用需...

2024-10-09 ‧ 由 Andrew Chen 分享
DAY 26

Day26 GPU 軟體層級切割魔法 Time-Slicing & MPS

前言 前一章節介紹了 Multi-Instance GPUs(MIG) ,屬於硬體層級的分割方法,隔離性強。那有沒有軟體切割法呢? 當然有,那就是 Time-...

2024-10-10 ‧ 由 Andrew Chen 分享
DAY 27

Day27 模型神速啟動!Local SSD 究極奧義,開啟 AI 推論的超次元通道

前言 在深度學習應用中,模型的載入速度和推理效率至關重要,尤其是在大規模部署和高併發場景下。直接從雲端儲存(例如 Google Cloud Storage,G...

2024-10-11 ‧ 由 Andrew Chen 分享
DAY 28

Day28 在 GKE TPU 異世界中轉職為詠唱師:Gemma LLM 部署實戰

前言 前面幾篇文章介紹了 GKE Nvidia GPU 的應用,今天將要介紹一個特殊硬體 TPU 的應用。將引導您如何在 Google Kubernetes...

2024-10-12 ‧ 由 Andrew Chen 分享
DAY 29

Day29 GKE 艦隊大軍集結:串連跨區域高可用多集群服務

前言 在現代雲原生應用程式中,跨多個 Kubernetes 叢集部署和管理服務變得越來越普遍。Google Kubernetes Engine (GKE) 提...

2024-10-13 ‧ 由 Andrew Chen 分享
DAY 30

Day30 GKE 異世界之旅後記

在此恭喜各位!經過這 30 天的 GKE 生存戰記系列文章,我們終於煉成GKE大師了! 前言 穿越到 GKE 異世界也到了第 30 天了,在 GKE 異世界...

2024-10-14 ‧ 由 Andrew Chen 分享