iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
DevOps

新創視角下的 DevOps × AI 探索 系列

雖然身為一個新創公司的技術負責人,但我的背景其實更偏向前端、產品和生成式 AI,對於 DevOps 和後端工程 有些經驗,並不是專長。DevOps 對於公司產品是否能健康地持續發展,有很高的重要性:資源監控、穩定性、系統可維護性、成本控管,這些都直接影響產品著產品的迭代。另外,我也對於 AI 能在 DevOps 領域有哪些潛在的應用很感興趣。

因此,我決定透過 IT 鐵人賽來挑戰自己,用 30 天的時間,從 DevOps 基礎文化 → 常見工具與實戰 → AI 在 DevOps 的應用探索 → 未來趨勢展望,一步步學習並記錄下來,希望能激盪出更多想法!

參賽天數 9 天 | 共 30 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 9

Day 21: Helm 基礎:使用 Chart 管理應用

前言 在前一篇文章 Day 20:StorageClass 與動態供應 中,我們探討了如何透過自動化的方式來管理 Kubernetes 儲存資源。當應用越來越多...

2025-10-04 ‧ 由 kenneth1003 分享
DAY 9

Day 22. 資源限制與 QoS:Requests、Limits、Pod Priority

在 Kubernetes 的世界裡,Pod 是資源消耗的最小單位。當整個叢集同時運行多個應用時,如何確保每個服務都能穩定獲得所需的資源?這就是「資源限制與 Qo...

2025-10-05 ‧ 由 kenneth1003 分享
DAY 9

Day 23: Health Check 與自動修復:LivenessProbe、ReadinessProbe、StartupProbe

在上一篇中,我們談到了 資源限制與 QoS (Quality of Service),學會了如何透過 Requests 與 Limits 控制 Pod 的資源使...

2025-10-06 ‧ 由 kenneth1003 分享
DAY 9

Day 24: 水平自動伸縮 (HPA) 與垂直伸縮 (VPA)

一、前言:為什麼要自動伸縮? 在雲端環境中,彈性伸縮(Autoscaling) 是確保系統穩定與成本效率的重要機制。 想像一個電商平台在雙十一活動期間流量暴增,...

2025-10-07 ‧ 由 kenneth1003 分享
DAY 9

Day 25. Logging & Monitoring:結合 Prometheus、Grafana、ELK/Loki

一、前言:為什麼 DevOps 離不開 Logging & Monitoring 服務在 Kubernetes 上運行時,若沒有完善的監控與日誌系統,一...

2025-10-08 ‧ 由 kenneth1003 分享
DAY 9

Day 26:GPU 資源管理與調度

前言 在 AI 時代,GPU 就是新一代的生產力核心。 但在實際部署 LLM 或深度學習任務時,我們常遇到: GPU 成本高昂,卻因 Idle 導致浪費 GP...

2025-10-09 ‧ 由 kenneth1003 分享
DAY 9

Day 27:LLM 模型服務部署與版本管理

前言 在進行 LLM 相關專案時,模型訓練只是第一步。真正的挑戰在於: 模型體積巨大(動輒數十 GB) 推理需要 GPU 資源,成本高、資源稀缺 模型更新與回...

2025-10-10 ‧ 由 kenneth1003 分享
DAY 9

Day 28: LLM 推理的自動伸縮策略:讓模型服務在高流量下保持高效穩定

一、前言:為什麼 LLM 推理需要自動伸縮? LLM 推理的挑戰: 每次推理需要大量 GPU 計算資源,尤其是多 Token 的生成。 流量波動明顯(例如白天...

2025-10-12 ‧ 由 kenneth1003 分享
DAY 9

Day 29: 分散式訓練與模型微調

一、前言:從推理自動伸縮到訓練水平擴展 在上一篇我們聊到 LLM 推理的自動伸縮策略,解決了「模型在服務階段的彈性伸縮」問題。然而,模型要能被穩定部署之前,還得...

2025-10-13 ‧ 由 kenneth1003 分享

Day 30: IT 鐵人賽心得 - DevOps 與 AI 的 30 天挑戰

今天是 IT 鐵人賽的最後一天,我想回顧一下這 30 天的歷程。 第一件想說的事是——我在第九天不小心忘記發文,所以今年的鐵人賽沒能完美結束。不過,即使如此,我...

2025-10-14 ‧ 由 kenneth1003 分享