新創視角下的 DevOps × AI 探索 :: 2025 iThome 鐵人賽

kenneth1003 (kenneth1003)

iT邦見習生 ‧ 點數 146

773

累計瀏覽數

站內簡訊追蹤

鐵人檔案

2025 iThome 鐵人賽

回列表

DevOps

新創視角下的 DevOps × AI 探索系列

雖然身為一個新創公司的技術負責人，但我的背景其實更偏向前端、產品和生成式 AI，對於 DevOps 和後端工程有些經驗，並不是專長。DevOps 對於公司產品是否能健康地持續發展，有很高的重要性：資源監控、穩定性、系統可維護性、成本控管，這些都直接影響產品著產品的迭代。另外，我也對於 AI 能在 DevOps 領域有哪些潛在的應用很感興趣。

因此，我決定透過 IT 鐵人賽來挑戰自己，用 30 天的時間，從 DevOps 基礎文化 → 常見工具與實戰 → AI 在 DevOps 的應用探索 → 未來趨勢展望，一步步學習並記錄下來，希望能激盪出更多想法！

參賽天數 9 天｜共 30 篇文章｜ 1 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 102 瀏覽

DAY 9

Day 21: Helm 基礎：使用 Chart 管理應用

前言在前一篇文章 Day 20：StorageClass 與動態供應中，我們探討了如何透過自動化的方式來管理 Kubernetes 儲存資源。當應用越來越多...

2025-10-04 ‧ 由 kenneth1003 分享

0 Like 0 留言 122 瀏覽

DAY 9

Day 22. 資源限制與 QoS：Requests、Limits、Pod Priority

在 Kubernetes 的世界裡，Pod 是資源消耗的最小單位。當整個叢集同時運行多個應用時，如何確保每個服務都能穩定獲得所需的資源？這就是「資源限制與 Qo...

2025-10-05 ‧ 由 kenneth1003 分享

0 Like 0 留言 102 瀏覽

DAY 9

Day 23: Health Check 與自動修復：LivenessProbe、ReadinessProbe、StartupProbe

在上一篇中，我們談到了資源限制與 QoS (Quality of Service)，學會了如何透過 Requests 與 Limits 控制 Pod 的資源使...

2025-10-06 ‧ 由 kenneth1003 分享

0 Like 0 留言 111 瀏覽

DAY 9

Day 24: 水平自動伸縮 (HPA) 與垂直伸縮 (VPA)

一、前言：為什麼要自動伸縮？在雲端環境中，彈性伸縮（Autoscaling）是確保系統穩定與成本效率的重要機制。想像一個電商平台在雙十一活動期間流量暴增，...

2025-10-07 ‧ 由 kenneth1003 分享

0 Like 0 留言 72 瀏覽

DAY 9

Day 25. Logging & Monitoring：結合 Prometheus、Grafana、ELK/Loki

一、前言：為什麼 DevOps 離不開 Logging & Monitoring 服務在 Kubernetes 上運行時，若沒有完善的監控與日誌系統，一...

2025-10-08 ‧ 由 kenneth1003 分享

0 Like 0 留言 140 瀏覽

DAY 9

Day 26：GPU 資源管理與調度

前言在 AI 時代，GPU 就是新一代的生產力核心。但在實際部署 LLM 或深度學習任務時，我們常遇到： GPU 成本高昂，卻因 Idle 導致浪費 GP...

2025-10-09 ‧ 由 kenneth1003 分享

0 Like 0 留言 117 瀏覽

DAY 9

Day 27：LLM 模型服務部署與版本管理

前言在進行 LLM 相關專案時，模型訓練只是第一步。真正的挑戰在於：模型體積巨大（動輒數十 GB）推理需要 GPU 資源，成本高、資源稀缺模型更新與回...

2025-10-10 ‧ 由 kenneth1003 分享

0 Like 0 留言 55 瀏覽

DAY 9

Day 28: LLM 推理的自動伸縮策略：讓模型服務在高流量下保持高效穩定

一、前言：為什麼 LLM 推理需要自動伸縮？ LLM 推理的挑戰：每次推理需要大量 GPU 計算資源，尤其是多 Token 的生成。流量波動明顯（例如白天...

2025-10-12 ‧ 由 kenneth1003 分享

0 Like 0 留言 64 瀏覽

DAY 9

Day 29: 分散式訓練與模型微調

一、前言：從推理自動伸縮到訓練水平擴展在上一篇我們聊到 LLM 推理的自動伸縮策略，解決了「模型在服務階段的彈性伸縮」問題。然而，模型要能被穩定部署之前，還得...

2025-10-13 ‧ 由 kenneth1003 分享

0 Like 1 留言 73 瀏覽

Day 30: IT 鐵人賽心得 - DevOps 與 AI 的 30 天挑戰

今天是 IT 鐵人賽的最後一天，我想回顧一下這 30 天的歷程。第一件想說的事是——我在第九天不小心忘記發文，所以今年的鐵人賽沒能完美結束。不過，即使如此，我...

2025-10-14 ‧ 由 kenneth1003 分享

kenneth1003的鐵人檔案

kenneth1003的收藏

kenneth1003的追蹤

kenneth1003的Like

kenneth1003的紀錄

kenneth1003的訂閱列表