雖然身為一個新創公司的技術負責人,但我的背景其實更偏向前端、產品和生成式 AI,對於 DevOps 和後端工程 有些經驗,並不是專長。DevOps 對於公司產品是否能健康地持續發展,有很高的重要性:資源監控、穩定性、系統可維護性、成本控管,這些都直接影響產品著產品的迭代。另外,我也對於 AI 能在 DevOps 領域有哪些潛在的應用很感興趣。
因此,我決定透過 IT 鐵人賽來挑戰自己,用 30 天的時間,從 DevOps 基礎文化 → 常見工具與實戰 → AI 在 DevOps 的應用探索 → 未來趨勢展望,一步步學習並記錄下來,希望能激盪出更多想法!
前言 在前一篇文章 Day 20:StorageClass 與動態供應 中,我們探討了如何透過自動化的方式來管理 Kubernetes 儲存資源。當應用越來越多...
在 Kubernetes 的世界裡,Pod 是資源消耗的最小單位。當整個叢集同時運行多個應用時,如何確保每個服務都能穩定獲得所需的資源?這就是「資源限制與 Qo...
在上一篇中,我們談到了 資源限制與 QoS (Quality of Service),學會了如何透過 Requests 與 Limits 控制 Pod 的資源使...
一、前言:為什麼要自動伸縮? 在雲端環境中,彈性伸縮(Autoscaling) 是確保系統穩定與成本效率的重要機制。 想像一個電商平台在雙十一活動期間流量暴增,...
一、前言:為什麼 DevOps 離不開 Logging & Monitoring 服務在 Kubernetes 上運行時,若沒有完善的監控與日誌系統,一...
前言 在 AI 時代,GPU 就是新一代的生產力核心。 但在實際部署 LLM 或深度學習任務時,我們常遇到: GPU 成本高昂,卻因 Idle 導致浪費 GP...
前言 在進行 LLM 相關專案時,模型訓練只是第一步。真正的挑戰在於: 模型體積巨大(動輒數十 GB) 推理需要 GPU 資源,成本高、資源稀缺 模型更新與回...
一、前言:為什麼 LLM 推理需要自動伸縮? LLM 推理的挑戰: 每次推理需要大量 GPU 計算資源,尤其是多 Token 的生成。 流量波動明顯(例如白天...
一、前言:從推理自動伸縮到訓練水平擴展 在上一篇我們聊到 LLM 推理的自動伸縮策略,解決了「模型在服務階段的彈性伸縮」問題。然而,模型要能被穩定部署之前,還得...
今天是 IT 鐵人賽的最後一天,我想回顧一下這 30 天的歷程。 第一件想說的事是——我在第九天不小心忘記發文,所以今年的鐵人賽沒能完美結束。不過,即使如此,我...