[Day 29] Demo Day：從訓練到監控的完整演示 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 29

0

生成式 AI

打造 AI 微調平台：從系統設計到 AI 協作的 30 天實戰筆記系列第 29 篇

[Day 29] Demo Day：從訓練到監控的完整演示

17th鐵人賽

團隊Cyber Edge Runners

2025-10-13 00:37:46

122 瀏覽

分享至

在過去 28 天裡，我們完成了：

可運行的 LoRA 訓練系統（FastAPI + Celery + Redis）
標準化的實驗追蹤（MLflow）
模型共享與推薦（Model Registry）
自動化部署（Helm + CI/CD）
監控與可觀測性（Prometheus + Grafana）
多租戶治理雛形（Namespace + Quota）

這些模組雖然各自獨立，但真正的價值在於它們被串聯起來，
形成「資料 → 訓練 → 部署 → 觀測」的完整流程。
今天，我們要讓這一切一次跑起來——一鍵啟動、一鍵提交、一鍵觀測。

一、全流程示意與對應模組

步驟	功能說明	來源篇章
1️⃣	啟動整套服務（API / Worker / Redis / MLflow / Grafana）	Day 24 — Helm 部署
2️⃣	登入並取得 JWT Token	Day 16 — 認證與 RBAC
3️⃣	提交訓練任務	Day 12 — 任務佇列與 Celery
4️⃣	產生 MLflow 實驗記錄	Day 22 — 實驗追蹤
5️⃣	註冊與版本管理模型卡	Day 23 — Model Registry
6️⃣	進行推論與模型推薦	Day 21 — 模型共享與推薦
7️⃣	即時監控整體效能與資源	Day 26 — 可觀測性

整個流程會同時在終端、UI 與 Grafana 上發生。
系統不只是被動回應，而是「自己證明自己在運作」。

二、Demo 圖像記錄

以下圖片展示了從登入到監控的整體過程：

1️⃣ 叢集啟動狀態圖
先執行 make helm-deploy 後，再透過 make k8s-status 查看所有服務狀態。

2️⃣ 登入畫面
：進入 UI 介面後，會預設跳轉至登入畫面，也可以選擇訪客登入。

3️⃣ 訓練任務畫面
：可以建立訓練，管理頁面會自動帶入最新實驗 id，實時更新訓練進度。

4️⃣ MLflow 實驗記錄頁面
：展示自動記錄的超參數、指標曲線與模型檔案。

5️⃣ 模型卡與 Registry
：模型成功同步至 MLflow Model Registry，並生成對應的 JSON 卡片（這裡還沒整至 UI）。

6️⃣ 推論與推薦結果
：接著可透過 make serve exp=<exp_id> 建立推論服務，並透過 make preidict text text='文字內容' 與模型溝通，因為資源關係這裡以輕量的分類模型示範。

7️⃣ Grafana 監控儀表板
：另有 Grafana 頁面呈現任務成功/失敗計數、佇列長度、CPU/Mem 負載與任務耗時分佈。

當這七個步驟串聯起來時，整個系統就能「自己說明自己正在運作」。
從登入開始，任務經由 API 提交至 Worker，MLflow 即時生成實驗記錄，
Model Registry 管理版本與階段，最終由 Grafana 呈現出任務吞吐與資源變化。

每一層都有對應的觀測點：
Celery 管理佇列、MLflow 追蹤實驗、Registry 管理模型、
Prometheus 與 Grafana 監控負載。

這不只是「能跑通」的系統，而是一個能解釋自己的 AI 平台——
開發者、使用者與維運者都能從同一條鏈路上看到自己的責任點與狀態。
這一步，代表整個 Finetune 平台第一次完整呼吸。

[Day 28] 多租戶最小雛形：Control Plane × Worker Plane

[Day 30] 平台藍圖與 AI 協作回顧

系列文

打造 AI 微調平台：從系統設計到 AI 協作的 30 天實戰筆記共 30 篇

目錄

RSS系列文訂閱系列文

4 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙