iT邦幫忙

2025 iThome 鐵人賽

DAY 29
0

在過去 28 天裡,我們完成了:

  • 可運行的 LoRA 訓練系統(FastAPI + Celery + Redis)
  • 標準化的實驗追蹤(MLflow)
  • 模型共享與推薦(Model Registry)
  • 自動化部署(Helm + CI/CD)
  • 監控與可觀測性(Prometheus + Grafana)
  • 多租戶治理雛形(Namespace + Quota)

這些模組雖然各自獨立,但真正的價值在於它們被串聯起來,
形成「資料 → 訓練 → 部署 → 觀測」的完整流程。
今天,我們要讓這一切一次跑起來——一鍵啟動、一鍵提交、一鍵觀測。


一、全流程示意與對應模組

步驟 功能說明 來源篇章
1️⃣ 啟動整套服務(API / Worker / Redis / MLflow / Grafana) Day 24 — Helm 部署
2️⃣ 登入並取得 JWT Token Day 16 — 認證與 RBAC
3️⃣ 提交訓練任務 Day 12 — 任務佇列與 Celery
4️⃣ 產生 MLflow 實驗記錄 Day 22 — 實驗追蹤
5️⃣ 註冊與版本管理模型卡 Day 23 — Model Registry
6️⃣ 進行推論與模型推薦 Day 21 — 模型共享與推薦
7️⃣ 即時監控整體效能與資源 Day 26 — 可觀測性

整個流程會同時在終端、UI 與 Grafana 上發生。
系統不只是被動回應,而是「自己證明自己在運作」。


二、Demo 圖像記錄

以下圖片展示了從登入到監控的整體過程:

1️⃣ 叢集啟動狀態圖
先執行 make helm-deploy 後,再透過 make k8s-status 查看所有服務狀態。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660sbhTwmsC5c.png

2️⃣ 登入畫面
:進入 UI 介面後,會預設跳轉至登入畫面,也可以選擇訪客登入。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660jc2SSoVuA4.png

3️⃣ 訓練任務畫面
:可以建立訓練,管理頁面會自動帶入最新實驗 id,實時更新訓練進度。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660E0ENH2SQoS.png
https://ithelp.ithome.com.tw/upload/images/20251010/20151660CztNPvvlRS.png

4️⃣ MLflow 實驗記錄頁面
:展示自動記錄的超參數、指標曲線與模型檔案。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660iOosaAS0ot.png

5️⃣ 模型卡與 Registry
:模型成功同步至 MLflow Model Registry,並生成對應的 JSON 卡片(這裡還沒整至 UI)。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660TCwqvExfcE.png
https://ithelp.ithome.com.tw/upload/images/20251010/201516606XEPYxNhhb.png

6️⃣ 推論與推薦結果
:接著可透過 make serve exp=<exp_id> 建立推論服務,並透過 make preidict text text='文字內容' 與模型溝通,因為資源關係這裡以輕量的分類模型示範。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660EAUuIQbU7Q.png
https://ithelp.ithome.com.tw/upload/images/20251010/20151660GGFl1iIsvc.png

7️⃣ Grafana 監控儀表板
:另有 Grafana 頁面呈現任務成功/失敗計數、佇列長度、CPU/Mem 負載與任務耗時分佈。
https://ithelp.ithome.com.tw/upload/images/20251010/20151660CSkVXenRlt.png


當這七個步驟串聯起來時,整個系統就能「自己說明自己正在運作」。
從登入開始,任務經由 API 提交至 Worker,MLflow 即時生成實驗記錄,
Model Registry 管理版本與階段,最終由 Grafana 呈現出任務吞吐與資源變化。

每一層都有對應的觀測點:
Celery 管理佇列、MLflow 追蹤實驗、Registry 管理模型、
Prometheus 與 Grafana 監控負載。

這不只是「能跑通」的系統,而是一個能解釋自己的 AI 平台——
開發者、使用者與維運者都能從同一條鏈路上看到自己的責任點與狀態。
這一步,代表整個 Finetune 平台第一次完整呼吸


上一篇
[Day 28] 多租戶最小雛形:Control Plane × Worker Plane
系列文
打造 AI 微調平台:從系統設計到 AI 協作的 30 天實戰筆記29
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言