[Day 2] 平台架構全覽：從資料收集到模型部署的全流程

2025 iThome 鐵人賽

DAY 2

生成式 AI

打造 AI 微調平台：從系統設計到 AI 協作的 30 天實戰筆記系列第 2 篇

17th鐵人賽

Pei

團隊Cyber Edge Runners

2025-09-16 00:29:06

124 瀏覽

分享至

在 Day 1，我們談到微調平台的必要性與挑戰。
今天，我們退一步，從高層視角來看，一個「可用的微調平台」應該包含哪些模組，並用架構圖與總覽表快速帶過全流程。

一、全系統架構圖

以下是從 使用者提交訓練任務 → 模型訓練 → 模型上線 → 效能監控 的完整流程。

[ 使用者介面 (Frontend) ]
        │
        ▼
[ 後端 API Gateway ]
        │
        ▼
[ 資料驗證與轉換模組 ]
        │
        ▼
[ 任務排程 Queue (Celery / Redis) ]
        │
        ▼
[ 訓練 Worker 節點 ]
  │         │
  │         └──> [ 日誌與評估儲存 (DB / MLflow) ]
  │
  └──> [ 模型 Artifact 儲存 (S3 / MinIO / HF Hub) ]
                │
                ▼
          [ 部署服務 (vLLM / FastAPI) ]
                │
                ▼
          [ 線上應用 & 監控 ]

二、模組職責總覽表

模組	核心責任	技術選型	關鍵特性
前端	提供資料上傳、參數設定、顯示訓練進度與模型管理	Streamlit	易用性、即時互動
後端 API	驗證請求、建立任務、提供查詢與部署控制	FastAPI	穩定性、擴展性
資料處理	清理、標準化、Tokenization，輸出 Dataset	Pandas / HF Datasets	嚴謹驗證、多格式支援
任務排程	分配任務到 GPU Worker，支援重試與狀態回報	Celery / Redis	高併發、容錯
訓練服務	執行 LoRA/QLoRA，紀錄訓練指標與日誌	PyTorch / PEFT	可重現、低成本訓練
日誌與評估	保存 metrics 與評估結果，支援歷史追蹤	MLflow / DB	可追溯性
模型儲存	保存 checkpoint、config，支援回滾機制	MinIO / HF Hub	持久性、版本化
部署服務	提供推論 API，支援模型版本管理與切換	FastAPI / vLLM	高效能推論
監控	收集效能數據，整合資源監控與告警	Prometheus / Grafana	即時監測、告警