在 Day 1,我們談到微調平台的必要性與挑戰。
今天,我們退一步,從高層視角來看,一個「可用的微調平台」應該包含哪些模組,並用架構圖與總覽表快速帶過全流程。
以下是從 使用者提交訓練任務 → 模型訓練 → 模型上線 → 效能監控 的完整流程。
[ 使用者介面 (Frontend) ]
│
▼
[ 後端 API Gateway ]
│
▼
[ 資料驗證與轉換模組 ]
│
▼
[ 任務排程 Queue (Celery / Redis) ]
│
▼
[ 訓練 Worker 節點 ]
│ │
│ └──> [ 日誌與評估儲存 (DB / MLflow) ]
│
└──> [ 模型 Artifact 儲存 (S3 / MinIO / HF Hub) ]
│
▼
[ 部署服務 (vLLM / FastAPI) ]
│
▼
[ 線上應用 & 監控 ]
模組 | 核心責任 | 技術選型 | 關鍵特性 |
---|---|---|---|
前端 | 提供資料上傳、參數設定、顯示訓練進度與模型管理 | Streamlit | 易用性、即時互動 |
後端 API | 驗證請求、建立任務、提供查詢與部署控制 | FastAPI | 穩定性、擴展性 |
資料處理 | 清理、標準化、Tokenization,輸出 Dataset | Pandas / HF Datasets | 嚴謹驗證、多格式支援 |
任務排程 | 分配任務到 GPU Worker,支援重試與狀態回報 | Celery / Redis | 高併發、容錯 |
訓練服務 | 執行 LoRA/QLoRA,紀錄訓練指標與日誌 | PyTorch / PEFT | 可重現、低成本訓練 |
日誌與評估 | 保存 metrics 與評估結果,支援歷史追蹤 | MLflow / DB | 可追溯性 |
模型儲存 | 保存 checkpoint、config,支援回滾機制 | MinIO / HF Hub | 持久性、版本化 |
部署服務 | 提供推論 API,支援模型版本管理與切換 | FastAPI / vLLM | 高效能推論 |
監控 | 收集效能數據,整合資源監控與告警 | Prometheus / Grafana | 即時監測、告警 |
在這個系列中,我並不是單純寫一份技術筆記,而是透過 GPT 與 Cursor 的協作來推進平台開發。GPT 協助我釐清系統設計方向,建立更清晰的架構與文章脈絡;而 Cursor 則專注於程式碼的修改與實作,讓我能快速驗證想法並迭代。
這樣的分工,使我能在短時間內完成從設計到實作的循環。每一篇文章除了分享設計思路,也會附上對應的程式碼與功能成果,讓讀者同時看到「怎麼想」與「怎麼做」。換句話說,這是一份結合 AI 協作與工程實踐的開發日記,希望能帶來更貼近真實專案的學習價值。