iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
生成式 AI

打造 AI 微調平台:從系統設計到 AI 協作的 30 天實戰筆記系列 第 2

[Day 2] 平台架構全覽:從資料收集到模型部署的全流程

  • 分享至 

  • xImage
  •  

在 Day 1,我們談到微調平台的必要性與挑戰。
今天,我們退一步,從高層視角來看,一個「可用的微調平台」應該包含哪些模組,並用架構圖與總覽表快速帶過全流程。


一、全系統架構圖

以下是從 使用者提交訓練任務 → 模型訓練 → 模型上線 → 效能監控 的完整流程。

[ 使用者介面 (Frontend) ]
        │
        ▼
[ 後端 API Gateway ]
        │
        ▼
[ 資料驗證與轉換模組 ]
        │
        ▼
[ 任務排程 Queue (Celery / Redis) ]
        │
        ▼
[ 訓練 Worker 節點 ]
  │         │
  │         └──> [ 日誌與評估儲存 (DB / MLflow) ]
  │
  └──> [ 模型 Artifact 儲存 (S3 / MinIO / HF Hub) ]
                │
                ▼
          [ 部署服務 (vLLM / FastAPI) ]
                │
                ▼
          [ 線上應用 & 監控 ]

二、模組職責總覽表

模組 核心責任 技術選型 關鍵特性
前端 提供資料上傳、參數設定、顯示訓練進度與模型管理 Streamlit 易用性、即時互動
後端 API 驗證請求、建立任務、提供查詢與部署控制 FastAPI 穩定性、擴展性
資料處理 清理、標準化、Tokenization,輸出 Dataset Pandas / HF Datasets 嚴謹驗證、多格式支援
任務排程 分配任務到 GPU Worker,支援重試與狀態回報 Celery / Redis 高併發、容錯
訓練服務 執行 LoRA/QLoRA,紀錄訓練指標與日誌 PyTorch / PEFT 可重現、低成本訓練
日誌與評估 保存 metrics 與評估結果,支援歷史追蹤 MLflow / DB 可追溯性
模型儲存 保存 checkpoint、config,支援回滾機制 MinIO / HF Hub 持久性、版本化
部署服務 提供推論 API,支援模型版本管理與切換 FastAPI / vLLM 高效能推論
監控 收集效能數據,整合資源監控與告警 Prometheus / Grafana 即時監測、告警

從系統設計到 AI 協作的 30 天實戰筆記

在這個系列中,我並不是單純寫一份技術筆記,而是透過 GPT 與 Cursor 的協作來推進平台開發。GPT 協助我釐清系統設計方向,建立更清晰的架構與文章脈絡;而 Cursor 則專注於程式碼的修改與實作,讓我能快速驗證想法並迭代。

這樣的分工,使我能在短時間內完成從設計到實作的循環。每一篇文章除了分享設計思路,也會附上對應的程式碼與功能成果,讓讀者同時看到「怎麼想」與「怎麼做」。換句話說,這是一份結合 AI 協作與工程實踐的開發日記,希望能帶來更貼近真實專案的學習價值。


上一篇
[Day 1] 為什麼我們需要一個 fine-tune 平台?
下一篇
[Day 3] 探索 LoRA 和 PEFT 的高效微調
系列文
打造 AI 微調平台:從系統設計到 AI 協作的 30 天實戰筆記7
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言