[Day11] 系統設計課程開始！ML pipeline 介紹 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 11

0

生成式 AI

從系統設計切入，探索 GenAI 在企業中的實踐系列第 11 篇

[Day11] 系統設計課程開始！ML pipeline 介紹

16th鐵人賽

團隊SI夢想工程隊

2024-09-12 07:04:14

170 瀏覽

分享至

以下主要來自 LLM Twin: Building Your Production-Ready AI Replica 課程內容

經過了前 10 天奠定了開發 GenAI 的基礎概念，下一步就正式進入系統設計的部份。
先整理了這次挑選的課程架構，我很喜歡這套課程是因為它完整的擴展了我過去的開發作品，不論是從設計面、或者是從功能面，所以只是看完第一堂課就決定要認真研讀了，只是遲遲沒有開始，剛好趁這次機會也好好整理過這門課程的內容。

課程目標

先簡述這門課的目標，是開發 自己專屬的 LLM 分身。具體來說，就是將我們在 LinkedIn、Medium、GitHub 等社群平台上的貼文內容餵給 LLM，讓 LLM 了解並模仿我們的寫作風格，從而生成更符合個人風格的貼文。

3-pipeline 架構

課程使用了 3-pipeline architecture 拆解架構，將機器學習組件分成特徵 (Features)、訓練 (Training) 和推理 (Inference) 三條 Pipeline，除了有明確的開發流程易於分工，清楚的架構和統一的儲存中心也有助於程式的建構和資源的控管。

具體來說，每條管道負責以下任務：

特徵管道－將資料轉換成特徵和標籤。
訓練管道－透過指定的特徵和權重訓練模型。
推論管道－選用特徵、模型來預測結果。

本課程的 pipeline 拆解

在第一堂課中，作者很仔細地說明了每一條 pipeline 的設計以及各個組件的選擇，增加了 data collection pipeline，完善了整個 MLOps 流程，接下來的寫作會依循官方提供的課程進度依序閱讀和梳理（以下是看圖猜出來的架構，會在閱讀中慢慢修正）：

ETL pipeline：資料經爬取與轉換後，存入 MongoDB 管理 L2
CDC pipeline：監控 MongoDB 的數據變更，並推送至 RabbitMQ Queue 支援後續處理 L3
Feature pipeline：對數據進行清洗與分割，並轉換成向量 L4
VectorDB：將原始數據、meta data 和向量存入 Qdrant，供檢索與查詢 L5
Training pipeline：從 DB 提取資料，並整理成可用於模型 fine-tune 的資料集 L6 L7
Version control：使用 Comet ML 進行數據集的版本追蹤和管理
Model register：將訓練好的模型存入 Comet ML 並進行效能評估與監控 L8
Model quantisize：優化模型的執行速度與資源使用效率 L9 L10
Query & answer：透過 REST API 與使用者進行互動問答
Twin LLM：作為服務核心，生成回應

ref.

[Day10] Langchain 的 GenAI 開發生態系－LCEL 設計架構

[Day12] 微服務與容器化：易於擴展的 RAG 架構

系列文

從系統設計切入，探索 GenAI 在企業中的實踐共 30 篇

目錄

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙